CN116386145A - 一种基于双摄像头的银行内人员异常行为识别方法 - Google Patents

一种基于双摄像头的银行内人员异常行为识别方法 Download PDF

Info

Publication number
CN116386145A
CN116386145A CN202310407090.5A CN202310407090A CN116386145A CN 116386145 A CN116386145 A CN 116386145A CN 202310407090 A CN202310407090 A CN 202310407090A CN 116386145 A CN116386145 A CN 116386145A
Authority
CN
China
Prior art keywords
pose
interaction
human body
features
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310407090.5A
Other languages
English (en)
Other versions
CN116386145B (zh
Inventor
缪仁亮
王冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG FINANCIAL COLLEGE
Original Assignee
ZHEJIANG FINANCIAL COLLEGE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG FINANCIAL COLLEGE filed Critical ZHEJIANG FINANCIAL COLLEGE
Priority to CN202310407090.5A priority Critical patent/CN116386145B/zh
Publication of CN116386145A publication Critical patent/CN116386145A/zh
Application granted granted Critical
Publication of CN116386145B publication Critical patent/CN116386145B/zh
Priority to LU506204A priority patent/LU506204B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于双摄像头的银行内人员异常行为识别方法,包括设置在银行室内不同角度的两个摄像头,利用两个摄像头对处于银行内的人员进行双摄像头拍摄;利用第一摄像头获取图像第一视角;利用第二摄像头获取图像第二视角,对图像第二视角进行处理后得到第二视角图片,将第二视角图片送入到位姿编码模块,得到的位姿编码特征;将得到的位姿掩码特征和位姿编码特征输入到位姿交互模块进行交互,得到位姿交互特征;将得到的位姿交互特征输入到人体动作预测模块中,对人体动作进行检测。整个方案能识别出银行内人员的异常行为,能以较高准确率完成银行内的异常行为检测,有利于保障银行内人员安全。

Description

一种基于双摄像头的银行内人员异常行为识别方法
技术领域
本发明涉及姿态识别技术领域,具体为一种基于双摄像头的银行内人员异常行为识别方法。
背景技术
动作识别是图像分类领域向视频领域的一个自然延伸,目前深度学***,但是,深度学习在动作识别领域的进展并不像在图像分类领域那么显著。
目前,动作识别的应用很是广泛,如银行监控区域内加装行为识别报警,可以实时监控。通过摄像头获取的图像数据进行及时自动的分析,一旦发现异常情况可以及时快速的通知相关人员,避免一些极端情况的发生。
银行内的异常行为检测,目前涉及到的算法在检测方面存在实时性和准确率难以调和的情况,另外大部分银行异常检测都是通过单摄像头完成,这样的检测效果还待提高。
发明内容
针对以上问题,本发明提供了一种基于双摄像头的银行内人员异常行为识别方法,能以较高准确率完成银行内的异常行为检测,并且运行速度较快,可以有效解决背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
包括
设置在银行室内不同角度的两个摄像头,第一摄像头和第二摄像头;
利用两个摄像头对处于银行内的人员进行双摄像头拍摄;
利用第一摄像头获取图像第一视角,对图像第一视角进行处理后得到第一视角图片,将第一视角图片送入到位姿掩码模块,得到的位姿掩码特征;
利用第二摄像头获取图像第二视角,对图像第二视角进行处理后得到第二视角图片,将第二视角图片送入到位姿编码模块,得到的位姿编码特征;
将得到的位姿掩码特征和位姿编码特征输入到位姿交互模块进行交互,得到位姿交互特征;
将得到的位姿交互特征输入到人体动作预测模块中,对人体动作进行检测,识别出银行内人员的异常行为。
作为本发明一种优选的技术方案,还包括人体姿态预测模块;
所述人体姿态预测模块采用反卷积组成,获取所述位姿交互特征,利用反卷积对位姿交互特征进行恢复,并将其与人体姿态的关节特征对齐,得到人体姿态骨架特征,从而对人体姿态进行检测;
所述人体动作预测模块获取所述人体姿态骨架特征,对人体姿态骨架特征与位姿交互特征进行融合;
在人体姿态骨架特征与位姿交互特征进行融合过程中,利用卷积对人体姿态骨架特征进行卷积下采样,将人体姿态骨架特征与位姿交互特征的维度对齐,利用矩阵加法操作,对两者进行相加融合。
作为本发明一种优选的技术方案,所述位姿掩码模块获取第一视角图片,对第一视角图像进行掩码操作,其中,掩码操作过程至少包括卷积核为3×3的卷积;
所述位姿编码模块获取第二视角图片,对第二视角图片进行编码操作,其中,编码操作过程由ResNet网络构成,对图像进行编码后,利用维度展平单元Flatten进行展平,得到位姿编码特征;
将所述位姿掩码特征作为交互注意力矩阵中的查询序列Q;
将所述位姿编码特征作为交互注意力矩阵中的关键字序列K和值序列V;
对查询序列和关键字序列分别进行位置编码;
将值序列和位置编码后的查询序列和关键字序列输入到位姿交互模块中,实现交互注意力操作,得到位姿交互特征。
作为本发明一种优选的技术方案,所述位姿编码模块采用ResNet18组成的残差模块,获取第二视角图片后,第二视角图片的分辨率为图像第二视角分辨率的1/256,得到的第二视角图片为低分辨率图片,对所述低分辨率图片进行卷积编码,得到第二视角图片的整体图像低分辨率特征,利用维度展平单元Flatten进行展平,得到位姿编码特征。
作为本发明一种优选的技术方案,所述位姿掩码模块包括两个卷积核为3×3的卷积、一个切片单元组成;
所述位姿掩码模块的掩码操作包括:
所述位姿掩码模块获取第一视角图片后,第一视角图片的分辨率为图像第一视角分辨率的1/64,得到的第一视角图片为高分辨率图片;
利用一个卷积核为3×3的卷积和一个切片单元分别对所述高分辨率图片进行卷积和切片,分别得到粗掩码信息和切片特征;
将粗掩码信息经过Flatten展平与切片特征维度一致,对切片特征进行粗掩码信息匹配,实现切片特征掩码操作并得到中间掩码特征;
利用另一个卷积核为3×3的卷积对粗掩码信息进行卷积操作,得到精掩码信息,将精掩码信息经过Flatten展平与中间掩码特征大小一致,对中间掩码特征进行精掩码信息匹配,实现中间掩码特征掩码操作并得到位姿编码特征;
所述位姿编码特征为整体图像掩码后的高分辨率特征。
作为本发明一种优选的技术方案,所述位姿交互模块包括一个空间感知交互注意力Spatial perception Multi-Head Cross-Attention(S-MHCA)和一个多层感知机Multilayer Perceptron(MLP);
所述空间感知交互注意力包括空间感知单元F;
在获取值序列和位置编码后的查询序列和关键字序列后,在查询序列Q和关键字序列K进行矩阵计算后,利用空间感知单元F对其进行空间感知,得到空间感知特征N:
N=F(QKT)
所述空间感知交互注意力对值序列V和空间感知特征N进行计算,得到空间感知交互特征M;
Figure BDA0004181816450000041
将空间交互感知特征M输入到所述多层感知机内,对空间交互感知特征的不同通道和空间的特征进行处理,得到位姿交互特征;Dh是一个常量,本申请中取256。
所述空间感知交互注意力和多层感知机均采用残差连接。
作为本发明一种优选的技术方案,所述空间感知单元包括卷积核为1×1的卷积;
在查询序列Q和关键字序列K进行矩阵计算后,得到矩阵计算特征,所述空间感知单元对其进行以下处理:
利用层标准化Layer Norm对矩阵计算特征进行层标准化处理,得到标准化信息特征;
利用维度转换对标准化信息特征进行维度转换,通过卷积核为1×1的卷积进行卷积处理,再利用Gelu进行特征激活以及维度转换,得到与矩阵计算特征相同大小的空间感知特征;
其中,通过卷积核为1×1的卷积进行卷积处理,得到与第二视角图片相同大小的特征,此时的关键字序列K和值序列V都是来自第二视角图片,图像分辨率低,利用维度转换将空间由一维展开为二维,提高图像的空间感知能力。
作为本发明一种优选的技术方案,在网络训练过程中,所述人体姿态预测模块采用均方差损失Mean Squared Error Loss对得到的人体姿态骨架特征与人体姿态骨架真实值进行计算,得到Loss2;
所述人体动作预测模块采用交叉熵损失Cross Entropy Loss对检测到的人体动作与人体动作真实值进行计算,得到Loss1;
利用如下公式进行反向梯度回传,完成训练过程
Loss=αLoss1+βLoss2
其中,α和β为0到1之间的数值。
与现有技术相比,本发明的有益效果是:
1、利用两个不同角度的摄像头检测同一用户,其中一个摄像头处理成高分辨率图片,利用位姿掩码模块进行位姿掩码,提取查询序列Q,在掩码过程中去除背景干扰,提高图像处理速度,另外一个摄像头处理成低分辨率图片,利用位姿编码模块得到位姿编码特征,提高运行速度,再将两者共同提供给我们设计的空间感知交互注意力,提高模型运行速度的同时保证准确率。
2、目前的Transformer模型在人体行为预测上均有运用,但摄入两个不同角度的图像无法共同处理,难以达到实时效果,我们的方法利用交互注意力Cross-Attention机制,在位姿交互模块的输入端,将不同角度的相同位姿(第一视角图片和第二视角图片)信息进行分别编码和掩码,位姿编码特征能有效保证整体信息,位姿掩码模块能有效关注银行内人员位姿,两者结合共同输入给Cross-attention,在提高动作识别准确率的同时保证了运行速度。
3、采用双Loss监督,对人体姿态进行预测,并对行为进行预测,使银行异常行为预测更准确,人体姿态预测模块作为中间监督过程,有效提高了动作预测的准确率,并使得训练过程有更强的鲁棒性。
附图说明
图1为本发明方法流程示意图;
图2为本发明方法各处理模块流程示意图;
图3为本发明方法位姿掩码模块示意图一;
图4为本发明方法位姿掩码模块示意图二;
图5为本发明方法空间感知交互注意力示意图;
图6为本发明方法动作识别结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1至图6,本发明提供一种技术方案:一种基于双摄像头的银行内人员异常行为识别方法,包括设置在银行室内不同角度的两个摄像头,第一摄像头和第二摄像头;
利用两个摄像头对处于银行内的人员进行双摄像头拍摄;
利用第一摄像头获取图像第一视角,对图像第一视角进行处理后得到第一视角图片,将第一视角图片送入到位姿掩码模块,得到的位姿掩码特征;
利用第二摄像头获取图像第二视角,对图像第二视角进行处理后得到第二视角图片,将第二视角图片送入到位姿编码模块,得到的位姿编码特征;
将得到的位姿掩码特征和位姿编码特征输入到位姿交互模块进行交互,得到位姿交互特征;
将得到的位姿交互特征输入到人体动作预测模块中,对人体动作进行检测,识别出银行内人员的异常行为。
在我们的方法中,图像第二视角的图像第一视角都是利用卷积核为5×5的大卷积进行处理,大卷积在对图像进行处理时,能尽可能多的获取图像的关联信息,因为卷积核的大小与感受野有关,采用不同的步长以及padding操作,得到不同大小的第二视角图片和第一视角图片。
在本发明中,第一视角图片的图像大小是[C,H/8,W/8],第二视角图片的图像大小是[C,H/16,W/16],这里C指的是图像通道,W和H指的是图像的宽和高,因此,经过处理后的第一视角图片和第二视角图片大小不同,能为后续的编码和掩码提供不同大小的图片,提高网络的运行速度,并保证识别的准确率。
在本发明的一个实施例中,还包括人体姿态预测模块;
所述人体姿态预测模块采用反卷积组成,获取所述位姿交互特征,利用反卷积对位姿交互特征进行恢复,并将其与人体姿态的关节特征对齐,得到人体姿态骨架特征,从而对人体姿态进行检测;
所述人体动作预测模块获取所述人体姿态骨架特征,对人体姿态骨架特征与位姿交互特征进行融合;
在人体姿态骨架特征与位姿交互特征进行融合过程中,利用卷积对人体姿态骨架特征进行卷积下采样,将人体姿态骨架特征与位姿交互特征的维度对齐,利用矩阵加法操作,对两者进行相加融合。
反卷积是采用《Simple Baselines for Human Pose Estimation and Tracking》一文中的Deconv模块实现,利用反卷积对位姿交互特征进行恢复,将图像大小恢复到与原图像高宽一致,从而能与数据集中的真实值进行计算,监督后实现梯度反向回传。
在本发明中,人体姿态骨架特征的输出能进一步保证动作预测的准确率,实现了双层监督,相比之前的监督方式,本发明的模型能在训练过程中保证对银行内人员的动作识别更加有效,加入人体姿态骨架特征的监督就是为了保证对银行内异常行为的检测准确性。
另外,在网络运行过程中,将人体姿态骨架特征与位姿交互特征的维度对齐,是利用卷积核大小为3×3的卷积完成,保证了人体姿态骨架特征与位姿交互特征的维度一致性,网络能够正常训练,并将人体姿态骨架特征作为中间监督特征加入到位姿交互特征中,进一步提高位姿交互特征训练的有效性。
在本发明的一个实施例中,所述位姿掩码模块获取第一视角图片,对第一视角图像进行掩码操作,其中,掩码操作过程至少包括卷积核为3×3的卷积;
所述位姿编码模块获取第二视角图片,对第二视角图片进行编码操作,其中,编码操作过程由ResNet网络构成,对图像进行编码后,利用维度展平单元Flatten进行展平,得到位姿编码特征;
将所述位姿掩码特征作为交互注意力矩阵中的查询序列Q;
将所述位姿编码特征作为交互注意力矩阵中的关键字序列K和值序列V;
对查询序列和关键字序列分别进行位置编码;
将值序列和位置编码后的查询序列和关键字序列输入到位姿交互模块中,实现交互注意力操作,得到位姿交互特征。
目前,大部分的Transformer方法都是采用查询序列Q、关键字序列K和值序列V进行自注意力操作,例如涉及Vit的论文《attention is all you need》和最新动作预测论文《AIM:ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION》,基本上这样的方式都没有考虑到不同图片之间的关联性,而双摄像头获取不同角度的图像,这样的方案利用自注意力很难保证两个角度之间产品关联,因此,本发明采用的是交互注意力Cross-Attention操作,将所述位姿掩码特征作为交互注意力矩阵中的查询序列Q,将所述位姿编码特征作为交互注意力矩阵中的关键字序列K和值序列V,进行交互注意操作,提高对不同图像的关注力度。
在本发明的一个实施例中,所述位姿编码模块采用ResNet18组成的残差模块,获取第二视角图片后,第二视角图片的分辨率为图像第二视角分辨率的1/256,得到的第二视角图片为低分辨率图片,对所述低分辨率图片进行卷积编码,得到第二视角图片的整体图像低分辨率特征,即位姿编码特征。
在本发明的一个实施例中,所述位姿掩码模块包括两个卷积核为3×3的卷积、一个切片单元组成,实现切片特征掩码操作和中间掩码特征掩码操作;
所述位姿掩码模块获取第一视角图片后,第一视角图片的分辨率为图像第一视角分辨率的1/64,得到的第一视角图片为高分辨率图片;
利用一个卷积核为3×3的卷积和一个切片单元分别对所述高分辨率图片进行卷积和切片,分别得到粗掩码信息和切片特征;所述切片单元采用维度转换Reshape实现。对高分辨率图片进行维度转换,得到大小相同的多个小矩阵,从物理意义上看,这些小矩阵为大小相同的图像块,可等同目前在图像领域的Transformer模块中进行的patch切片操作一致,能对这些图像块进行位置编码,防止训练过程中出现位置混乱,其中位置编码属于现有技术,本申请不再赘述。
将粗掩码信息经过Flatten展平与切片特征维度一致,对切片特征进行粗掩码信息匹配,实现切片特征掩码操作并得到中间掩码特征;
图3和图4中,人员是行走动作和姿态,在位姿掩码过程中逐渐的掩盖背景信息,留下人员行走的姿态,便于处理。我们在进行粗掩码信息匹配的过程中,将粗掩码信息与切片特征相加,实现对切片特征的掩码,从而确定需要关注的图像位置,将图像中的人物关节部分凸显,而掩盖非人物部分,因为银行机器较多,获取的图像如果包含了背景信息,一方面处理起来影响人物动作的准确率判断,另外一方面运行过程会更加麻烦,本发明中将背景信息掩盖能提高运行的准确率。
中间掩码特征掩码操作包括:
利用另一个卷积核为3×3的卷积对粗掩码信息进行卷积操作,得到精掩码信息,将精掩码信息经过Flatten展平与中间掩码特征大小一致,对中间掩码特征进行精掩码信息匹配,得到位姿编码特征;
所述位姿编码特征为整体图像掩码后的高分辨率特征。
如图3和图4所示,在本申请的方法中,位姿编码特征为整体图像掩码后的高分辨率特征,在整体图像掩码后,得到的是人物部分图像,而并非是整体图像,一方面由于位姿掩码模块处理的本身就是高分辨率图像,如果未掩码,则一直处理是整幅图像,内存消耗过大,计算复杂,影响速度,而本申请采用的是掩码操作,能在位姿掩码模块计算期间逐步消除背景信息的干扰,提高了运行速度。
另外,我们方法中,位姿编码模块处理的是低分辨率的整幅图片,能保证对背景信息的提取,作为我们后续位姿交互模型中的关键字序列K和值序列V,都能有效的感知到全局信息分布,提高银行内人员检测的整体性,而采用分辨率较低第二视角图片,可以有效的提高对整幅图像的处理速度。
在本发明的一个实施例中,所述位姿交互模块包括一个空间感知交互注意力Spatial perception Multi-Head Cross-Attention(S-MHCA)和一个多层感知机Multilayer Perceptron(MLP);
所述空间感知交互注意力包括空间感知单元F;
在获取值序列和位置编码后的查询序列和关键字序列后,在查询序列Q和关键字序列K进行矩阵计算后,利用空间感知单元F对其进行空间感知,得到空间感知特征N:
N=F(QKT)
所述空间感知交互注意力对值序列V和空间感知特征N进行计算,得到空间感知交互特征M;
Figure BDA0004181816450000121
Softmax为激活函数,
Figure BDA0004181816450000122
中Dh为多头操作,在本发明中Dh取值为256。将空间交互感知特征M输入到所述多层感知机内,对空间交互感知特征的不同通道和空间的特征进行处理,得到位姿交互特征;
所述空间感知交互注意力和多层感知机均采用残差连接。
在本申请方法中,利用到了第一视角图片的高分辨率,采用掩码去除背景干扰,提高对人物的关注力,并且获取第二视角图像的整幅场景,防止掩码过重造成识别错误,采用交互注意力机制完成训练过程,这一点目前在该领域很少见。在空间感知交互注意力的操作下,实现了第二视角图像和第一视角图片的交互,并且在空间感知单元下,提高对第二视角图像的空间感知能力。
进一步的,所述空间感知单元包括卷积核为1×1的卷积;
在查询序列Q和关键字序列K进行矩阵计算后,得到矩阵计算特征,所述空间感知单元对其进行以下处理:
利用层标准化Layer Norm对矩阵计算特征进行层标准化处理,得到标准化信息特征;
利用维度转换对标准化信息特征进行维度转换,通过卷积核为1×1的卷积进行卷积处理,再利用Gelu进行特征激活以及维度转换,得到与矩阵计算特征相同大小的空间感知特征;
其中,通过卷积核为1×1的卷积进行卷积处理,得到与第二视角图片相同大小的特征,此时的关键字序列K和值序列V都是来自第二视角图片,图像分辨率低,利用维度转换将空间由一维展开为二维,提高图像的空间感知能力。
如图5所示,在本申请方法中,第二视角图像的分辨率较低,因此构成的关键字序列K和值序列V在空间感知交互注意力的操作下,能展开为二维形式,即出现了空间化特征H和W的展开,卷积核为1×1的卷积进行空间特征卷积处理,步长为1,再利用激活函数Gelu对其激活,提高对第二视角图像的空间感知能力。
进一步的,在网络训练过程中,所述人体姿态预测模块采用均方差损失MeanSquared Error Loss对得到的人体姿态骨架特征与人体姿态骨架真实值进行计算,得到Loss2;
所述人体动作预测模块采用交叉熵损失Cross Entropy Loss对检测到的人体动作与人体动作真实值进行计算,得到Loss1;
利用如下公式进行反向梯度回传,完成训练过程
Loss=αLoss1+βLcoss2
其中,α和β为0到1之间的数值,不包括0和1,一般来说两者相加为1,也可以取其他值,我们在训练和测试过程中,β和β取值均为0.5。
在实验室环境下,采用GeForce RTX 2080Ti显卡,在β和β取值均为0.5时,我们在自建数据集和官方动作测试数据集上进行了测试,摄像头获取的图像大小是256×192,采用本发明的方案,模型整体运行速度是132fps(测试稳定后,一分钟内平均值),准确率达到91%。另外,为了更加体现出我们方法在官方数据集下的有效性,我们的人体姿态预测模块在COCO数据集上,采用图像大小是256×192的图像,利用双摄像头输入同一视角图片,平均准确率AP达到74.2,这已经超过了《A Fast and Effective Transformer for Human PoseEstimation》结果,证明了我们方法的有效性,其运行的平均速度是157fps(测试稳定后,一分钟内平均值)。fps为每秒传输帧数(Frames Per Second)。图6展示了我们的最终结果,使用者可以指定识别的动作为异常动作,若指定倒下为异常动作(人员爬在银行地面可以认为异常),那么就会触发提醒后台人员,银行内有人晕倒,实现异常动作报警。
本发明的工作原理:利用设置在银行室内不同角度的两个摄像头对处于银行内的人员进行双摄像头拍摄;利用第一摄像头获取图像第一视角,对图像第一视角进行处理后得到第一视角图片,将第一视角图片送入到位姿掩码模块,得到的位姿掩码特征;利用第二摄像头获取图像第二视角,对图像第二视角进行处理后得到第二视角图片,将第二视角图片送入到位姿编码模块,得到的位姿编码特征;将得到的位姿掩码特征和位姿编码特征输入到位姿交互模块进行交互,得到位姿交互特征;将得到的位姿交互特征输入到人体动作预测模块中,对人体动作进行检测,识别出银行内人员的异常行为。
在我们的方法中,图像第二视角的图像第一视角都是利用卷积核为5×5的大卷积进行处理,大卷积在对图像进行处理时,能尽可能多的获取图像的关联信息,因为卷积核的大小与感受野有关,采用不同的步长以及padding操作,得到不同大小的第二视角图片和第一视角图片。
位姿编码特征为整体图像掩码后的高分辨率特征,在整体图像掩码后,得到的是人物部分图像,而并非是整体图像,因为银行机器较多,获取的图像如果包含了背景信息,处理起来会非常缓慢,一方面由于位姿掩码模块处理的本身就是高分辨率图像,如果未掩码,则一直处理是整幅图像,内存消耗过大,计算复杂,影响速度,而本申请采用的是掩码操作,能在位姿掩码模块计算期间逐步消除背景信息的干扰,提高了运行速度。
位姿编码模块始终是处理整幅图片,能保证对背景信息的提取,作为我们后续位姿交互模型中的关键字序列K和值序列V,都能有效的感知到全局信息分布,提高银行内人员检测的整体性,而采用分辨率较低第二视角图片,可以有效的提高对整幅图像的处理速度。
在本我们的一个实施例中,β和β均取值0.5,运行速度是132fps,准确率超过了90%,图6为我们最终的检测结果,为了体现本发明的性能,我们将人体姿态骨架特征也进行了展示。
位姿交互模块利用到了第一视角图片的高分辨率,并且已经去除背景干扰,提高对人物的关注力,而获取的第二视角图像的整幅场景后,防止掩码过重造成的识别错误,完成训练过程。利用位姿交互模块内的空间感知交互注意力,实现了第二视角图像和第一视角图片的交互,并且在空间感知单元下,提高对第二视角图像的空间感知能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
包括
设置在银行室内不同角度的两个摄像头,第一摄像头和第二摄像头;
利用两个摄像头对处于银行内的人员进行双摄像头拍摄;
利用第一摄像头获取图像第一视角,对图像第一视角进行处理后得到第一视角图片,将第一视角图片送入到位姿掩码模块,得到的位姿掩码特征;
利用第二摄像头获取图像第二视角,对图像第二视角进行处理后得到第二视角图片,将第二视角图片送入到位姿编码模块,得到的位姿编码特征;
将得到的位姿掩码特征和位姿编码特征输入到位姿交互模块进行交互,得到位姿交互特征;
将得到的位姿交互特征输入到人体动作预测模块中,对人体动作进行检测,识别出银行内人员的异常行为。
2.根据权利要求1所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
还包括人体姿态预测模块;
所述人体姿态预测模块采用反卷积组成,获取所述位姿交互特征,利用反卷积对位姿交互特征进行恢复,并将其与人体姿态的关节特征对齐,得到人体姿态骨架特征,从而对人体姿态进行检测;
所述人体动作预测模块获取所述人体姿态骨架特征,对人体姿态骨架特征与位姿交互特征进行融合;
在人体姿态骨架特征与位姿交互特征进行融合过程中,利用卷积对人体姿态骨架特征进行卷积下采样,将人体姿态骨架特征与位姿交互特征的维度对齐,利用矩阵加法操作,对两者进行相加融合。
3.根据权利要求2所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
所述位姿掩码模块获取第一视角图片,对第一视角图像进行掩码操作,其中,掩码操作过程至少包括卷积核为3×3的卷积;
所述位姿编码模块获取第二视角图片,对第二视角图片进行编码操作,其中,编码操作过程由ResNet网络构成,对图像进行编码后,利用维度展平单元Flatten进行展平,得到位姿编码特征;
将所述位姿掩码特征作为交互注意力矩阵中的查询序列Q;
将所述位姿编码特征作为交互注意力矩阵中的关键字序列K和值序列V;
对查询序列和关键字序列分别进行位置编码;
将值序列和位置编码后的查询序列和关键字序列输入到位姿交互模块中,实现交互注意力操作,得到位姿交互特征。
4.根据权利要求3所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
所述位姿编码模块的编码操作过程包括:
采用ResNet18组成的残差模块,获取第二视角图片后,第二视角图片的分辨率为图像第二视角分辨率的1/256,得到的第二视角图片为低分辨率图片,对所述低分辨率图片进行卷积编码,得到第二视角图片的整体图像低分辨率特征。
5.根据权利要求4所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
所述位姿掩码模块包括两个卷积核为3×3的卷积、一个切片单元组成;
所述位姿掩码模块对第一视角图像的掩码操作包括:
所述位姿掩码模块获取第一视角图片后,第一视角图片的分辨率为图像第一视角分辨率的1/64,得到的第一视角图片为高分辨率图片;
利用一个卷积核为3×3的卷积和一个切片单元分别对所述高分辨率图片进行卷积和切片,分别得到粗掩码信息和切片特征;
将粗掩码信息经过Flatten展平与切片特征维度一致,对切片特征进行粗掩码信息匹配,实现切片特征掩码操作并得到中间掩码特征;
利用另一个卷积核为3×3的卷积对粗掩码信息进行卷积操作,得到精掩码信息,将精掩码信息经过Flatten展平与中间掩码特征大小一致,对中间掩码特征进行精掩码信息匹配,实现中间掩码特征掩码操作并得到位姿编码特征;
所述位姿交互模块包括一个空间感知交互注意力Spatial perception Multi-HeadCross-Attention(S-MHCA)和一个多层感知机Multilayer Perceptron(MLP);所述空间感知交互注意力包括空间感知单元F;
在获取值序列和位置编码后的查询序列和关键字序列后,在查询序列Q和关键字序列K进行矩阵计算后,利用下述公式,通过空间感知单元F进行空间感知,得到空间感知特征N:
N=F(QKT)
所述空间感知交互注意力对值序列V和空间感知特征N利用下述公式进行计算,得到空间感知交互特征M;
Figure FDA0004181816440000041
将空间交互感知特征M输入到所述多层感知机内,对空间交互感知特征的不同通道和空间的特征进行处理,得到位姿交互特征。
6.根据权利要求5所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
所述位姿编码特征为整体图像掩码后的高分辨率特征,所述空间感知交互注意力和多层感知机均采用残差连接。
7.根据权利要求5或6所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
所述空间感知单元包括卷积核为1×1的卷积;
在查询序列Q和关键字序列K进行矩阵计算后,得到矩阵计算特征,利用所述空间感知单元进行以下处理:
利用层标准化Layer Norm对矩阵计算特征进行层标准化处理,得到标准化信息特征;
利用维度转换对标准化信息特征进行维度转换,通过卷积核为1×1的卷积进行卷积处理,再利用Gelu进行特征激活以及维度转换,得到与矩阵计算特征相同大小的空间感知特征;
其中,通过卷积核为1×1的卷积进行卷积处理,得到与第二视角图片相同大小的特征,此时的关键字序列K和值序列V都是来自第二视角图片。
8.根据权利要求1至7中任一所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:
在网络训练过程中,所述人体姿态预测模块采用均方差损失Mean Squared ErrorLoss对得到的人体姿态骨架特征与人体姿态骨架真实值进行计算,得到Loss2;
所述人体动作预测模块采用交叉熵损失Cross Entropy Loss对检测到的人体动作与人体动作真实值进行计算,得到Loss1;
利用如下公式进行反向梯度回传,完成训练过程
Loss=αLoss1+βLoss2
其中,α和β为0到1之间的数值,不包括0和1。
9.根据权利要求5所述的一种基于双摄像头的银行内人员异常行为识别方法,其特征在于:所述切片单元采用维度转换Reshape实现。
CN202310407090.5A 2023-04-17 2023-04-17 一种基于双摄像头的银行内人员异常行为识别方法 Active CN116386145B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310407090.5A CN116386145B (zh) 2023-04-17 2023-04-17 一种基于双摄像头的银行内人员异常行为识别方法
LU506204A LU506204B1 (en) 2023-04-17 2024-01-24 Eine methode zur erkennung ungewöhnlichen verhaltens von personen in einer bank basierend auf zwei kameras

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310407090.5A CN116386145B (zh) 2023-04-17 2023-04-17 一种基于双摄像头的银行内人员异常行为识别方法

Publications (2)

Publication Number Publication Date
CN116386145A true CN116386145A (zh) 2023-07-04
CN116386145B CN116386145B (zh) 2023-11-03

Family

ID=86965456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310407090.5A Active CN116386145B (zh) 2023-04-17 2023-04-17 一种基于双摄像头的银行内人员异常行为识别方法

Country Status (2)

Country Link
CN (1) CN116386145B (zh)
LU (1) LU506204B1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118097770A (zh) * 2023-12-25 2024-05-28 浙江金融职业学院 一种应用于银行内的人员行为状态检测及分析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1306310C (en) * 1987-11-13 1992-08-11 Shreyaunsh R. Shah Distributed computer system
CN111523378A (zh) * 2020-03-11 2020-08-11 浙江工业大学 一种基于深度学习的人体行为预测方法
CN112530437A (zh) * 2020-11-18 2021-03-19 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112733707A (zh) * 2021-01-07 2021-04-30 浙江大学 一种基于深度学习的行人重识别方法
CN113988086A (zh) * 2021-09-29 2022-01-28 阿里巴巴达摩院(杭州)科技有限公司 对话处理方法及装置
CN114550305A (zh) * 2022-03-04 2022-05-27 合肥工业大学 一种基于Transformer的人体姿态估计方法及***
CN114627555A (zh) * 2022-03-15 2022-06-14 淮阴工学院 一种基于分流注意力网络的人体动作识别方法、***及设备
CN114817494A (zh) * 2022-04-02 2022-07-29 华南理工大学 基于预训练和注意力交互网络的知识型检索式对话方法
CN114898734A (zh) * 2022-05-20 2022-08-12 北京百度网讯科技有限公司 基于语音合成模型的预训练方法、装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1306310C (en) * 1987-11-13 1992-08-11 Shreyaunsh R. Shah Distributed computer system
CN111523378A (zh) * 2020-03-11 2020-08-11 浙江工业大学 一种基于深度学习的人体行为预测方法
CN112530437A (zh) * 2020-11-18 2021-03-19 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112733707A (zh) * 2021-01-07 2021-04-30 浙江大学 一种基于深度学习的行人重识别方法
CN113988086A (zh) * 2021-09-29 2022-01-28 阿里巴巴达摩院(杭州)科技有限公司 对话处理方法及装置
CN114550305A (zh) * 2022-03-04 2022-05-27 合肥工业大学 一种基于Transformer的人体姿态估计方法及***
CN114627555A (zh) * 2022-03-15 2022-06-14 淮阴工学院 一种基于分流注意力网络的人体动作识别方法、***及设备
CN114817494A (zh) * 2022-04-02 2022-07-29 华南理工大学 基于预训练和注意力交互网络的知识型检索式对话方法
CN114898734A (zh) * 2022-05-20 2022-08-12 北京百度网讯科技有限公司 基于语音合成模型的预训练方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118097770A (zh) * 2023-12-25 2024-05-28 浙江金融职业学院 一种应用于银行内的人员行为状态检测及分析方法
CN118097770B (zh) * 2023-12-25 2024-08-13 浙江金融职业学院 一种应用于银行内的人员行为状态检测及分析方法

Also Published As

Publication number Publication date
CN116386145B (zh) 2023-11-03
LU506204B1 (en) 2024-07-29

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及***
JP7311640B2 (ja) 行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体
CN112580523A (zh) 行为识别方法、装置、设备及存储介质
CN103324919B (zh) 基于人脸识别的视频监控***及其数据处理方法
CN116386145B (zh) 一种基于双摄像头的银行内人员异常行为识别方法
CN110705500A (zh) 基于深度学习的人员工作图像的注意力检测方法及***
CN110992414B (zh) 一种基于卷积神经网络的室内单目场景深度估计的方法
CN116453067B (zh) 基于动态视觉识别的短跑计时方法
CN112766186A (zh) 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN111160149A (zh) 基于运动场景及深度学习的车载人脸识别***及方法
CN114220143A (zh) 一种佩戴口罩的人脸识别方法
CN111027440B (zh) 一种基于神经网络的人群异常行为检测装置和检测方法
Elshwemy et al. A New Approach for Thermal Vision based Fall Detection Using Residual Autoencoder.
Sun et al. UAV image detection algorithm based on improved YOLOv5
Ren et al. Research on Safety Helmet Detection for Construction Site
CN115861709A (zh) 基于卷积神经网络的智能视觉检测设备及其方法
CN114760168A (zh) 一种ai智能边缘计算网关
CN114387670A (zh) 基于时空特征融合的步态识别方法、装置及存储介质
CN113743339B (zh) 一种基于场景识别的室内跌倒检测方法和***
Elshwemy et al. An enhanced fall detection approach in smart homes using optical flow and residual autoencoder
CN117132914B (zh) 通用电力设备识别大模型方法及***
CN114862920A (zh) 基于多尺度图像恢复的跨摄像机行人重识别方法及装置
CN115240123B (zh) 一种面向智能监控***的暗处暴力行为检测方法
CN114322946B (zh) 一种具有高保真度的从光学数据到惯性数据的转化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant