CN112163477B - 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及*** - Google Patents

一种基于Faster R-CNN的扶梯行人位姿目标检测方法及*** Download PDF

Info

Publication number
CN112163477B
CN112163477B CN202010971735.4A CN202010971735A CN112163477B CN 112163477 B CN112163477 B CN 112163477B CN 202010971735 A CN202010971735 A CN 202010971735A CN 112163477 B CN112163477 B CN 112163477B
Authority
CN
China
Prior art keywords
convolution
pose
escalator
image
len
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010971735.4A
Other languages
English (en)
Other versions
CN112163477A (zh
Inventor
黄学斌
伏喜斌
郑祥盘
李佐勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Special Equipment Inspection Institute
Minjiang University
Original Assignee
Xiamen Special Equipment Inspection Institute
Minjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Special Equipment Inspection Institute, Minjiang University filed Critical Xiamen Special Equipment Inspection Institute
Priority to CN202010971735.4A priority Critical patent/CN112163477B/zh
Publication of CN112163477A publication Critical patent/CN112163477A/zh
Application granted granted Critical
Publication of CN112163477B publication Critical patent/CN112163477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B50/00Energy efficient technologies in elevators, escalators and moving walkways, e.g. energy saving or recuperation technologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于Faster R‑CNN的扶梯行人位姿目标检测方法及***,其包括如下步骤:S1,VGG16卷积神经网络提取扶梯行人位姿的特征图;S2,将特征图输入RPN层网络;S3,RPN层网络对特征图中的检测对象类别和位置进行判断;S4,RPN层网络将结果发送至电梯***;S5,电梯***根据收到类别和位置结果信息获取行人位姿信息,当相关位置存在危险位姿时电梯***紧急制动,当相关位置不存在危险位姿时电梯***正常运行。本发明通过对自动扶梯监控视频流数据的收集,并利用Faster‑RCNN网络对其进行处理后将处理获得的行人位姿信息发送至电梯***,以实现当相关位置存在危险位姿时电梯***紧急制动达到实时预防电梯事故的目的,提升了整体的安全性。

Description

一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***
技术领域
本发明应用于自动扶梯安全领域,具体是一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***。
背景技术
自动扶梯(以下简称扶梯)是频繁启动、长期负载运行的机电设备,属于涉及生命安全、危险性较大的特种设备,行业壁垒高。扶梯广泛应用于地铁、商场、医院等人流量巨大的公共场所,具有频繁运行、负载动态不断变化等复杂性特点,容易促发故障引发安全事故。政府、媒体和市民高度关注扶梯安全运行问题。扶梯乘客在跌倒意外出现时,若能及时做出相应的保护措施,则可有效减少事故的伤害。然而,传统的扶梯检测局限于诸如梯级变形、电气安全装置失效等对当时运行状态进行安全检测,无法对扶梯正常运行状态下的乘客危险姿态可能会造成安全事故做出预测。因此,随着扶梯越来越广泛的应用,实现一种快速检测如人体跌倒等危险乘梯姿态的技术手段已迫在眉睫。
目前,DelongZhu等提出结合optical character recognition(OCR)网络和Fasterr-cnn网络应用于关于电梯面板按钮的识别已有了较好的成效;Mattia Frasc等应用基于C-PG感知反馈的卷积神经网络控制电梯运行速度;Kh Tohidul Islam等提出一种混合图像分类模型,有效提升电梯按钮和楼层号的识别准确率;Du Qilian等提出一种基于Adaboost的多目标视频监控方法,该方法能够准确、稳定地跟踪乘客和目标,其以每秒36帧速度处理图像,跟踪准确率达到94%以上。而在其他方面Faster RCNN也有很好的应用及成效。Sun,Xudong等结合了特征串联、多尺度训练、模型预训练和关键参数标定等策略,改进Faster RCNN框架,使其成为FDDB平台上ROC曲线最好的模型;J.Sang等通过将Faster R-CNN结合VGG16、ResNet-101和ZF三种卷积神经网络的策略,使车辆检测识别率达到91.3%;杨薇等应用k-means算法和多尺度策略于Faster R-CNN中,使其检测识别准确达到了82.20%,速率为每张照片耗时0.03875s;HailiangLi等在样本数据量小的情况下,通过将浅卷积层和深卷积层的特征映射连接起来改进Faster R-CNN,以提高提取详细特征的能力;李晓光等基于Faster R-CNN的基础上,提出一种多尺度目标检测算法,解决目标尺度差异较大问题。
为此,鉴于Faster R-CNN框架的应用有效性,拟通过改进深度神经网络Faster R-CNN来对扶梯乘客的异常位姿做出实时检测,预测乘客即将面临的风险。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***。
为解决上述技术问题,本发明的一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其包括如下步骤:
S1,通过电梯视频流收集数据,VGG16卷积神经网络提取扶梯行人位姿的特征图;
S2,将VGG16卷积神经网络提取的特征图输入RPN层网络;
S3,RPN层网络中的CLS层对特征图中的检测对象类别进行判别,RPN层网络中的REG层对特征图中检测对象的位置进行判断;
S4,RPN层网络将检测对象的类别和位置结果发送至电梯***;
S5,电梯***根据收到类别和位置结果信息获取行人位姿信息,当相关位置存在危险位姿时电梯***紧急制动,当相关位置不存在危险位姿时电梯***正常运行。
作为一种可能的实施方式,进一步的,所述步骤S1中VGG16卷积神经网络提取扶梯行人位姿的特征图具体包括如下步骤:
S11,进行第一次卷积,通过定义3×3大小的卷积核个数为64,分别经过两次卷积操作后原图的维度变为intlen×intlen×64,使图像原大小不变,深度信息变成64,经过一次池化操作后图像维度变为原图intlen×intlen×64,即长宽大小变为原始图像的二分之一;
S12,进行第二次卷积,通过定义3×3大小的卷积核个数为128,进行两次卷积操作后池化后图像大小不变深度变为128,经过一次池化操作后池化图像长宽大小变为原始图像的四分之一;
S13,进行第三、四、五次卷积,通过定义3×3大小的卷积核个数为512,进行三次卷积操作后池化图像大小不变深度变成512,经过一次池化操作后池化图像长宽大小分别变为原始图像的八分之一,十六分之一,三十二分之一。
作为一种可能的实施方式,进一步的,在VGG16神经网络中均采用3x3的卷积核对传入的图像进行特征提取操作,其中定义滑移步长为1,通过遍历的方式让卷积核在原图进行滑移,每次滑移步长为1,公式为:outlen=[Intlen-filterlen+1]/stride,其中Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
作为一种可能的实施方式,进一步的,所述步骤S3具体操作步骤如下:
S31,采用3*3大小的卷积核再次对特征图进行卷积操作,卷积核数目为512;
S32,采用特征图中每个像素点为中心即锚点,以不同尺寸、不同长宽比例的矩形框选取的方式来选取候选框;
S33,RPN层网络中的CLS层对选取出来的总候选框个数进行判别,得到该矩形框内的是背景还是对象的分数;RPN层网络中的REG层对选取出来的总候选框个数进行回归操作,用来提取出对象在原图中所对应的位置关系。
作为一种可能的实施方式,进一步的,所述步骤S32指定初始的基本固定尺寸为128x,256px,512px和长宽比例为0.5,1,1.5的矩形框,基本固定尺寸和长宽比例的所有可能组合为9个,矩形框选取中的矩形框的个数按照如下方式计算,基本固定尺寸的个数和长宽比例个数的乘积等于矩形框个数,计算公式为:num=len(anchor_scales)·len(anchor_ratios),其中len(anchor_scales)为基本固定尺寸个数,len(anchor_ratio)为长宽比例尺寸个数。
作为一种可能的实施方式,进一步的,经过所述步骤S1和步骤S3处理过的一幅图片可得到的候选框个数可由特征图的宽度、特征图的长度和单个锚点可生成的矩形框个数的乘积求得,具体公式如下:numc=W×H×K,其中W为特征图的宽度,H为特征图的长度,K为单个锚点可生成的矩形框个数。
作为一种可能的实施方式,进一步的,所述步骤S33中的CLS层采用1*1的卷积核对候选框进行全卷积操作,卷积核个数为2*k个,即输出18个深度的特征图图像,将其重新定义为深度为2个深度的图像,得到每个候选框内背景的概率分数和背景的概率分数。
作为一种可能的实施方式,进一步的,所述步骤S33中的REG层以1*1的卷积核对候选框进行卷积操作,卷积核个数为4k个。
一种如上述的基于Faster R-CNN的扶梯行人位姿目标检测方法的***,其包括:
视频采集转化模块,用于读取获取视频流并将其拆分为帧图像传入到Faster R-CNN深度卷积神经网络中;
特征图提取模块,用于从帧图像中提取特征图,通过卷积和池化操作从帧图像中提取出扶梯行人位姿的特征图;
RPN层网络模块,包括CLS层和REG层,用于对特征图中的检测对象类别进行判别以及对特征图中检测对象的位置进行判断;
电梯运行模块,用于接收RPN层网络模块发送的检测对象的类别和位置结果,根据相关位置是否存在危险位姿以控制电梯紧急制动或是正常运行。
作为一种可能的实施方式,进一步的,所述特征图提取模块选用VGG16卷积神经网络。
本发明采用以上技术方案,具有以下有益效果:
1.本发明能够通过对自动扶梯监控视频流数据的收集,并利用Faster-RCNN网络对其进行处理后将处理获得的行人位姿信息发送至电梯***,以实现当相关位置存在危险位姿时电梯***紧急制动达到实时预防电梯事故的目的,提升了整体的安全性。
2.本发明为了提高对扶梯乘客位姿目标的检测精度和效率,采用VGG16卷积神经网络作为Faster-RCNN的基础网络,一方面能够保证检测精度,另一方面与Restnet及更高层次的inception网络比较更为高效。首先Faster R-CNN对视频图像进行全卷积操作得到特征图,再通过RPN层得到对象的类别分数以及对象物体所在原图中所在的位置,利用改进的Faster R-CNN算法处理后的图像得到扶梯上乘客诸如下蹲、身体弯曲的异常位姿,由此判断乘客是否处于危险状态,从而实现扶梯及时做出相应的安全保护措施。
3.本发明采用RPN网络模块取代了传统的全连接层,运用了全卷积神经网络,实现了卷积核参数共享,突破了传统神经网络中只能传入单一维度大小的图像的局限性;用来判别图像的背景和物体信息及回归物体所在位置信息。相比传统的物体检测网络,改进的Faster R-CNN网络模型能够避免全连接层带来的应用限制,大幅地提升网络的适用性能,具有端到端的检测特性。
附图说明
下面结合附图与具体实施方式对本发明做进一步详细的说明:
图1为本发明Faster R-CNN神经网络结构图;
图2为本发明VGG16卷积神经网络结构图;
图3为本发明Faster R-CNN神经网络算法简易流程图;
图4为本发明Faster R-CNN神经网络检测乘客跌倒结果图;
图5为本发明Faster R-CNN神经网络检测小孩跌倒结果图;
图6为本发明Faster R-CNN网络模型的简要网络结构图;
图7为本发明Faster R-CNN网络模型用于自动扶梯的检测时的简要***框架图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
如图1-5所示,本发明提供了一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其包括如下步骤:
S1,通过电梯视频流收集数据,VGG16卷积神经网络提取扶梯行人位姿的特征图;
S2,将VGG16卷积神经网络提取的特征图输入RPN层网络;
S3,RPN层网络中的CLS层对特征图中的检测对象类别进行判别,RPN层网络中的REG层对特征图中检测对象的位置进行判断;
S4,RPN层网络将检测对象的类别和位置结果发送至电梯***;
S5,电梯***根据收到类别和位置结果信息获取行人位姿信息,当相关位置存在危险位姿时电梯***紧急制动,当相关位置不存在危险位姿时电梯***正常运行。
为了提高对扶梯乘客位姿目标的检测精度和效率,采用VGG16卷积神经网络作为Faster-RCNN的基础网络,一方面能够保证检测精度,另一方面与Restnet及更高层次的inception网络比较更为高效。首先Faster R-CNN对视频图像进行全卷积操作得到特征图,再通过RPN层得到对象的类别分数以及对象物体所在原图中所在的位置,利用改进的Faster R-CNN算法处理后的图像得到扶梯上乘客诸如下蹲、身体弯曲的异常姿,由此判断乘客是否处于危险状态,从而实现扶梯及时做出相应的安全保护措施。
VGG16卷积神经网络和RPN层神经网络两部分构成了Faster R-CNN,而Faster R-CNN目标检测框架结合了区域提取(Region Proposal)和卷积神经网络(CNN)分类,其网络结构如图1所示。
在Faster R-CNN网络中没有采用全连接层结构,取而代之的则是在VGG16提取出特征图后在RPN网络中采用1×1的卷积核对候选框进行处理,以便于损失计算。
在VGG16神经网络中,卷积过程可分为5个大的卷积步骤,且均采用33、22的卷积核对图像进行特征提取及池化操作。在第一次卷积过程中采用33卷积核对图像进行两次卷积和一次池化操作;第二次卷积过程同第一次卷积过程;第三次卷积过程采用33卷积核进行三次卷积操作、一次池化操作;第四次、第五次卷积过程同第三次卷积过程,并进行池化操作,VGG16深度卷积网络一共进行了5次池化操作,每一次池化操作卷积图像长宽减小二分之一。即作为一种可能的实施方式,进一步的,所述步骤S1中VGG16卷积神经网络提取扶梯行人位姿的特征图具体包括如下步骤:
S11,进行第一次卷积,通过定义3×3大小的卷积核个数为64,分别经过两次卷积操作后原图的维度变为intlen×intlen×64,使图像原大小不变,深度信息变成64,经过一次池化操作后图像维度变为原图intlen×intlen×64,即长宽大小变为原始图像的二分之一;
S12,进行第二次卷积,通过定义3×3大小的卷积核个数为128,进行两次卷积操作后池化后图像大小不变深度变为128,经过一次池化操作后池化图像长宽大小变为原始图像的四分之一;
S13,进行第三、四、五次卷积,通过定义3×3大小的卷积核个数为512,进行三次卷积操作后池化图像大小不变深度变成512,经过一次池化操作后池化图像长宽大小分别变为原始图像的八分之一,十六分之一,三十二分之一。
即整个过程经过VGG16深度卷积后的图像大小变成原来的十六分之一,及在生成后的特征图中一个像素点表示一个感受眼,映射到原图中表示为对应原图中32个像素大小的一块区域,VGG16结构图如图2所示。
作为一种可能的实施方式,进一步的,在VGG16神经网络中均采用3x3的卷积核对传入的图像进行特征提取操作,其中定义滑移步长为1,通过遍历的方式让卷积核在原图进行滑移,每次滑移步长为1,公式为:outlen=[Intlen-filterlen+1]/stride,其中Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
作为一种可能的实施方式,进一步的,为解决因卷积操作所引起的图像信息减小,Faster R-CNN采用SAME的填充方式来处理原图因经过3x3卷积核操作后图像减小2个像素的问题,计算式如下:outlen=[Intlen-filterlen+2padding+1]/stride;在公式中padding为填充像素大小,如5×5大小的图像经过padding为1的像素填充后再次经过卷积就能保证与原图具有相同大小的尺寸。为此,在VGG16神经网络中均采用SAME的方式进行填充。
作为一种可能的实施方式,进一步的,为降低因卷积核数量增大使得整个神经网络的计算消耗量过大,VGG16神经网络中采用max-pool的方式对卷积图进行池化操作。定义2×2大小,步长为2的特殊卷积核对卷积后的图像进行池化。让2×2大小的卷积核,通过遍历的方式以步长为2大小在卷积图上进行滑移。提取卷积核下最大像素值。为此经过池化操作后的卷积图像大小将变为原来大小的二分之一。
作为一种可能的实施方式,进一步的,所述步骤S3具体操作步骤如下:
S31,采用3*3大小的卷积核再次对特征图进行卷积操作,卷积核数目为512;(由于不同尺度的图像以及不同角度的原因对象在图像中往往呈现出不同的大小形状。为解决这个问题,在Faster R-CNN中的RPN网络中采用了在特征图中指定不同尺寸,不同长宽比例的区域来映射回原始图像区域的方式来使得检测得全面性。)
S32,采用特征图中每个像素点为中心即锚点,以不同尺寸、不同长宽比例的矩形框选取的方式来选取候选框;
S33,RPN层网络中的CLS层对选取出来的总候选框个数进行判别,得到该矩形框内的是背景还是对象的分数;RPN层网络中的REG层对选取出来的总候选框个数进行回归操作,用来提取出对象在原图中所对应的位置关系(即回归X,Y,W,H其中X,Y为对象所处原图的位置信息,W,H对象宽度和高度信息)。
相比传统的神经网络,全连接层限制了整个网络可应用性。在经过Fast-rcnn神经网络的改进后Faster R-CNN采用了RPN(Region Propasal Network)模块,该模块运用了全卷积神经网络,实现了卷积核参数共享,突破了传统神经网络中只能传入单一维度大小的图像的局限性,大大提升了网络的适用性能。为了实现对象识别及对象定位的功能,RPN层通过在特征图上产生候选框,通过在特征图上滑动候选框的方式来对图像进行卷积操作。经过卷积后的图像分别对其进行物体与背景判别和返回对象坐标值。
作为一种可能的实施方式,进一步的,所述步骤S32指定初始的基本固定尺寸为128x,256px,512px和长宽比例为0.5,1,1.5的矩形框,基本固定尺寸和长宽比例的所有可能组合为9个,矩形框选取中的矩形框的个数按照如下方式计算,基本固定尺寸的个数和长宽比例个数的乘积等于矩形框个数,计算公式为:num=len(anchor_scales)·len(anchor_ratios),其中len(anchor_scales)为基本固定尺寸个数,len(anchor_ratio)为长宽比例尺寸个数。
作为一种可能的实施方式,进一步的,经过所述步骤S1和步骤S3处理过的一幅图片可得到的候选框个数可由特征图的宽度、特征图的长度和单个锚点可生成的矩形框个数的乘积求得,具体公式如下:numc=W×H×K,其中W为特征图的宽度,H为特征图的长度,K为单个锚点可生成的矩形框个数。
作为一种可能的实施方式,进一步的,所述步骤S33中的CLS层采用1*1的卷积核对候选框进行全卷积操作,卷积核个数为2*k个,即输出18个深度的特征图图像,将其重新定义为深度为2个深度的图像,得到每个候选框内背景的概率分数和背景的概率分数。
作为一种可能的实施方式,进一步的,所述步骤S33中的REG层以1*1的卷积核对候选框进行卷积操作,卷积核个数为4k个。
在Faster R-CNN中,为计算损失函数,将每个锚点设置成以二进制为形式的类标签。通过计算每个锚点的候选区域与ground_true box(即真实存在物体的方框)的最大IOU(Inte-rsection-over-Union)(即候选框区域与真实存在物体的方框的重叠区域)面积,如果该面积的超过百分之七十,则将该锚点设置为一个正例。若小于百分之三十则将该锚点设置为负例。如果一个锚点即不是正例也不是负例则不进行损失计算,即不存在目标对象。FasterR-CNN采用了如下公式计算RPN损失:公式中i表示为锚点所处原图的索引,表示pi为该锚点是物体的预测概率值,/>为该锚点在上诉标签中的值。如果/>是1表示为该锚点为一个正例,为0表示为一个负例。/>表示为所有标签中锚点信息的损失值,Ncls所有标签锚点个数。公式前半部分表示为背景于物体预测的损失。后半部分表示为回归损失函数,通过该损失函数可以使得X,Y,W,H信息在RPN网络中进行微调。其中/>R表示为robust损失方程,/>表示为只有在该锚点为正例的情况下才进行计算损失,即只对存在对物体存在的锚点位置进行损失计算。λ值用来权衡分类任务和逻辑回归任务,通过设置λ可用来设置该模型更加重视分类任务还是回归任务。
在公式(2.5)中ti为公式2.6中的tx,ty,th,tw为公式(2.6)中的在2.6公式中x,y,w,h表示为RPN网络对对象预测出来的位置信息值,xa,ya,ha,wa为候选框所在的位置信息值,x*,y*,h*,w*为真实存在对象的位置信息。tx,ty表示为RPN网络预测出来的方框中心值与候选框中的中心信息的位置偏差量。th,tw表示为RPN网络预测出来的长度与宽度值与候选框长度与宽度的偏差量。/>为真实中心位置信息值与候选框中心位置信息值的偏差量。h*,w*为真实方框长度与宽度信息值与候选框中长度,宽度信息值的偏差量。通过上述的损失函数,在神经网络不断的训练过程中回归信息中的x,y,w,h将不断地去接近真实对象所存在的位置信息。
在Faster_rcnn网络中最后一部分为(classifer)对物体类的预测概率,即为该任务需要检测的若干对象。通过该层可得到预测对象的概率值。
一种基于Faster R-CNN的扶梯行人位姿目标检测***,其包括:
视频采集转化模块,用于读取获取视频流并将其拆分为帧图像传入到Faster R-CNN深度卷积神经网络中;
特征图提取模块,用于从帧图像中提取特征图,通过卷积和池化操作从帧图像中提取出扶梯行人位姿的特征图;其可选用VGG16卷积神经网络。
RPN层网络模块,包括CLS层和REG层,用于对特征图中的检测对象类别进行判别以及对特征图中检测对象的位置进行判断;
电梯运行模块,用于接收RPN层网络模块发送的检测对象的类别和位置结果,根据相关位置是否存在危险位姿以控制电梯紧急制动或是正常运行。
实际使用时,通过利用商场自动扶梯前的高清摄像头,读取其视频流。采用opencv机器视觉开源库将视频流拆分成帧图像,将其传入到Faster R-CNN深度卷积神经网络中。获取图像中乘客所处位置及自动扶梯上其乘客的位姿状态,若检测到自动扶梯上乘客的乘梯状态处于危险状态,对电梯及时采取措施,防止乘客承受巨大的生命威胁。相比Rcnn与ast-Rcnn,Fas-ter R-CNN相比前两种物体检测网络,Faster R-CNN具备端到端的神经网络特点,为此更具有高效检测性。Faster R-CNN神经网络算法简易流程如图3所示,首先对所输送到处理器的图像先经过VGG16深度卷积神经网络进行特征提取,再对特征图进行RPN全卷积网络中的对象分类及检测框回归处理,得到被检测对象的类别分数及对象的位置信息。
通过收集数据和标注数据,再到Faster R-CNN神经网络的训练,最终得到训练好的神经网络模型;再通过对模型的调用,用python下tensorflow框架来运行该网络,以每秒5fps的帧速对视频图像信息进行检测,以达到实验要求。
通过摄像头获取视频流信息,将其传入到图像处理器中对。由于Faster R-CNN深度神经网络过于庞大,无法在CPU上运行,因此采用了GPU来运行该网络。为此本发明运行该网络所用硬件为i7处理器,GTX1080显卡。所采用语言为python,以及基于python下的ten-sorflow框架及opencv机器视觉开源库。对基于window版本的Faster R-CNN进行训练通过设置参数,指定训练数据位置,标签文件位置及迭代轮数,模型所达精度信息等,待训练该模型的精度达到75%。采用训练了30000轮的模型用来对乘坐扶梯乘客进行位姿进行检测,对其进行判别。由于Faster R-CNN在GPU上运行时,每处理一张图片所消耗的时间为0.2秒。为此本文采用每隔0.25秒的时间从视频流中读取一张图片的方式来对电梯运行状态做检测。若判别出的乘客姿势状态为stand即站立,则不对扶梯电机***采取制动。若判别出乘客的位姿为ben-d的概率超过0.7或者为quat和fall,则表示乘梯人员正处于危险的乘梯状态,立即让扶梯响应做出诸如对电动机制动***进行制动的安全措施。
如图4为Faster R-CNN神经网络检测出老人乘客从正常站立姿势到跌倒异常位姿的检测结果,结果显示该模型能很好地检测出乘客的位置姿势,检验准确性和实时性较高。在老人跌倒意外出现时,自动扶梯可及时做出相应的保护措施,有效减少事故的伤害。
乘客搭乘自动扶梯时位姿的检测容易受到扶梯运行时光照的变化、阴影、背景中固定对象的移动等因素影响检测精度。如图5为在乘客搭乘自动扶梯时位姿的检测受到扶梯运行时光照的变化等因素影响检测精度的工况背景下用Faster R-CNN神经网络检测出小孩在扶梯上跌到的实时检测,检测结果判别出乘客的位姿为ben-d的概率超过0.7和fall,乘梯人员正处于危险的乘梯状态,扶梯立即响应做出诸如对电动机制动***进行制动的安全措施。
实验结果证明,利用Faster R-CNN神经网络能够准确检测乘客位姿变化的过程,降低目标漏检率。本算法在不同的测试集上准确率和实时性都较高,能够提高检测目标的精确率和效率,使得训练出来的模型对目标大小具有一定的鲁棒性。随着人们对安全需求的不断提高,工作生活中对扶梯安全监控的需求也日益增加。针对已有的目标检测算法在扶梯行人检测应用中易受光照的变化、阴影、背景中固定对象的移动等因素影响,致使效率不高且泛化能力不强的问题,提出采用VGG16卷积神经网络作为Faster-RCNN的基础网络构建改进Faster-RCNN算法的乘客异常位姿实时检测方法。通过实验证明,利用Faster R-CNN神经网络能够降低目标漏检率,能够以0.25秒/张速度快速处理图像,在不同的测试集上准确率和实时性都较高,能够提高检测目标的精确率和效率,使得训练出来的模型对目标大小具有一定的鲁棒性,能够满足自动扶梯乘客位姿安全监测的工程应用要求。
以上所述为本发明的实施例,对于本领域的普通技术人员而言,根据本发明的教导,在不脱离本发明的原理和精神的情况下凡依本发明申请专利范围所做的均等变化、修改、替换和变型,皆应属本发明的涵盖范围。

Claims (7)

1.一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其特征在于:其包括如下步骤:
S1,通过电梯视频流收集数据,VGG16卷积神经网络提取扶梯行人位姿的特征图;
S2,将VGG16卷积神经网络提取的特征图输入RPN层网络;
S3,RPN层网络中的CLS层对特征图中的检测对象类别进行判别,RPN层网络中的REG层对特征图中检测对象的位置进行判断;所述步骤S3具体操作步骤如下:
S31,采用3*3大小的卷积核再次对特征图进行卷积操作,卷积核数目为512;
S32,采用特征图中每个像素点为中心即锚点,以不同尺寸、不同长宽比例的矩形框选取的方式来选取候选框;
S33,RPN层网络中的CLS层对选取出来的总候选框个数进行判别,得到该矩形框内的是背景还是对象的分数;RPN层网络中的REG层对选取出来的总候选框个数进行回归操作,用来提取出对象在原图中所对应的位置关系;所述步骤S33中的CLS层采用1*1的卷积核对候选框进行全卷积操作,卷积核个数为2*k个,即输出18个深度的特征图图像,将其重新定义为深度为2个深度的图像,得到每个候选框内背景的概率分数和背景的概率分数;所述步骤S33中的REG层以1*1的卷积核对候选框进行卷积操作,卷积核个数为4k个;
S4,RPN层网络将检测对象的类别和位置结果发送至电梯***;
S5,电梯***根据收到类别和位置结果信息获取行人位姿信息,当相关位置存在危险位姿时电梯***紧急制动,当相关位置不存在危险位姿时电梯***正常运行。
2.根据权利要求1所述的一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其特征在于:所述步骤S1中VGG16卷积神经网络提取扶梯行人位姿的特征图具体包括如下步骤:
S11,进行第一次卷积,通过定义3×3大小的卷积核个数为64,分别经过两次卷积操作后原图的维度变为intlen×intlen×64,使图像原大小不变,深度信息变成64,经过一次池化操作后图像维度变为原图intlen×intlen×64,即长宽大小变为原始图像的二分之一;
S12,进行第二次卷积,通过定义3×3大小的卷积核个数为128,进行两次卷积操作后池化后图像大小不变深度变为128,经过一次池化操作后池化图像长宽大小变为原始图像的四分之一;
S13,进行第三、四、五次卷积,通过定义3×3大小的卷积核个数为512,进行三次卷积操作后池化图像大小不变深度变成512,经过一次池化操作后池化图像长宽大小分别变为原始图像的八分之一,十六分之一,三十二分之一。
3.根据权利要求2所述的一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其特征在于:在VGG16神经网络中均采用3x3的卷积核对传入的图像进行特征提取操作,其中定义滑移步长为1,通过遍历的方式让卷积核在原图进行滑移,每次滑移步长为1,公式为:outlen=[Intlen-filterlen+1]/stride,其中Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
4.根据权利要求1所述的一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其特征在于:所述步骤S32指定初始的基本固定尺寸为128x,256px,512px和长宽比例为0.5,1,1.5的矩形框,基本固定尺寸和长宽比例的所有可能组合为9个,矩形框选取中的矩形框的个数按照如下方式计算,基本固定尺寸的个数和长宽比例个数的乘积等于矩形框个数,计算公式为:num=len(anchor_scales)·len(anchor_ratios),其中len(anchor_scales)为基本固定尺寸个数,len(anchor_ratio)为长宽比例尺寸个数。
5.根据权利要求4所述的一种基于Faster R-CNN的扶梯行人位姿目标检测方法,其特征在于:经过所述步骤S1和步骤S3处理过的一幅图片可得到的候选框个数可由特征图的宽度、特征图的长度和单个锚点可生成的矩形框个数的乘积求得,具体公式如下:numc=W×H×K,其中W为特征图的宽度,H为特征图的长度,K为单个锚点可生成的矩形框个数。
6.一种如权利要求1-5任意一项所述的基于Faster R-CNN的扶梯行人位姿目标检测方法的***,其特征在于:其包括:
视频采集转化模块,用于读取获取视频流并将其拆分为帧图像传入到Faster R-CNN深度卷积神经网络中;
特征图提取模块,用于从帧图像中提取特征图,通过卷积和池化操作从帧图像中提取出扶梯行人位姿的特征图;
RPN层网络模块,包括CLS层和REG层,用于对特征图中的检测对象类别进行判别以及对特征图中检测对象的位置进行判断;
电梯运行模块,用于接收RPN层网络模块发送的检测对象的类别和位置结果,根据相关位置是否存在危险位姿以控制电梯紧急制动或是正常运行。
7.根据权利要求6所述的一种基于Faster R-CNN的扶梯行人位姿目标检测***,其特征在于:所述特征图提取模块选用VGG16卷积神经网络。
CN202010971735.4A 2020-09-16 2020-09-16 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及*** Active CN112163477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010971735.4A CN112163477B (zh) 2020-09-16 2020-09-16 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010971735.4A CN112163477B (zh) 2020-09-16 2020-09-16 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***

Publications (2)

Publication Number Publication Date
CN112163477A CN112163477A (zh) 2021-01-01
CN112163477B true CN112163477B (zh) 2023-09-22

Family

ID=73857966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010971735.4A Active CN112163477B (zh) 2020-09-16 2020-09-16 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***

Country Status (1)

Country Link
CN (1) CN112163477B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033330A (zh) * 2021-03-05 2021-06-25 北京工业大学 一种基于轻型卷积神经网络的舌体姿态异常判别方法
CN112967254A (zh) * 2021-03-08 2021-06-15 中国计量大学 基于胸部ct影像肺部疾病识别和检测方法
CN113014191A (zh) * 2021-03-18 2021-06-22 中国电建集团福建省电力勘测设计院有限公司 一种便于拆装的光伏组件及其使用方法
CN113158888A (zh) * 2021-04-19 2021-07-23 广州咔隆安防科技有限公司 一种电梯异常视频识别方法
CN113879931B (zh) * 2021-09-13 2023-04-28 厦门市特种设备检验检测院 一种电梯安全监测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN108491880A (zh) * 2018-03-23 2018-09-04 西安电子科技大学 基于神经网络的物体分类和位姿估计方法
CN108664838A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于改进rpn深度网络的端到端的监控场景行人检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
CN108664838A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于改进rpn深度网络的端到端的监控场景行人检测方法
CN108491880A (zh) * 2018-03-23 2018-09-04 西安电子科技大学 基于神经网络的物体分类和位姿估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Faster R-CNN在工业CT图像缺陷检测中的应用;常海涛等;《万方数据知识服务平台期刊论文库》;第1-11页 *

Also Published As

Publication number Publication date
CN112163477A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163477B (zh) 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***
US11643076B2 (en) Forward collision control method and apparatus, electronic device, program, and medium
CN112200043B (zh) 面向室外施工现场的危险源智能识别***及方法
CN110414400B (zh) 一种施工现场安全帽穿戴自动检测方法及***
CN109506628A (zh) 一种基于深度学习的卡车环境下目标物测距方法
CN104361332B (zh) 一种用于疲劳驾驶检测的人脸眼睛区域定位方法
WO2015025704A1 (ja) 映像処理装置、映像処理方法および映像処理プログラム
US20230017759A1 (en) Safety belt detection method, apparatus, computer device and storage medium
CN114842397B (zh) 一种基于异常检测的实时老人跌倒检测方法
CN104182729B (zh) 基于arm嵌入式平台的行人检测方法
CN111553214B (zh) 一种驾驶员吸烟行为检测方法及***
CN111738336A (zh) 基于多尺度特征融合的图像检测方法
CN102610104B (zh) 一种车载的前方车辆检测方法
CN109948433A (zh) 一种嵌入式人脸跟踪方法及装置
CN111079675A (zh) 基于目标检测与目标跟踪的行驶行为分析方法
CN111783702A (zh) 一种基于图像增强算法和人体关键点定位的高效行人摔倒检测方法
CN116259002A (zh) 一种基于视频的人体危险行为分析方法
CN114972316A (zh) 基于改进YOLOv5的电池壳端面缺陷实时检测方法
CN112101260A (zh) 一种作业人员安全带识别方法、装置、设备和存储介质
CN112464765B (zh) 一种基于单像素特征放大的安全帽检测方法及其应用
CN112163667B (zh) 新型Faster R-CNN网络模型及其训练方法
CN112733722B (zh) 姿态识别方法、装置、***及计算机可读存储介质
CN101950423B (zh) 一种运动方向异常物体检测方法和装置
JP2019211921A (ja) 物体認識システムおよび物体認識方法
TWI749870B (zh) 處理視訊內容分析的裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant