CN110008834A - 一种基于视觉的方向盘干预检测与统计方法 - Google Patents

一种基于视觉的方向盘干预检测与统计方法 Download PDF

Info

Publication number
CN110008834A
CN110008834A CN201910150734.0A CN201910150734A CN110008834A CN 110008834 A CN110008834 A CN 110008834A CN 201910150734 A CN201910150734 A CN 201910150734A CN 110008834 A CN110008834 A CN 110008834A
Authority
CN
China
Prior art keywords
intervention
steering wheel
frame
network structure
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910150734.0A
Other languages
English (en)
Other versions
CN110008834B (zh
Inventor
程球
张雪莲
毛泉涌
文凌艳
周明政
赵云
胡芳芳
王军
谢兰青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETHIK Group Ltd
Original Assignee
CETHIK Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETHIK Group Ltd filed Critical CETHIK Group Ltd
Priority to CN201910150734.0A priority Critical patent/CN110008834B/zh
Publication of CN110008834A publication Critical patent/CN110008834A/zh
Application granted granted Critical
Publication of CN110008834B publication Critical patent/CN110008834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉的方向盘干预检测与统计方法,包括:构建包含方向盘检测和干预属性识别的一体化网络结构,并利用样本图像训练所述一体化网络结构;采用所述一体化网络结构,以待检测的单帧图像作为一体化网络结构的输入,以方向盘作为检测目标,根据一体化网络结构输出的干预属性信息,判断当前的单帧图像上方向盘是否被干预,得到干预判断结果;采用密度统计方法处理预设时间内的所述干预判断结果,得到方向盘被干预的起止时间点以及干预时长。该方法所依赖的硬件设备少,便于实现,且可消除检测过程中的误检和漏检,检测结果的准确性高,且能够对检测结果进行统计以便于更加直观地体现。

Description

一种基于视觉的方向盘干预检测与统计方法
技术领域
本发明属于方向盘干预检测领域,具体涉及一种基于视觉的方向盘干预检测与统计方法。
背景技术
手部检测和手势识别是人机交互和机器人应用的一个重要且具有良好前景的研究问题,其在体育运动领域、安全保卫领域、交通安全驾驶领域都有重要的应用,近年来,无人驾驶比赛中方向盘被干预的检测方法越来越受到关注。
在无人驾驶比赛中,驾驶员对汽车方向盘的干预次数、每次干预持续时间长度是评价无人驾驶***优劣程度的两个重要指标。驾驶员干预方向盘的直接体现是手与方向盘发生触碰,因此方向盘干预检测可以转化为手与方向盘的触碰检测。大多数方向盘触碰检测***,都使用传感器进行检测(如压力传感器),例如授权公告号为CN 105143015 B的专利文献,采用的检测方法为将传感器布置到方向盘上,然后根据传感器产生的不同信号判断驾驶员的手是否触碰到方向盘,这种方向盘触碰检测技术被广泛用于各种高级驾驶员辅助***(ADAS)中。事实上,触碰信号除了通过特殊传感器采集外,还可以通过视频图像来收集,以类似人眼的逻辑来判断是否触碰。使用视觉的方法,我们仅需一部相机,而不必在方向盘上布置各种复杂的传感器,极大简化了方向盘和驾驶室空间设计,并且成本低廉。
发明内容
本发明的目的在于提供一种基于视觉的方向盘干预检测与统计方法,该方法所依赖的硬件设备少,便于实现,且可消除检测过程中的误检和漏检,检测结果的准确性高,且能够对检测结果进行统计以便于更加直观地体现。
为实现上述目的,本发明所采取的技术方案为:
一种基于视觉的方向盘干预检测与统计方法,所述的基于视觉的方向盘干预检测与统计方法,包括:
构建包含方向盘检测和干预属性识别的一体化网络结构,并利用样本图像训练所述一体化网络结构;
采用所述一体化网络结构,以待检测的单帧图像作为一体化网络结构的输入,以方向盘作为检测目标,根据一体化网络结构输出的干预属性信息,判断当前的单帧图像上方向盘是否被干预,得到干预判断结果;
采用密度统计方法处理预设时间内的所述干预判断结果,得到方向盘被干预的起止时间点以及干预时长。
作为优选,所述构建包含方向盘检测和干预属性识别的一体化网络结构,包括:
构建基础网络结构,该基础网络结构包括9个卷积层和5个最大池化层;
在所述基础网络结构的最后一层特征图上的每个候选区域设置若干个候选窗口,每个候选窗口中包含方向盘外切矩形的坐标信息、是否有目标判断信息、目标类别概率信息以及所述干预属性信息,形成一体化网络结构。
作为优选,所述利用样本图像训练所述一体化网络结构,包括:
获取驾驶视频,从所述驾驶视频中每间隔N帧抽取1帧进行保存;
对所保存的图像进行标注得到样本图像,标注内容包括:方向盘外切矩形的坐标、目标类别和方向盘是否被干预;
取样本图像随机划分得到测试集和训练集;
利用训练集中的样本图像训练所述一体化网络结构,直至测试集中的样本图像测试该一体化网络结构达到预设条件。
作为优选,所述的基础网络结构从输入层I开始,依次经过卷积层C1,最大池化层M1,卷积层C2,最大池化层M2,卷积层C3,最大池化层M3,卷积层C4,最大池化层M4,卷积层C5,最大池化层M5,卷积层C6,卷积层C7,卷积层C8,卷积层C9。
作为优选,所述干预属性信息的损失函数计算,包括:li=(yp_i-pi)2;其中,li表示损失函数;yp_i表示干预属性信息的输出值;pi表示真实值;
所述干预属性信息的梯度计算,包括:其中,δ表示梯度;yp_i表示干预属性信息的输出值,pi表示真实值。
作为优选,所述采用密度统计方法处理预设时间内的所述干预判断结果,包括:
设置融合宽度为N帧,在所述干预判断结果中指定一帧ft,统计该帧ft前N帧、后N帧以及包括帧ft在内的总帧数为2N+1,并统计总帧数中处于干预状态的干预帧数为nt,则计算得到2N+1帧范围内的干预密度为dt,且
若dt≥0.5,则当前2N+1帧范围定义为干预状态;若dt<0.5,则当前2N+1帧范围定义为未干预状态。
作为优选,所述得到方向盘被干预的起止时间点以及干预时长,包括:在时间段dt-1至dt+T内:
若dt-1<0.5,且dt≥0.5,则表示dt所对应的时间点为本次干预状态的起始时间点;
若dt+T-1≥0.5,且dt+T<0.5,且dt至dt+T-1之间判断的干预密度均为大于等于0.5,则表示dt+T所对应的时间点为本次干预状态的终止时间点;
且得到本次干预状态的干预时长为T;其中,T表示时间段;dt表示当前2N+1帧范围内的干预密度;dt-1表示相对于dt的前一个2N+1帧范围内的干预密度;dt+T表示相对于dt经过T时长以后的2N+1帧范围内的干预密度;dt+T-1表示相对于dt+T的前一个2N+1帧范围内的干预密度。
作为优选,所述N的取值为5~10。
本发明提供的基于视觉的方向盘干预检测与统计方法,设计了一个目标检测和属性识别任务一体化的端到端深度学习网络,将手和方向盘的检测整合到一个网络中,避免依赖于多个网络或策略方式进行手触碰方向盘的实时检测,简化检测方法,提高检测效率;且将基于时序的视频序列干预密度统计算法应用于方向盘干预检测,消除检测过程中的误检和漏检,估计干预发生的起、止时间点和干预持续时间长度。
附图说明
图1为本发明基于视觉的方向盘干预检测与统计方法的一种实施例框架图;
图2为本发明基于视觉的方向盘干预检测与统计方法的一种实施例流程图;
图3为本发明方向盘干预检测应用场景示意图;
图4为本发明图像标注后的示意图;
图5为本发明一体化网络结构的一种实施例示意图;
图6为本发明单帧图像中方向盘干预检测效果图;
图7为本发明理想状态下干预检测输出的干预时序图;
图8为本发明实际状态下干预检测输出的干预时序图;
图9为本发明干预密度计算示意图;
图10为本发明图8中的干预时序图经干预密度计算后得到的干预密度图;
图11为本发明的另一干预密度图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
如图1所示,本实施例提供了一种基于视觉的方向盘干预检测与统计方法,该方法主要包含两个阶段:
第一阶段是基于深度学习的方向盘干预检测,以单帧图像为输入、以方向盘为检测目标,使用目标检测算法检测出包含方向盘的目标框,复用该目标框在末端特征图上对应的特征向量,判断该帧图像上方向盘是否被干预;
第二阶段是基于图像序列的干预密度统计,使用密度统计算法消除第一阶段中误检和漏检带来的干扰,从而得到每次干预的起止时间点和干预时长。
如图2所示,本实施例的基于视觉的方向盘干预检测与统计方法主要分为以下4个步骤。
S1、在驾驶室内搭建监控***,收集应用场景视频图像。
在获取驾驶视频中,应用场景视频图像主要由两部分组成:一是无人驾驶比赛过程中真实的驾驶员监控视频;二是使用多辆私家车模仿无人驾驶比赛过程的驾驶员监控视频。样本数据集之所以包含两部分,是因为真实的无人驾驶比赛监控视频资源有限,监控视角、车内环境过分单一,并且大量时段方向盘都处于无干预状态,导致严重样本不均衡。私家车模拟的监控视频主要弥补真实比赛场景的不足,增加样本多样性。
首先,调整多个监控视角、使用多辆车增加角度和环境多样性;其次,私家车驾驶时方向盘大部分时间处于被干预状态(小部分时间例如停车状态时方向盘未被干预),以此减少样本不均衡的问题;再次,模拟过程中驾驶员特意模仿各种驾驶姿势和驾驶习惯,如双手握盘、单手握盘、手掌搓盘、手指钩盘等等,以此来增加干预状态样本的多样性;最后,模拟各种外界自然环境,包括通过隧道时的昏暗光照、晴天时的强曝光等等。应用场景示例如图3所示。
利用丰富的场景获取全面的驾驶视频,以便于后期的测试和训练。
S2、人工标注图像,每张图像标注内容包括:方向盘外切矩形的坐标(例如矩形左上、右下端角处的坐标)、方向盘是否被手触碰(例如0表示被干预,1表示未被干预)
将视频逐帧拆解,并每隔N帧抽取1帧保存为样本,本实施例中取N=25,并进一步除去其中因模糊、黑暗、过渡曝光等原因导致的无效图片,对剩余图片进行标注。
正常情况下,每张图片中最多只包含一个方向盘,标注的内容为方向盘目标外切矩形的左上、右下端角处的坐标(xmin,ymin,xmax,ymax)、目标类别c和方向盘是否被干预标志i。由于仅有方向盘一类目标,故c始终为0(类别id从0开始);干预标志位中,使用0表示被干预,1表示未被干预。
训练时,将目标框坐标转换为中心点坐标和宽高的形式(x,y,w,h),并分别除以原图宽高以归一化,最终形成的标签形式为[c,x,y,w,h,i],图片最终标注完成后的示意图如图4所示,一般情况下,标签为直接以彩色标注在图片上,本实施例中为了清晰展示标签,故将标签与图片分离,使标签标注在图片上方。
本实施例中最终形成有效数据集包含45798张图片,其中随机挑选5798张作为测试集,剩余40000张作为训练集。
S3、构建包含方向盘检测和干预属性识别的一体化网络结构,并利用样本图像训练所述一体化网络结构,得到能够较准确判断每帧图像中方向盘是否被手触碰的网络结构。
这一阶段的主要目的是判断单帧图像中方向盘是否被干预。从技术层面来看,实质为一个二分类问题,目前基于深度学习的图像分类问题已取得很高的准确率,但分类网络要求输入图片中主体目标占据整幅图像的大部分像素,因为分类网络的原理是通过若干次卷积、池化操作后提取整幅图像的特征进行分类,如果主体目标仅占据整幅图像很少一部分像素,其特征很容易在提取过程中丢失或者被背景淹没,难以得到理想的分类准确率。
与通常分类任务不同的是,本实施例的分类目标不是某一物体而是两种物体(手和方向盘)的三维空间位置关系,这种空间位置关系在二维图像上的呈现形式多样,描述这种位置关系的有用像素占比极少,细微之处很容易产生混淆。
鉴于应用场景的特殊性,本实施例不采用标准的分类网络,而是结合目标检测的思想,将干预关系作为每个目标的一个属性来检测,并与目标框位置坐标、目标置信度、目标类别等信息同时输出。这样设计有两个好处,其一是目标检测任务更注重于图像中重要目标的特征提取,干预关系的判断也仅依据目标框指示的局部特征而非整幅图像,从而可以减少背景干扰,提高检测准确率;其二是将干预关系作为每个目标的一个属性,而不是将局部特征扣取后再级联分类网络判断,这样充分实现特征复用,避免了复杂网络的设计和训练,同时使检测过程更具实时性。
在检测中关键目标有2类,分别为手和方向盘。检测是否干预的直观思路是分别检测出手和方向盘的位置坐标,然后根据位置坐标判断是否存在干预,这时检测阶段可以存粹简化为手和方向盘的常规目标检测任务,然而由二维坐标推断三维空间位置关系是极其困难的,因此方案难以实施。另一的思路是,直接检测手是否干预方向盘,或方向盘是否被手干预,这里不使用人工规则去推理干预关系,而将其交给深度神经网络自动学习并推理。本实施例采用的是第二种思路,并进一步简化为只检测方向盘,将其是否被干预作为一个属性随目标检测信息一同输出。
S31、如图5所示,构建包含方向盘检测和干预属性识别的一体化网络结构,包括:
构建基础网络结构,该基础网络结构包括9个卷积层和5个最大池化层。具体地,基础网络结构从输入层I开始,依次经过卷积层C1,最大池化层M1,卷积层C2,最大池化层M2,卷积层C3,最大池化层M3,卷积层C4,最大池化层M4,卷积层C5,最大池化层M5,卷积层C6,卷积层C7,卷积层C8,卷积层C9。
卷积层的网络参数采用[k_size,k_size,channels,stride]的形式表示,其中k_size为卷积核大小,channels为输出特征通道数,stride为步长;池化层的网络参数采用[k_size,k_size,stride]表示,其中k_size为池化核大小,stride为步长;各层的输入参数采用[resolution,resolution,channel],其中resolution为图像的分辨率,channel为通道数。具体地,基础网络结构如表1所示。
表1基础网络结构
网络层类型 网络参数 输入参数
卷积层C1 [3,3,16,1] [416,416,3]
最大池化层M1 [2,2,2] [416,416,3]
卷积层C2 [3,3,32,1] [208,208,16]
最大池化层M2 [2,2,2] [208,208,16]
卷积层C3 [3,3,64,1] [104,104,32]
最大池化层M3 [2,2,2] [104,104,32]
卷积层C4 [3,3,128,1] [52,52,64]
最大池化层M4 [2,2,2] [52,52,64]
卷积层C5 [3,3,256,1] [26,26,128]
最大池化层M5 [2,2,2] [26,26,128]
卷积层C6 [3,3,512,1] [13,13,256]
卷积层C7 [3,3,1024,1] [13,13,256]
卷积层C8 [3,3,1024,1] [13,13,256]
卷积层C9 [1,1,35,1] [13,13,256]
在标准的tiny-yolov2目标检测算法中,卷积的最后一层特征图上每个anchor设置了5个anchor box,每个anchor box包含4个目标框坐标x,y,w,h信息、1个是否有目标判定信息P_o、每种类别的可能性概率信息P_c(由于这里仅有方向盘一类目标,故仅有1个信息),因此标准的目标检测最后一层特征图的特征通道数为5*(4+1+1)=30。
然而,与标准的目标检测算法不同的是,本实施例的方向盘干预检测多了一个干预属性信息P_i。本实施例在所述基础网络结构的最后一层特征图上的每个候选区域(anchor)设置5个候选窗口(anchor box),每个候选窗口中包含方向盘外切矩形的坐标信息(x,y,w,h信息)、是否有目标判断信息(P_o)、目标类别概率信息(P_c)以及所述干预属性信息(P_i),形成一体化网络结构。
进一步,将干预属性信息P_i置于目标类别概率信息P_c之后,用于描述该框中目标的属性,故本实施例的一体化网络结构的最后一层卷积层C9输出的参数为[13,13,35],即该网络最后一层特征图的特征通道数为5*(4+1+1+1)=35。
如此一来,便形成了方向盘干预检测和干预属性识别一体化网络结构,采用一体化网络结构,以待检测的单帧图像作为一体化网络结构的输入,以方向盘作为检测目标,根据一体化网络结构输出的干预属性信息,判断当前的单帧图像上方向盘是否被干预,即可得到干预判断结果。
由于本实施例的属性仅考虑了方向盘是否被干预这一项,因此该网络结构与标准目标检测网络结构仅多了一个干预属性位,事实上,属性位是可以扩展的,甚至可以根据需求扩充到数十、数百位。通常的属性识别***一般采用目标检测网络和分类网络级联的方式,首先使用目标检测算法检测出图像中兴趣目标的坐标,然后根据该坐标扣取原图上包含该目标的局部区域,最后将该局部区域输入到一个分类网络中,输出目标属性。
而本实施例提出的目标检测和属性识别一体化网络结构,将检测任务和属性识别任务揉合到一个网络中,充分复用了检测网络特征信息,避免了级联网络耗时严重、耗内存严重等问题。本实施例提出的网络结构依然保持端到端训练的特性,减少了级联网络分步训练的麻烦。本实施例设计的目标检测和属性识别一体化网络以应用于方向盘干预检测为例进行详述,但这一思想可以扩展到其他智能视觉的应用当中,比如目标跟踪、目标定位等等。
S32、损失函数设计。
标准的目标检测输出(x,y,w,h,P_o,P_c)的损失函数设计和梯度计算方式与现有技术中一致,例如yolov2论文中所描述,在此不再进行赘述。下面通过具体公式进一步说明本实施例的一体化网络结构中添加的干预属性信息输出P_i的损失函数设计和计算。
从样本标注形式可以看到,P_i的输出事实上在进行一个简单的二分类,使用线性回归来进行分类,使用均方误差来描述其损失,损失函数计算,包括:损失函数li=(yp_i-pi)2;其中,li表示损失函数;yp_i表示干预属性信息的输出值,pi表示真实值,为干预属性信息的真实值。
在梯度计算时,为了缓和干预状态和未干预状态样本不均衡问题,将较少样本产生的梯度值乘以一个系数,以增大其对网络权值修正的影响力。由于干预状态样本较少,如果干预标志位的标注信息为yp_i=0,即该张图片中方向盘处于被干预状态,我们将计算的梯度乘以1.1,则梯度计算设计包括:其中,δ表示梯度;yp_i表示干预属性信息的输出值,pi表示真实值,为干预属性信息的真实值。
S33、一体化网络结构的训练与测试。
训练过程中,所有图片被reisize到416x416分辨率输入到网络中,总迭代次数max_batches=45000,每个batch大小为64,权值衰减因子λ=0.0005,反向传播使用动量法,动量因子v=0.9。学习率衰减方式为分段常数衰减,初始学习率为learning_rate=0.0001,在迭代100次后提升到0.001,此后每迭代10000次,学习率乘上一个衰减因子0.1。
本实施例中中训练集大小为40000,测试集大小为5798。经过40000次训练后,在测试集上测得方向盘目标检测平均精确度(Average Precision,AP)为99%,干预检测准确率90%,在GTX1070上检测速度是6ms/f。检测效果示意图如图6所示,其中normal表示未干预,即方向盘未被手触碰,汽车处于正常自动驾驶状态;unnormal表示干预,即方向盘被手触碰,汽车处于人工驾驶状态。
根据干预属性信息的损失函数计算判断当前是否处于干预状态:当干预属性信息的输出值yp_i>0.5即表示未干预,且输出值越接近于1表示未干预置信度越高;当干预属性信息的输出值yp_i≤0.5即表示干预,且输出值越接近于0表示干预的置信度越高。
S4、采用密度统计方法处理预设时间内的所述干预判断结果,得到方向盘被干预的起止时间点以及干预时长。
在成功识别从驾驶视频中获取的每一帧图像后,为了进一步提高识别的准确性,同时为了直观地呈现视频中是否具有干预状态,本实施例进一步在时间序列上找到方向盘被干预的起始时间点、终止时间点,以此计算每次干预的持续时长并统计整段视频的干预次数。
方向盘是否被干预的理想识别结果如图7所示,干预检测准确率为100%,这时时序分析就很简单,只需判断干预状态是否发生就能轻易统计到干预起始点和干预时长。然而,实际中的干预检测呈现状态往往是如图8所示,由于方向盘检测和干预检测总是存在误差(漏检、误检),即便准确率达到99%,平均100帧也会产生一次误检,推算到时间序列上表现为平均每4s就会产生一次误检。显然直接依赖干预检测网络输出的结果,难以正确解析干预起止时间点和干预时长。
为了解决上述问题,本实施例中采用密度统计方法处理预设时间内的所述干预判断结果,如图9所示,具体包括:
设置融合宽度为N帧,在干预判断结果中指定一帧ft,统计该帧ft前N帧、后N帧以及包括帧ft在内的总帧数为2N+1,并统计总帧数中处于干预状态的干预帧数为nt,则计算得到2N+1帧范围内的干预密度为dt,且
若dt≥0.5,则当前2N+1帧范围定义为干预状态;若dt<0.5,则当前2N+1帧范围定义为未干预状态。
如图10所示,为针对图8进行干预密度计算以后得到的干预密度图,可以看到检测网络输出的干预时序虽然存在大量漏检和误检,但经过干预密度计算后,仍能准确统计干预次数。图中所呈现的干预状态和未干预状态分界明显,由该干预密度图即可得到较为清晰准确的方向盘是否被干预的情况。
当以上述方式判断处各2N+1帧范围内的是否干预状态之后,即可得到方向盘被干预的起止时间点以及干预时长,如图11所示,具体包括:在时间段dt-1至dt+T内:
若dt-1<0.5,且dt≥0.5,则表示dt所对应的时间点为本次干预状态的起始时间点;
若dt+T-1≥0.5,且dt+T<0.5,且dt至dt+T-1之间判断的干预密度均为大于等于0.5,则表示dt+T所对应的时间点为本次干预状态的终止时间点;
且得到本次干预状态的干预时长为T;其中,T表示时间段且T>0;dt表示当前2N+1帧范围内的干预密度;dt-1表示相对于dt的前一个2N+1帧范围内的干预密度;dt+T表示相对于dt经过T时长以后的2N+1帧范围内的干预密度;dt+T-1表示相对于dt+T的前一个2N+1帧范围内的干预密度。
需注意的是,由于干预密度统计需时序前后N帧干预检测结果,因此干预的起止时间点都会比真实点延迟N帧的。通常N取值在5~10之间,也就是0.2s到0.4s之间,该延迟在本实施例的统计中是可以接受的。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于视觉的方向盘干预检测与统计方法,其特征在于,所述的基于视觉的方向盘干预检测与统计方法,包括:
构建包含方向盘检测和干预属性识别的一体化网络结构,并利用样本图像训练所述一体化网络结构;
采用所述一体化网络结构,以待检测的单帧图像作为一体化网络结构的输入,以方向盘作为检测目标,根据一体化网络结构输出的干预属性信息,判断当前的单帧图像上方向盘是否被干预,得到干预判断结果;
采用密度统计方法处理预设时间内的所述干预判断结果,得到方向盘被干预的起止时间点以及干预时长。
2.如权利要求1所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述构建包含方向盘检测和干预属性识别的一体化网络结构,包括:
构建基础网络结构,该基础网络结构包括9个卷积层和5个最大池化层;
在所述基础网络结构的最后一层特征图上的每个候选区域设置若干个候选窗口,每个候选窗口中包含方向盘外切矩形的坐标信息、是否有目标判断信息、目标类别概率信息以及所述干预属性信息,形成一体化网络结构。
3.如权利要求2所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述利用样本图像训练所述一体化网络结构,包括:
获取驾驶视频,从所述驾驶视频中每间隔N帧抽取1帧进行保存;
对所保存的图像进行标注得到样本图像,标注内容包括:方向盘外切矩形的坐标、目标类别和方向盘是否被干预;
取样本图像随机划分得到测试集和训练集;
利用训练集中的样本图像训练所述一体化网络结构,直至测试集中的样本图像测试该一体化网络结构达到预设条件。
4.如权利要求2所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述的基础网络结构从输入层I开始,依次经过卷积层C1,最大池化层M1,卷积层C2,最大池化层M2,卷积层C3,最大池化层M3,卷积层C4,最大池化层M4,卷积层C5,最大池化层M5,卷积层C6,卷积层C7,卷积层C8,卷积层C9。
5.如权利要求1所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述干预属性信息的损失函数计算,包括:li=(yp_i-pi)2;其中,li表示损失函数;yp_i表示干预属性信息的输出值;pi表示真实值;
所述干预属性信息的梯度计算,包括:其中,δ表示梯度;yp_i表示干预属性信息的输出值,pi表示真实值。
6.如权利要求1所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述采用密度统计方法处理预设时间内的所述干预判断结果,包括:
设置融合宽度为N帧,在所述干预判断结果中指定一帧ft,统计该帧ft前N帧、后N帧以及包括帧ft在内的总帧数为2N+1,并统计总帧数中处于干预状态的干预帧数为nt,则计算得到2N+1帧范围内的干预密度为dt,且
若dt≥0.5,则当前2N+1帧范围定义为干预状态;若dt<0.5,则当前2N+1帧范围定义为未干预状态。
7.如权利要求6所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述得到方向盘被干预的起止时间点以及干预时长,包括:在时间段dt-1至dt+T内:
若dt-1<0.5,且dt≥0.5,则表示dt所对应的时间点为本次干预状态的起始时间点;
若dt+T-1≥0.5,且dt+T<0.5,且dt至dt+T-1之间判断的干预密度均为大于等于0.5,则表示dt+T所对应的时间点为本次干预状态的终止时间点;
且得到本次干预状态的干预时长为T;其中,T表示时间段;dt表示当前2N+1帧范围内的干预密度;dt-1表示相对于dt的前一个2N+1帧范围内的干预密度;dt+T表示相对于dt经过T时长以后的2N+1帧范围内的干预密度;dt+T-1表示相对于dt+T的前一个2N+1帧范围内的干预密度。
8.如权利要求7所述的基于视觉的方向盘干预检测与统计方法,其特征在于,所述N的取值为5~10。
CN201910150734.0A 2019-02-28 2019-02-28 一种基于视觉的方向盘干预检测与统计方法 Active CN110008834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910150734.0A CN110008834B (zh) 2019-02-28 2019-02-28 一种基于视觉的方向盘干预检测与统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910150734.0A CN110008834B (zh) 2019-02-28 2019-02-28 一种基于视觉的方向盘干预检测与统计方法

Publications (2)

Publication Number Publication Date
CN110008834A true CN110008834A (zh) 2019-07-12
CN110008834B CN110008834B (zh) 2021-04-06

Family

ID=67166379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910150734.0A Active CN110008834B (zh) 2019-02-28 2019-02-28 一种基于视觉的方向盘干预检测与统计方法

Country Status (1)

Country Link
CN (1) CN110008834B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310841A (zh) * 2020-02-24 2020-06-19 中南大学湘雅医院 医学图像分类方法、装置、设备、计算机设备和存储介质
CN114360321A (zh) * 2021-11-09 2022-04-15 易显智能科技有限责任公司 机动车驾驶员手部动作感知***、培训***和培训方法
CN118107605A (zh) * 2024-04-30 2024-05-31 润芯微科技(江苏)有限公司 一种基于方向盘手势交互的车辆控制方法及***

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102263937A (zh) * 2011-07-26 2011-11-30 华南理工大学 基于视频检测的驾驶员驾驶行为监控装置及监控方法
CN102289660A (zh) * 2011-07-26 2011-12-21 华南理工大学 一种基于手部姿态跟踪的违规驾驶行为检测方法
CN102324016A (zh) * 2011-05-27 2012-01-18 郝红卫 一种高密度人群流量统计方法
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及***
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别***
US20140292692A1 (en) * 2013-03-27 2014-10-02 Honda Motor Co., Ltd. Input apparatus, input method, and input program
CN104092988A (zh) * 2014-07-10 2014-10-08 深圳市中控生物识别技术有限公司 一种公共场合客流管理方法、装置及***
CN104207791A (zh) * 2014-08-26 2014-12-17 江南大学 一种疲劳驾驶检测方法
CN104228845A (zh) * 2013-06-13 2014-12-24 福特全球技术公司 使用观测器的手/方向盘接触的状态检测
CN105488957A (zh) * 2015-12-15 2016-04-13 小米科技有限责任公司 疲劳驾驶检测方法及装置
CN105513354A (zh) * 2015-12-22 2016-04-20 电子科技大学 基于视频的城市道路交通拥堵检测***
CN106372584A (zh) * 2016-08-26 2017-02-01 浙江银江研究院有限公司 一种视频图像马赛克检测方法
CN106845344A (zh) * 2016-12-15 2017-06-13 重庆凯泽科技股份有限公司 人群统计方法及装置
CN107274678A (zh) * 2017-08-14 2017-10-20 河北工业大学 一种基于Kinect的夜间车流量统计及车型识别方法
CN107479044A (zh) * 2017-08-23 2017-12-15 西安电子工程研究所 基于点迹密度实时统计自适应航迹起始方法
CN107944341A (zh) * 2017-10-27 2018-04-20 荆门程远电子科技有限公司 基于交通监控图像的司机未系安全带自动检测***
CN108399388A (zh) * 2018-02-28 2018-08-14 福州大学 一种中高密度人群数量统计方法
CN108647617A (zh) * 2018-05-02 2018-10-12 深圳市唯特视科技有限公司 一种基于卷积神经网络的驾驶员手部定位和抓握分析方法
CN109151501A (zh) * 2018-10-09 2019-01-04 北京周同科技有限公司 一种视频关键帧提取方法、装置、终端设备及存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及***
CN102324016A (zh) * 2011-05-27 2012-01-18 郝红卫 一种高密度人群流量统计方法
CN102263937A (zh) * 2011-07-26 2011-11-30 华南理工大学 基于视频检测的驾驶员驾驶行为监控装置及监控方法
CN102289660A (zh) * 2011-07-26 2011-12-21 华南理工大学 一种基于手部姿态跟踪的违规驾驶行为检测方法
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别***
US20140292692A1 (en) * 2013-03-27 2014-10-02 Honda Motor Co., Ltd. Input apparatus, input method, and input program
CN104228845A (zh) * 2013-06-13 2014-12-24 福特全球技术公司 使用观测器的手/方向盘接触的状态检测
CN104092988A (zh) * 2014-07-10 2014-10-08 深圳市中控生物识别技术有限公司 一种公共场合客流管理方法、装置及***
CN104207791A (zh) * 2014-08-26 2014-12-17 江南大学 一种疲劳驾驶检测方法
CN105488957A (zh) * 2015-12-15 2016-04-13 小米科技有限责任公司 疲劳驾驶检测方法及装置
CN105513354A (zh) * 2015-12-22 2016-04-20 电子科技大学 基于视频的城市道路交通拥堵检测***
CN106372584A (zh) * 2016-08-26 2017-02-01 浙江银江研究院有限公司 一种视频图像马赛克检测方法
CN106845344A (zh) * 2016-12-15 2017-06-13 重庆凯泽科技股份有限公司 人群统计方法及装置
CN107274678A (zh) * 2017-08-14 2017-10-20 河北工业大学 一种基于Kinect的夜间车流量统计及车型识别方法
CN107479044A (zh) * 2017-08-23 2017-12-15 西安电子工程研究所 基于点迹密度实时统计自适应航迹起始方法
CN107944341A (zh) * 2017-10-27 2018-04-20 荆门程远电子科技有限公司 基于交通监控图像的司机未系安全带自动检测***
CN108399388A (zh) * 2018-02-28 2018-08-14 福州大学 一种中高密度人群数量统计方法
CN108647617A (zh) * 2018-05-02 2018-10-12 深圳市唯特视科技有限公司 一种基于卷积神经网络的驾驶员手部定位和抓握分析方法
CN109151501A (zh) * 2018-10-09 2019-01-04 北京周同科技有限公司 一种视频关键帧提取方法、装置、终端设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310841A (zh) * 2020-02-24 2020-06-19 中南大学湘雅医院 医学图像分类方法、装置、设备、计算机设备和存储介质
CN111310841B (zh) * 2020-02-24 2023-06-20 中南大学湘雅医院 医学图像分类方法、装置、设备、计算机设备和存储介质
CN114360321A (zh) * 2021-11-09 2022-04-15 易显智能科技有限责任公司 机动车驾驶员手部动作感知***、培训***和培训方法
CN118107605A (zh) * 2024-04-30 2024-05-31 润芯微科技(江苏)有限公司 一种基于方向盘手势交互的车辆控制方法及***

Also Published As

Publication number Publication date
CN110008834B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN105512720B (zh) 一种公交车辆客流统计方法和***
CN109447033A (zh) 基于yolo的车辆前方障碍物检测方法
CN109508715A (zh) 一种基于深度学习的车牌定位和识别方法
CN103886308B (zh) 一种使用聚合通道特征和软级联分类器的行人检测方法
CN110097109A (zh) 一种基于深度学习的道路环境障碍物检测***及方法
CN105335966B (zh) 基于局域同质性指标的多尺度遥感影像分割方法
CN110018524A (zh) 一种基于视觉-属性的x射线安检违禁品识别方法
CN109800629A (zh) 一种基于卷积神经网络的遥感图像目标检测方法
CN104123549B (zh) 一种用于疲劳驾驶实时监测的眼睛定位方法
CN109033950A (zh) 基于多特征融合级联深度模型的车辆违停检测方法
CN106682586A (zh) 一种复杂光照条件下基于视觉的实时车道线检测的方法
CN106203274A (zh) 一种视频监控中行人实时检测***及方法
CN103049751A (zh) 一种改进的加权区域匹配高空视频行人识别方法
CN106355602A (zh) 一种多目标定位跟踪视频监控方法
CN109766936A (zh) 基于信息传递和注意力机制的图像变化检测方法
CN111553201A (zh) 一种基于YOLOv3优化算法的交通灯检测方法
CN109190444A (zh) 一种基于视频的收费车道车辆特征识别***的实现方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN110009648A (zh) 基于深浅特征融合卷积神经网络的路侧图像车辆分割方法
CN106023257A (zh) 一种基于旋翼无人机平台的目标跟踪方法
CN106128121A (zh) 基于局部特征分析的车辆排队长度快速检测算法
CN106127812A (zh) 一种基于视频监控的客运站非出入口区域的客流统计方法
CN109948690A (zh) 一种基于深度学习和结构信息的高铁场景感知方法
CN106373146A (zh) 一种基于模糊学习的目标跟踪方法
CN106778540A (zh) 停车检测准确的基于双层背景的停车事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant