CN114051116A

CN114051116A - 一种驾考车辆的视频监控方法、装置以及***

Info

Publication number: CN114051116A
Application number: CN202111001750.7A
Authority: CN
Inventors: 姜英豪; 朱星
Original assignee: Wuhan Future Phantom Technology Co Ltd
Current assignee: Wuhan Future Phantom Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2022-02-15

Abstract

本申请提供了一种驾考车辆的视频监控方法、装置以及***，用于在驾考场景下，对监控视频进行数据加工，进而提高监控视频在应用上的便利性。本申请提供的一种驾考车辆的视频监控方法，包括：视频监控***通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频；视频监控***调用图像识别模型，并基于图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；视频监控***确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

Description

一种驾考车辆的视频监控方法、装置以及***

技术领域

本申请涉及驾考领域，具体涉及一种驾考车辆的视频监控方法、装置以及***。

背景技术

随着生活水平的不断提高，当前国内汽车持有量仍保持上升的趋势，在该背景下，通过机动车驾驶培训获得驾照的人数也是不断的增加。

在驾考场景中，随着规范化的需求，驾考车辆上配置摄像头，为涉及的场景回放以及安全考虑提供更为直接的监控视频，已成为常态，促进驾考场景安全、可靠地运行。

而在现有的相关技术中，发明人发现，后期在调用监控视频进行相关的处理时，存在文件查找繁琐的问题，也就是说，存在应用不便的问题。

发明内容

本申请提供了一种驾考车辆的视频监控方法、装置以及***，用于在驾考场景下，对监控视频进行数据加工，进而提高监控视频在应用上的便利性。

第一方面，本申请提供了一种驾考车辆的视频监控方法，方法包括：

视频监控***通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频；

视频监控***调用图像识别模型，并基于图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

视频监控***确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

结合本申请第一方面，在本申请第一方面第一种可能的实现方式中，人体动作识别结果包括手握方向盘动作识别结果、开门动作识别结果、喝水动作识别结果、抽烟动作识别结果、手机通话动作识别结果、面部姿态识别结果以及面部表情动作识别结果中的至少一种。

结合本申请第一方面，在本申请第一方面第二种可能的实现方式中，当当前所处驾考场景为驾考练习场景时，反应策略包括基于语音输出的提醒策略，提醒策略用于提醒驾考人员不规范的人体动作；

或者，反应策略包括基于语音输出的纠正策略，纠正策略用于提醒驾考人员符合规范的人体动作。

结合本申请第一方面，在本申请第一方面第三种可能的实现方式中，当当前所处驾考场景为驾考考试场景时，反应策略包括将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

结合本申请第一方面第三种可能的实现方式，在本申请第一方面第四种可能的实现方式中，反应策略具体包括将人体动作识别结果上传至第一服务器，将监控视频上传至第二服务器，分开进行数据存证。

结合本申请第一方面第三种可能的实现方式，在本申请第一方面第五种可能的实现方式中，反应策略具体包括将人体动作识别结果转化为元数据，将元数据写入监控视频的附加增强信息(Supplemental enhancement information， SEI)帧的预设字段中，并将监控视频上传至服务器，进行数据存证。

结合本申请第一方面第三种可能的实现方式，在本申请第一方面第六种可能的实现方式中，服务器具体为区块链平台中的区块链节点，反应策略具体包括以数据上链的方式将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

第二方面，本申请提供了一种驾考车辆的视频监控装置，装置包括：

采集单元，用于通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频；

识别单元，用于调用图像识别模型，并基于图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

执行单元，用于确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

结合本申请第二方面，在本申请第二方面第一种可能的实现方式中，人体动作识别结果包括手握方向盘动作识别结果、开门动作识别结果、喝水动作识别结果、抽烟动作识别结果、手机通话动作识别结果、面部姿态识别结果以及面部表情动作识别结果中的至少一种。

结合本申请第二方面，在本申请第二方面第二种可能的实现方式中，当当前所处驾考场景为驾考练习场景时，反应策略包括基于语音输出的提醒策略，提醒策略用于提醒驾考人员不规范的人体动作；

结合本申请第二方面，在本申请第二方面第三种可能的实现方式中，当当前所处驾考场景为驾考考试场景时，反应策略包括将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

结合本申请第二方面第三种可能的实现方式，在本申请第二方面第四种可能的实现方式中，反应策略具体包括将人体动作识别结果上传至第一服务器，将监控视频上传至第二服务器，分开进行数据存证。

结合本申请第二方面第三种可能的实现方式，在本申请第二方面第五种可能的实现方式中，反应策略具体包括将人体动作识别结果转化为元数据，将元数据写入监控视频的SEI帧的预设字段中，并将监控视频上传至服务器，进行数据存证。

结合本申请第二方面第三种可能的实现方式，在本申请第二方面第六种可能的实现方式中，服务器具体为区块链平台中的区块链节点，反应策略具体包括以数据上链的方式将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

第三方面，本申请提供了一种驾考车辆的视频监控***，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

在驾考场景下，本申请视频监控***通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频，再调用图像识别模型，并图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，此时可确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈，在该过程中，相比于现有技术中，本申请针对监控视频中的人体动作进行针对性的反应，由此可根据监控视频预先配置的应用需求，完成更为智能化的应用，进而提高监控视频在应用上的便利性，避免后续还需查找并调用存储的监控视频存在繁琐的问题，提高了使用效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请驾考车辆的视频监控方法的一种流程示意图；

图2为本申请驾考车辆的视频监控装置的一种结构示意图；

图3为本申请驾考车辆的视频监控***的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的驾考车辆的视频监控方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的驾考车辆的视频监控方法、装置以及计算机可读存储介质，可应用于驾考车辆的视频监控***，用于在驾考场景下，对监控视频进行数据加工，进而提高监控视频在应用上的便利性。

本申请提及的驾考车辆的视频监控方法，其执行主体可以为驾考车辆的视频监控装置，或者集成了该驾考车辆的视频监控装置的车载终端、驾考车辆等不同***形式的视频监控***。其中，驾考车辆的视频监控装置可以采用硬件或者软件的方式实现。

下面，开始介绍本申请提供的驾考车辆的视频监控方法。

首先，参阅图1，图1示出了本申请驾考车辆的视频监控方法的一种流程示意图，本申请提供的驾考车辆的视频监控方法，具体可包括如下步骤：

步骤S101，视频监控***通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频；

可以理解，在实际应用中，视频监控***一般是直接配置在驾考场地中的驾考车辆上。

该***，可以为驾考车辆原有的***，也可以针对本申请所额外配置的***，可调用相关的应用程序以执行本申请提供的驾考车辆的视频监控方法即可，其既可以为软件层面上的***，也可以是硬件层面上的***，具体随实际场景调整。

当然，视频监控***也可能是驾考车辆以外的***，例如驾考场地的服务器、物理主机甚至用户设备(User Equipment，UE)，该UE可以为台式电脑、笔记本电脑、电脑一体机、个人数字助理(Personal Digital Assitance，PDA) 等不同类型的终端设备。

由此可见，视频监控***可根据实际应用场景具有不同的设备形式，具体在此不做限定，可获取监控视频并执行本申请相应的数据加工即可。

而配置在驾考车辆上的摄像头，指的是针对驾考场景所部署的摄像头，用于对驾考人员进行视频采集，供后续场景回放、安全考虑等回放需求的使用，其可以包含于视频监控***中，也可以***外的设备，***可调用其采集的视频即可。

其中，摄像头拍摄的监控视频，其视角一般是面向驾驶位置的，可以理解，驾考人员大部分时间是坐在驾驶位置，当然，也可存在开门、关门、换位置等空间变化的可能，因此，监控视频即使是驾考车辆的驾驶位置采集到的，也并不一定只包含驾驶位置的内容，也可包含驾驶位置以外，例如车门、旁边车座、甚至后面车座等空间位置的内容。

此外，由于摄像头本身的视野也是可以调整的，也因此，摄像头拍摄的监控视频，往往包含了驾驶位置以及其他空间位置的内容。

步骤S102，视频监控***调用图像识别模型，并基于图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

可以理解，针对于监控视频的图像处理，在本申请中，由预先训练得到的图像识别模型执行，该模型可以理解为针对人体动作的人体动作识别模型。

该图像识别模型，可以为单一的模型，也可以包含不同的子模型，根据实际应用需求调整即可。

在模型的训练过程中，一般由工作人员配置训练集，该训练集为标注有对应人体动作识别结果的不同视频，再依次将不同视频输入模型，或者将视频解析为不同图像后依次输入模型，再由模型对输入的视频或者图像进行图像识别处理，识别包含的人体动作，实现模型的正向传播；再根据模型输出的人体动作识别结果计算损失函数，并根据损失函数计算结果优化模型参数，实现模型的反向传播，经过多轮的训练，达到训练时长、训练此时、识别精度等预设的训练要求时，则可完成模型的训练。

该图像识别模型，具体可以为ResNet、YoloV5s、MobileNetV2、ShuffleNet 等不同类型的神经网络模型。

步骤S103，视频监控***确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

在得到模型输出的人体动作识别结果后，视频监控***在存储监控视频的同时，还可根据其人体动作识别结果，执行相应的反应策略，完成当前所处驾考场景的反馈。

可以理解，该反应策略所实现的反馈，一般可理解为对现有技术中监控视频的后期应用的智能化体现，此外，该反应策略所实现的反馈，还可以理解为本申请对现有的驾考场景所作的改善、优化，或者说进一步的功能挖掘，以此实现更佳的驾考体验以及驾考服务。

举例而言，本申请所涉及的人体动作，具体可以包括手握方向盘动作、开门动作、喝水动作、抽烟动作、手机通话动作、面部姿态以及面部表情动作中的至少一种，对应的，模型输出的人体动作识别结果，具体可包括手握方向盘动作识别结果、开门动作识别结果、喝水动作识别结果、抽烟动作识别结果、手机通话识别结果、面部姿态识别结果以及面部表情识别结果中的至少一种。

对应的，配置在驾考车辆上的摄像头，在实际应用中可采用简单的单目摄像头，例如，可安装单目摄像头1，位置处于驾驶室方向盘上方，可以拍摄到方向盘完整区域以及车门把手区域；可安装单目摄像头2，位置位于副驾驶室侧边，可以完全监控驾驶人员的驾驶动作；可安装单目摄像头3，位置处于驾驶人员右前方中控台上，同驾驶人员正前方夹角25度偏右位置，相机镜头正对人脸，由于相机高度较人眼正前方要偏低，角度大约是20度。

可以看出，本申请所涉及的人体动作，可以包括基于驾考中规范的或者不提倡的驾驶人员的动作，例如手握方向盘动作、开门动作、喝水动作、抽烟动作、手机通话动作，还可包括面部姿态、面部表情动作等更为细微的人体动作，达到更为智能化、细微的视频分析及其反应，通过对应反应策略的执行，指出、纠正或者记录驾考人员更为详细、丰富的驾考数据。

举例而言，在一种适于实用的实现方式中，本申请监控视频的加工处理，具体可以为准备驾考的人员进行的，以此可基于监控视频给出实时的、精确的驾考经验指导。

对应的，当当前所处驾考场景为驾考练习场景时，人体动作识别结果对应的反应策略，可包括基于语音输出的提醒策略，该提醒策略用于提醒驾考人员不规范的人体动作；

或者，该反应策略，可包括基于语音输出的纠正策略，纠正策略用于提醒驾考人员符合规范的人体动作。

可以理解，通过语音输出的方式，可安全且便捷地完成驾考经验指导，从而可促使驾考人员得到更佳的驾考练习经验。

当然，该基于语音输出的提醒策略或者纠正策略，也可能应用于实际驾考场景，随实际应用需求调整即可。

此外，作为另外一种适于实用的实现方式，本申请所涉及的反应策略所执行的反应处理，其还可以是针对现有技术中监控视频的存储环节的优化。

可以理解，在现有技术中，在采集到监控视频后，一般是单纯的视频存储处理，供工作人员查找及其观看。

而本申请，则是在本地进一步对监控视频进行的数据加工，通过图像识别模型得到监控视频的人体动作识别结果，此时，则可将该人体动作识别结果以及监控视频通过存储处理完成存储，达到内容更为丰富的数据存证效果。

举例而言，该存储机制，更适用于真实驾考场景，也就是驾考考试场景，此时，回到步骤S103，当当前所处驾考场景为驾考考试场景时，反应策略则具体可包括将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

可以理解，将本地的数据上传至服务器进行数据存证，一般是机器自动执行的，此外，在实际应用中，还可配置为定时或者按照时间间隔，进行上传。

进一步的，在又一种适于实用的实现方式中，在该数据存证场景下，其反应策略，具体可包括将人体动作识别结果上传至第一服务器，将监控视频上传至第二服务器，分开进行数据存证。

在该存证机制下可发现，人体动作识别结果以及监控视频，除了在本地可以是分开存储的，在云端的服务器侧，也是可以是分开存储的，实现相互独立的数据存储，后续若需调用，即可凭借配置的索引关系调用即可。

在该分开存储机制下，不仅有利于从整体层面上对数据量较大、所需存储资源较大的监控视频，以及数据量较小、所需存储资源较小的人体动作识别结果进行分开管理，实现更为高效、稳定的数据存储工作，此外，在后续的数据调用过程中，由于数据所存储的存储空间都是统一类型的数据，因此也可进行独立的、高效的数据调用。

此外，除了从数据管理以及数据调用角度进行优化，还可从后期监控视频本身的内容质量进行优化。

在又一种适于实用的实现方式中，在该数据存证场景下，其反应策略，具体可包括将人体动作识别结果转化为元数据，将元数据写入监控视频的SEI帧的预设字段中，并将监控视频上传至服务器，进行数据存证。

可以发现，在该处理下，在本地直接将监控视频的人体动作识别结果直接写入了监控视频本身，两者完成了合并，节省了数据上传所需的信令交互成本。

此外，当上传至服务器完成数据存证后，后期还可结合应用需求配置所的视频播放程序或者播放设备，在播放监控视频时，可直接读取SEI帧中写入的人体动作识别结果，直接在监控视频的当前监控画面中输出涉及的人体动作识别结果的内容，或者通过语音等输出方式输出当前监控画面涉及的人体动作识别结果的内容，显然，在基于人体动作识别结果实现的视频播放上，具有更佳的内容呈现效果，如此对于驾考场景，也可具有更佳的实际应用价值。

作为上述内容的一种实例，在实际应用中，本申请具体可以由专门配置的人工智能(Artificial Intelligence，AI)计算单元的服务程序实现本申请的视频监控方法，该AI计算单元或者服务程序，可搭载于设备上原有的处理器上，或者，还可以配置专门的AI芯片实现。

在实际应用之前，可先将训练好的图像识别模型，例如人脸检测模型、ShuffleNet关键点检测模型、改进的MobileNetV3模型、改进的MobileNetV2模型、精简的ResNet模型、精简的YoloV5s模型部署到AI计算单元中，

AI计算单元的服务程序加载这些模型，进行必要的初始化；

AI计算单元的服务程序创建子线程1，并创建子线程2；

对于子线程1，

从摄像头获取视频流，提取出视频帧数据，调用AI算法的软件开发工具包(Software Development Kit，SDK)提供的应用程序接口(Application ProgrammingInterface，API)，通过深度学习人脸检测模型得到人脸区域；

或者，根据人脸区域调用AI算法SDK提供的API，通过深度学习ShuffleNet 关键点模型得到人脸眼睛和嘴巴关键点，然后基于关键点计算得到眼睛睁开或闭眼的状态以及嘴巴的张开大小状态，进而判别是否疲劳；

或者，根据人脸区域调用AI算法SDK提供的API，通过精简的ResNet模型进行面部姿态的识别，判别是否左右摆头和低头；

或者，根据人脸区域调用AI算法SDK提供的API，通过改进的MobileNetV2 表情模型得到人脸面部表情；

或者，根据人脸区域调用AI算法SDK提供的API，通过精简的YoloV5s模型来进行抽烟、喝水和打电话的动作识别；

对于子线程2，

从摄像头2获取视频流，提取出视频帧数据，调用AI算法SDK提供的API，通过改进的MobileNetV3模型来识别手扶方向盘的动作和开门的动作；

判别当前所处的驾驶模式；

如果是练习模式，则根据每帧识别到的结果，如果累计n(n>＝2)帧都识别到同一结果，则结合动作的重要或危险程度，给出语音提示；

如果是考试模型，则AI计算单元会同中央存储服务器或云主机建立TCP连接，在获取到视频流后，提取出每个SEI帧，根据上一步骤的识别的结果，生成元数据，并填充到SEI帧的扩展字段；

将填充过后的视频流通过建立的TCP连接发送到中央服务器或主机，按固定的时间段存储为视频文件；

通过独立的播放器，支持解析SEI帧来得到识别元数据；

此外，监控视频也可以通过监控室的客户端进行拉取、进行大屏显示。

可以发现，该实例兼具上面所提供的多个示例性实现方式的内容，此外，在实际应用中，还可根据不同的监控视频的图像识别处理或者监控视频对应反应策略的执行，配置有不同的工作线程，以此达到灵活工作的特点。

此外，对于数据存证，本申请还提出又一种应用场景，即，该数据存储，还可以是基于区块链技术实现的存证场景，也就是说，服务器具体可以为区块链平台中的区块链节点，反应策略具体包括以数据上链的方式将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

而本地的视频监控***、包含视频监控***的驾考车辆、包含视频监控***的其他设备，也可以是区块链节点之一。

区块链节点，之前可以设备节点通过申请向区块链平台申请加入平台中，而区块链平台的某一区块链节点接收到该加入申请后，则可在平台内进行处理，若经过投票通过加入申请后，则可将该申请的设备节点拉入区块链平台中，成为新的区块链节点。

可以理解，区块链平台，或者说区块链技术，由于其共识机制具有的公开、透明的特性，对于平台中的数据，具有安全可靠的特点，可避免受到主观人为的数据变更、篡改、删除等恶意行为，而当应用于本申请后，则可在云端更为安全可靠地存储监控视频以及对应的人体动作识别结果，后续也可安全且客观地提供数据的调阅服务，尤其可大大利于驾考考试场景下监控视频的利用。

从图1所示实施例可看出，在驾考场景下，本申请视频监控***通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频，再调用图像识别模型，并图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，此时可确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈，在该过程中，相比于现有技术中，本申请针对监控视频中的人体动作进行针对性的反应，由此可根据监控视频预先配置的应用需求，完成更为智能化的应用，进而提高监控视频在应用上的便利性，避免后续还需查找并调用存储的监控视频存在繁琐的问题，提高了使用效率。

以上是本申请提供驾考车辆的视频监控方法的介绍，为便于更好的实施本申请提供的驾考车辆的视频监控方法，本申请还从功能模块角度提供了一种驾考车辆的视频监控装置。

参阅图2，图2为本申请驾考车辆的视频监控装置的一种结构示意图，在本申请中，驾考车辆的视频监控装置200具体可包括如下结构：

采集单元201，用于通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频；

识别单元202，用于调用图像识别模型，并基于图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

执行单元203，用于确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

在一种示例性的实现方式中，人体动作识别结果包括手握方向盘动作识别结果、开门动作识别结果、喝水动作识别结果、抽烟动作识别结果、手机通话动作识别结果、面部姿态识别结果以及面部表情动作识别结果中的至少一种。

在又一种示例性的实现方式中，当当前所处驾考场景为驾考练习场景时，反应策略包括基于语音输出的提醒策略，提醒策略用于提醒驾考人员不规范的人体动作；

在又一种示例性的实现方式中，当当前所处驾考场景为驾考考试场景时，反应策略包括将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

在又一种示例性的实现方式中，反应策略具体包括将人体动作识别结果上传至第一服务器，将监控视频上传至第二服务器，分开进行数据存证。

在又一种示例性的实现方式中，服务器具体为区块链平台中的区块链节点，反应策略具体包括以数据上链的方式将人体动作识别结果以及监控视频上传至服务器，进行数据存证。

本申请还从硬件结构角度提供了一种驾考车辆的视频监控***，参阅图3，图3示出了本申请驾考车辆的视频监控***的一种结构示意图，具体的，本申请驾考车辆的视频监控***可包括处理器301、存储器302以及输入输出设备 303，处理器301用于执行存储器302中存储的计算机程序时实现如图1对应实施例中驾考车辆的视频监控方法的各步骤；或者，处理器301用于执行存储器302 中存储的计算机程序时实现如图2对应实施例中各单元的功能，存储器302用于存储处理器301执行上述图1对应实施例中驾考车辆的视频监控方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器302中，并由处理器301执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

驾考车辆的视频监控***可包括，但不仅限于处理器301、存储器302、输入输出设备303。本领域技术人员可以理解，示意仅仅是驾考车辆的视频监控***的示例，并不构成对驾考车辆的视频监控***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如驾考车辆的视频监控***还可以包括网络接入设备、总线等，处理器301、存储器302、输入输出设备303等通过总线相连。

处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是驾考车辆的视频监控***的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器302可用于存储计算机程序和/或模块，处理器301通过运行或执行存储在存储器302内的计算机程序和/或模块，以及调用存储在存储器302内的数据，实现计算机装置的各种功能。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据驾考车辆的视频监控***的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器301用于执行存储器302中存储的计算机程序时，具体可实现以下功能：

通过配置在自身所处驾考车辆上的摄像头，采集驾考车辆的驾驶位置的监控视频；

调用图像识别模型，并基于图像识别模型对监控视频进行人体动作识别处理，得到图像识别模型输出的人体动作识别结果，图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

确定并执行人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的驾考车辆的视频监控装置***及其相应单元的具体工作过程，可以参考如图 1对应实施例中驾考车辆的视频监控方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中驾考车辆的视频监控方法的步骤，具体操作可参考如图1对应实施例中驾考车辆的视频监控方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(Read Only Memory， ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中驾考车辆的视频监控方法的步骤，因此，可以实现本申请如图1对应实施例中驾考车辆的视频监控方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的驾考车辆的视频监控方法、装置、***以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种驾考车辆的视频监控方法，其特征在于，所述方法包括：

视频监控***通过配置在自身所处驾考车辆上的摄像头，采集所述驾考车辆的驾驶位置的监控视频；

所述视频监控***调用图像识别模型，并基于所述图像识别模型对所述监控视频进行人体动作识别处理，得到所述图像识别模型输出的人体动作识别结果，所述图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

所述视频监控***确定并执行所述人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

2.根据权利要求1所述的方法，其特征在于，所述人体动作识别结果包括手握方向盘动作识别结果、开门动作识别结果、喝水动作识别结果、抽烟动作识别结果、手机通话动作识别结果、面部姿态识别结果以及面部表情动作识别结果中的至少一种。

3.根据权利要求1所述的方法，其特征在于，当所述当前所处驾考场景为驾考练习场景时，所述反应策略包括基于语音输出的提醒策略，所述提醒策略用于提醒驾考人员不规范的人体动作；

或者，所述反应策略包括基于语音输出的纠正策略，所述纠正策略用于提醒驾考人员符合规范的人体动作。

4.根据权利要求1所述的方法，其特征在于，当所述当前所处驾考场景为驾考考试场景时，所述反应策略包括将所述人体动作识别结果以及所述监控视频上传至服务器，进行数据存证。

5.根据权利要求4所述的方法，其特征在于，所述反应策略具体包括将所述人体动作识别结果上传至第一服务器，将所述监控视频上传至第二服务器，分开进行数据存证。

6.根据权利要求4所述的方法，其特征在于，所述反应策略具体包括将所述人体动作识别结果转化为元数据，将所述元数据写入所述监控视频的附加增强信息SEI帧的预设字段中，并将所述监控视频上传至服务器，进行数据存证。

7.根据权利要求4所述的方法，其特征在于，所述服务器具体为区块链平台中的区块链节点，所述反应策略具体包括以数据上链的方式将所述人体动作识别结果以及所述监控视频上传至服务器，进行数据存证。

8.一种驾考车辆的视频监控装置，其特征在于，所述装置包括：

采集单元，用于通过配置在自身所处驾考车辆上的摄像头，采集所述驾考车辆的驾驶位置的监控视频；

识别单元，用于调用图像识别模型，并基于所述图像识别模型对所述监控视频进行人体动作识别处理，得到所述图像识别模型输出的人体动作识别结果，所述图像识别模型是预先由标注有对应人体动作识别结果的训练集训练初始模型得到的；

执行单元，用于确定并执行所述人体动作识别结果对应的反应策略，完成当前所处驾考场景的反馈。

9.一种驾考车辆的视频监控***，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的方法。