CN111885375A

CN111885375A - 双录视频的检验方法、装置、服务器及***

Info

Publication number: CN111885375A
Application number: CN202010680833.2A
Authority: CN
Inventors: 张锦元; 沈超建; 林晓锐; 邓泳
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-03

Abstract

本发明公开了一种双录视频的检验方法、装置、服务器及***，其中，该方法包括：获取当前录制流程中的视频流，根据预定的分段规则对视频流进行分段处理；从分段的视频流中获取人脸图像视频帧；将分段的视频流和人脸图像视频帧发送至远端服务器进行检验操作，以检验分段的视频流和人脸图像视频帧是否合格；接收来自远端服务器的检验结果，并根据检验结果对当前录制流程进行相应的处理。通过本发明，可以提升双录视频检测的效率。

Description

双录视频的检验方法、装置、服务器及***

技术领域

本发明涉及视频图像处理领域，具体涉及一种双录视频的检验方法、装置、服务器及***。

背景技术

为了保护消费者的权益，监管机构要求银行业金融机构在销售理财和代销保单等金融产品时，通过录音录像(双录)规范金融机构的销售行为。随着业务量的增长产生了大量双录视频流数据，金融机构为保证双录视频的合规性，采用自动化手段对视频的合规性进行检测。由于视频文件容量大，实时大容量的视频数据分析对网络的带宽和服务器的实时处理能力是极大的挑战。

目前，通常采用本地缓存视频文件，预置一定时间间隔或整个录制完毕后异步上传视频数据后，再通过服务器进行分析处理返回检测结果。该双录视频检测方法存在以下问题：(1)视频文件容量大，如果实时完整地向云端服务器传输，将会占用大量网络资源，网络带宽成为处理效率的瓶颈；(2)预置一定时间间隔或录制完毕后上传视频，检测的实时性较差。

发明内容

有鉴于此，本发明提供一种双录视频的检验方法、装置、服务器及***，以解决上述提及的至少一个问题。

根据本发明的第一方面，提供一种双录视频的检验方法，该方法包括：

获取当前录制流程中的视频流，根据预定的分段规则对所述视频流进行分段处理；

从分段的视频流中获取人脸图像视频帧；

将所述分段的视频流和所述人脸图像视频帧发送至远端服务器进行检验操作，以检验所述分段的视频流和所述人脸图像视频帧是否合格；

接收来自所述远端服务器的检验结果，并根据所述检验结果对当前录制流程进行相应的处理。

根据本发明的第二方面，提供一种双录视频的检验方法，所述方法包括：

接收来自前端的分段视频流和人脸图像视频帧；

根据预先设置的检验参数对所述分段的视频流进行作业检验操作；

根据预先存储的人脸图像对所述人脸图像视频帧进行图像检验操作；

将所述作业检验操作和所述图像检验操作的结果发送至前端。

根据本发明的第三方面，提供一种双录视频的检验装置，所述装置包括：

视频获取单元，用于获取当前录制流程中的视频流；

分段处理单元，用于根据预定的分段规则对所述视频流进行分段处理；

视频帧获取单元，用于从分段的视频流中获取人脸图像视频帧；

视频发送单元，用于将所述分段的视频流和所述人脸图像视频帧发送至远端服务器进行检验操作，以检验所述分段的视频流和所述人脸图像视频帧是否合格；

结果接收单元，用于接收来自所述远端服务器的检验结果；

录制处理单元，用于根据所述检验结果对当前录制流程进行相应的处理。

根据本发明的第四方面，提供一种双录视频的检验服务器，所述服务器包括：

视频接收单元，用于接收来自前端的分段视频流和人脸图像视频帧；

作业检验单元，用于根据预先设置的检验参数对所述分段的视频流进行作业检验操作；

图像检验单元，用于根据预先存储的人脸图像对所述人脸图像视频帧进行图像检验操作；

结果发送单元，用于将所述作业检验操作和所述图像检验操作的结果发送至前端。

根据本发明的第五方面，提供一种双录视频的检验***，所述***包括上述的双录视频的检验装置、以及上述的双录视频的检验服务器。

根据本发明的第六方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的第七方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

由上述技术方案可知，通过根据分段规则对获取的视频流进行分段处理，并从分段的视频流中获取人脸图像视频帧，随后将分段的视频流和人脸图像视频帧发送至远端服务器进行检验操作，以检验分段的视频流和人脸图像视频帧是否合格，之后接收远端服务器的检验结果，并根据检验结果对当前录制流程进行相应的处理，相比于现有技术，本技术方案仅发送分段视频流和人脸图像视频帧，因而减少了传输视频的容量，降低了对带宽的依赖，且远端服务器仅针对分段视频流和人脸图像视频帧进行检验，可以更高效地完成视频质量检测，准实时返回检验结果，从而可以提升双录视频检测的效率和业务体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的双录视频的检验***的结构框图；

图2是根据本发明实施例的双录视频检验装置1的结构框图；

图3是根据本发明实施例的双录视频检验服务器2的结构框图；

图4是根据本发明实施例的双录视频的检验***的示例架构图；

图5是根据本发明实施例的边缘计算质检推理***的结构框图；

图6是根据本发明实施例的云端质检推理***的结构框图；

图7是基于图4所示示例***的边云协同的双录视频质检流程图；

图8是根据本发明实施例的双录视频检验方法的流程图；

图9是根据本发明实施例的双录视频检验方法的另一流程图；

图10是根据本发明实施例的电子设备600的***构成的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

鉴于现有的双录视频检测方法存在占用大量网络资源、检测实时性较差的问题，本发明实施例提供一种双录视频的检验方案，可以降低实时检测对网络带宽的依赖，提升实时检测的效率，对不合规点进行准实时提醒，提升视频质检的效率。以下结合附图来详细描述本发明实施例。

图1是根据本发明实施例的双录视频的检验***的结构框图，如图1所示，该***包括：双录视频检验装置1和双录视频检验服务器2，其中，双录视频检验装置1与摄像设备连接，用于对获取的录制流程中的视频流进行分段处理，并获取人脸图像视频帧，之后将分段视频流和人脸图像视频帧发送至检验服务器2，检验服务器2对分段视频流和人脸图像视频帧检验后将检验结果返回至检验装置1，以使作业人员根据检验结果对当前录制流程进行相应的处理。

通过在双录视频检验装置1和双录视频检验服务器2之间仅传输和处理分段视频流和人脸图像视频帧，可以减少单个传输视频的容量，降低对带宽的依赖，同时双录视频检验服务器可以更高效地完成视频质量检测，准实时返回检测结果，提高双录视频检测的效率。

为了更好地理解本发明实施例，以下对双录视频检验装置1和双录视频检验服务器2分别进行详细描述。

图2是双录视频检验装置1的结构框图，如图2所示，该双录视频检验装置1包括：视频获取单元11、分段处理单元12、视频帧获取单元13、视频发送单元14、结果接收单元15和录制处理单元16，其中：

视频获取单元11，用于获取当前录制流程中的视频流。

分段处理单元12，用于根据预定的分段规则对所述视频流进行分段处理。

这里分段规则包括：预定参数，例如，固定短语，固定表单。

具体地，分段处理单元包括：分段标记确定模块和分段处理模块，其中：分段标记确定模块，用于根据所述预定参数确定所述视频流的分段标记；分段处理模块，用于根据所述分段标记对所述视频流进行分段处理。

在一个实施例中，分段标记确定模块可以包括：预定参数识别子模块和分段标记确定子模块，其中：预定参数识别子模块，用于基于已训练的深度学习模型识别所述视频流中的预定参数；分段标记确定子模块，用于根据识别的预定参数确定所述视频流的分段标记。

这里的深度学习模型可以基于含有预定参数的样本数据来训练，训练得到预定参数的分类检测模型。

视频帧获取单元13，用于从分段的视频流中获取人脸图像视频帧。

在一个实施例中，视频帧获取单元13可以通过轻量级人脸检测模型、基于预定图像获取规则从分段的视频流中获取符合要求的人脸图像视频帧。

例如，在给客户讲述购买产品具体信息的视频时，截取销售人员和客户人脸同框的人脸图像视频帧。

视频发送单元14，用于将所述分段的视频流和所述人脸图像视频帧发送至远端服务器进行检验操作，以检验所述分段的视频流和所述人脸图像视频帧是否合格。

结果接收单元15，用于接收来自所述远端服务器的检验结果。

录制处理单元16，用于根据所述检验结果对当前录制流程进行相应的处理。

当所述检验结果为不合格时，录制处理单元16可以发出检验结果不合格指令，以便于业务人员对当前录制流程执行相应的处理，例如，暂停并重录相应的不合格部分。

通过分段处理单元12根据分段规则对视频获取单元11获取的视频流进行分段处理，视频帧获取单元13从分段的视频流中获取人脸图像视频帧，随后视频发送单元14将分段的视频流和人脸图像视频帧发送至远端服务器进行检验操作，以检验分段的视频流和人脸图像视频帧是否合格，之后结果接收单元15接收远端服务器的检验结果，录制处理单元16根据检验结果对当前录制流程进行相应的处理，相比于现有技术，本发明实施例仅发送分段视频流和人脸图像视频帧，因而可以减少传输视频的容量，降低了对带宽的依赖，且远端服务器仅针对分段视频流和人脸图像视频帧进行检验，可以更高效地完成对视频质量的检测，实现准实时返回检验结果，从而可以提升双录视频检测的效率和业务体验。

图3是双录视频检验服务器2的结构框图，如图3所示，该双录视频检验服务器2包括：视频接收单元21、作业检验单元22、图像检验单元23和结果发送单元24，其中：

视频接收单元21，用于接收来自前端的分段视频流和人脸图像视频帧。

作业检验单元22，用于根据预先设置的检验参数对所述分段的视频流进行作业检验操作。

在实际操作中，作业检验操作包括：语音检验操作和签名动作检验操作。

具体地，作业检验单元22包括：语音检验模块和签名动作检验模块，其中：语音检验模块，用于根据所述检验参数，基于语音识别技术对所述分段的视频流进行语音检验操作；签名动作检验模块，用于基于已训练的签名动作深度学习模型对所述分段的视频流中的用户签名动作进行签名动作检验操作。

图像检验单元23，用于根据预先存储的人脸图像对所述人脸图像视频帧进行图像检验操作。如此，可以判断视频帧中的人脸是否为办理业务的相关人员。

结果发送单元24，用于将所述作业检验操作和所述图像检验操作的结果发送至前端。

通过仅对接收的分段视频流和人脸图像视频帧进行检验，相比于现有技术，可以更高效地完成视频质量的检测，从而可以提升双录视频检测的效率和业务体验。

为了进一步理解本发明实施例，以下以银行业务为例给出一个具体实施例。

图4是根据本发明实施例的双录视频检验***的示例架构图，如图4所示，该示例***包括：云端服务器、边缘计算服务器以及客户端(含摄像头录像设备)，在云端服务器中设置云端复杂推理模型(也可以称为云端质检推理***，图中简要显示为复杂模型)和暴露API(Application Programming Interface，应用程序接口)服务，供边缘计算服务器的计算机程序调用；在边缘计算服务器中设置轻量级推理模型(也可以称为边缘计算质检推理***，图中简要显示为轻量级模型)，接收客户端摄像头采集的视频流数据，并发调用云端复杂推理模型API服务完成整个双录视频的实时质检，返回客户端质检结果并提示。

由图4可以看出，该示例***包括边缘计算质检推理***(优选地具有上述的双录视频的检验装置的功能)、云端质检推理***(优选地具有上述双录视频的检验服务器的功能)。其中，边缘计算质检推理***用于实时接收视频流，按照双录视频质检规则的定义，提供视频分段、人脸检测、人脸关键帧抽取等质检预处理能力。云端质检推理***用于接收视频片段和人脸关键帧图像，预先在规则引擎中配置相应的视频检查规则，通过规则引擎设定的规则完成各种原子规则检查，生成检测结果并实时返回，以提示作业人员是否提前中止双录流程。

在该示例***中，图5是边缘计算质检推理***的结构框图，如图5所示，边缘计算质检推理***包括：规则维护单元51、视频分段单元52、人脸检测单元53，其中：

规则维护单元51，可配置业务流程节点的分段规则参数，包括：语音中固定短语、固定表单等。通过规则引擎配置不同业务节点的关键短语和固定表单，用于视频分段单元进行规则匹配，实现视频分段。

视频分段单元52，用于对双录视频流进行分段预处理，按照规则维护单元维护的固定短语、固定表单规则，实时检测视频中是否出现对应的短语和表单，将对应的视频帧作为起始或结束的时间点标记，完成视频流文件的分段。

在实际操作中，对固定短语的识别可以采用深度学习模型进行判别，具体为：采集预期固定短语的样本集；采用深度学习模型框架(例如，tensorflow)训练深度神经网络End2End(端到端)模型RNN-T(RNN transducer，基于循环神经网络变换器)，通过样本集迭代更新神经网络参数，训练得到固定短语的分类检测模型。对固定表单的识别也可以采用深度学习模型进行判别，具体为：采集预期固定表单的样本集；采用深度学习模型框架(例如，tensorflow)训练深度神经网络InceptionV3(一种卷积网络)，通过样本集迭代更新神经网络参数，训练得到固定表单的分类检测模型。

人脸检测单元53，用于对双录视频流中出现的人脸进行人脸检测、人脸质量检测和人脸去重，提取质量较好的人脸图像视频帧作为人脸关键帧。本单元在视频分段单元起始帧开始至结束帧之间，对视频中出现的人脸进行检测，统计出现的人脸个数，选择人脸清晰度、角度等质量最好的视频帧，并去除重复出现的人脸图像。

在实际操作中，可以采用轻量级的DBFace(一种人脸识别方法)人脸检测模型进行人脸检测，模型参数量仅1.3M，整个网络的损失(Loss)函数由三个部分组成：热力图(heatMap)损失、位置坐标偏移量(BoundingBox)、关键点(Landmark)损失，heatMap通过减少易分类样本的权重，使用模型在训练时更专注于难分类的样本，从而可以有效地缓解类别不均衡带来的网络注意力偏差问题。这样，可以在兼顾检测速度的同时提升网络的性能，运行门槛低，非常适合算力有限的边缘计算节点应用。

在一个实施例中，人脸检测单元可以采用一种多指标融合的人脸质量评价算法，综合将人脸清晰度、分辨率、人脸姿态角度以及人脸检测模型输出的人脸置信度等多个评价指标加权来对视频流中人脸图像进行综合评价，以提高人脸识别的精确度。

在该示例***中，图6是云端质检推理***的结构框图，如图6所示，云端质检推理***包括：原子规则维护单元61、人脸识别单元62、自然语言处理单元63、签名识别单元64，其中：

原子规则维护单元61，可配置业务流程节点的原子质检规则参数。具体的，原子规则维护单元62将***支持各项原子检查规则进行配置，原子规则划分为人脸识别、明确回复、违规用语、签名行为等。

人脸识别单元62，用于直接对边缘计算节点上送的去重后的人脸关键帧图像进行人脸识别，避免对视频片段重新检测人脸、人脸质量检测等流程，从而可以减少计算量，提升处理时效。本单元使用人脸关键帧图像，与客户、业务人员的证件照进行人脸比对，判断视频中的人脸是否为办理该业务的相关人。

自然语言处理单元63，用于识别视频片段的客户明示答复用语和业务人员销售过程中的违规用语。本单元通过语音识别技术将视频中的语音转化为文本，再通过自然语言处理技术判断文本中客户明示答复的语言中是否包括“不了解、不清楚、大概知道”等非确认答复，判断业务人员的语言中是否包括“本金安全、保本、存取灵活、储蓄松保障、存取自由”等违规用语。

签名识别单元64，用于识别视频片段中的签名行为动作。在一个实施例中，签名行为动作识别可以采用深度学习算法模型检测视频中人的行为类别，用于检测客户的签名行为，具体可以采用行为识别算法模型RNN-LSTM(一种神经网络模型)实现签名行为识别。

在实际操作中，本发明实施例中涉及到的各单元、各模块、各子模块可以组合设置、也可以单一设置，本发明不限于此。

图7是基于图4所示示例***的边云协同的双录视频质检流程图。如图7所示，基于边云协同的双录视频质检流程，利用靠近摄像设备端的边缘计算节点完成双录视频数据的分段和人脸关键帧抽取，与云端质检推理引擎服务协同，可以实现准实时质检异常点提醒，具体包括以下步骤：

步骤701，前端摄像设备通过流媒体接口SDK(Software Development Kit，软件开发工具包)，把原始的视频数据推送给边缘计算质检推理***，该流媒体接口屏蔽了不同厂家设备之间的差异，将厂家的私有接口抽象成统一的对外接口。

步骤702，一般地，双录流程由多个节点组成，每一个节点对应双录流程中不同的环节，例如，某个银行理财产品可以包括以下三个节点：1、讲述客户购买的具体产品信息；2、征求客户同意；3、明确具体的免责条款。边缘计算质检推理***读取规则配置文件，实时分析视频流文件，获取双录流程的节点，记录节点标识、开始和结束帧时间点。例如，检测视频流中业务人员或客户说出的固定短语。根据不同节点的类型，抽取必要地关键帧。例如，在讲述客户购买产品具体信息时，利用轻量级的EfficientDet人脸检测模型，实时检测视频流中的人脸，判断业务人员和客户人脸是否同框，截取包含同框人脸的视频帧。

步骤703，边缘计算质检推理***将视频流分段并提取关键帧后，并行将视频片段文件和关键帧推送给云端质检推理***。云端质检推理***根据视频片段的节点类型、关键帧信息直接送入对应的质检规则引擎完成质检检测，实时返回当前片段和关键帧的检测结果。

步骤704，边缘计算质检推理***异步接收每个视频片段文件和关键帧的检测结果，实时将检测结果提醒至用户端，提示双录异常检测点，由业务人员确定是否提前中止当前双录流程。

由以上描述可知，本实施例提出的应用于双录视频质检的边云协同检验***，在边缘计算节点部署轻量级的触发事件检测模型、人脸检测检测模型，实时检测触发事件完成视频分段，并获取有效目标的人脸关键帧，将分段视频和人脸关键帧以并行方式上送云端服务器进行云端复杂模型推理。经过边缘计算节点的轻量级模型处理，仅将分段结构化的视频片段和人脸关键帧图像传输到云端检测，较大地减少了单个传输视频的容量，降低了对带宽的依赖，而云端质检推理模型接收结构化的视频片段，根据预设的检查规则引擎，可以更高效地完成视频质量检测，准实时返回检测结果，实现了边云协同的准实时检测反馈，从而可以提升双录视频检测的效率和业务体验。

基于相似的发明构思，本发明实施例还提供一种双录视频的检验方法，优选地，该方法可应用于上述双录视频的检验装置中。

图8是根据本发明实施例的双录视频检验方法的流程图，如图8所示，该方法包括：

步骤801，获取当前录制流程中的视频流，根据预定的分段规则对所述视频流进行分段处理。

具体地，可以先根据所述预定参数确定所述视频流的分段标记；之后根据所述分段标记对所述视频流进行分段处理。这里的分段规则可以包括：预定参数，例如，固定短语。

在一个实施例中，可以基于已训练的深度学习模型识别所述视频流中的预定参数；之后根据识别的预定参数确定所述视频流的分段标记。

步骤802，从分段的视频流中获取人脸图像视频帧。

具体地，可以通过轻量级人脸检测模型、基于预定图像获取规则从分段的视频流中获取人脸图像视频帧。

步骤803，将所述分段的视频流和所述人脸图像视频帧发送至远端服务器进行检验操作，以检验所述分段的视频流和所述人脸图像视频帧是否合格。

步骤804，接收来自所述远端服务器的检验结果，并根据所述检验结果对当前录制流程进行相应的处理。

当所述检验结果为不合格时，发出检验结果不合格指令，以便于提示业务人员对当前录制流程执行相应的处理。

通过根据分段规则对获取的视频流进行分段处理，并从分段的视频流中获取人脸图像视频帧，随后将分段的视频流和人脸图像视频帧发送至远端服务器进行检验操作，以检验分段的视频流和人脸图像视频帧是否合格，之后接收远端服务器的检验结果，并根据检验结果对当前录制流程进行相应的处理，相比于现有技术，本发明实施例仅发送分段视频流和人脸图像视频帧，因而减少了传输视频的容量，降低了对带宽的依赖，且远端服务器仅针对分段视频流和人脸图像视频帧进行检验，可以更高效地完成视频质量检测，准实时返回检验结果，从而可以提升双录视频检测的效率和业务体验。

基于相似的发明构思，本发明实施例还提供一种双录视频的检验方法，优选地，该方法可应用于上述双录视频的检验服务器中。

图9是该可应用于检验服务器的双录视频检验方法的流程图，如图9所示，该方法包括：

步骤901，接收来自前端的分段视频流和人脸图像视频帧。

步骤902，根据预先设置的检验参数对所述分段的视频流进行作业检验操作。

具体地，作业检验操作可以包括：语音检验操作和签名动作检验操作。

在具体实施过程中，可以根据所述检验参数，基于语音识别技术对所述分段的视频流进行语音检验操作；同时，基于已训练的签名动作深度学习模型对所述分段的视频流中的用户签名动作进行签名动作检验操作。

步骤903，根据预先存储的人脸图像对所述人脸图像视频帧进行图像检验操作。

步骤904，将所述作业检验操作和所述图像检验操作的结果发送至前端。

通过仅接收并检验结构化的视频片段，可以更高效地完成质量检测，准实时返回检测结果，从而可以提升双录视频检测的效率和业务体验。

本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照上述方法实施例进行实施及双录视频的检验装置/服务器/***的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图10为本发明实施例的电子设备600的***构成的示意框图。如图10所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，双录视频的检验功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

从分段的视频流中获取人脸图像视频帧；

从上述描述可知，本申请实施例提供的电子设备，通过根据分段规则对获取的视频流进行分段处理，并从分段的视频流中获取人脸图像视频帧，随后将分段的视频流和人脸图像视频帧发送至远端服务器进行检验操作，以检验分段的视频流和人脸图像视频帧是否合格，之后接收远端服务器的检验结果，并根据检验结果对当前录制流程进行相应的处理，相比于现有技术，本发明实施例仅发送分段视频流和人脸图像视频帧，因而减少了传输视频的容量，降低了对带宽的依赖，且远端服务器针对分段视频流和人脸图像视频帧，可以更高效地完成视频质量检测，准实时返回检验结果，从而可以提升双录视频检测的效率和业务体验。

在另一个实施方式中，双录视频的检验装置/服务器/***可以与中央处理器100分开配置，例如可以将双录视频的检验装置/服务器/***配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现双录视频的检验功能。

如图10所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图10中所示的所有部件；此外，电子设备600还可以包括图10中没有示出的部件，可以参考现有技术。

如图10所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现上述双录视频的检验方法的步骤。

综上所述，本发明实施例提出的边缘计算和云服务协同的实时视频检测方案，基于靠近视频采集设备端的边缘计算能力，提供轻量级的推理模型，云端部署推理较复杂的模型，采用边缘计算和云端协同的方式实现双录视频的准实时质检。一方面，边缘侧推理将实时视频流分隔成多个业务流程节点小视频片段，降低了大视频文件传输对带宽的依赖；另一方面，在边缘侧使用轻量级模型实现了人脸关键帧图像的预处理和并发调用云端质检***服务推理，减少了部分云端质检推理***服务的处理步骤，增强了整个质检过程的并行处理能力，实现了准实时双录视频检测和事中提醒，从而提升了双录视频的处理效率和业务体验。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种双录视频的检验方法，其特征在于，所述方法包括：

从分段的视频流中获取人脸图像视频帧；

2.根据权利要求1所述的方法，其特征在于，所述分段规则包括：预定参数，根据预定的分段规则对所述视频流进行分段处理包括：

根据所述预定参数确定所述视频流的分段标记；

根据所述分段标记对所述视频流进行分段处理。

3.根据权利要求2所述的方法，其特征在于，根据所述预定参数确定所述视频流的分段标记包括：

基于已训练的深度学习模型识别所述视频流中的预定参数；

根据识别的预定参数确定所述视频流的分段标记。

4.根据权利要求1所述的方法，其特征在于，从分段的视频流中获取人脸图像视频帧包括：

通过轻量级人脸检测模型、基于预定图像获取规则从分段的视频流中获取人脸图像视频帧。

5.根据权利要求1所述的方法，其特征在于，根据所述检验结果对当前录制流程进行相应的处理包括：

当所述检验结果为不合格时，发出检验结果不合格指令，以便于对当前录制流程执行相应的处理。

6.一种双录视频的检验方法，其特征在于，所述方法包括：

接收来自前端的分段视频流和人脸图像视频帧；

7.根据权利要求6所述的方法，其特征在于，所述作业检验操作包括：语音检验操作和签名动作检验操作，根据预先设置的检验参数对所述分段的视频流进行作业检验操作包括：

根据所述检验参数，基于语音识别技术对所述分段的视频流进行语音检验操作；

基于已训练的签名动作深度学习模型对所述分段的视频流中的用户签名动作进行签名动作检验操作。

8.一种双录视频的检验装置，其特征在于，所述装置包括：

视频获取单元，用于获取当前录制流程中的视频流；

结果接收单元，用于接收来自所述远端服务器的检验结果；

9.根据权利要求8所述的装置，其特征在于，所述分段规则包括：预定参数，所述分段处理单元包括：

分段标记确定模块，用于根据所述预定参数确定所述视频流的分段标记；

分段处理模块，用于根据所述分段标记对所述视频流进行分段处理。

10.根据权利要求9所述的装置，其特征在于，所述分段标记确定模块包括：

预定参数识别子模块，用于基于已训练的深度学习模型识别所述视频流中的预定参数；

分段标记确定子模块，用于根据识别的预定参数确定所述视频流的分段标记。

11.根据权利要求8所述的装置，其特征在于，所述视频帧获取单元具体用于：

12.根据权利要求8所述的装置，其特征在于，所述录制处理单元具体用于：

13.一种双录视频的检验服务器，其特征在于，所述服务器包括：

14.根据权利要求13所述的服务器，其特征在于，所述作业检验操作包括：语音检验操作和签名动作检验操作，所述作业检验单元包括：

语音检验模块，用于根据所述检验参数，基于语音识别技术对所述分段的视频流进行语音检验操作；

签名动作检验模块，用于基于已训练的签名动作深度学习模型对所述分段的视频流中的用户签名动作进行签名动作检验操作。

15.一种双录视频的检验***，其特征在于，所述***包括：权利要求8至12中任一项所述的双录视频的检验装置、以及权利要求13或14所述的双录视频的检验服务器。

16.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。