CN111385283A

CN111385283A - 一种自助设备的双录视频合成方法及其双录***

Info

Publication number: CN111385283A
Application number: CN201911378034.3A
Authority: CN
Inventors: 唐嵩; 唐超; 赵建青; 刘国琦; 曹怀忠; 熊淑华
Original assignee: China Electronics Great Wall Changsha Information Technology Co ltd
Current assignee: China Electronics Great Wall Changsha Information Technology Co ltd
Priority date: 2018-12-29
Filing date: 2019-12-27
Publication date: 2020-07-07
Anticipated expiration: 2039-12-27
Also published as: CN111385283B

Abstract

本发明公开了一种自助设备的双录视频合成方法及其双录***，包括：验证用户的身份有效性，若有效则开始双录音视频录制得到视频文件，最后对视频文件进行加密并发送给服务器，其中，在录制过程中将采集的身份证信息添加至视频图像中，以及在视频图像中生成现场名称标志，并在视频数据中采用数字水印技术添加水印信息，水印信息是至少包括人脸特征加密信息和身份证签名信息。本发明通过该方式将双录***审核所需的客户身份证信息、客户业务网点信息等信息自动抓取并加入了实时录制的视频中，生成了集成化的审核视频信息，便于后台人员一次性审核，提高视频录制的有效性。同时对合成的视频进行了加密等手段处理，确保视频未被篡改，提高其安全性能。

Description

一种自助设备的双录视频合成方法及其双录***

技术领域

本发明属于自助终端视频监控技术领域，具体涉及一种自助设备的双录视频合成方法及其双录***。

背景技术

为了保护金融行业消费者合法权益，规范商业银行及证券投资类产品的销售行为，国家要求开通或办理新开户、购买投资类产品、办理存取款等业务时，对销售过程全程同步录音录像即(双录)，以确保是客户本人的有效操作，且已知各项风险，减少客户投诉，维护公平、公正的金融市场环境。客户在柜台办理业务，采集视频发给银行或证券后台审核，采集的信息主要包括客户业务办理网点、客户的有效身份证件、客户的人脸特征、客户的语音特征信息、客户已知晓风险等，后台审核管理员审核时不仅需要打开视频、音频文件，查看视频录制时间、客户办理网点等信息，还需要另外打开客户的身份证件信息并进行审核，审核效率低，审核时长过长；此外，柜台工作人员在视频录制时常因朗读多段话术漏读、错读、以及客户在回答问题时话术也不标准，从而导致客户需要重复多次录制，严重影响客户办理业务效率和用户体验效果。并且，上传的视频文件缺乏校验机制，无非判断视频文件是否已被篡改，是否是双录***生成的原文件，缺少相应的安全机制。

与此同时，传统双录业务办理过程中，智能化程度不高，主要采用人工方式采集信息，典型的如客户在柜台办理业务，客户在柜台办理业务，柜面人员需要人工填写、采集、识别客户身份信息、客户已知晓风险、录制信息等自动化程度低，因此，需要一种自动采集用户相关信息并融入至双录视频，有效提高柜台人员采集和后台审核人的自动化程度和便捷性，缩短双录业务办理时间，提高客户的业务体验。

发明内容

本发明的目的是提供一种自助设备的双录视频合成方法及其双录***，其将双录***审核所需的客户身份证信息、客户业务网点信息等实现自动提取，并加入了实时录制的视频过程中，得到的集成化的审核视频数据有效提高柜台人员采集自动化程度，同时也提高视频录制的有效性，后台审核效率和审核的准确性，便于一次性审核，办理时间可由原来的单笔业务半小时可缩短分钟级。同时对合成的视频进行了加密等手段处理，确保视频未被篡改，提高其安全性能。

一方面，本发明提供一种自助设备的双录视频合成方法，包括如下步骤：

S1：验证用户的身份有效性；

身份有效性检测至少包括身份证有效性检测以及身份证头像与实时头像的相似性检测，其中，利用身份证扫面模块采集用户的身份证信息以及利用摄像头采集用户实时人体图像；

S2：若用户的身份是有效的且接收到双录启动信号，对用户开启实时双录音视频录制得到视频文件；

其中，在所述实时双录音视频的录制过程中按照预设时间节点将采集的身份证图片添加至视频图像以及再从视频图像中移除；所述视频图像中还包括现场名称标志；

在所述实时双录音视频的录制过程中采用数字水印技术在视频数据中添加水印信息，所述水印信息包括人脸特征加密信息以及身份证签名信息；

其中，从摄像头采集的人脸图像中提取人脸特征，并采用设备端的数字证书公钥对提取的人脸特征进行加密得到人脸特征加密信息，所述数字证书公钥是数字证书中服务端加密公钥；

利用私钥对所述身份证信息进行数据签名得到身份证签名信息；

所述数字证书和所述私钥是自助设备根据终端编号生成的唯一标识；

S3：利用所述私钥对录制完成后的视频文件进行签名得到签名文件，再将视频文件和签名文件同步发送给服务端。

本发明在自助设备上实现双录的同时，可以自动获取用户的身份证信息和人体图像，并基于身份证和人体特征进行用户身份有效性验证，将现有人为实现的身份采集、身份验证过程在自助设备上实现，同时将采集的身份证信息嵌入至实时视频图像中，以便审核人员审核时可以在视频中直接获取到用户身份证照片，提高审核效率。此外，本发明在双录音视频的录制过程中添加水印信息，水印信息是通过数字水印技术来实现的，即加密信息分布至视频数据中不同帧上，通过水印信息提供校验机制，可以鉴别双录音视频数据是否被篡改，提高安全等级。

其他可实现的方式中，视频图像中还可以实时显示业务办理时间。

进一步优选，所述视频图像中的现场名称标志的生成过程如下：

A：利用摄像头实时采集用户人像和现场名称标志得到视频图像；

其中，现场名称标志实物与用户均位于摄像头的拍摄区域内；

B：识别视频图像中现场名称标志是否为预先配置的网点名称，若不是，发起用户位置调整或现场名称标志实物调整或停止服务的语音人机对话；若是且存在两个或两个以上的网点名称，则发起语音人机对话排查提示；若是且仅存在一个网点名称，则执行步骤C；

C：对视频图像中现场名称标志和人像进行重叠区域检测，并根据重叠区域检测结果发起用户位置调整或现场名称标志实物调整的语音人机对话直至重叠区域满足预设标准；

其中，采用平面像素碰撞算法或者AABB包围盒矩阵碰撞算法进行重叠区域识别。

进一步优选，重叠区域的识别过程如下：

首先，利用图像识别技术分别获取视频图像中现场名称标志、人像的矩形像素区的特征，所述特征包括坐标位置、长和高；

其次，利用现场名称标志的矩形像素区、人像的矩形像素区采用AABB包围盒矩阵碰撞检测算法获取矩形重叠区域，如下：

A.x为人体矩阵中心点横坐标，A.y为人体矩阵中心点纵坐标，A.width为人体矩阵宽度，A.height为人体矩阵高度；

设定B.x为LOGO矩阵中心点横坐标，B.y为LOGO矩阵中心点纵坐标，B.width为LOGO矩阵宽度，B.height为LOGO矩阵高度；则判断规则为：

如果同时满足如下两个不等式，则表示发生重叠了，否则未发生重叠：

|(A.x–B.x)|<(A.width/2+B.width/2)

|(A.y-B.y)|<(A.height/2+B.height/2)。

进一步优选，重叠区域的识别过程如下：

其次，利用现场名称标志的矩形像素区、人像的矩形像素区采用AABB包围盒矩阵碰撞检测算法获取矩形重叠区域；

若重叠区域不为零，则对重叠区域进行高精度抠像获取人像局部区域和现场名称标志的局部区域；再采用平面像素碰撞算法对人像局部区域、现场名称标志的局部区域计算重叠轮廓，所述重叠轮廓内区域为人像与现场名称标志的重叠区域。

其他可行的实施方式中，可以对视频图像进行高精度抠图获取人像区域和现场名称标志区域，再直接采用平面像素碰撞算法对人像区域和现场名称标志区域内的像素点一一进行精确计算得到重叠轮廓。由于平面像素碰撞算法的计算量大，因此先得到矩形重叠区域再采用平面像素碰撞算法是既能得到较精确的重叠轮廓，同时还能降低计算量。

进一步优选，在实时双录视频的录制过程中采用预先存储的播报对话模板进行对话；

其中，基于对话模板根据用户语音输入信息获取下一对话文本；

再基于下一对话文本中的断句标点符号对下一对话进行分句，并利用分词词典或中文分词器对每个分句进行分词；

语音播报下一对话文本时，按照文字提示规则对下一对话文本进行部分或全部进行重点标记；

其中，重点标记包括字体变化、颜色变化或加亮；被重点标记的文本内容包括已播报文本、待播报文本或待播报的关键文本中的任意一个或任意组合。

譬如可以选择不同颜色来显示已经播报的文本和待播报的文本；还可以对待播报文本的关键性内容进行字体变化或加亮或使用不同颜色显示。应当理解，在视频画面中将文本用不同颜色、不同亮度或者不同字体显示的技术是现有技术可实现的。

进一步优选，还包括将所述水印信息生成为QRcode编码的二维码图像，并将所述二值图像数据存储于视频图像中形成图像格式的数字水印。

进一步优选，所述水印信息还包括设备编号。

另一方面，本发明提供一种基于上述方法的双录***，包括双录应用主控模块以及分别与所述双录应用主控模块连接的语音合成播报模块、语音识别与对话管理模块、人脸与人体识别服务模块、音视频录制合成模块、音视/显示输出设备、自助外设模块和安全管理模块，所述自助外设模块包括身份证扫描模块、摄像头；

其中，所述双录应用主控模块中设有事件处理器以及双录事件总线；其中事件处理器作为双录的主控模块的主体逻辑处理单元。事件总线主要处理各模块事件通讯交互和协作，并实现事件存储和事件侦听、注册、注销、通知等职能，通过与其他子模块事件处理器进行协作，实现双录***内部事件的交互、存储，具备高可靠性和实时性。事件处理器可灵活注册至事件总线，发布和订阅事件，侦听其他核心模块或事件处理器的事件通知。

所述人脸与人体识别服务模块用于进行人脸、人体的特征识别与分析；

所述双录应用主控模块用于根据身份证信息和实时人体图像验证用户的身份有效性；

所述音视频录制合成模块用于实时录制用户音视频；所述语音合成播报模块用于将文字信息合成转换为语音文件或语音信号；所述语音识别与对话管理模块用于将语音自动识别为文字以及对话管理和语义分析意图理解；

所述双录应用主控模块用于在实时双录音视频的录制过程中将采集的身份证图片添加至视频图像以及再从视频图像中移除；以及在视频图像生成现场名称标志；

所述双录应用主控模块用于在实时双录音视频的录制过程中采用数字水印技术在视频数据中添加水印信息；

所述安全管理模块用于生成水印信息、对录制完成后的视频文件进行签名得到签名文件以及密钥管理；

所述安全管理模块用于将视频文件和签名文件同步发送给服务端。

进一步优选，所述自助外设模块还包括SIU传感器，所述音视/显示输出设备包括显示屏、扬声器、麦克风、听筒；

其中，所述SIU传感器用于感知听筒被摘下或放下并将感知结果发送给所述双录应用主控模块；

所述双录应用主控模块用于根据所述SIU传感器的感知结果控制扬声器、听筒的切换。

进一步优选，所述***还包括与双录应用主控模块通信连接的智能视觉识别服务模块，所述智能视觉识别服务模块包括OCR识别服务以及实物识别服务，用于进行OCR识别、实物识别。

有益效果

1、本发明提供的双录***实现自动化和智能化采集客户身份信息、网点信息、已知风险等信息得到的视频文件，在常规双录视频内容中至少增加了用户身份证信息，实现录音、录像、身份证信息、网点信息集成化的视频文件，方便后台人员一次性审核，提升审核效率以及审核准确性，有效提高前台采集和后台审核的自动化程度和便捷性，缩短双录业务办理时间，提高客户的业务体验。

2、本发明在自助设备上实现身份证扫描以及人体图像获取，进而根据身份证信息和人体特征生成水印信息，该水印信息是通过数字水印技术来实现的，即加密信息分布至视频数据中不同帧上，通过水印信息提供校验机制，可以鉴别双录音视频数据是否被篡改，同时采用安全传输机制和传输数据校验机制提高安全等级。并提供证据文件的身份信息可追溯性和证据完整性。

3、本发明在自助设备上是通过对话模板来实现人机对话，即预先设计标准话术，通过将标准话术自动转换语音进行播报，避免柜台工作人员在视频录制时常因朗读多段话术漏读、错读、以及客户在回答问题时话术也不标准而导致的重录。

附图说明

图1是本发明实施例提供的一种双录***的架构示意图；

图2是本发明实施例提供的音视频录制过程中新证据添加流程示意图；

图3是本发明实施例提供的所述方法的流程示意图；

图4是本发明实施例提供的音视频合成过程的流程示意图；

图5是本发明实施例提供的所述方法的另一示意图；

图6是本发明实施例提供的视频图像的一个示意图；

图7是本发明实施例提供的视频图像的另一个示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

本发明实施例提供的一种双录***包括双录应用主控模块以及分别与双录应用主控模块连接的语音合成播报模块、语音识别与对话管理模块、人脸与人体识别服务模块、音视频录制合成模块、音视/显示输出设备、OCR识别服务模块、自助外设模块和安全管理模块。其中，自助外设模块包括身份证扫描模块、双目摄像头、SIU传感器；该音视/显示输出设备包括显示屏、扬声器、麦克风、听筒。

其中，身份证扫描模块用于采集用户的身份证信息，双目摄像头用于采集用户实时人体图像，所述人脸与人体识别服务模块用于进行人脸、人体的特征识别与分析。譬如人脸识别比对，人体分析检测、属性识别、人像切割等。

音视频录制合成模块用于实时录制用户音视频；

语音合成播报模块用于将文字信息合成转换为语音文件或语音信号进行语言播报服务，俗称TTS。语音识别与对话管理模块用于将语音自动识别为文字以及对话管理，譬如有限状态机等模式的对话管理，语言分析意图理解等功能。

安全管理模块用于密钥管理、加解密、数字签名等安全保护。

其中，双录应用主控模块是负责双录功能实现的应用软件服务模块，譬如根据身份证信息和实时人体图像验证用户的身份有效性，譬如在实时双录音视频的录制过程中将采集的身份证图片添加至视频图像以及再从视频图像中移除；譬如在视频图像生成现场名称标志并对现场名称标志及人体图像重叠区域进行识别；譬如在实时双录音视频的录制过程中采用数字水印技术在视频数据中添加水印信息；以及譬如对文本显示进行重点标记等。

SIU传感器用于感知听筒被摘下或放下并将感知结果发送给所述双录应用主控模块；所述双录应用主控模块用于根据所述SIU传感器的感知结果控制扬声器、听筒的切换。譬如当客户摘下听筒，SIU传感器通过听筒下方的触点是否压下来感知听筒被摘下，触发事件至双录应用主控模块控制服务，服务关闭扬声器声道，扬声器停止，同时切换播放声道至听筒，听筒正常播放；当客户放下听筒，SIU传感器感知到听筒被放下，控制服务关闭听筒，切换回扬声器播放模式。

其他可行的实施例中，如图1所示，该***包括：双录应用主控模块、以及均与双录应用主控模块通讯连接的语音合成识别对话管理模块、智能视觉服务模块、生物识别模块、音视频录制合成模块、设备服务中间件、安全模块模块、音频显示输出模块。

其中，双录应用主控模块采用事件总线机制(双录事件总线Event BUS)，用于处理各模块事件通讯交互和协作，并实现事件存储和事件侦听、注册、注销、通知等职能，主控应用模块除事件总线Event BUS外，还自包含一个事件处理器Event Processor作为双录的主体控制逻辑处理单元。通过与事件处理器Event Processor进行协作，实现双录***内部事件的交互、存储，具备高可靠性和实时性。事件处理器可灵活注册至事件总线，发布和订阅事件，侦听其他核心模块或事件处理器的事件通知。

与双录应用主控模块连接的语音合成识别对话管理模块等子模块也是采用事件处理器，挂载与双录应用主控模块上通讯连接，实现内部事件交互与存储。

所述智能视觉识别服务模块用于进行OCR识别、实物识别。

所述生物识别模块用于进行人脸等生物特征识别与分析比对；

所述语音合成识别对话管理模块中的语音合成服务用于将文字信息合成转换为语音文件或语音信号；所述语音合成识别对话管理模块中语音识别与对话管理服务用于将语音自动识别为文字以及对话管理、语义分析和意图理解。

其他模块的功能与上述描述相似，在此不赘述，应当理解，各个模块可以根据其功能进行划分或者合并，本发明对此不进行具体的限定。

其中，基于上述双录***，本发明提供的一种自助设备的双录视频合成方法，包括如下步骤：

S1：验证用户的身份有效性。

智能柜台等自助设备的人体感应模块检测到有客户邻近，提示客户***本人身份证，通过身份证扫描模块扫描客户的身份证获取身份证件正反两面扫描信息。采集成功后，联网核查身份证有效性(身份证是否真实有效)，并将摄像头模块采集的人脸图片与身份证芯片中读取的图片输入生物识别模块，进行人脸识别与比对，同时并进行活体检测(眨眼、点头等动作)，根据人脸置信度和活体检测结果判别审核是否通过，若不通过，则结束服务。若通过，客户选择相应的双录业务，通过通讯接口(如HTTPS)查询客户适当性信息，根据客户风险情况动态读取或下载标准话术文件。其中预先存储了各类标准话术文件，根据用户需求以及用户风险动态下载或读取相应的标准话术文件。HTTPS服务接口协议采用双向认证机制，同时认证客户端和服务端。

其中，人脸置信度是基于现有的人脸识别技术来获取，设置相对应的人脸置信度阈值来鉴别是否识别成功。活体检测用于检测用户是否是真人而非假脸。

S2：若用户的身份是有效的且接收到双录启动信号，对用户开启实时双录音视频录制得到视频文件。

其中，若用户通过身份认证，并选择启动双录功能，则进行双录初始化准备并录制。

关于现场名称标志：

根据双录业务要求，在原人工流程中进行音视频录制时，需要保证现场(营业部或网点)名称标志在录制范围内可见。本发明提供两种实现方式来实现视频图像中显示现场名称标志。

(1)在实时视频数据中采用输入源叠加技术将现场名称标志图文件按设定的透明度嵌入在视频图像预设位置(如右下角、右上角等)，并叠加视频信号顶层形成虚拟合成标志，以半透明水印方式嵌入至视频图像内，本实施例中透明度取值范围内为[0.5,0.8]。如图2所示，此时网点名次标志即可视为图2中新的证据，是需要加入至视频数据中。

(2)A：利用摄像头实时采集用户人像和现场名称标志得到视频图像；

B：调用智能视觉识别模块的OCR识别服务识别现场名称标志，并判断视频图像中现场名称标志是否为预先配置的网点名称；若不是，双录应用主控模块请求语音识别对话管理模块发起多轮对话，提示用户调整位置调整或调整现场名称标志实物或停止服务；若是且存在两个或两个以上的网点名称，则发起语音排查提示(譬如发起语音多轮对话引导客户联系管理员进行人工排查。若是且仅存在一个网点名称，则执行步骤C。

其中，采用OCR技术识别出视频中网点名称后，分别计算其与预先配置的网点名称的相似度，若相似度均低于阈值，则视为预先配置的网点名称中没有OCR识别出的网点名称。其中，相似度采用文本相似度算，譬如余弦相似度。阈值为经验值，譬如0.9。

其他可行的实施例中，智能视觉识别模块还包括实物识别服务，譬如，其可以对网点名称标记铭牌进行材料实物识别，并与内置的材料标准进行比对鉴别是否为准确的。

C：对视频图像中现场名称标志和人像进行重叠区域检测，并根据重叠区域检测结果发起用户位置调整或现场名称标志实物调整的语音人机对话直至重叠区域满足预设标准。其中，重叠区域越小越好，本发明实施例中优选视频人像和现场名称标志同时存在而不重叠，其他可行的实施例中，配置定义横X、纵Y在取值范围为[0，5]为允许重合像素的阈值。

本发明提供三种方式来实现重叠区域检测。

1、AABB包围盒矩阵碰撞算法进行重叠区域检测：

首先，利用OCR识别技术分别获取视频图像中现场名称标志、人像的矩形像素区的特征，所述特征包括坐标位置、长和高；其中，对人体区域可通过人像切割返回高精度抠像，生成人像区域的Base64编码的二值灰度图数据，记录像素点位置，每个像素点的灰度值＝置信度*255，置信度为取值范围[0,1]。

其次，利用现场名称标志的矩形像素区、人像的矩形像素区采用AABB包围盒矩阵碰撞检测算法获取矩形重叠区域；利用AABB包围盒矩阵碰撞检测是否发生重叠的过程如下：

设定A.x为人体矩阵中心点横坐标，A.y为人体矩阵中心点纵坐标，A.width为人体矩阵宽度，A.height为人体矩阵高度；

|(A.x–B.x)|<(A.width/2+B.width/2)

|(A.y-B.y)|<(A.height/2+B.height/2)

2、平面像素碰撞算法进行重叠区域检测：

首先，对视频图像进行高精度抠像获取人像区域的二值灰度图数据和现场名称标志区域的二值灰度图数据；

然后，采用平面像素碰撞算法计算人像区域和现场名称标志区域内重叠轮廓。

其中平面像素碰撞算法是基于像素点进行计算的，因此其计算量大，但是得到的重叠轮廓的精度高。

3、采用AABB包围盒矩阵碰撞算法和平面像素碰撞算法进行重叠区域检测：

首先，利用OCR识别技术分别获取视频图像中现场名称标志、人像的矩形像素区的特征，所述特征包括坐标位置、长和高；

若重叠区域不为零，则对重叠区域进行高精度抠像获取人像局部区域和现场名称标志的局部区域；再采用平面像素碰撞算法计算人像局部区域、现场名称标志的局部区域重叠轮廓。

关于人机对话与文本话术播报：

本发明进行双录音视频时，是根据标准话术进行语音人机对话交互。针对选择的标准话术文本设定国际化配置的语音种类，将文字转换为不同的语种进行播报，无须懂多语种语音柜员人工干预。在播报话术过程中，通过SIU传感器模块实时感知听筒状态，支持听筒和扬声器两种模式自适应切换。当客户摘下听筒，SIU传感器通过听筒下方的触点是否压下感知听筒被摘下，设备服务中间件触发事件至事件总线(Event BUS)和音视频录制合成服务(Event Processor)，该服务关闭扬声器声道，同时切换播放声道至听筒；当客户放下听筒，SIU传感器感知到听筒被放下，设备服务中间件触发事件至事件总线和音视频录制合成服务，该服务关闭听筒，切换回扬声器播放模式。该方式解决听筒播报声音与麦克风不能共录问题，同时也减少了扬声器模式在公共场所录制干扰问题。

本发明优选在播报话术过程中，针对播报的话术文本进行实时的友好提示，增强用户体验感。

譬如：基于客户的标准话术文件根据用户语音输入信息获取下一对话文本；其中，客户的标准话术文件可以理解为预先配置的客户对话模板。

再基于下一对话文本中的断句标点符号对下一对话进行分句，并利用分词词典或中文分词器对每个分句进行分词；其中，断句标点符号如分号，逗号，句号等。分词处理可以是基于配置话术领域的分词词典或者基于中文分词器进行分词，按照话术文本顺序或者词序生成基于语法分析的有序切词集合。

语音播报下一对话文本时，按照文字提示规则对下一对话文本进行部分或全部进行重点标记。其中，重点标记包括字体变化、颜色变化或加亮等。

其中，本发明是通过TTS音素边界等事件计算一个与文本长度有关进度值来实现语音播报与文本字体变化的同步。

其中，在基于标准话术进行人机对话时，若话术播报中等待用户应答输入信息时，启动对话管理/语音识别模块通过正则匹配或SVM机器学习分类器识别输入意图，若输入不明确，则用多轮对话提示客户按提示要求应答选择，直到输入明确。

关于身份证照片添加至视频图像

另一方面，在视音频录制过程中，还将按照预设时间节点采用输入源叠加技术将采集的身份证图像添加至视频图像中以及再从视频图像中移除。本实施例中选用ffmpeg输入源叠加技术。此时身份证图像就是如图2中所示的待计入的新的证据得到如图3所示。除此之外，若还需要身份证核查结果、人脸识别和证书中照片比对是否一致的结果，则采用与身份证正面图片相同的方式来进行存储和设置参数。

譬如：录制时刻为t0，t0时刻视频图像由实时录制视频、当前办理时间、业网点名称标识组成。t1时刻时，通过过滤器组件动态改变音视频录制合成模块运行参数，合成二代证正面图信息至实时屏幕，此时视频图像由录制视频、当前办理时间、业网点名称标识和二代证正面信息组成；t1时刻时，屏幕二代证合成图动态消失，此时视频图像又变为t0时刻的视频图像。需要说明的是，时间节点是根据审核需求来设定的，本发明对此不进行具体的限定。

现有的ffmpeg输入源叠加技术是将命令行参数-vfliter过滤器在启动时传入，根据不同的命令行参数vfliter设置不同的程序运行参数，在整个程序运行过程无法修改。但应用场景中需要根据不同的场景动态添加不同的客户信息，因此需要实时修改视频合成过程中的运行参数和视频过滤参数。因此本发明实施例采用ffmpeg输入源叠加技术***新图像时，是将参数vfliter由命令行参数设置方式调整为文件读入运行参数方式，并可以根据需要设置多个vfliter参数：当有通知事件时，从固定的参数文件filter.txt里读取运行参数，更新到程序运行参数中，实现程序运行参数按需更新，具体过程如下：

开始录制实时视频的时刻为t0，实时视频中此时需要加入业务网点信息、***当前时间，因此间标签、网点信息的图片本地路径保存在filter.txt，此时参数设为vfilter1，并发起参数更新事件，线程捕获参数更新事件，则从filter.txt中读取参数vfilter1；

t1时刻所需的信息除了t0时刻经加入的外，还需要额外加入身份证正面图片，将身份证图片本地路径都保存在filter.txt中，此时参数设置为vfilter2，并发起参数更新事件，线程捕获参数更新事件，则从filter.txt中读取参数vfilter2；除此之外，若还需要身份证核查结果、人脸识别和证书中照片比对是否一致的结果，则采用与身份证正面图片相同的方式来进行存储和设置参数。本实施例中优选除了身份证图片外，还加入人脸识别和证书中照片比对是否一致的结果。

t2时刻，需要在视频中实时退出身份信息显示，实时视频中只需显示***时间和网点信息，因此发起参数更新事件，线程捕获参数更新事件，则从filter.txt中读取参数vfilter1，回到第一步的叠加过程。

此外，利用上述架构还可以调整视频途中各个图片的大小和位置。譬如在vfilter中增加命令行参数项，可以调整图片大小以及视频中放置的位置，传入预览窗口的位置坐标，可以设置预览窗口的位置，设置的参数包括SDL窗口标题参数window_title、SDL窗口大小window_size、全屏模式window_fullscreen、无边界参数window_borderless、窗口坐标win_x和win_y等，实现窗口可定制化。

关于视频文件的安全机制：

为了提高音视频文件的安全性，本发明在所述实时双录音视频的录制过程中采用数字水印技术在视频数据中添加水印信息，所述水印信息包括人脸特征加密信息以及身份证签名信息。

具体的，实时音视频录制过程中，基于DCT域实现的H264标准视频数字水印技术，将通过设备端的数字证书公钥加密的人脸特征值和私钥签名的身份证信息摘要数据形成的水印内容写入视频。数字水印技术通过数据算法将标志性特征信息嵌入至多媒体文档(音视频文件中)，不影响原内容的价值和使用，并且不被人感知***觉察或注意。本方法采用H264标准的基于DCT域实现的视频水印技术及算法，在水印嵌入在编码阶段的离散余弦变换(DCT)的直流系数(DC)中(量化后、预测前)。该水印方案优点是水印嵌入在DCT系数中，不增加视频流的数据比特率，同时易设计出抗多种攻击的水印。

其中，进一步设计了特性和的嵌入水印内容，从摄像头采集的人脸图像中提取人脸特征(左眼中心、右眼中心、鼻尖、嘴中心的4个关键点位置特征信息或者增强的72个特征点位置信息)，并采用设备端的数字证书公钥对提取的人脸特征进行加密得到人脸特征加密信息。其中，对人脸特征信息进行BASE编码作为WaterMark1数据。水印数据用于视频数据后的身份鉴别，以及视频数据文件的防篡改保护。

另外通过双录的身份证读取流程获取到身份证芯片的身份信息保存至业务下文数据缓存，并利用私钥对身份证信息通过摘要算法SHA-1或SM3值进行数字签名转换为BASE64编码，作为WaterMark2。本发明优选水印信息WATERMARK＝设备编号+WATERMARK1+WATERMARK2，其他可行的实施例中，水印信息可以是WATERMARK＝WATERMARK1+WATERMARK2。进一步地，在视频图像中除了以文本显示数字水印，本发明还包括讲数字水印信息WATERMARK的文本字符数据生成为QRcode编码的二维码图像，转换为二值图像数据存储于视频中，形成作为图像格式的数字水印。由于二维条码有较强的纠错能力，二维码作为数字水印，进一步提高了***的安全性和鲁棒性。后期可以提取数字水印信息进一步验证视频身份信息和证据完整性，同时可以追踪视频文件来源于哪个设备，快速定位视频源。

关于数字证书公钥，其是通过服务器部署CA服务器，终端设备根据终端编号生成唯一标识的私钥和数字证书，数字证书包括服务端加密公钥，并将私钥SK和数字证书存储在密码键盘的安全芯片中。

需要说明的是，双录***进行音视频录制是得到音频流数据和视频流数据，然后通过时间戳实现时间同步，设置时间戳初始值，通过DTS和PTDS机制实现时间同步，将音频流合成至视频流中得到视频文件。由于此音频流和视频流的同步机制是现有技术中采用技术手段，因此本发明对此不进行具体描述。

服务端进行解密来验证用户身份信息以及人脸特性信息，可以提高视频文件的安全性，如果视频文件被篡改可以及时发现。PAD***审核员进行双录复核，请求CA***中留存的终端证书验证签名视频文件的完整性，以防文件被篡改。后期可对视频提取数据水印经一步验证视频身份信息和证据完整性。同时，因终端证书中有设备编号且具有唯一性，可追踪视频文件来源于哪个设备，快速定位视频源。

本发明将通过H264的视频编码技术和AAC音频编码技术对视频文件进行压缩，将压缩的视频通过SFTP协议上传至后台服务器。

基于上述软硬件内容，本发明实施例提供一种具体现实方式如下：

双录主控应用服务绑定证据信息的生命周期状态事件，如身份证已***状态和身份证已退出状态，然后根据双录流程的上下文生成发送录制合成事件给音视频录制合成服务的事件处理器。音视频录制合成服务获取合成事件中位置参数、透明度、是否生效、合成层级参数、是否支持碰撞检测等参数，该服务视频处理滤镜组件获取合成事件参数动态改变运行参数输出实时合成视频。其中，采用事件总线(Event BUS)和事件处理器(EventProcessor)机制，实现音视频录制合成服务和双录主控模应用服务的实时消息事件双向通知。

然后，设定双录开始录制时刻为T0，该时刻合成视频由实时录制视频、合成当前办理时间、合成网点标识名称(假设设置为虚拟LOGO)组成。当客户***身份证读取扫描后，双录主控应用服务绑定的证据信息的生命周期状态事件处理单元，生成音视频录制合成服务获取合成事件并发送至事件总线，音视频录制合成服务接收到事件后，通过该服务视频滤镜组件动态改变音视频录制合成模块运行参数，合成实身份证正面图信息至屏幕，此时为T1时刻，实时合成视频由实时录制视频、合成当前办理时间、网点标识名称和身份证正面信息组成。当完成双录过程人脸识别和人证比对后，客户从阅读器中退出身份证，双录主控应用服务接收到身份证已退出状态事件，生成音视频录制合成服务获取合成事件，实时视频动态取消视频中的合成身份证正面信息，此时刻为T2。

综上所述，本发明所述方法及其***，结合机具感应事件和智能视觉识别、动态视频叠加等技术，结合双录场景上下文实现自动化、智能化采集客户身份信息、办理业务时间、网点信息、客户操作、已知风险、本人已办理业务的意愿等信息，无缝融合动态视频生成集成化的审核视频数据。同时，本发明采用事件总线模式和事件处理器架构，实现双录主控模块与子模块的通信可靠性、数据实时性以及***解耦。且在录制过程中，采用智能视觉识别(含OCR识别、人体识别等)和碰撞检测算法，实现双录的人像和实物网点标识等视频内容要求。在话术播报过程中，合成事件和实时事件总线机制，实现动态显示处理，更以进一步针对对话术文本的进行分词和语义分析处理，动态预测词、句子并进行实时加亮、变色等显示处理；采用语音对话管理实现人机交互和客户对意愿收集；在视频文件生成时，采用基于DCT的数字水印和二维码技术，生成特征化的加密安全生物特征、身份信息实视频数据的身份信息认证和防篡改，有效提高柜台人员采集和后台审核的自动化程度和便捷性，缩短双录业务办理时间，提高客户的业务体验。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种自助设备的双录视频合成方法，其特征在于：包括如下步骤：

S1：验证用户的身份有效性；

在所述实时双录音视频的录制过程中采用数字水印技术在视频数据中添加水印信息，所述水印信息至少包括人脸特征加密信息以及身份证签名信息；

2.根据权利要求1所述的方法，其特征在于：所述视频图像中的现场名称标志的生成过程如下：

3.根据权利要求2所述的方法，其特征在于：重叠区域的识别过程如下：

|(A.x-B.x)|＜(A.width/2+B.width/2)

|(A.y-B.y)|＜(A.height/2+B.height/2)。

4.根据权利要求2所述的方法，其特征在于：重叠区域的识别过程如下：

若重叠区域不为零，则对重叠区域进行高精度抠像获取人像局部区域和现场名称标志的局部区域；再采用平面像素碰撞算法计算人像局部区域、现场名称标志的局部区域重叠轮廓，所述重叠轮廓内区域为人像与现场名称标志的重叠区域。

5.根据权利要求1所述的方法，其特征在于：在实时双录视频的录制过程中采用预先存储的播报对话模板进行对话；

6.根据权利要求1所述的方法，其特征在于：还包括将所述水印信息生成为QRcode编码的二维码图像，并将所述二值图像数据存储于视频图像中形成图像格式的数字水印。

7.根据权利要求1所述的方法，其特征在于：所述水印信息还包括设备编号。

8.一种基于权利要求1-7任一项所述方法的双录***，其特征在于：包括双录应用主控模块以及分别与所述双录应用主控模块连接的语音合成播报模块、语音识别与对话管理模块、人脸与人体识别服务模块、音视频录制合成模块、音视/显示输出设备、自助外设模块和安全管理模块，所述自助外设模块包括身份证扫描模块、摄像头；

其中，所述双录应用主控模块中设有事件处理器以及双录事件总线；

9.根据权利要求8所述的双录***，其特征在于：所述自助外设模块还包括SIU传感器，所述音视/显示输出设备包括显示屏、扬声器、麦克风、听筒；

10.根据权利要求8所述的方法，其特征在于：还包括与双录应用主控模块通信连接的智能视觉识别服务模块，所述智能视觉识别服务模块包括OCR识别服务以及实物识别服务，用于进行OCR识别、实物识别。