CN113079387B

CN113079387B - 远程视讯录制方法、装置、设备及存储介质

Info

Publication number: CN113079387B
Application number: CN202110322879.1A
Authority: CN
Inventors: 王小红; 施国灏; 周军
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-06-16
Anticipated expiration: 2041-03-26
Also published as: CN113079387A

Abstract

本发明涉及人工智能领域，公开了远程视讯录制方法、装置、设备及存储介质，用于降低终端录制所消耗的计算资源，提高了录制效率。本发明方法包括：按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频；从多个原始音频中提取每个原始音频的特征，得到音频特征序列；将音频特征序列输入预置的语音识别模型，得到多个音频文本；将多个音频文本上传至服务器，并通过异步方式将多个原始音频和多个原始视频上传至服务器，以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。本发明还涉及区块链技术，完整的音视频文件可存储于区块链节点中。

Description

远程视讯录制方法、装置、设备及存储介质

技术领域

本发明涉及语言信号处理领域，尤其涉及一种远程视讯录制方法、装置、设备及存储介质。

背景技术

按照银行业监管的要求，客户在办理许多银行业务的时候需要客户本人在手机银行APP进行远程视讯，回答一些机器人(或者是真实的远程坐席人员)播报的问题，并且对这个全过程进行录音录像保存，这个录音录像并且保存的过程叫做双录。通常的做法是前后端建立一个音视频流通道，手机银行APP实时把采集的音视频流传输到后端，后端对音视频流进行录制保存。

目前，在客户购买私募产品交易等视讯场景中，一般一次视讯大约会需要用户回答10个左右的问题，持续5到6分钟，这段时间前后端建立的实时的音视频流通道就会一直占用服务带宽和服务的计算资源。当热门产品发售时候会出现大量客户抢购的情况，在这种高并发情况下由于服务端带宽和服务端计算资源有限，录制效率降低，导致部分手机银行APP无法与服务端成功建立音视频流通道，录制的数据出现卡顿或者黑屏。

发明内容

本发明提供了一种远程视讯录制方法、装置、设备及存储介质，用于降低终端录制所消耗的计算资源，同时保证录制的是高质量的音频和视频，避免出现丢帧卡顿的现象，提高了录制效率。

本发明实施例的第一方面提供一种远程视讯录制方法，包括：按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点；从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征；将所述音频特征序列输入所述预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复；将所述多个音频文本上传至服务器，并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器，以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。

可选的，在本发明实施例第一方面的第一种实现方式中，所述按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点，包括：获取预置的视讯问题集，所述预置的视讯问题集包括多个预置问题；获取所述多个预置问题的答复；根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点，所述视讯节点包括音频录制节点和视频录制节点，其中，所述视讯节点用于指示一个问题节点；根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。

可选的，在本发明实施例第一方面的第二种实现方式中，所述根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点，所述视讯节点包括音频录制节点和视频录制节点，其中，所述视讯节点用于指示一个问题节点，包括：确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻；根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点；根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点，得到多个视频录制节点；将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点，得到多个视讯节点。

可选的，在本发明实施例第一方面的第三种实现方式中，所述根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点，包括：确定目标预置问题的起始时刻和结束时刻，得到提问起始时刻和提问结束时刻；确定目标预置问题对应答复的起始时刻和结束时刻，得到答复起始时刻和答复结束时刻，所述答复起始时刻与所述提问结束时刻相同；将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻，将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻，得到音频起始时刻和音频结束时刻；基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点，依次生成其他音频录制节点，得到多个音频录制节点，其中，每个音频录制节点指示一个预置问题和/或预置问题的答复。

可选的，在本发明实施例第一方面的第四种实现方式中，所述根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频，包括：按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频；按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频，得到多个原始视频。

可选的，在本发明实施例第一方面的第五种实现方式中，所述按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频，包括：在目标音频节点的音频起始时刻启动终端录音功能；调用预置问题进行语音播报并录制用户的音频；在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频，并依次生成其他原始音频，得到多个原始音频。

可选的，在本发明实施例第一方面的第六种实现方式中，所述从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征，包括：将所述多个原始音频的首尾段进行静音切除，得到多个切除后的音频；对所述多个切除后的音频进行特征提取，得到每个原始音频对应的多个音频特征；将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列，生成音频特征序列。

本发明实施例的第二方面提供了一种远程视讯录制装置，包括：录制模块，用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点；提取模块，用于从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征；输入模块，用于将所述音频特征序列输入所述预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复；上传模块，用于将所述多个音频文本上传至服务器，并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器，以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。

可选的，在本发明实施例第二方面的第一种实现方式中，录制模块包括：问题获取单元，用于获取预置的视讯问题集，所述预置的视讯问题集包括多个预置问题；问题答复获取单元，用于获取所述多个预置问题的答复；节点确定单元，用于根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点，所述视讯节点包括音频录制节点和视频录制节点，其中，所述视讯节点用于指示一个问题节点；录制单元，用于根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。

可选的，在本发明实施例第二方面的第二种实现方式中，节点确定单元包括：第一确定子单元，用于确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻；第二确定子单元，用于根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点；第三确定子单元，用于根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点，得到多个视频录制节点；第四确定子单元，用于将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点，得到多个视讯节点。

可选的，在本发明实施例第二方面的第三种实现方式中，第二确定子单元具体用于：确定目标预置问题的起始时刻和结束时刻，得到提问起始时刻和提问结束时刻；确定目标预置问题对应答复的起始时刻和结束时刻，得到答复起始时刻和答复结束时刻，所述答复起始时刻与所述提问结束时刻相同；将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻，将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻，得到音频起始时刻和音频结束时刻；基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点，依次生成其他音频录制节点，得到多个音频录制节点，其中，每个音频录制节点指示一个预置问题和/或预置问题的答复。

可选的，在本发明实施例第二方面的第四种实现方式中，录制单元包括：音频录制子单元，用于按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频；视频录制子单元，用于按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频，得到多个原始视频。

可选的，在本发明实施例第二方面的第五种实现方式中，音频录制子单元具体用于：在目标音频节点的音频起始时刻启动终端录音功能；调用预置问题进行语音播报并录制用户的音频；在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频，并依次生成其他原始音频，得到多个原始音频。

可选的，在本发明实施例第二方面的第六种实现方式中，提取模块具体用于：将所述多个原始音频的首尾段进行静音切除，得到多个切除后的音频；对所述多个切除后的音频进行特征提取，得到每个原始音频对应的多个音频特征；将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列，生成音频特征序列。

本发明实施例的第三方面提供了一种远程视讯录制设备，存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述远程视讯录制设备执行上述的远程视讯录制方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有指令，当所述指令被处理器执行时实现上述任一实施方式所述的远程视讯录制方法的步骤。

本发明实施例提供的技术方案中，按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，视讯节点用于指示一个问题节点；从多个原始音频中提取每个原始音频的特征，得到音频特征序列，音频特征序列包括顺序排列的每个原始音频对应的多个音频特征；将音频特征序列输入预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复；将多个音频文本上传至服务器，并通过异步方式将多个原始音频和多个原始视频上传至服务器，以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。本发明实施例，将前端音频和视频分开录制，并通过异步上传音频文件和视频文件，减少高并发的远程视讯业务场景中的资源需求，降低了终端录制所消耗的计算资源，同时保证录制的是高质量的音频和视频，避免出现丢帧卡顿的现象，提高了录制效率。

附图说明

图1为本发明实施例中远程视讯录制方法的一个实施例示意图；

图2为本发明实施例中远程视讯录制方法的另一个实施例示意图；

图3为本发明实施例中在视讯节点中录制时刻的示意图；

图4为本发明实施例中单个视讯节点的音视频合成示意图；

图5为本发明实施例中远程视讯过程的音视频合成示意图；

图6为本发明实施例中远程视讯录制装置的一个实施例示意图；

图7为本发明实施例中远程视讯录制装置的另一个实施例示意图；

图8为本发明实施例中远程视讯录制设备的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供的远程视讯录制方法的流程图，具体包括：

101、按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，视讯节点用于指示一个问题节点。

终端按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，视讯节点用于指示一个问题节点。具体的，终端获取预置的视讯问题集，预置的视讯问题集包括多个预置问题；终端获取多个预置问题的答复；终端根据多个预置问题及多个预置问题的答复确定多个视讯节点，视讯节点包括音频录制节点和视频录制节点，其中，视讯节点用于指示一个问题节点；终端根据音频录制节点和视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。

需要说明的是，一个视讯节点为录制一个预置问题所需的时长，按照视讯节点为单位进行分段录制。其中，每个视讯节点的长度可以相同也可以不同，例如，问题1为：“您是委托人单先生吗？请您回答是的或不是”。而问题1的答复为：“是的”。因此从问题1的提问到收到答复作为一个完整的问题节点，可以作为视讯节点1。又例如，问题2为：请问您是否通过我行口袋银行购买了001号资金信托计划，购买人民币1万元？请您回答是的或不是。而问题2的答复为：是的。因此从问题2的提问到收到答复作为一个完整的问题节点，可以作为一个视讯节点2，视讯节点1和视讯节点2所需的时长不同，因此录制的时长也不同。

可以理解的是，本发明的执行主体可以为远程视讯录制装置，还可以是终端，具体此处不做限定。本发明实施例以终端为执行主体为例进行说明。

102、从多个原始音频中提取每个原始音频的特征，得到音频特征序列，音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。

终端从多个原始音频中提取每个原始音频的特征，得到音频特征序列，音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。具体的，终端将多个原始音频的首尾段进行静音切除，得到多个切除后的音频；终端对多个切除后的音频进行特征提取，得到每个原始音频对应的多个音频特征；终端将每个原始音频对应的多个音频特征按照多个原始音频的顺序进行顺序排列，生成音频特征序列。

103、将音频特征序列输入预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复。

终端将音频特征序列输入预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复。具体的，终端调用预置的语音识别模型将音频特征序列转换为音素特征序列；终端调用预置的字典与音素特征序列进行匹配，确定每个音素对应的概率最大的文字；终端基于每个音素对应的概率最大的文字生成目标文字序列，并从目标文字序列中筛选出多个音频文本，其中，每个音频文本包括一个预置问题的答复。

需要说明的是，视频和音频分开录制，这样音频流能够在终端的离线语音识别(automatic speech recognition，ASR)模型转成文本，整个视讯过程终端只需要将用户的问题答复转成的答复文本实时上送服务器，服务器再通过自然语言处理(naturallanguage processing，NLP)算法对答复文本进行语义理解然后确定视讯流程的问题节点流转。音频文件和视频文件通过异步传输到后端的文件服务器。一个视讯回答转成文本只有10KB以内的数据量，而音视频则需要实施传输5M到10M的数据量。这样答复文本实时上送而音频和视频文件异步上传，对实时网络带宽就会降低到只需要实时音视频流的1/200不到，极大的降低了对实时带宽的要求。

104、将多个音频文本上传至服务器，并通过异步方式将多个原始音频和多个原始视频上传至服务器，以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。

终端将多个音频文本上传至服务器，并通过异步方式将多个原始音频和多个原始视频上传至服务器，以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。

需要说明的是，服务器在获取到多个音频文本、多个原始音频和多个原始视频后，还包括：

(1)通过预置的NLP模型对多个音频文本进行识别，确定视讯流程的各个问题节点；

(2)计算每个原始音频的时长与对应的原始视频的时长之间的差值，根据该差值在原始音频的尾部补充静默空白片段；

例如，录像视频文件的时长为T1毫秒，录音的音频文件时长T2毫秒。T2–T1＝T3，因此需要给音频文件尾部追加一段T3时长的空白音频，通常情况下该T3的时长大小取值为：10ms≤T3≤100ms，ms为毫秒；

(3)根据每个问题节点将原始音频和原始视频保持开始时间对齐，通过调用的ffmpeg工具将每个问题节点对应的原始音频和对应的原始视频合成为一个音视频文件，得到多个音视频文件；

(4)将多个音视频文件合成为完整视讯音视频文件，其中，先合成所有单个问题节点的音视频文件，然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件。

本发明实施例，将前端音频和视频分开录制，并通过异步上传音频文件和视频文件，减少高并发的远程视讯业务场景中的资源需求，降低了终端录制所消耗的计算资源，同时保证录制的是高质量的音频和视频，避免出现丢帧卡顿的现象，提高了录制效率。

请参阅图2，本发明实施例提供的远程视讯录制方法的另一个流程图，具体包括：

201、获取预置的视讯问题集，预置的视讯问题集包括多个预置问题。

终端获取预置的视讯问题集，预置的视讯问题集包括多个预置问题。视讯问题集包括了根据历史业务数据进行归纳整理的多个问题，为远程视讯过程中可能需要进行调研的问题，具体问题类型此处不做限定。

202、获取多个预置问题的答复。

终端获取多个预置问题的答复。例如，“您是委托人单先生吗？请您回答是的或不是”。而问题1对应的答复为：“是的”或“不是”。

203、根据多个预置问题及多个预置问题的答复确定多个视讯节点，视讯节点包括音频录制节点和视频录制节点，其中，视讯节点用于指示一个问题节点。

具体的，终端确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻；终端根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点；终端根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点，得到多个视频录制节点；终端将多个音频录制节点和多个视频录制节点确定为多个预置问题的视讯节点，得到多个视讯节点。可以理解的是，一个预置问题的视频结束时刻为下一个预置问题的视频起始时刻。

可选的，终端根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点，具体过程如下：

终端确定目标预置问题的起始时刻和结束时刻，得到提问起始时刻和提问结束时刻；终端确定目标预置问题对应答复的起始时刻和结束时刻，得到答复起始时刻和答复结束时刻，答复起始时刻与提问结束时刻相同；终端将提问起始时刻或答复起始时刻确定为目标音频录制节点的起始时刻，将提问结束时刻或答复结束时刻确定为目标音频录制节点的结束时刻，得到音频起始时刻和音频结束时刻；终端基于音频起始时刻和音频结束时刻生成目标音频录制节点，依次生成其他音频录制节点，得到多个音频录制节点，其中，每个音频录制节点指示一个预置问题和/或预置问题的答复。

如图3所示，在提问起始时刻T0时间点的时候开始视讯问答的预置问题语音播报，同时触发终端(例如手机)的录音和录像功能，T0即为音频起始时刻和视频起始时刻；在提问结束时刻T1时间点的时候问题语音播报完成，进入用户回答(即A1为录制的问题语音)，其中T1也是答复起始时刻；在答复结束时刻T2时间点的时候用户已经回答完成(即A2为录制的答复语音)，这个时候终端通过APP调用终端***的录音结束接口，因终端***的录音结束接口不会同步返回结果，这里需要等待终端操作系完成录音结束之后回调；在音频结束时刻T3时间点表示终端操作***的结束录音完成结回调app(即A3为***调用录音接口过程中录制的无用语音)，生成一个.wav格式(还可以是其他格式例如，MP3格式)的音频文件(即原始音频)，并且在此时触发调用终端***的视频录制结束接口，同样因终端***的录像结束接口不会同步返回结果，这里需要等待终端操作系完成录像结束之后回调(即V1为录制的问题及答复的视频，V2为***调用录像接口过程中录制的无用语音)。同时，视频结束时刻T4时间点表示***结束录像完成回调app。生成一个mp4格式(还可以是其他格式例如，MOV格式、WMV格式)的视频文件(原始视频)。

204、根据音频录制节点和视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。

具体的，终端按照多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频；终端按照多个视频录制节点录制目标用户在远程视讯过程中的视频，得到多个原始视频。

以原始音频的获取过程如下：

终端在目标音频节点的音频起始时刻启动终端录音功能；终端调用预置问题进行语音播报并录制用户的音频；终端在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频，并依次生成其他原始音频，得到多个原始音频。

205、从多个原始音频中提取每个原始音频的特征，得到音频特征序列，音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。

206、将音频特征序列输入预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复。

207、将多个音频文本上传至服务器，并通过异步方式将多个原始音频和多个原始视频上传至服务器，以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。

例如，录像视频文件的时长为T1毫秒，录音的音频文件时长T2毫秒。T2–T1＝T3，因此需要给音频文件尾部追加一段T3时长的空白音频，通常情况下该T3的时长大小取值为：10ms≤T3≤100ms，ms为毫秒，如图4所示，得到一个视讯节点的音视频文件；

(4)将多个音视频文件合成为完整视讯音视频文件，其中，先合成所有单个问题节点的音视频文件，然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件，如图5所示，将节点(视讯节点)1至n的音视频文件按照时间顺序合成为完成的音视频文件。

上面对本发明实施例中远程视讯录制方法进行了描述，下面对本发明实施例中远程视讯录制装置进行描述，请参阅图6，本发明实施例中远程视讯录制装置的一个实施例包括：

录制模块601，用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点；

提取模块602，用于从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征；

输入模块603，用于将所述音频特征序列输入所述预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复；

上传模块604，用于将所述多个音频文本上传至服务器，并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器，以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。

请参阅图7，本发明实施例中远程视讯录制装置的另一个实施例包括：

可选的，录制模块601包括：

问题获取单元6011，用于获取预置的视讯问题集，所述预置的视讯问题集包括多个预置问题；

问题答复获取单元6012，用于获取所述多个预置问题的答复；

节点确定单元6013，用于根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点，所述视讯节点包括音频录制节点和视频录制节点，其中，所述视讯节点用于指示一个问题节点；

录制单元6014，用于根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。

可选的，节点确定单元6013包括：

第一确定子单元60131，用于确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻；

第二确定子单元60132，用于根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点；

第三确定子单元60133，用于根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点，得到多个视频录制节点；

第四确定子单元60134，用于将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点，得到多个视讯节点。

可选的，第二确定子单元60132具体用于：

确定目标预置问题的起始时刻和结束时刻，得到提问起始时刻和提问结束时刻；

确定目标预置问题对应答复的起始时刻和结束时刻，得到答复起始时刻和答复结束时刻，所述答复起始时刻与所述提问结束时刻相同；

将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻，将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻，得到音频起始时刻和音频结束时刻；

基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点，依次生成其他音频录制节点，得到多个音频录制节点，其中，每个音频录制节点指示一个预置问题和/或预置问题的答复。

可选的，录制单元6014包括：

音频录制子单元60141，用于按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频；

视频录制子单元60142，用于按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频，得到多个原始视频。

可选的，音频录制子单元60141具体用于：

在目标音频节点的音频起始时刻启动终端录音功能；

调用预置问题进行语音播报并录制用户的音频；

在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频，并依次生成其他原始音频，得到多个原始音频。

可选的，提取模块602具体用于：

将所述多个原始音频的首尾段进行静音切除，得到多个切除后的音频；对所述多个切除后的音频进行特征提取，得到每个原始音频对应的多个音频特征；将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列，生成音频特征序列。

上面图6至图7从模块化功能实体的角度对本发明实施例中的远程视讯录制装置进行详细描述，下面从硬件处理的角度对本发明实施例中远程视讯录制设备进行详细描述。

图8是本发明实施例提供的一种远程视讯录制设备的结构示意图，该远程视讯录制设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对远程视讯录制设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在远程视讯录制设备800上执行存储介质830中的一系列指令操作。

远程视讯录制设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作***831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的远程视讯录制设备结构并不构成对远程视讯录制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述远程视讯录制方法的步骤。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种远程视讯录制方法，其特征在于，包括：

按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点；

从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征；

将所述音频特征序列输入预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复；

将所述多个音频文本上传至服务器，并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器，以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件；

所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件包括：

通过预置的自然语言处理模型对多个音频文本进行识别，确定视讯流程的各个问题节点；

计算每个原始音频的时长与对应的原始视频的时长之间的差值，根据该差值在原始音频的尾部补充静默空白片段；

根据每个问题节点将原始音频和原始视频保持开始时间对齐，通过调用的ffmpeg工具将每个问题节点对应的原始音频和对应的原始视频合成为一个音视频文件，得到多个音视频文件；

将多个音视频文件合成为完整视讯音视频文件，其中，先合成所有单个问题节点的音视频文件，然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件。

2.根据权利要求1所述的远程视讯录制方法，其特征在于，所述按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点，包括：

获取预置的视讯问题集，所述预置的视讯问题集包括多个预置问题；

获取所述多个预置问题的答复；

根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点，所述视讯节点包括音频录制节点和视频录制节点，其中，所述视讯节点用于指示一个问题节点；

根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。

3.根据权利要求2所述的远程视讯录制方法，其特征在于，所述根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点，所述视讯节点包括音频录制节点和视频录制节点，其中，所述视讯节点用于指示一个问题节点，包括：

确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻；

根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点；

根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点，得到多个视频录制节点；

将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点，得到多个视讯节点。

4.根据权利要求3所述的远程视讯录制方法，其特征在于，所述根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点，得到多个音频录制节点，包括：

5.根据权利要求2所述的远程视讯录制方法，其特征在于，所述根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频，包括：

按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频；

按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频，得到多个原始视频。

6.根据权利要求5所述的远程视讯录制方法，其特征在于，所述按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频，得到多个原始音频，包括：

在目标音频节点的音频起始时刻启动终端录音功能；

调用预置问题进行语音播报并录制用户的音频；

7.根据权利要求1-6中任一项所述的远程视讯录制方法，其特征在于，所述从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征，包括：

将所述多个原始音频的首尾段进行静音切除，得到多个切除后的音频；

对所述多个切除后的音频进行特征提取，得到每个原始音频对应的多个音频特征；

将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列，生成音频特征序列。

8.一种远程视讯录制装置，其特征在于，包括：

录制模块，用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频，得到多个原始音频和多个原始视频，其中，所述视讯节点用于指示一个问题节点；

提取模块，用于从所述多个原始音频中提取每个原始音频的特征，得到音频特征序列，所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征；

输入模块，用于将所述音频特征序列输入预置的语音识别模型，得到多个音频文本，其中，每个音频文本包括一个预置问题的答复；

上传模块，用于将所述多个音频文本上传至服务器，并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器，以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件；

9.一种远程视讯录制设备，其特征在于，所述远程视讯录制设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述远程视讯录制设备执行如权利要求1-7中任意一项所述的远程视讯录制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令被处理器执行时实现如权利要求1-7中任意一项所述的远程视讯录制方法。