CN113079387B - 远程视讯录制方法、装置、设备及存储介质 - Google Patents
远程视讯录制方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113079387B CN113079387B CN202110322879.1A CN202110322879A CN113079387B CN 113079387 B CN113079387 B CN 113079387B CN 202110322879 A CN202110322879 A CN 202110322879A CN 113079387 B CN113079387 B CN 113079387B
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- original
- recording
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008569 process Effects 0.000 claims abstract description 45
- 230000004044 response Effects 0.000 claims description 20
- 238000003058 natural language processing Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000000903 blocking effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/231—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4334—Recording operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明涉及人工智能领域,公开了远程视讯录制方法、装置、设备及存储介质,用于降低终端录制所消耗的计算资源,提高了录制效率。本发明方法包括:按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频;从多个原始音频中提取每个原始音频的特征,得到音频特征序列;将音频特征序列输入预置的语音识别模型,得到多个音频文本;将多个音频文本上传至服务器,并通过异步方式将多个原始音频和多个原始视频上传至服务器,以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。本发明还涉及区块链技术,完整的音视频文件可存储于区块链节点中。
Description
技术领域
本发明涉及语言信号处理领域,尤其涉及一种远程视讯录制方法、装置、设备及存储介质。
背景技术
按照银行业监管的要求,客户在办理许多银行业务的时候需要客户本人在手机银行APP进行远程视讯,回答一些机器人(或者是真实的远程坐席人员)播报的问题,并且对这个全过程进行录音录像保存,这个录音录像并且保存的过程叫做双录。通常的做法是前后端建立一个音视频流通道,手机银行APP实时把采集的音视频流传输到后端,后端对音视频流进行录制保存。
目前,在客户购买私募产品交易等视讯场景中,一般一次视讯大约会需要用户回答10个左右的问题,持续5到6分钟,这段时间前后端建立的实时的音视频流通道就会一直占用服务带宽和服务的计算资源。当热门产品发售时候会出现大量客户抢购的情况,在这种高并发情况下由于服务端带宽和服务端计算资源有限,录制效率降低,导致部分手机银行APP无法与服务端成功建立音视频流通道,录制的数据出现卡顿或者黑屏。
发明内容
本发明提供了一种远程视讯录制方法、装置、设备及存储介质,用于降低终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
本发明实施例的第一方面提供一种远程视讯录制方法,包括:按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点;从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;将所述音频特征序列输入所述预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;将所述多个音频文本上传至服务器,并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器,以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。
可选的,在本发明实施例第一方面的第一种实现方式中,所述按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点,包括:获取预置的视讯问题集,所述预置的视讯问题集包括多个预置问题;获取所述多个预置问题的答复;根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点,所述视讯节点包括音频录制节点和视频录制节点,其中,所述视讯节点用于指示一个问题节点;根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。
可选的,在本发明实施例第一方面的第二种实现方式中,所述根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点,所述视讯节点包括音频录制节点和视频录制节点,其中,所述视讯节点用于指示一个问题节点,包括:确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻;根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点;根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点,得到多个视频录制节点;将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点,得到多个视讯节点。
可选的,在本发明实施例第一方面的第三种实现方式中,所述根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点,包括:确定目标预置问题的起始时刻和结束时刻,得到提问起始时刻和提问结束时刻;确定目标预置问题对应答复的起始时刻和结束时刻,得到答复起始时刻和答复结束时刻,所述答复起始时刻与所述提问结束时刻相同;将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻,将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻,得到音频起始时刻和音频结束时刻;基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点,依次生成其他音频录制节点,得到多个音频录制节点,其中,每个音频录制节点指示一个预置问题和/或预置问题的答复。
可选的,在本发明实施例第一方面的第四种实现方式中,所述根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频,包括:按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频;按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频,得到多个原始视频。
可选的,在本发明实施例第一方面的第五种实现方式中,所述按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频,包括:在目标音频节点的音频起始时刻启动终端录音功能;调用预置问题进行语音播报并录制用户的音频;在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频,并依次生成其他原始音频,得到多个原始音频。
可选的,在本发明实施例第一方面的第六种实现方式中,所述从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征,包括:将所述多个原始音频的首尾段进行静音切除,得到多个切除后的音频;对所述多个切除后的音频进行特征提取,得到每个原始音频对应的多个音频特征;将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列,生成音频特征序列。
本发明实施例的第二方面提供了一种远程视讯录制装置,包括:录制模块,用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点;提取模块,用于从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;输入模块,用于将所述音频特征序列输入所述预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;上传模块,用于将所述多个音频文本上传至服务器,并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器,以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。
可选的,在本发明实施例第二方面的第一种实现方式中,录制模块包括:问题获取单元,用于获取预置的视讯问题集,所述预置的视讯问题集包括多个预置问题;问题答复获取单元,用于获取所述多个预置问题的答复;节点确定单元,用于根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点,所述视讯节点包括音频录制节点和视频录制节点,其中,所述视讯节点用于指示一个问题节点;录制单元,用于根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。
可选的,在本发明实施例第二方面的第二种实现方式中,节点确定单元包括:第一确定子单元,用于确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻;第二确定子单元,用于根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点;第三确定子单元,用于根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点,得到多个视频录制节点;第四确定子单元,用于将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点,得到多个视讯节点。
可选的,在本发明实施例第二方面的第三种实现方式中,第二确定子单元具体用于:确定目标预置问题的起始时刻和结束时刻,得到提问起始时刻和提问结束时刻;确定目标预置问题对应答复的起始时刻和结束时刻,得到答复起始时刻和答复结束时刻,所述答复起始时刻与所述提问结束时刻相同;将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻,将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻,得到音频起始时刻和音频结束时刻;基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点,依次生成其他音频录制节点,得到多个音频录制节点,其中,每个音频录制节点指示一个预置问题和/或预置问题的答复。
可选的,在本发明实施例第二方面的第四种实现方式中,录制单元包括:音频录制子单元,用于按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频;视频录制子单元,用于按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频,得到多个原始视频。
可选的,在本发明实施例第二方面的第五种实现方式中,音频录制子单元具体用于:在目标音频节点的音频起始时刻启动终端录音功能;调用预置问题进行语音播报并录制用户的音频;在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频,并依次生成其他原始音频,得到多个原始音频。
可选的,在本发明实施例第二方面的第六种实现方式中,提取模块具体用于:将所述多个原始音频的首尾段进行静音切除,得到多个切除后的音频;对所述多个切除后的音频进行特征提取,得到每个原始音频对应的多个音频特征;将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列,生成音频特征序列。
本发明实施例的第三方面提供了一种远程视讯录制设备,存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述远程视讯录制设备执行上述的远程视讯录制方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时实现上述任一实施方式所述的远程视讯录制方法的步骤。
本发明实施例提供的技术方案中,按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,视讯节点用于指示一个问题节点;从多个原始音频中提取每个原始音频的特征,得到音频特征序列,音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;将音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;将多个音频文本上传至服务器,并通过异步方式将多个原始音频和多个原始视频上传至服务器,以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。本发明实施例,将前端音频和视频分开录制,并通过异步上传音频文件和视频文件,减少高并发的远程视讯业务场景中的资源需求,降低了终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
附图说明
图1为本发明实施例中远程视讯录制方法的一个实施例示意图;
图2为本发明实施例中远程视讯录制方法的另一个实施例示意图;
图3为本发明实施例中在视讯节点中录制时刻的示意图;
图4为本发明实施例中单个视讯节点的音视频合成示意图;
图5为本发明实施例中远程视讯过程的音视频合成示意图;
图6为本发明实施例中远程视讯录制装置的一个实施例示意图;
图7为本发明实施例中远程视讯录制装置的另一个实施例示意图;
图8为本发明实施例中远程视讯录制设备的一个实施例示意图。
具体实施方式
本发明提供了一种远程视讯录制方法、装置、设备及存储介质,用于降低终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例提供的远程视讯录制方法的流程图,具体包括:
101、按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,视讯节点用于指示一个问题节点。
终端按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,视讯节点用于指示一个问题节点。具体的,终端获取预置的视讯问题集,预置的视讯问题集包括多个预置问题;终端获取多个预置问题的答复;终端根据多个预置问题及多个预置问题的答复确定多个视讯节点,视讯节点包括音频录制节点和视频录制节点,其中,视讯节点用于指示一个问题节点;终端根据音频录制节点和视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。
需要说明的是,一个视讯节点为录制一个预置问题所需的时长,按照视讯节点为单位进行分段录制。其中,每个视讯节点的长度可以相同也可以不同,例如,问题1为:“您是委托人单先生吗?请您回答是的或不是”。而问题1的答复为:“是的”。因此从问题1的提问到收到答复作为一个完整的问题节点,可以作为视讯节点1。又例如,问题2为:请问您是否通过我行口袋银行购买了001号资金信托计划,购买人民币1万元?请您回答是的或不是。而问题2的答复为:是的。因此从问题2的提问到收到答复作为一个完整的问题节点,可以作为一个视讯节点2,视讯节点1和视讯节点2所需的时长不同,因此录制的时长也不同。
可以理解的是,本发明的执行主体可以为远程视讯录制装置,还可以是终端,具体此处不做限定。本发明实施例以终端为执行主体为例进行说明。
102、从多个原始音频中提取每个原始音频的特征,得到音频特征序列,音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。
终端从多个原始音频中提取每个原始音频的特征,得到音频特征序列,音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。具体的,终端将多个原始音频的首尾段进行静音切除,得到多个切除后的音频;终端对多个切除后的音频进行特征提取,得到每个原始音频对应的多个音频特征;终端将每个原始音频对应的多个音频特征按照多个原始音频的顺序进行顺序排列,生成音频特征序列。
103、将音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复。
终端将音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复。具体的,终端调用预置的语音识别模型将音频特征序列转换为音素特征序列;终端调用预置的字典与音素特征序列进行匹配,确定每个音素对应的概率最大的文字;终端基于每个音素对应的概率最大的文字生成目标文字序列,并从目标文字序列中筛选出多个音频文本,其中,每个音频文本包括一个预置问题的答复。
需要说明的是,视频和音频分开录制,这样音频流能够在终端的离线语音识别(automatic speech recognition,ASR)模型转成文本,整个视讯过程终端只需要将用户的问题答复转成的答复文本实时上送服务器,服务器再通过自然语言处理(naturallanguage processing,NLP)算法对答复文本进行语义理解然后确定视讯流程的问题节点流转。音频文件和视频文件通过异步传输到后端的文件服务器。一个视讯回答转成文本只有10KB以内的数据量,而音视频则需要实施传输5M到10M的数据量。这样答复文本实时上送而音频和视频文件异步上传,对实时网络带宽就会降低到只需要实时音视频流的1/200不到,极大的降低了对实时带宽的要求。
104、将多个音频文本上传至服务器,并通过异步方式将多个原始音频和多个原始视频上传至服务器,以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。
终端将多个音频文本上传至服务器,并通过异步方式将多个原始音频和多个原始视频上传至服务器,以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。
需要说明的是,服务器在获取到多个音频文本、多个原始音频和多个原始视频后,还包括:
(1)通过预置的NLP模型对多个音频文本进行识别,确定视讯流程的各个问题节点;
(2)计算每个原始音频的时长与对应的原始视频的时长之间的差值,根据该差值在原始音频的尾部补充静默空白片段;
例如,录像视频文件的时长为T1毫秒,录音的音频文件时长T2毫秒。T2–T1=T3,因此需要给音频文件尾部追加一段T3时长的空白音频,通常情况下该T3的时长大小取值为:10ms≤T3≤100ms,ms为毫秒;
(3)根据每个问题节点将原始音频和原始视频保持开始时间对齐,通过调用的ffmpeg工具将每个问题节点对应的原始音频和对应的原始视频合成为一个音视频文件,得到多个音视频文件;
(4)将多个音视频文件合成为完整视讯音视频文件,其中,先合成所有单个问题节点的音视频文件,然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件。
本发明实施例,将前端音频和视频分开录制,并通过异步上传音频文件和视频文件,减少高并发的远程视讯业务场景中的资源需求,降低了终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
请参阅图2,本发明实施例提供的远程视讯录制方法的另一个流程图,具体包括:
201、获取预置的视讯问题集,预置的视讯问题集包括多个预置问题。
终端获取预置的视讯问题集,预置的视讯问题集包括多个预置问题。视讯问题集包括了根据历史业务数据进行归纳整理的多个问题,为远程视讯过程中可能需要进行调研的问题,具体问题类型此处不做限定。
202、获取多个预置问题的答复。
终端获取多个预置问题的答复。例如,“您是委托人单先生吗?请您回答是的或不是”。而问题1对应的答复为:“是的”或“不是”。
203、根据多个预置问题及多个预置问题的答复确定多个视讯节点,视讯节点包括音频录制节点和视频录制节点,其中,视讯节点用于指示一个问题节点。
具体的,终端确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻;终端根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点;终端根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点,得到多个视频录制节点;终端将多个音频录制节点和多个视频录制节点确定为多个预置问题的视讯节点,得到多个视讯节点。可以理解的是,一个预置问题的视频结束时刻为下一个预置问题的视频起始时刻。
需要说明的是,一个视讯节点为录制一个预置问题所需的时长,按照视讯节点为单位进行分段录制。其中,每个视讯节点的长度可以相同也可以不同,例如,问题1为:“您是委托人单先生吗?请您回答是的或不是”。而问题1的答复为:“是的”。因此从问题1的提问到收到答复作为一个完整的问题节点,可以作为视讯节点1。又例如,问题2为:请问您是否通过我行口袋银行购买了001号资金信托计划,购买人民币1万元?请您回答是的或不是。而问题2的答复为:是的。因此从问题2的提问到收到答复作为一个完整的问题节点,可以作为一个视讯节点2,视讯节点1和视讯节点2所需的时长不同,因此录制的时长也不同。
可选的,终端根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点,具体过程如下:
终端确定目标预置问题的起始时刻和结束时刻,得到提问起始时刻和提问结束时刻;终端确定目标预置问题对应答复的起始时刻和结束时刻,得到答复起始时刻和答复结束时刻,答复起始时刻与提问结束时刻相同;终端将提问起始时刻或答复起始时刻确定为目标音频录制节点的起始时刻,将提问结束时刻或答复结束时刻确定为目标音频录制节点的结束时刻,得到音频起始时刻和音频结束时刻;终端基于音频起始时刻和音频结束时刻生成目标音频录制节点,依次生成其他音频录制节点,得到多个音频录制节点,其中,每个音频录制节点指示一个预置问题和/或预置问题的答复。
如图3所示,在提问起始时刻T0时间点的时候开始视讯问答的预置问题语音播报,同时触发终端(例如手机)的录音和录像功能,T0即为音频起始时刻和视频起始时刻;在提问结束时刻T1时间点的时候问题语音播报完成,进入用户回答(即A1为录制的问题语音),其中T1也是答复起始时刻;在答复结束时刻T2时间点的时候用户已经回答完成(即A2为录制的答复语音),这个时候终端通过APP调用终端***的录音结束接口,因终端***的录音结束接口不会同步返回结果,这里需要等待终端操作系完成录音结束之后回调;在音频结束时刻T3时间点表示终端操作***的结束录音完成结回调app(即A3为***调用录音接口过程中录制的无用语音),生成一个.wav格式(还可以是其他格式例如,MP3格式)的音频文件(即原始音频),并且在此时触发调用终端***的视频录制结束接口,同样因终端***的录像结束接口不会同步返回结果,这里需要等待终端操作系完成录像结束之后回调(即V1为录制的问题及答复的视频,V2为***调用录像接口过程中录制的无用语音)。同时,视频结束时刻T4时间点表示***结束录像完成回调app。生成一个mp4格式(还可以是其他格式例如,MOV格式、WMV格式)的视频文件(原始视频)。
204、根据音频录制节点和视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。
具体的,终端按照多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频;终端按照多个视频录制节点录制目标用户在远程视讯过程中的视频,得到多个原始视频。
以原始音频的获取过程如下:
终端在目标音频节点的音频起始时刻启动终端录音功能;终端调用预置问题进行语音播报并录制用户的音频;终端在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频,并依次生成其他原始音频,得到多个原始音频。
可以理解的是,本发明的执行主体可以为远程视讯录制装置,还可以是终端,具体此处不做限定。本发明实施例以终端为执行主体为例进行说明。
205、从多个原始音频中提取每个原始音频的特征,得到音频特征序列,音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。
终端从多个原始音频中提取每个原始音频的特征,得到音频特征序列,音频特征序列包括顺序排列的每个原始音频对应的多个音频特征。具体的,终端将多个原始音频的首尾段进行静音切除,得到多个切除后的音频;终端对多个切除后的音频进行特征提取,得到每个原始音频对应的多个音频特征;终端将每个原始音频对应的多个音频特征按照多个原始音频的顺序进行顺序排列,生成音频特征序列。
206、将音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复。
终端将音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复。具体的,终端调用预置的语音识别模型将音频特征序列转换为音素特征序列;终端调用预置的字典与音素特征序列进行匹配,确定每个音素对应的概率最大的文字;终端基于每个音素对应的概率最大的文字生成目标文字序列,并从目标文字序列中筛选出多个音频文本,其中,每个音频文本包括一个预置问题的答复。
需要说明的是,视频和音频分开录制,这样音频流能够在终端的离线语音识别(automatic speech recognition,ASR)模型转成文本,整个视讯过程终端只需要将用户的问题答复转成的答复文本实时上送服务器,服务器再通过自然语言处理(naturallanguage processing,NLP)算法对答复文本进行语义理解然后确定视讯流程的问题节点流转。音频文件和视频文件通过异步传输到后端的文件服务器。一个视讯回答转成文本只有10KB以内的数据量,而音视频则需要实施传输5M到10M的数据量。这样答复文本实时上送而音频和视频文件异步上传,对实时网络带宽就会降低到只需要实时音视频流的1/200不到,极大的降低了对实时带宽的要求。
207、将多个音频文本上传至服务器,并通过异步方式将多个原始音频和多个原始视频上传至服务器,以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。
终端将多个音频文本上传至服务器,并通过异步方式将多个原始音频和多个原始视频上传至服务器,以使得服务器根据多个音频文本将多个原始音频和多个原始视频合成完整的音视频文件。
需要说明的是,服务器在获取到多个音频文本、多个原始音频和多个原始视频后,还包括:
(1)通过预置的NLP模型对多个音频文本进行识别,确定视讯流程的各个问题节点;
(2)计算每个原始音频的时长与对应的原始视频的时长之间的差值,根据该差值在原始音频的尾部补充静默空白片段;
例如,录像视频文件的时长为T1毫秒,录音的音频文件时长T2毫秒。T2–T1=T3,因此需要给音频文件尾部追加一段T3时长的空白音频,通常情况下该T3的时长大小取值为:10ms≤T3≤100ms,ms为毫秒,如图4所示,得到一个视讯节点的音视频文件;
(3)根据每个问题节点将原始音频和原始视频保持开始时间对齐,通过调用的ffmpeg工具将每个问题节点对应的原始音频和对应的原始视频合成为一个音视频文件,得到多个音视频文件;
(4)将多个音视频文件合成为完整视讯音视频文件,其中,先合成所有单个问题节点的音视频文件,然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件,如图5所示,将节点(视讯节点)1至n的音视频文件按照时间顺序合成为完成的音视频文件。
本发明实施例,将前端音频和视频分开录制,并通过异步上传音频文件和视频文件,减少高并发的远程视讯业务场景中的资源需求,降低了终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
上面对本发明实施例中远程视讯录制方法进行了描述,下面对本发明实施例中远程视讯录制装置进行描述,请参阅图6,本发明实施例中远程视讯录制装置的一个实施例包括:
录制模块601,用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点;
提取模块602,用于从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;
输入模块603,用于将所述音频特征序列输入所述预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;
上传模块604,用于将所述多个音频文本上传至服务器,并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器,以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。
本发明实施例,将前端音频和视频分开录制,并通过异步上传音频文件和视频文件,减少高并发的远程视讯业务场景中的资源需求,降低了终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
请参阅图7,本发明实施例中远程视讯录制装置的另一个实施例包括:
录制模块601,用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点;
提取模块602,用于从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;
输入模块603,用于将所述音频特征序列输入所述预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;
上传模块604,用于将所述多个音频文本上传至服务器,并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器,以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件。
可选的,录制模块601包括:
问题获取单元6011,用于获取预置的视讯问题集,所述预置的视讯问题集包括多个预置问题;
问题答复获取单元6012,用于获取所述多个预置问题的答复;
节点确定单元6013,用于根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点,所述视讯节点包括音频录制节点和视频录制节点,其中,所述视讯节点用于指示一个问题节点;
录制单元6014,用于根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。
可选的,节点确定单元6013包括:
第一确定子单元60131,用于确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻;
第二确定子单元60132,用于根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点;
第三确定子单元60133,用于根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点,得到多个视频录制节点;
第四确定子单元60134,用于将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点,得到多个视讯节点。
可选的,第二确定子单元60132具体用于:
确定目标预置问题的起始时刻和结束时刻,得到提问起始时刻和提问结束时刻;
确定目标预置问题对应答复的起始时刻和结束时刻,得到答复起始时刻和答复结束时刻,所述答复起始时刻与所述提问结束时刻相同;
将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻,将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻,得到音频起始时刻和音频结束时刻;
基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点,依次生成其他音频录制节点,得到多个音频录制节点,其中,每个音频录制节点指示一个预置问题和/或预置问题的答复。
可选的,录制单元6014包括:
音频录制子单元60141,用于按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频;
视频录制子单元60142,用于按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频,得到多个原始视频。
可选的,音频录制子单元60141具体用于:
在目标音频节点的音频起始时刻启动终端录音功能;
调用预置问题进行语音播报并录制用户的音频;
在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频,并依次生成其他原始音频,得到多个原始音频。
可选的,提取模块602具体用于:
将所述多个原始音频的首尾段进行静音切除,得到多个切除后的音频;对所述多个切除后的音频进行特征提取,得到每个原始音频对应的多个音频特征;将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列,生成音频特征序列。
本发明实施例,将前端音频和视频分开录制,并通过异步上传音频文件和视频文件,减少高并发的远程视讯业务场景中的资源需求,降低了终端录制所消耗的计算资源,同时保证录制的是高质量的音频和视频,避免出现丢帧卡顿的现象,提高了录制效率。
上面图6至图7从模块化功能实体的角度对本发明实施例中的远程视讯录制装置进行详细描述,下面从硬件处理的角度对本发明实施例中远程视讯录制设备进行详细描述。
图8是本发明实施例提供的一种远程视讯录制设备的结构示意图,该远程视讯录制设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对远程视讯录制设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在远程视讯录制设备800上执行存储介质830中的一系列指令操作。
远程视讯录制设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作***831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的远程视讯录制设备结构并不构成对远程视讯录制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述远程视讯录制方法的步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种远程视讯录制方法,其特征在于,包括:
按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点;
从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;
将所述音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;
将所述多个音频文本上传至服务器,并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器,以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件;
所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件包括:
通过预置的自然语言处理模型对多个音频文本进行识别,确定视讯流程的各个问题节点;
计算每个原始音频的时长与对应的原始视频的时长之间的差值,根据该差值在原始音频的尾部补充静默空白片段;
根据每个问题节点将原始音频和原始视频保持开始时间对齐,通过调用的ffmpeg工具将每个问题节点对应的原始音频和对应的原始视频合成为一个音视频文件,得到多个音视频文件;
将多个音视频文件合成为完整视讯音视频文件,其中,先合成所有单个问题节点的音视频文件,然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件。
2.根据权利要求1所述的远程视讯录制方法,其特征在于,所述按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点,包括:
获取预置的视讯问题集,所述预置的视讯问题集包括多个预置问题;
获取所述多个预置问题的答复;
根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点,所述视讯节点包括音频录制节点和视频录制节点,其中,所述视讯节点用于指示一个问题节点;
根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频。
3.根据权利要求2所述的远程视讯录制方法,其特征在于,所述根据所述多个预置问题及所述多个预置问题的答复确定多个视讯节点,所述视讯节点包括音频录制节点和视频录制节点,其中,所述视讯节点用于指示一个问题节点,包括:
确定每个预置问题的音频起始时刻、音频结束时刻、视频起始时刻和视频结束时刻;
根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点;
根据每个预置问题的视频起始时刻和视频结束时刻确定视频录制节点,得到多个视频录制节点;
将所述多个音频录制节点和所述多个视频录制节点确定为多个预置问题的视讯节点,得到多个视讯节点。
4.根据权利要求3所述的远程视讯录制方法,其特征在于,所述根据每个预置问题的音频起始时刻和音频结束时刻确定音频录制节点,得到多个音频录制节点,包括:
确定目标预置问题的起始时刻和结束时刻,得到提问起始时刻和提问结束时刻;
确定目标预置问题对应答复的起始时刻和结束时刻,得到答复起始时刻和答复结束时刻,所述答复起始时刻与所述提问结束时刻相同;
将所述提问起始时刻或所述答复起始时刻确定为目标音频录制节点的起始时刻,将所述提问结束时刻或所述答复结束时刻确定为目标音频录制节点的结束时刻,得到音频起始时刻和音频结束时刻;
基于所述音频起始时刻和所述音频结束时刻生成目标音频录制节点,依次生成其他音频录制节点,得到多个音频录制节点,其中,每个音频录制节点指示一个预置问题和/或预置问题的答复。
5.根据权利要求2所述的远程视讯录制方法,其特征在于,所述根据所述音频录制节点和所述视频录制节点分别录制得到远程视讯过程中目标用户的多个原始音频和多个原始视频,包括:
按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频;
按照所述多个视频录制节点录制目标用户在远程视讯过程中的视频,得到多个原始视频。
6.根据权利要求5所述的远程视讯录制方法,其特征在于,所述按照所述多个音频录制节点分段录制目标用户在远程视讯过程中的音频,得到多个原始音频,包括:
在目标音频节点的音频起始时刻启动终端录音功能;
调用预置问题进行语音播报并录制用户的音频;
在目标音频节点的音频结束时刻调用终端的录音结束接口并生成目标原始音频,并依次生成其他原始音频,得到多个原始音频。
7.根据权利要求1-6中任一项所述的远程视讯录制方法,其特征在于,所述从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征,包括:
将所述多个原始音频的首尾段进行静音切除,得到多个切除后的音频;
对所述多个切除后的音频进行特征提取,得到每个原始音频对应的多个音频特征;
将所述每个原始音频对应的多个音频特征按照所述多个原始音频的顺序进行顺序排列,生成音频特征序列。
8.一种远程视讯录制装置,其特征在于,包括:
录制模块,用于按照多个视讯节点分别录制远程视讯过程中目标用户的音频和视频,得到多个原始音频和多个原始视频,其中,所述视讯节点用于指示一个问题节点;
提取模块,用于从所述多个原始音频中提取每个原始音频的特征,得到音频特征序列,所述音频特征序列包括顺序排列的每个原始音频对应的多个音频特征;
输入模块,用于将所述音频特征序列输入预置的语音识别模型,得到多个音频文本,其中,每个音频文本包括一个预置问题的答复;
上传模块,用于将所述多个音频文本上传至服务器,并通过异步方式将所述多个原始音频和所述多个原始视频上传至服务器,以使得所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件;
所述服务器根据所述多个音频文本将所述多个原始音频和所述多个原始视频合成完整的音视频文件包括:
通过预置的自然语言处理模型对多个音频文本进行识别,确定视讯流程的各个问题节点;
计算每个原始音频的时长与对应的原始视频的时长之间的差值,根据该差值在原始音频的尾部补充静默空白片段;
根据每个问题节点将原始音频和原始视频保持开始时间对齐,通过调用的ffmpeg工具将每个问题节点对应的原始音频和对应的原始视频合成为一个音视频文件,得到多个音视频文件;
将多个音视频文件合成为完整视讯音视频文件,其中,先合成所有单个问题节点的音视频文件,然后将每个问题节点的音视频文件合成一个完整的视讯音视频文件。
9.一种远程视讯录制设备,其特征在于,所述远程视讯录制设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述远程视讯录制设备执行如权利要求1-7中任意一项所述的远程视讯录制方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时实现如权利要求1-7中任意一项所述的远程视讯录制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322879.1A CN113079387B (zh) | 2021-03-26 | 2021-03-26 | 远程视讯录制方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322879.1A CN113079387B (zh) | 2021-03-26 | 2021-03-26 | 远程视讯录制方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113079387A CN113079387A (zh) | 2021-07-06 |
CN113079387B true CN113079387B (zh) | 2023-06-16 |
Family
ID=76610272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110322879.1A Active CN113079387B (zh) | 2021-03-26 | 2021-03-26 | 远程视讯录制方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113079387B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115941838A (zh) * | 2022-03-24 | 2023-04-07 | 北京有限元科技有限公司 | 实现移动端耳机模式进行双录的方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110087094A (zh) * | 2019-04-26 | 2019-08-02 | 湖南琴岛网络传媒科技有限公司 | 一种基于混合云存储的视频直播***及其信号处理方法 |
CN112437325A (zh) * | 2020-11-23 | 2021-03-02 | 杭州当虹科技股份有限公司 | 一种8ksdi信号发生器实现方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035262A (zh) * | 2007-04-19 | 2007-09-12 | 深圳市融合视讯科技有限公司 | 一种视频信息的传输方法 |
CN103974143B (zh) * | 2014-05-20 | 2017-11-07 | 北京速能数码网络技术有限公司 | 一种生成媒体数据的方法和设备 |
CN107592400A (zh) * | 2017-08-04 | 2018-01-16 | 深圳市金立通信设备有限公司 | 录音文件的处理方法及终端 |
US10412425B2 (en) * | 2018-01-05 | 2019-09-10 | Facebook, Inc. | Processing gaps in audio and video streams |
CN108683629A (zh) * | 2018-04-02 | 2018-10-19 | 东方视界科技(北京)有限公司 | 视频传输、播放方法、存储介质、处理器和终端 |
CN112468754B (zh) * | 2020-11-20 | 2023-04-28 | 武汉烽火信息集成技术有限公司 | 一种基于音视频识别技术的笔录数据采集方法及装置 |
-
2021
- 2021-03-26 CN CN202110322879.1A patent/CN113079387B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110087094A (zh) * | 2019-04-26 | 2019-08-02 | 湖南琴岛网络传媒科技有限公司 | 一种基于混合云存储的视频直播***及其信号处理方法 |
CN112437325A (zh) * | 2020-11-23 | 2021-03-02 | 杭州当虹科技股份有限公司 | 一种8ksdi信号发生器实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113079387A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017071226A1 (zh) | 一种语言模型的训练方法及装置、设备 | |
WO2020015479A1 (zh) | 播报语音的确定方法、装置和设备 | |
CN111445903B (zh) | 企业名称识别方法及装置 | |
WO2021227308A1 (zh) | 一种视频资源的生成方法和装置 | |
CN113079387B (zh) | 远程视讯录制方法、装置、设备及存储介质 | |
JPH08195763A (ja) | ネットワークの音声通信チャネル | |
US20240062744A1 (en) | Real-time voice recognition method, model training method, apparatuses, device, and storage medium | |
CN115098633A (zh) | 一种智能客服情感分析方法和***、电子设备、存储介质 | |
CN117789756A (zh) | 特征提取方法、装置、电子设备和存储介质 | |
CN109524009B (zh) | 基于语音识别的保单录入方法和相关装置 | |
CN112131365A (zh) | 一种数据处理方法、装置、设备及介质 | |
EP4068282A1 (en) | Method for processing conference data and related device | |
CN111583932A (zh) | 一种基于人声模型的声音分离方法和装置以及设备 | |
CN113517002A (zh) | 信息处理方法、装置以及***、会议端、服务器 | |
CN111354350A (zh) | 语音处理方法及装置、语音处理设备、电子设备 | |
CN113035188A (zh) | 通话文本生成方法、装置、设备及存储介质 | |
CN113282783A (zh) | 用于信息推荐的方法及装置、电子设备、可读存储介质 | |
CN106971306B (zh) | 产品问题的识别方法及*** | |
JP7010905B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN109493868B (zh) | 基于语音识别的保单录入方法和相关装置 | |
CN111767435A (zh) | 用户行为分析方法及装置 | |
CN111312260A (zh) | 一种人声分离方法和装置以及设备 | |
CN113035240A (zh) | 语音播报方法、装置、设备及存储介质 | |
CN113206997B (zh) | 一种多业务的录制音频数据的同时质检方法及装置 | |
CN113206996B (zh) | 一种业务录制数据的质检方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |