CN108924583B

CN108924583B - 视频文件生成方法及其设备、***、存储介质

Info

Publication number: CN108924583B
Application number: CN201810797846.0A
Authority: CN
Inventors: 梁浩彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2021-12-17
Anticipated expiration: 2038-07-19
Also published as: CN108924583A

Abstract

本发明实施例公开了视频文件生成方法及其设备、***、存储介质，其中一种方法包括：用户终端获取源视频文件，并获取所述源视频文件中的音频数据，将所述音频数据发送至服务器；所述服务器对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端；所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。采用本发明，可以在源视频文件中智能添加文本数据，操作简单快捷，提高了在视频中添加文本数据的效率。

Description

视频文件生成方法及其设备、***、存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种视频文件生成方法及其设备、***、存储介质。

背景技术

随着移动互联网的快速发展，用户终端上的各种应用越来越多，其中视频应用基本是每台用户终端的必备，用户利用视频应用能够观赏到丰富多彩的视频文件。用户在观赏的同时有时会需要对视频进行相应的编辑，如对视频文件进行美颜、添加滤镜等，有时还需要对视频添加文本数据(字幕)。

目前在用户终端上为视频添加字幕，通常是由人工将视频中出现的音频对话识别为文本数据，然后采用视频剪辑软件在音频出现的时间点手动添加并输入该文本数据。现有技术中对于视频添加字幕的操作很大程度上依赖于人工，操作成本比较高且操作过程复杂繁琐，对于音频对话比较多并且时长比较长的视频，需要花费很长的时间才能将文本数据输入完整，降低了在视频中添加文本数据的效率。

发明内容

本发明实施例提供一种视频文件生成方法及其设备、***、存储介质，可以在源视频文件中智能添加文本数据，操作简单快捷，提高了在视频中添加文本数据的效率。

本发明实施例第一方面提供了一种视频文件生成方法，可包括：

用户终端获取源视频文件，并获取所述源视频文件中的音频数据，将所述音频数据发送至服务器；

所述服务器对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端；

所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

本发明实施例一方面提供了一种视频文件生成方法，可包括：

获取源视频文件；

获取所述源视频文件中的音频数据，将所述音频数据发送至服务器，以使所述服务器对所述音频数据进行语音识别处理得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

接收所述服务器发送的所述文本数据集合以及所述各文本数据对应的时间信息，基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

可选的，所述获取所述源视频文件中的音频数据，将所述音频数据发送至服务器，包括：

获取所述源视频文件中的音频数据，并对所述音频数据进行编码处理，得到所述音频数据对应的目标编码数据；

将所述目标编码数据发送至服务器。

可选的，所述获取所述源视频文件中的音频数据，并对所述音频数据进行编码处理，得到所述音频数据对应的目标编码数据，包括：

获取所述视频文件中的音频数据集合，并分别对所述音频数据集合中各音频数据进行编码处理，得到所述各音频数据对应的编码数据；

将所述各音频数据对应的编码数据进行拼接，得到目标编码数据。

可选的，所述基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理之前，还包括：

获取在设定显示模式下针对所述文本数据集合中目标文本数据所输入的文本编辑信息；

采用所述文本编辑信息替换所述目标文本数据，得到替换后的文本数据集合；

所述基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件，包括：

基于所述时间信息将所述替换后的文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

可选的，还包括：

将所述文本编辑信息以及所述目标文本数据发送至所述服务器，以使所述服务器基于所述文本编辑信息对所述目标文本数据进行验证得到所述目标文本数据的识别准确率。

获取用户终端发送的源视频文件中的音频数据；

对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。

可选的，所述获取用户终端发送的源视频文件中的音频数据，包括：

获取用户终端发送的所述音频数据对应的目标编码数据；

所述对所述音频数据进行语音识别处理，包括：

对所述目标编码数据进行语音识别处理。

可选的，还包括：

获取所述用户终端发送的文本编辑信息以及目标文本数据；

基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

可选的，所述对所述音频数据进行语音识别处理，包括：

采用语音识别模型对所述音频数据进行语音识别处理；

所述基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率之后，还包括：

基于所述识别准确率调整所述语音识别模型。

可选的，所述将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，包括：

获取所述各文本数据对应的时间信息所指示的时间先后顺序；

按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端。

本发明实施例一方面提供了一种视频文件生成***，可包括用户终端以及服务器，其中：

所述用户终端，用于获取源视频文件，并获取所述源视频文件中的音频数据，将所述音频数据发送至所述服务器；

所述服务器，用于对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端；

所述用户终端，还用于基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

可选的，所述用户终端，用于获取所述源视频文件中的音频数据，将所述音频数据发送至服务器，具体用于：

获取所述视频文件中的音频数据，并对所述音频数据进行编码处理，得到音频数据对应的目标编码数据；

将所述目标编码数据发送至服务器。

可选的，所述用户终端，用于获取所述源视频文件中的音频数据，并对所述音频数据进行编码处理，得到音频数据对应的目标编码数据，具体用于：

获取所述源视频文件中的音频数据集合，并分别对所述音频数据集合中各音频数据进行编码处理，得到所述各音频数据对应的编码数据；

可选的，所述用户终端，用于基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理之前，还用于：

所述用户终端，用于基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件，具体用于：

可选的，还包括：

所述用户终端，还用于将所述文本编辑信息以及所述目标文本数据发送至所述服务器；

所述服务器，还用于基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

可选的，所述服务器，用于对所述音频数据进行语音识别处理，具体用于：

采用语音识别模型对所述音频数据进行语音识别处理；

所述服务器，还用于基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率之后，还用于：

基于所述识别准确率调整所述语音识别模型。

可选的，所述服务器，用于将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，具体用于：

本发明实施例一方面提供了一种视频文件生成设备，可包括：

源文件获取单元，用于获取源视频文件；

数据发送单元，用于获取所述源视频文件中的音频数据，将所述音频数据发送至服务器，以使所述服务器对所述音频数据进行语音识别处理得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

信息接收单元，用于接收所述服务器发送的所述文本数据集合以及所述各文本数据对应的时间信息，基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

可选的，所述数据发送单元，包括：

数据编码子单元，用于获取所述源视频文件中的音频数据，并对所述音频数据进行编码处理，得到音频数据对应的目标编码数据；

数据发送子单元，用于将所述目标编码数据发送至服务器。

可选的，所述数据编码子单元，具体用于：

可选的，还包括：

编辑信息获取单元，用于获取在设定显示模式下针对所述文本数据集合中目标文本数据所输入的文本编辑信息；

文本数据替换单元，用于采用所述文本编辑信息替换所述目标文本数据，以得到替换后的文本数据集合；

所述信息接收单元，具体用于：

可选的，还包括：

编辑信息发送单元，用于将所述文本编辑信息以及所述目标文本数据发送至所述服务器，以使所述服务器基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

本发明实施例一方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本发明实施例一方面提供了一种用户终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

获取源视频文件；

数据获取单元，用于获取用户终端发送的源视频文件中的音频数据；

数据识别单元，用于对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

信息发送单元，用于将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。

可选的，所述数据获取单元，具体用于获取用户终端发送的所述音频数据对应的目标编码数据；

所述数据识别单元，具体用于对所述目标编码数据进行语音识别处理。

可选的，还包括：

编辑信息获取单元，用于获取所述用户终端发送的文本编辑信息以及目标文本数据；

信息验证单元，用于基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

可选的，所述数据识别单元，具体用于采用语音识别模型对所述音频数据进行语音识别处理；

所述设备还包括模型调整单元，用于基于所述识别准确率调整所述语音识别模型。

可选的，所述信息发送单元，包括：

顺序获取子单元，用于获取所述各文本数据对应的时间信息所指示的时间先后顺序；

信息发送子单元，用于按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端。

本发明实施例一方面提供了一种服务器，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

获取用户终端发送的源视频文件中的音频数据；

在本发明实施例中，用户终端获取源视频文件，并获取其中所包含的音频数据，再将音频数据发送至服务器，服务器对该音频数据进行语音识别处理，得到音频数据对应的文本数据集合以及文本数据集合中各文本数据对应的时间信息并发送至所述用户终端，用户终端基于所接收到的时间信息将文本数据集合与源视频文件进行合成处理，从而得到源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频文件生成***的架构示意图；

图2是本发明实施例提供的一种视频文件生成方法的流程示意图；

图3a是本发明实施例提供的一种源视频文件与音轨的对比示意图；

图3b是本发明实施例提供的一种源视频文件与音轨的对比示意图；

图3c是本发明实施例提供的一种源视频文件与音轨的对比示意图；

图4是本发明实施例提供的一种视频文件生成方法的流程示意图；

图5是本发明实施例提供的一种视频文件生成方法的流程示意图；

图6是本发明实施例提供的一种视频文件生成方法的流程示意图；

图7是本发明实施例提供的一种视频文件生成方法的流程示意图；

图8是本发明实施例提供的一种视频文件生成方法的流程示意图；

图9是本发明实施例提供的一种视频文件生成方法的流程示意图；

图10是本发明实施例提供的一种视频文件生成方法的流程示意图；

图11是本发明实施例提供的一种视频文件生成设备的结构示意图；

图12是本发明实施例提供的一种数据发送单元的结构示意图；

图13是本发明实施例提供的一种视频文件生成设备的结构示意图；

图14是本发明实施例提供的一种视频文件生成设备的结构示意图；

图15是本发明实施例提供的一种信息发送单元的结构示意图；

图16是本发明实施例提供的一种视频文件生成设备的结构示意图；

图17是本发明实施例提供的一种用户终端的结构示意图；

图18是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，为本发明实施例提供了一种视频文件生成***的结构示意图。本发明实施例的所述视频文件生成***可以包括：用户终端1和服务器2。所述用户终端1可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等具备视频处理功能的终端设备，还可以包括具备视频处理功能的应用程序；所述服务器2为具备语音识别处理等功能的业务服务器。

所述用户终端1，用于获取源视频文件，并获取所述源视频文件中的音频数据，将所述音频数据发送至所述服务器2；

可以理解的是，所述源视频文件是指包含了音频数据和视频数据(图像数据)的多媒体文件。所述源视频文件的格式可以为AVI格式、QuickTime格式、RealVideo格式、NAVI格式、DivX格式或MPEG格式等。可通过用户在用户终端上输入获取视频文件的操作信号后通过用户终端的视频输入单元获取源视频文件，例如，从本地视频库(如相册)中选择获取、或者是当前通过摄像头拍摄获取、或者当前从网络下载获取等。

其中，所述音频数据位于音轨中，也就是以音轨形式封装。所述音轨可以理解为在音序器软件中看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色、音色库、通道数、输入/输出端口、音量等，通过音轨的属性可以唯一识别音轨。

具体的，当用户在用户终端1上输入获取视频文件的操作信号后触发用户终端1获取操作信号对应的源视频文件，然后通过在用户终端1上安装音轨音频提取软件，并采用音轨音频提取软件就可从源视频文件中分离出音轨，进而得到其中的音频数据，再将音频数据发送至服务器2进行处理。一般情况下带有声音的视频文件中至少存在一条音轨，当包括多条音轨时，可以理解为不同类型的声音位于不同的音轨，例如，原声为一条音轨，旁白为一条音轨；又例如，人声为一条音轨，音乐为一条音轨。当然，还可理解为，同一类型的音频数据分为多条音轨进行存储。

可选的，所述用户终端1，用于获取所述源视频文件中的音频数据，将所述音频数据发送至服务器2，具体用于：

所述服务器2，用于对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端1；

可以理解的是，所述语音识别处理即为AI语音识别过程，是利用计算机通过人工智能、机器学习等技术将声音翻译成文本数据(文字)的一种服务，采用现有的语音识别模型就可将音频数据翻译为文本数据。

通过对音频数据进行语音识别处理，可以得到音频数据对应的文本数据集合，在文本数据集合中包括至少一个文本数据。也就是说，无论服务器2所接收到的音频数据是位于一条音轨中的音频数据还是分别位于多条音频中的音频数据，通过对音频数据进行语音识别处理后就可以得到多个文本数据。

当所述音频数据未经过预处理时，服务器2可直接对所接收到的音频数据进行语音识别处理，当然，若所接收到的音频数据位于多条音轨中，则需要分别对每条音轨中的音频数据进行语音识别处理。当所述音频数据经过预处理时，服务器2可对PCM数据进行语音识别处理。所述PCM数据可以为各音轨的PCM数据拼接得到，也可是每个音轨的PCM数据。

所述文本数据即为文字，可以为不同语言的文字，如中文、英文、法文等。当然，所述获取的文本数据可以为其中的一种文字，也可以同时为其中的多种文字。例如，可以是只获取文本数据对应的中文文字“很高兴认识你”，也可以是同时获取文本数据对应的中文文字“很高兴认识你”以及英文文字“Nice to meet you”。

所述语音识别处理过程还可以识别出所述文本数据集合中各文本数据对应的时间信息。所述时间信息可以包括该文本数据在音轨中的开始时间、结束时间、持续时长等。

具体的，所述服务器2通过对接收到的目标编码数据进行语音识别处理后，得到音频数据对应的文本数据集合，以及各文本数据在对应的音轨中的开始时间、结束时间、持续时长等时间信息，然后再将所获取的信息发送至用户终端1进行处理。

所述用户终端1，还用于基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

具体的，用户终端1获取源视频文件的时间信息，并将源视频文件的时间信息与各文本数据的时间信息分别对齐，然后将文本数据添加到源视频文件中，从而得到目标视频文件。也可以理解为，音频数据的音轨与源视频文件是平行的，通过基于各文本数据的时间信息分别将各文本数据***到源视频文件对应的音轨中，从而生成目标视频文件。

可选的，在将文本数据与源视频文件合成后，对合成后的目标视频文件进行显示。而显示方式可以为***一个文本数据就同时显示该文本数据及对应时间段的视频数据，然后再***下一个文本数据后进行显示；也可以为将所有的文本数据***完成后，完整显示该目标视频文件。

下面将结合附图2-附图10，对本发明实施例提供的视频文件生成方法进行详细介绍，其中，本发明实施例中的用户终端可以是图1所示的用户终端1，服务器可以是图1所示的服务器2。

请参见图2，为本发明实施例提供了一种视频文件生成方法的流程示意图。本发明实施例的所述方法由用户终端和服务器执行，可以包括如下步骤S101-步骤S103。

S101，用户终端获取源视频文件，并获取所述源视频文件中的音频数据，将所述音频数据发送至服务器；

具体的，当用户在用户终端上输入获取视频文件的操作信号后触发用户终端获取操作信号对应的源视频文件，然后通过在用户终端上安装音轨音频提取软件，并采用音轨音频提取软件就可从源视频文件中分离出音轨，进而得到其中的音频数据，再将音频数据发送至服务器进行处理。一般情况下带有声音的视频文件中至少存在一条音轨，当包括多条音轨时，可以理解为不同类型的声音位于不同的音轨，例如，原声为一条音轨，旁白为一条音轨；又例如，人声为一条音轨，音乐为一条音轨。当然，还可理解为，同一类型的音频数据分为多条音轨进行存储。

例如，假设源视频文件的持续时间为0～t，若该视频文件中只包含一条音轨S1，如图3a所示，可以理解为该音轨的持续时间也是0～t，而其中可能只是某些时间段有音频片断，某些时间段为静音片断。若该视频文件中包含多条音轨，如S2和S3，S2和S3的持续时长可以均为0～t，如图3b所示，那么S2和S3就是与源视频文件相并列的两条音轨，只是音轨所对应的声音类型不同(如S2为人声，S3为背景音乐声)。若S2和S3所对应的声音类型相同(如S2和S3都为人声)，S2的持续时长为0～t1，S3的持续时长为t1～t，如图3c所示，那么S2和S3组合起来才构成该源视频文件的音频数据。

可选的，用户终端还可对所获取的音频数据进行预处理，如进行语音活性检测(Voice activity detection，VAD)，目的是检测语音信号是否存在。VAD技术主要用于语音编码和语音识别。它可以简化语音处理，也可用于识别和去除音频数据中的非语音片段，可以避免对静音数据包的编码和传输，节省计算时间和带宽。

其中，采用VAD技术识别音频数据中的非语音片断，首先需要对语音数据进行编码，如采用脉冲编码调制(Pulse Code Modulation，PCM)进行处理。

所述PCM是数字通信的编码方式之一，就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。因此，通过采用PCM对语音数据编码为一组二进制码(PCM数据)后，采用VAD技术就可识别出其中的语音片断和非语音片断，可通过删除其中的非语音片断后，将语音片断发送至服务器。

可选的，将所述语音片断发送至服务器之前，可将语音片断进行封装。所述封装就是把业务数据(语音片断)映射到某个封装协议的净荷中，然后填充对应协议的包头，形成封装协议的数据包，并完成速率适配。

相应的，服务器在接收到数据包后需要解封装，即拆解协议包，处理包头中的信息，取出净荷中的业务数据。

S102，所述服务器对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端；

可以理解的是，所述语音识别处理即为人工智能(Artificial Intelligence，AI)语音识别过程，是利用计算机通过人工智能、机器学习等技术将声音翻译成文本数据(文字)的一种服务，采用现有的语音识别模型就可将音频数据翻译为文本数据。

通过对音频数据进行语音识别处理，可以得到音频数据对应的文本数据集合，在文本数据集合中包括至少一个文本数据。也就是说，无论服务器所接收到的音频数据是位于一条音轨中的音频数据还是分别位于多条音频中的音频数据，通过对音频数据进行语音识别处理后就可以得到多个文本数据。

当所述音频数据未经过预处理时，服务器可直接对所接收到的音频数据进行语音识别处理，当然，若所接收到的音频数据位于多条音轨中，则需要分别对每条音轨中的音频数据进行语音识别处理。当所述音频数据经过预处理时，服务器可对PCM数据进行语音识别处理。所述PCM数据可以为各音轨的PCM数据拼接得到，也可是每个音轨的PCM数据。

所述文本数据包括文字、表情图片、符号等数据，所述文字可以为不同语言的文字，如中文、英文、法文等。当然，所述获取的文本数据可以为其中的一种文字，也可以同时为其中的多种文字。例如，可以是只获取文本数据对应的中文文字“很高兴认识你”，也可以是同时获取文本数据对应的中文文字“很高兴认识你”以及英文文字“Nice to meet you”。

所述语音识别处理过程还可以识别出所述文本数据集合中各文本数据对应的时间信息。所述时间信息可以包括该文本数据在音轨中的开始时间、持续时长等。

具体的，所述服务器通过对接收到的音频数据进行语音识别处理后，得到音频数据对应的文本数据集合，以及各文本数据在对应的音轨中的开始时间、结束时间、持续时长等时间信息，然后再将所获取的信息发送至用户终端进行处理。所述服务器将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，可以理解为，所述服务器获取所述各文本数据对应的时间信息所指示的时间先后顺序，再按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，例如对每个文本数据采用(文本、在音轨中的开始时间、持续时长)格式进行发送。还可理解为，将各文本数据及分别对应的时间信息封装后，再对封装后的各文本数据进行封装生成一个或多个数据包，再将所生成的数据包发送至用户终端。或者，还可理解为，将各文本数据及对应的时间信息建立映射关系表或者集合，再将该映射关系表或者集合发送至用户终端。

例如，如表1所示为一种形式的映射关系表，其中包括文本数据集合，以及每个文本数据对应的时间信息。

表1

文本数据	开始时间	持续时长(秒/S)
			W1	T1	t1
W2	T2	t2
			W3	T3	t3
…	…	…

S103，所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

具体的，用户终端获取源视频文件的时间信息，并将源视频文件的时间信息与各文本数据的时间信息分别对齐，然后将文本数据添加到源视频文件中，从而得到目标视频文件。也可以理解为，音频数据的音轨与源视频文件是平行的，通过基于各文本数据的时间信息分别将各文本数据***到源视频文件对应的音轨中，从而生成目标视频文件。

例如，假设在源视频文件中只包括一条音轨S1，如图3a所示，所得到的文本数据集合为W1～W10，其中W1的开始时间为T1，持续时长为t1，那么可将W1***到S1的T1～T1+t1位置处，同样的，再分别将W2～W10***到S1的对应位置处，将所有的文本数据***完成后与源视频文件合成就得到了添加了文本数据的目标视频文件，或者，***一个文本数据就合成一个，然后再***下一个文本数据。

可选的，用户可在用户终端设定显示模式(如预览模式或其他可编辑模式)下对所显示的文本数据进行编辑，如对文本进行修改以使得显示结果更准确，或为了丰富显示效果，可设置文本数据的显示效果(如添加表情符号、添加边框、添加颜色等)。

可选的，用户可通过发布***发布所述目标视频文件，或将所述目标视频文件保存至用户终端的视频库中，或通过即时通讯应用分享给其他用户等。

请参见图4，为本发明实施例提供了另一种视频文件生成方法的流程示意图本发明实施例的所述方法由用户终端和服务器执行，可以包括如下步骤S201-步骤S210。

S201，用户终端获取源视频文件；

S202，所述用户终端获取所述源视频文件中的音频数据，并对所述音频数据进行编码处理，得到所述音频数据对应的目标编码数据；

所述音频数据位于音轨中，也就是以音轨形式封装。所述音轨可以理解为在音序器软件中看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色、音色库、通道数、输入/输出端口、音量等，通过音轨的属性可以唯一识别音轨。

具体的，通过在用户终端上安装音轨音频提取软件，并采用音轨音频提取软件就可从源视频文件中分离出音轨，进而得到其中的音频数据，然后再对音频数据进行编码处理。一般情况下带有声音的视频文件中至少存在一条音轨，当包括多条音轨时，可以理解为不同类型的声音位于不同的音轨中，例如，原声为一条音轨，旁白为一条音轨；又例如，人声为一条音轨，音乐为一条音轨。当然，还可理解为，同一类型的音频数据分为多条音轨进行存储。

S203，所述用户终端将所述目标编码数据发送至服务器。

具体的，用户终端可将目标编码数据进行封装，即将所述目标编码数据进行压缩得到数据包，然后再将数据包发送至服务器。所述服务器为具备语音识别处理等功能的业务服务器。

S204，所述服务器采用语音识别模型对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端；

具体的，所述服务器通过对接收到的目标编码数据进行语音识别处理后，得到音频数据对应的文本数据集合，以及各文本数据在对应的音轨中的开始时间、结束时间、持续时长等时间信息，然后再将所获取的信息发送至用户终端进行处理。

所述服务器将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，可以理解为所述服务器获取所述各文本数据对应的时间信息所指示的时间先后顺序，再按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，例如对每个文本数据采用(文本、在音轨中的开始时间、持续时长)格式进行发送。还可理解为，将各文本数据及分别对应的时间信息封装后，再对封装后的各文本数据进行封装生成一个或多个数据包，再将所生成的数据包发送至用户终端。或者，还可理解为，将各文本数据及对应的时间信息建立映射关系表或者集合，再将该映射关系表或者集合发送至用户终端。

S205，所述用户终端获取在设定显示模式下针对所述文本数据集合中目标文本数据所输入的文本编辑信息；

具体的，当用户终端采用设定显示模式显示所接收到的文本数据集合时，用户可针对当前所显示的文本数据进行编辑，如对文本进行修改以使得显示结果更准确。而修改过程则是通过输入文本编辑信息，如删除显示屏上所显示的文本数据并在对应位置处输入文字。所述设定显示模式是指可编辑模式，比如预览模式。所述文本编辑信息即针对当前所显示的文本数据所输入的文本修改数据，用于对当前所显示的文本数据进行纠正。

当然，在编辑完当前所显示的文本数据后可通过操作显示屏显示下一个文本数据，以完成对文本数据集合中所有文本数据的修订。

在设定显示模式下显示文本数据是指将各文本数据对应的时间信息与源视频文件中的时间对齐显示，即某一帧或几帧图像与对应的音频数据及文本数据同时显示，以方便用户在预设显示模式下观看时对所显示的文本数据的准确性进行判断并纠正。

可选的，为了丰富显示效果，可设置文本数据的显示效果(如添加表情符号、添加边框、添加颜色等)。

S206，所述用户终端采用所述文本编辑信息替换所述目标文本数据，得到替换后的文本数据集合；

具体的，当用户终端获取到用户所输入的文本编辑信息后，采用该文本编辑信息替换对应的文本数据，将所有的文本编辑信息分别替换对应的文本数据后，生成替换后的文本数据集合，即纠正后的文本数据集合。

S207，所述用户终端基于所述时间信息将所述替换后的文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

例如，假设在源视频文件中只包括一条音轨S1，如图3a所示，所得到的文本数据集合为W1～W10，其中W1的开始时间为T1，持续时长为t1，那么可将W1***到S1的T1～T1+t1位置处，同样的，再分别将W2～W10***到S1的对应位置处，将所有的文本数据***完成后与源视频文件合成就得到了添加了文本数据的目标视频文件，或者，***一个文本数据就合成一个并实时显示，可以节省所有文本数据合成后再显示的等待时间，然后再***下一个文本数据。

又例如，假设在源视频文件中包括两条音轨S2和S3，如图3b所示，所得到的文本数据集合为W11～W20，其中W11～W15对应S2，W16～W20对应S3，W11和W16的开始时间均为T1，持续时长均为t1，那么可将W11***到S2的T1～T1+t1位置处，将W16***到S3的T1～T1+t1位置处。同样的，再分别将W12～W15***到S2的对应位置处，分别将W17～W20***到S3的对应位置处。将所有的文本数据***完成后与源视频文件合成就得到了添加了文本数据的目标视频文件，或者，***一个文本数据就合成一个并实时显示，可以节省所有文本数据合成后再显示的等待时间，然后再***下一个文本数据。

S208，所述用户终端将所述文本编辑信息以及所述目标文本数据发送至所述服务器；

可以理解的是，发送前可对文本编辑信息以及目标文本数据进行封装，可对两者分别封装，也可一起封装。

所述封装就是把业务数据(文本编辑信息和/或目标文本数据)映射到某个封装协议的净荷中，然后填充对应协议的包头，形成封装协议的数据包，并完成速率适配。

需要说明的是，用户终端发送文本编辑信息以及目标文本数据与用户终端采用文本编辑信息替换所述目标文本数据的执行先后顺序不限定，也可同时并列执行。

S209，所述服务器基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率；

具体的，服务器分别比对每个词的相似度，若某个词相似度超过相似度阈值，则确定两词相同，可设置比对结果为1，若某个词相似度小于相似度阈值，则确定两词不同，可设置比对结果为0。通过比对所有的词后，可得到目标文本数据对应的比对序列(即比对结果组成的由1和0构成的序列)，再判断其中1的个数占总个数的比例即可得到识别准确率。

S210，所述服务器基于所述识别准确率调整所述语音识别模型。

具体的，当识别准确率小于所设置的准确率阈值时，对语音识别模型进行调整，并在调整完成后再对该目标文本数据对应的源音频数据进行语音识别处理，并输出识别结果，然后再比较识别结果与文本编辑信息，以得到调整后的识别准确率。若该识别准确率仍然小于准确率阈值，则继续调整，若该识别准确率大于或者等于准确率阈值，则调整结束。从而可以提高AI语音识别在视频文件对白场景的识别准确率。

其中，在一种可行的实现方式中，所述用户终端获取所述视频文件中的音频数据，并对所述音频数据进行编码处理，得到所述音频数据对应的目标编码数据，可以包括如下步骤，如图5所示：

S301，所述用户终端获取所述视频文件中的音频数据集合，并分别对所述音频数据集合中各音频数据进行编码处理，以得到所述各音频数据对应的编码数据；

可以理解的是，所述音频数据集合即为多条音频轨道的音频数据，对于每条音频轨道的音频数据可采用相同的方式进行处理。

以一条音频轨道的音频数据处理过程为例进行描述。采用编码方式(如PCM)对音频数据进行编码处理。所述PCM是数字通信的编码方式之一，就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。因此，通过采用PCM对语音数据编码为一组二进制码(PCM数据)。

然后可采用相同的方式分别对其他音频轨道的音频数据进行编码处理，从而得到各音频数据对应的PCM数据。

进一步的，用户终端可对所获取的PCM数据进行VAD处理，目的是检测各PCM数据中是否存在语音信号。所述VAD技术主要用于语音编码和语音识别，可以简化语音处理过程，也可用于识别和去除音频数据中的非语音片段，可以避免对静音数据包的编码和传输，节省计算时间和带宽。采用VAD技术就识别出各PCM数据中的语音片断和非语音片断，可通过删除其中的非语音片断。

S302，所述用户终端将所述各音频数据对应的编码数据进行拼接，得到目标编码数据。

具体的，按照每个音频数据的时间先后顺序将各编码数据进行拼接而生成的目标编码数据。可以理解为，每个音频数据对应的编码数据为一组二进制码(一组PCM数据)，然后将所有的PCM数据串为一组较长的PCM数据作为目标编码数据。而每组二进制码中，可以包含语音片断和非语音片断，也可是通过采用VAD处理后只包含语音片断。所述各音频数据的时间是指各音频数据的语音片断在音轨中的开始时间。

例如，在音频数据集合中包括5组二进制码[1 1 1 0 0 0 1 1 1 0 0 0]、[1 1 00 0 0 0 1 1 0 0 0]、[0 0 1 1 0 0 1 1 0 0 1 1]、[1 0 1 0 1 0 1 0 1 0 10]、[0 1 01 0 1 1 1 1 0 0 0]，及分别对应的时间为T11、T22、T33、T44和T55，若T11<T22<T33<T44<T55，则生成的目标编码数据为[1 1 1 0 0 0 1 1 1 0 0 0 1 1 0 0 0 0 0 1 1 0 0 0 00 1 1 0 0 1 1 0 0 1 1 1 0 1 0 1 0 1 0 1 0 10 0 1 0 1 0 1 1 1 1 0 0 0]。

当然，若存在时间相同的两编码数据，则该两编码数据的拼接顺序可任意设置。

可选的，当每个音轨通过在源视频文件中的出现时间标记时，可对所有的PCM数据按照任意顺序拼接而生成目标编码数据。

需要说明的是，进行拼接的各编码数据需采用相同的采样率，若采样率不同，则需要重新采样后再进行拼接。

在本发明实施例中，用户终端获取源视频文件，并获取其中所包含的音频数据，再将音频数据发送至服务器，服务器对该音频数据进行语音识别处理，得到音频数据对应的文本数据集合以及文本数据集合中各文本数据对应的时间信息并发送至所述用户终端，用户终端基于所接收到的时间信息将文本数据集合与源视频文件进行合成处理，从而得到源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。同时，通过用户对用户终端所显示的文本数据进行修正，提高文本数据显示的准确性及可编辑性，可以提升用户体验。另外，用户终端再将用户所输入的文本编辑信息回传至服务器进行分析验证以对语音识别模型进行调整，可以提高语音识别的准确率。

请参见图6，为本发明实施例提供了另一种视频文件生成方法的流程示意图。本发明实施例的所述方法由用户终端执行，可以包括如下步骤S401-步骤S403。

S401，获取源视频文件；

S402，获取所述源视频文件中的音频数据，将所述音频数据发送至服务器，以使所述服务器对所述音频数据进行语音识别处理得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

可以理解的是，所述音频数据位于音轨中，也就是以音轨形式封装。所述音轨可以理解为在音序器软件中看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色、音色库、通道数、输入/输出端口、音量等，通过音轨的属性可以唯一识别音轨。

具体的，通过在用户终端上安装音轨音频提取软件，并采用音轨音频提取软件就可从源视频文件中分离出音轨，进而得到其中的音频数据，然后，再将音频数据发送至服务器进行处理，以使通过对音频数据进行语音识别处理，可以得到音频数据对应的文本数据集合，在文本数据集合中包括至少一个文本数据。也就是说，无论服务器所接收到的音频数据是位于一条音轨中的音频数据还是分别位于多条音频中的音频数据，通过对音频数据进行语音识别处理后就可以得到多个文本数据。所述语音识别处理即为AI语音识别过程，是利用计算机通过人工智能、机器学习等技术将声音翻译成文本数据(文字)的一种服务，采用现有的语音识别模型就可将音频数据翻译为文本数据。

一般情况下带有声音的视频文件中至少存在一条音轨，当包括多条音轨时，可以理解为不同类型的声音位于不同的音轨中，例如，原声为一条音轨，旁白为一条音轨；又例如，人声为一条音轨，音乐为一条音轨。当然，还可理解为，同一类型的音频数据分为多条音轨进行存储。

可选的，用户终端还可对所获取的音频数据进行预处理，如进行VAD检测，目的是检测语音信号是否存在。VAD技术主要用于语音编码和语音识别。它可以简化语音处理，也可用于识别和去除音频数据中的非语音片段，可以避免对静音数据包的编码和传输，节省计算时间和带宽。

其中，采用VAD技术识别音频数据中的非语音片断，首先需要对语音数据进行编码，如采用PCM进行编码处理。所述PCM是数字通信的编码方式之一，就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。因此，通过采用PCM对语音数据编码为一组二进制码(PCM数据)后，采用VAD技术就可识别出其中的语音片断和非语音片断，可通过删除其中的非语音片断后，将语音片断发送至服务器。

可选的，将所述语音片断发送至服务器之前，可将语音片断进行封装，即将所述语音片断进行压缩得到数据包。

S403，接收所述服务器发送的所述文本数据集合以及所述各文本数据对应的时间信息，基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

具体的，用户终端接收到服务器发送的所述文本数据集合以及所述各文本数据对应的时间信息后，获取源视频文件的时间信息，并将源视频文件的时间信息与各文本数据的时间信息分别对齐，然后将文本数据添加到源视频文件中，从而得到目标视频文件。也可以理解为，音频数据的音轨与源视频文件是平行的，通过基于各文本数据的时间信息分别将各文本数据***到源视频文件对应的音轨中，从而生成目标视频文件。

在本发明实施例中，用户终端获取源视频文件，并获取其中所包含的音频数据，再将音频数据发送至服务器，以使服务器对该音频数据进行语音识别处理以获取音频数据对应的文本数据集合以及文本数据集合中各文本数据对应的时间信息并回传至用户终端，用户终端基于所接收到的时间信息将文本数据集合与源视频文件进行合成处理，从而得到源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。

请参见图7，为本发明实施例提供了另一种视频文件生成方法的流程示意图。本发明实施例的所述方法由用户终端执行，可以包括如下步骤S501-步骤S508。

S501，获取源视频文件；

S502，获取所述源视频文件中的音频数据，并对所述音频数据进行编码处理，得到所述音频数据对应的目标编码数据；

S503，将所述目标编码数据发送至服务器，以使所述服务器对所述音频数据进行语音识别处理得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

具体的，用户终端可将目标编码数据进行封装，即将所述目标编码数据进行压缩得到数据包，然后再将数据包发送至服务器，以使所述服务器通过对接收到的目标编码数据进行语音识别处理后，得到音频数据对应的文本数据集合，以及各文本数据在对应的音轨中的开始时间、结束时间、持续时长等时间信息，然后再将所获取的信息发送至用户终端进行处理。所述服务器为具备语音识别处理等功能的业务服务器。

S504，接收所述服务器发送的所述文本数据集合以及所述各文本数据对应的时间信息；

具体的，用户终端接收服务器获取所述各文本数据对应的时间信息所指示的时间先后顺序依次发送的所述文本数据集合以及所述各文本数据对应的时间信息，例如所接收到的是服务器对每个文本数据采用(文本、在音轨中的开始时间、持续时长)格式所发送的信息。还可理解为，接收服务器将各文本数据及分别对应的时间信息封装后所发送的信息，再对封装后的各文本数据进行封装生成一个或多个数据包，然后再解封装。或者，还可理解为，接收到的是服务器将各文本数据及对应的时间信息建立映射关系表或者集合。

S505，获取在设定显示模式下针对所述文本数据集合中目标文本数据所输入的文本编辑信息；

S506，采用所述文本编辑信息替换所述目标文本数据，得到替换后的文本数据集合；

S507，基于所述时间信息将所述替换后的文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

S508，将所述文本编辑信息以及所述目标文本数据发送至所述服务器，以使所述服务器基于所述文本编辑信息对所述目标文本数据进行验证得到所述目标文本数据的识别准确率。

具体的，用户终端将文本编辑信息以及所述目标文本数据发送至所述服务器，以使所述服务器分别比对每个词的相似度，若某个词相似度超过相似度阈值，则确定两词相同，可设置比对结果为1，若某个词相似度小于相似度阈值，则确定两词不同，可设置比对结果为0。通过比对所有的词后，可得到目标文本数据对应的比对序列(即比对结果组成的由1和0构成的序列)，再判断其中1的个数占总个数的比例即可得到识别准确率。进而，可基于该识别准确率对语音识别模型进行调整，以提高语音识别模型的识别准确率。

其中，在一种具体的实现方式中，所述获取所述视频文件中的音频数据，并对所述音频数据进行编码处理，得到音频数据对应的目标编码数据，可以包括如下步骤，如图8所示：

S601，获取所述视频文件中的音频数据集合，并分别对所述音频数据集合中各音频数据进行编码处理，得到所述各音频数据对应的编码数据；

S602，将所述各音频数据对应的编码数据进行拼接，得到目标编码数据。

具体的，按照每个音频数据的时间先后顺序将各编码数据进行拼接而生成的目标编码数据。可以理解为，每个音频数据对应的编码数据为一组二进制码(一组PCM数据)，然后将所有的PCM数据串为一组较长的PCM数据作为目标编码数据。而每组二进制码中，可以包含语音片断和非语音片断，也可是通过采用VAD处理后只包含语音片断。所述个音频数据的时间是指各音频数据的语音片断在音轨中的开始时间。

在本发明实施例中，用户终端获取源视频文件，并获取其中所包含的音频数据，再将音频数据发送至服务器，服务器对该音频数据进行语音识别处理，得到音频数据对应的文本数据集合以及文本数据集合中各文本数据对应的时间信息并发送至所述用户终端，用户终端基于所接收到的时间信息将文本数据集合与源视频文件进行合成处理，从而得到源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。同时，通过用户对用户终端所显示的文本数据进行修正，提高文本数据显示的准确性及可编辑性，可以提升用户体验。

请参见图9，为本发明实施例提供了另一种视频文件生成方法的流程示意图。本发明实施例的所述方法由服务器执行，可以包括如下步骤S701-步骤S703。

S701，获取用户终端发送的源视频文件中的音频数据；

一般情况下带有声音的视频文件中至少存在一条音轨，当包括多条音轨时，可以理解为不同类型的声音位于不同的音轨，例如，原声为一条音轨，旁白为一条音轨；又例如，人声为一条音轨，音乐为一条音轨。当然，还可理解为，同一类型的音频数据分为多条音轨进行存储。

具体的，当用户在用户终端上输入获取视频文件的操作信号后触发用户终端获取操作信号对应的源视频文件，然后通过在用户终端上安装音轨音频提取软件，并采用音轨音频提取软件就可从源视频文件中分离出音轨，进而得到其中的音频数据，再将音频数据发送至服务器，从而服务器获取到源视频文件中的音频数据。

其中，采用VAD技术识别音频数据中的非语音片断，首先需要对语音数据进行编码，如采用PCM进行处理。

S702，对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

具体的，所述服务器通过对接收到的音频数据进行语音识别处理后，得到音频数据对应的文本数据集合，以及各文本数据在对应的音轨中的开始时间、结束时间、持续时长等时间信息，然后再将所获取的信息发送至用户终端进行处理。

S703，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。

所述服务器将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，可以理解为所述服务器获取所述各文本数据对应的时间信息所指示的时间先后顺序，再按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，例如对每个文本数据采用(文本、在音轨中的开始时间、持续时长)格式进行发送。还可理解为，将各文本数据及分别对应的时间信息封装后，再对封装后的各文本数据进行封装生成一个或多个数据包，再将所生成的数据包发送至用户终端。或者，还可理解为，将各文本数据及对应的时间信息建立映射关系表或者集合，再将该映射关系表或者集合发送至用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，以生成所述源视频文件对应的目标视频文件。

在本发明实施例中，服务器获取用户终端发送的源视频文件中的音频数据，并对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，再将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。

请参见图10，为本发明实施例提供了另一种视频文件生成方法的流程示意图。本发明实施例的所述方法由服务器执行，可以包括如下步骤S801-步骤S807。

S801，获取用户终端发送的音频数据对应的目标编码数据；

可以理解的是，所述音频数据是用户终端所获取的源视频文件中音轨中的数据。所述源视频文件可以从本地视频库(如相册)中选择获取、或者是当前通过摄像头拍摄获取、或者当前从网络下载获取等。

S802，采用语音识别模型对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

S803，获取所述各文本数据对应的时间信息所指示的时间先后顺序；

具体的，服务器依次比对所识别到的时间信息，并按照时间先后顺序进行排序。

S804，按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。

所述服务器将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，可以理解为所述服务器获取所述各文本数据对应的时间信息所指示的时间先后顺序，再按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，例如对每个文本数据采用(文本、在音轨中的开始时间、持续时长)格式进行发送。

S805，获取所述用户终端发送的文本编辑信息以及目标文本数据；

具体的，当用户终端采用设定显示模式显示所接收到的文本数据集合时，用户可针对当前所显示的文本数据进行编辑，如对文本进行修改以使得显示结果更准确。同时，将所输入的文本编辑信息以及该文本编辑信息所对应的目标文本数据一起发送至服务器。所述文本编辑信息即针对当前所显示的文本数据所输入的文本修改数据，用于对当前所显示的文本数据进行纠正。

用户终端发送前可对文本编辑信息以及目标文本数据进行封装，可对两者分别封装，也可一起封装。

S806，基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

S807，基于所述识别准确率调整所述语音识别模型。

在本发明实施例中，服务器获取用户终端发送的音频数据对应的目标编码数据，并采用语音识别模型对所述音频数据进行语音识别处理，从而得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，并按照时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。同时，服务器基于所识别到的识别准确率对语音识别模型进行调整，可以提高语音识别的准确率。

下面将结合附图11-附图18，对本发明实施例提供的视频文件生成***及其设备进行详细介绍。需要说明的是，附图11-附图18所示的视频文件生成***及其设备，用于执行本发明图2-图10所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图2-图10所示的实施例。

请参见图11，为本发明实施例提供了一种视频文件生成设备的结构示意图。如图11所示，本发明实施例的所述视频文件生成设备1可以包括：源文件获取单元11、数据发送单元12和信息接收单元13。

源文件获取单元11，用于获取源视频文件；

数据发送单元12，用于获取所述源视频文件中的音频数据，将所述音频数据发送至服务器，以使所述服务器对所述音频数据进行语音识别处理得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

可选的，如图12所示，所述数据发送单元12，包括：

数据编码子单元121，用于获取所述视频文件中的音频数据，并对所述音频数据进行编码处理，得到音频数据对应的目标编码数据；

可选的，所述数据编码子单元121，具体用于：

数据发送子单元122，用于将所述目标编码数据发送至服务器。

信息接收单元13，用于接收所述服务器发送的所述文本数据集合以及所述各文本数据对应的时间信息，基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

可选的，如图13所示，还包括；

编辑信息获取单元14，用于获取在设定显示模式下针对所述文本数据集合中目标文本数据所输入的文本编辑信息；

文本数据替换单元15，用于采用所述文本编辑信息替换所述目标文本数据，得到替换后的文本数据集合；

所述信息接收单元13，具体用于：

可选的，如图13所示，还包括：

编辑信息发送单元16，用于将所述文本编辑信息以及所述目标文本数据发送至所述服务器，以使所述服务器基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

在本发明实施例中，用户终端获取源视频文件，并获取其中所包含的音频数据，再将音频数据发送至服务器，服务器对该音频数据进行语音识别处理，以获取音频数据对应的文本数据集合以及文本数据集合中各文本数据对应的时间信息并发送至所述用户终端，用户终端基于所接收到的时间信息将文本数据集合与源视频文件进行合成处理，从而生成源视频文件对应的目标视频文件。通过用户在源视频文件中智能添加服务器所识别到的文本数据，操作简单快捷，相对现有技术中人工添加文本数据而言，节省了在视频中添加文本数据的时间，提高了在视频中添加文本数据的效率。同时，通过用户对用户终端所显示的文本数据进行修正，提高文本数据显示的准确性及可编辑性，可以提升用户体验。另外，用户终端再将用户所输入的文本编辑信息回传至服务器进行分析验证以对语音识别模型进行调整，可以提高语音识别的准确率。

请参见图14，为本发明实施例提供了另一种视频文件生成设备的结构示意图。如图14所示，本发明实施例的所述视频文件生成设备20可以包括：数据获取单元21、数据识别单元22和信息发送单元23。

数据获取单元21，用于获取用户终端发送的源视频文件中的音频数据；

可选的，所述数据获取单元21，具体用于获取用户终端发送的所述音频数据对应的目标编码数据；

数据识别单元22，用于对所述音频数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；

可选的，所述数据识别单元22，具体用于对所述目标编码数据进行语音识别处理。

信息发送单元23，用于将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，以使所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理得到所述源视频文件对应的目标视频文件。

可选的，如图15所示，所述信息发送单元23，包括：

顺序获取子单元231，用于获取所述各文本数据对应的时间信息所指示的时间先后顺序；

信息发送子单元232，用于按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端。

可选的，如图16所示，还包括：

编辑信息获取单元24，用于获取所述用户终端发送的文本编辑信息以及目标文本数据；

信息验证单元25，用于基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

所述数据识别单元22，具体用于采用语音识别模型对所述音频数据进行语音识别处理；

可选的，如图16所示，还包括模型调整单元26，用于基于所述识别准确率调整所述语音识别模型。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图11所示实施例的方法步骤，具体执行过程可以参见图1-图11所示实施例的具体说明，在此不进行赘述。

请参见图17，为本发明实施例提供了一种用户终端的结构示意图。如图17所示，所述用户终端1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及视频文件生成应用程序。

在图17所示的用户终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004主要用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频文件生成应用程序，并具体执行以下操作：

获取源视频文件；

在一个实施例中，所述处理器1001在执行获取所述源视频文件中的音频数据，将所述音频数据发送至服务器时，具体执行以下操作：

将所述目标编码数据发送至服务器。

在一个实施例中，所述处理器1001在执行获取所述视频文件中的音频数据，并对所述音频数据进行编码处理，得到音频数据对应的目标编码数据时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理之前，还执行以下操作：

所述处理器1001在执行基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件时，具体执行以下操作：

在一个实施例中，所述处理器1001还执行以下操作：

将所述文本编辑信息发送至所述服务器，以使所述服务器对所述文本编辑信息进行验证得到所述文本编辑信息的编辑准确率。

请参见图18，为本发明实施例提供了一种服务器的结构示意图。如图18所示，所述服务器2000可以包括：至少一个处理器2001，例如CPU，至少一个网络接口2004，用户接口2003，存储器2005，至少一个通信总线2002。其中，通信总线2002用于实现这些组件之间的连接通信。其中，用户接口2003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图18所示，作为一种计算机存储介质的存储器2005中可以包括操作***、网络通信模块、用户接口模块以及视频文件生成应用程序。

在图18所示的服务器2000中，用户接口2003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口2004主要用于与用户终端进行数据通信；而处理器2001可以用于调用存储器2005中存储的视频文件生成应用程序，并具体执行以下操作：

获取用户终端发送的源视频文件中的音频数据；

在一个实施例中，所述处理器2001在执行获取用户终端发送的源视频文件中的音频数据时，具体执行以下步骤：

获取用户终端发送的所述音频数据对应的目标编码数据；

所述处理器2001在执行对所述音频数据进行语音识别处理时，具体执行以下步骤：

对所述目标编码数据进行语音识别处理。

在一个实施例中，所述处理器2001还执行以下步骤：

获取所述用户终端发送的文本编辑信息；

对所述文本编辑信息进行验证，得到所述文本编辑信息的编辑准确率。

在一个实施例中，所述处理器2001在执行对所述音频数据进行语音识别处理时，具体执行以下步骤：

采用语音识别模型对所述音频数据进行语音识别处理；

所述处理器2001在执行对所述文本编辑信息进行验证，得到所述文本编辑信息的编辑准确率之后，还执行以下步骤：

基于所述编辑准确率调整所述语音识别模型的识别准确率。

在一个实施例中，所述处理器2001在执行将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端时，具体执行以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频文件生成方法，其特征在于，包括：

用户终端获取源视频文件，并获取所述源视频文件中的音频数据，将所述音频数据对应的目标编码数据发送至服务器；所述目标编码数据为所述用户终端对所述音频数据进行脉冲编码调制处理，得到二进制码后，对所述二进制码进行语音活性检测以后得到的数据；所述语音活性检测用于识别并去除所述二进制码中的非语音片段；

所述服务器对所述目标编码数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息，将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端；所述服务器对所述目标编码数据进行语音识别处理包括：通过语音识别模型对所述目标编码数据进行语音识别处理；所述语音识别模型通过识别准确率所调整得到；所述识别准确率基于文本编辑信息与目标文本数据之间每个词的比对结果所确定；所述文本数据集合包括所述目标文本数据，所述文本编辑信息为所述用户终端对应的用户针对所述目标文本数据所输入的文本修改数据；所述文本编辑信息用于对所述目标文本数据进行纠正；

2.根据权利要求1所述的方法，其特征在于，所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理之前，还包括：

所述用户终端获取在设定显示模式下针对所述文本数据集合中目标文本数据所输入的文本编辑信息；

所述用户终端采用所述文本编辑信息替换所述目标文本数据，得到替换后的文本数据集合；

所述用户终端基于所述时间信息将所述文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件，包括：

所述用户终端基于所述时间信息将所述替换后的文本数据集合与所述源视频文件进行合成处理，得到所述源视频文件对应的目标视频文件。

3.根据权利要求2所述的方法，其特征在于，还包括：

所述用户终端将所述文本编辑信息以及所述目标文本数据发送至所述服务器；

所述服务器基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率。

4.根据权利要求3所述的方法，其特征在于，所述服务器基于所述文本编辑信息对所述目标文本数据进行验证，得到所述目标文本数据的识别准确率之后，还包括：

所述服务器基于所述识别准确率调整所述语音识别模型。

5.根据权利要求1所述的方法，其特征在于，所述服务器将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端，包括：

所述服务器获取所述各文本数据对应的时间信息所指示的时间先后顺序；

所述服务器按照所述时间先后顺序依次将所述文本数据集合以及所述各文本数据对应的时间信息发送至所述用户终端。

6.一种视频文件生成方法，其特征在于，包括：

获取源视频文件；

获取所述源视频文件中的音频数据，将所述音频数据对应的目标编码数据发送至服务器，以使所述服务器通过语音识别模型对所述目标编码数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；所述目标编码数据为用户终端对所述音频数据进行脉冲编码调制处理，得到二进制码后，对所述二进制码进行语音活性检测以后得到的数据；所述语音活性检测用于识别并去除所述二进制码中的非语音片段；所述语音识别模型通过识别准确率所调整得到；所述识别准确率基于文本编辑信息与目标文本数据之间每个词的比对结果所确定；所述文本数据集合包括所述目标文本数据，所述文本编辑信息为所述用户终端对应的用户针对所述目标文本数据所输入的文本修改数据；所述文本编辑信息用于对所述目标文本数据进行纠正；

7.一种视频文件生成方法，其特征在于，包括：

获取用户终端发送的源视频文件中的音频数据对应的目标编码数据；

对所述目标编码数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；所述对所述目标编码数据进行语音识别处理包括：通过语音识别模型对所述目标编码数据进行语音识别处理；所述语音识别模型通过识别准确率所调整得到；所述识别准确率基于文本编辑信息与目标文本数据之间每个词的比对结果所确定；所述文本数据集合包括所述目标文本数据，所述文本编辑信息为所述用户终端对应的用户针对所述目标文本数据所输入的文本修改数据；所述文本编辑信息用于对所述目标文本数据进行纠正；

8.一种视频文件生成设备，其特征在于，包括：

源文件获取单元，用于获取源视频文件；

数据发送单元，用于获取所述源视频文件中的音频数据，将所述音频数据对应的目标编码数据发送至服务器，以使所述服务器通过语音识别模型对所述目标编码数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；所述目标编码数据为用户终端对所述音频数据进行脉冲编码调制处理，得到二进制码后，对所述二进制码进行语音活性检测以后得到的数据；所述语音活性检测用于识别并去除所述二进制码中的非语音片段；所述语音识别模型通过识别准确率所调整得到；所述识别准确率基于文本编辑信息与目标文本数据之间每个词的比对结果所确定；所述文本数据集合包括所述目标文本数据，所述文本编辑信息为所述用户终端对应的用户针对所述目标文本数据所输入的文本修改数据；所述文本编辑信息用于对所述目标文本数据进行纠正；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求6所述的方法步骤。

10.一种用户终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

获取源视频文件；

获取所述源视频文件中的音频数据，将所述音频数据对应的目标编码数据发送至服务器，以使所述服务器通过语音识别模型对所述目标编码数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；所述目标编码数据为所述用户终端对所述音频数据进行脉冲编码调制处理，得到二进制码后，对所述二进制码进行语音活性检测以后得到的数据；所述语音活性检测用于识别并去除所述二进制码中的非语音片段；所述语音识别模型通过识别准确率所调整得到；所述识别准确率基于文本编辑信息与目标文本数据之间每个词的比对结果所确定；所述文本数据集合包括所述目标文本数据，所述文本编辑信息为所述用户终端对应的用户针对所述目标文本数据所输入的文本修改数据；所述文本编辑信息用于对所述目标文本数据进行纠正；

11.一种视频文件生成设备，其特征在于，包括：

数据获取单元，用于获取用户终端发送的源视频文件中的音频数据对应的目标编码数据；

数据识别单元，用于对所述目标编码数据进行语音识别处理，得到所述音频数据对应的文本数据集合以及所述文本数据集合中各文本数据对应的时间信息；所述对所述目标编码数据进行语音识别处理包括：通过语音识别模型对所述目标编码数据进行语音识别处理；所述语音识别模型通过识别准确率所调整得到；所述识别准确率基于文本编辑信息与目标文本数据之间每个词的比对结果所确定；所述文本数据集合包括所述目标文本数据，所述文本编辑信息为所述用户终端对应的用户针对所述目标文本数据所输入的文本修改数据；所述文本编辑信息用于对所述目标文本数据进行纠正；

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求7所述的方法步骤。

13.一种服务器，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：