CN110996167A

CN110996167A - 在视频中添加字幕的方法及装置

Info

Publication number: CN110996167A
Application number: CN201911329312.6A
Authority: CN
Inventors: 彭剑龙
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-10

Abstract

本申请公开了一种在视频中添加字幕的方法，该方法包括：在录制视频的过程中，获取文本以及文本对应的文本时间信息，根据文本时间信息确定文本在录制的视频中的对应视频帧；在对应视频帧中添加根据对应的文本形成的字幕，从而可自动将文本形成的字幕添加到录制的视频中，无需人工***字幕，其操作简单，尤其在直播时，可实时获取文本信息并***到视频中，提高了在视频中***字幕的效率。

Description

在视频中添加字幕的方法及装置

技术领域

本发明涉及图像处理领域，特别涉及一种在视频中添加字幕的方法及装置。

背景技术

随着互联网络技术的发展，视频播放类应用成为一种常用的应用程序，在视频中***字幕已经成为提高用户观看体验的重要手段。

在相关的技术中，视频中的字幕通常在视频录制完成后，工作人员手工将字幕***到视频对应的画面帧中，生成带有字幕的视频，然后将带有字幕的视频上传至服务器，从而在客户端可以下载或播放该带有字幕的视频。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

由于需要在视频中人工***字幕，制作视频的操作比较繁琐。

发明内容

有鉴于此，本申请实施例提供了一种在视频中添加字幕的方法和装置，以提高在视频中***字幕的效率。所述技术方案如下：

一方面，提供了一种在视频中添加字幕的方法，应用于终端，所述方法包括：

在录制视频的过程中，获取文本以及所述文本对应的文本时间信息；

根据文本时间信息确定所述文本在录制的视频中的对应视频帧；

在所述对应视频帧中添加根据对应的文本形成的字幕。

可选的，当所述文本为歌词，所述文本时间信息为歌词时间信息时，所述获取文本以及所述文本对应的文本时间信息，包括：

当接收到目标歌曲的播放指令时，获取所述目标歌曲的音频、歌词以及所述歌词对应的歌词时间信息，所述歌词时间信息指示每条歌词被演唱的时间段；

播放所述目标歌曲的音频。

可选的，根据文本时间信息确定所述文本在录制的视频中的对应视频帧，包括：

根据播放所述音频的开始播放时间点和每条歌词的歌词时间信息，确定每条歌词在录制的视频中的对应视频帧。

可选的，所述根据播放所述音频的开始播放时间点和每条歌词的歌词时间信息，确定每条歌词在录制的视频中的对应视频帧，包括：

从所述开始播放时间点起，当到达所述每条歌词的歌词时间信息指示的所述时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧。

可选的，所述从所述开始播放时间点起，当到达所述每条歌词的歌词时间信息指示的所述时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧，包括：

根据每条歌词的歌词时间信息在定时器上设置对应时间段的起点和终点；

从所述开始播放时间点起，到达所述定时器上设置的每一段对应时间段的起点时，将从该对应时间段的起点开始到终点结束录制的视频帧确定为对应的歌词的视频帧。

可选的，所述歌词时间信息还指示每条歌词中的每个字被演唱的时间段，所述根据文本时间信息确定所述文本在录制的视频中的对应视频帧，还包括：

确定每条歌词的每个字的对应视频帧；

在所述对应视频帧中添加根据对应的文本形成的字幕，包括：

在每条歌词的对应视频帧的字幕中依次增加每个字，使得每条歌词的每个字在该字的对应视频帧中开始呈现。

可选的，在所述对应视频帧中添加根据对应的文本形成的字幕，包括：

根据每条歌词生成特效字幕，将所述特效字幕添加到所述对应视频帧的画面中。

可选的，所述方法还包括：

获取所述目标歌曲的音频的结束播放时间点；

在本地根据目标歌曲的音频的开始播放时间点和所述结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频；或者

将所述目标歌曲的音频的开始播放时间点和所述结束播放时间点发送给服务器，以使所述服务器根据所述目标歌曲的音频的开始播放时间点和所述结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频。

可选的，所述方法还包括：

获取所述目标歌曲的属性信息，所述属性信息包括：所述目标歌曲的名称、作者和演唱者之中的至少一项；

本地将根据所述目标歌曲的属性信息形成的字幕添加到录制的视频中，或者，将所述目标歌曲的属性信息发送给服务器，以使所述服务器将根据所述目标歌曲的属性信息形成的字幕添加到录制的视频中。

可选的，所述文本为在直播过程中用户输入的文本，所述文本时间信息为文本输入时间，所述根据文本时间信息确定所述文本在录制的视频中的对应视频帧，包括：

获取录制的视频中的视频帧的录制时间；

根据视频帧的录制时间和所述文本输入时间，确定所述用户输入的文本在录制的视频中的对应视频帧。

可选的，所述方法还包括：获取所述文本在视频帧中开始显示位置以及预设时长，所述预设时长指示所述字幕从开始显示至显示结束的时长；

所述在所述对应视频帧中添加根据对应的文本形成的字幕，包括：

从所述对应视频帧的开始显示位置，以预设的方式显示预设时长的用户输入的文本形成的字幕。

本地在所述对应视频帧中添加根据对应的文本形成的字幕；

或者，

将录制的视频和所述文本与对应视频帧的对应关系发送给服务器，以使所述服务器在所述对应视频帧中添加根据对应的文本形成的字幕。

一方面，提供了一种在视频中添加字幕的方法，应用于服务器，所述方法包括：

接收录制的视频和文本与对应视频帧的对应关系，所述对应关系指示文本在录制的视频中的对应视频帧；

根据所述文本与对应视频帧的对应关系，在所述视频的所述对应视频帧中添加根据对应的文本形成的字幕。

可选的，所述文本为目标歌曲的歌词时，所述方法还包括：

接收目标歌曲的音频的开始播放时间点和结束播放时间点；

根据所述目标歌曲的音频的开始播放时间点和所述结束播放时间点对所述视频进行截取，得到带字幕的音乐视频。

可选的，所述方法还包括：

接收目标歌曲的属性信息，所述属性信息包括：所述目标歌曲的名称、作者和演唱者之中的至少一项；

根据所述目标歌曲的属性信息形成的字幕添加到录制的视频中。

可选的，所述文本与对应视频帧的对应关系还指示每条歌词的每个字的对应视频帧，

在所述对应视频帧中添加根据对应的文本形成的字幕，还包括：

可选的，所述文本为用户输入的文本时，所述方法还包括：

从用户端获取所述用户输入的文本信息以及所述用户输入的文本信息对应的文本时间信息；

在本地根据文本时间信息确定所述文本在录制的视频中的对应视频帧；或者，

将所述用户输入的文本信息以及所述用户输入的文本信息对应的文本时间信息发送给终端，以便所述终端根据文本时间信息确定所述文本在录制的视频中的对应视频帧。

一方面，提供了一种在视频中添加字幕的装置，所述装置包括：

第一获取模块，用于在录制视频的过程中，获取文本以及所述文本对应的文本时间信息；

第一确定模块，用于根据文本时间信息确定所述文本在录制的视频中的对应视频帧；

第一添加模块，用于在所述对应视频帧中添加根据对应的文本形成的字幕。

可选的，当所述文本为歌词，所述文本时间信息为歌词时间信息时，所述第一获取模块，用于：

播放所述目标歌曲的音频。

可选的，第一确定模块，用于：

可选的，所述第一确定模块，用于：

可选的，所述歌词时间信息还指示每条歌词中的每个字被演唱的时间段，所述第一确定模块，还用于：

确定每条歌词的每个字的对应视频帧；

所述第一添加模块，用于：

可选的，所述第一添加模块，用于：

可选的，所述装置还包括：

第二获取模块，用于获取所述目标歌曲的音频的结束播放时间点；

截取模块，用于在本地根据目标歌曲的音频的开始播放时间点和所述结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频；或者

可选的，所述装置还包括：

第三获取模块，用于获取所述目标歌曲的属性信息，所述属性信息包括：所述目标歌曲的名称、作者和演唱者之中的至少一项；

第二添加模块，用于将所述目标歌曲的属性信息形成的字幕添加到录制的视频中。

可选的，所述文本为在直播过程中用户输入的文本，所述文本时间信息为文本输入时间，所述第一确定模块，用于：

获取录制的视频中的视频帧的录制时间；

可选的，所述装置还包括：

第四获取模块，用于获取所述文本在视频帧中开始显示位置以及预设时长，所述预设时长指示所述字幕从开始显示至显示结束的时长；

所述第一添加模块，用于：

可选的，所述第一添加模块，用于：

本地在所述对应视频帧中添加根据对应的文本形成的字幕；

或者，

第一接收模块，用于接收录制的视频和文本与对应视频帧的对应关系，所述对应关系指示文本在录制的视频中的对应视频帧；

第一添加模块，用于根据所述文本与对应视频帧的对应关系，在所述视频的对应视频帧中添加根据对应的文本形成的字幕。

可选的，所述装置还包括：

第二接收模块，用于接收目标歌曲的音频的开始播放时间点和结束播放时间点；

截取模块，用于根据所述目标歌曲的音频的开始播放时间点和所述结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频。

可选的，所述装置还包括：

第三接收模块，用于接收目标歌曲的属性信息，所述属性信息包括：所述目标歌曲的名称、作者和演唱者之中的至少一项；

第二添加模块，用于根据所述目标歌曲的属性信息形成的字幕添加到录制的视频中。

所述第一添加模块，用于：

可选的，所述文本为用户输入的文本时，所述装置还包括：

第一获取模块，用于从用户端获取所述用户输入的文本信息以及所述用户输入的文本信息对应的文本时间信息；

第一确定模块，用于在本地根据文本时间信息确定所述文本在录制的视频中的对应视频帧；或者，

一方面，提供了一种终端，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行在视频中添加字幕的方法。

一方面，提供了一种服务器，包括：

一个或多个处理器；

一方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行在视频中添加字幕的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的在视频中添加字幕的方法，在录制视频的过程中，获取文本以及所述文本对应的文本时间信息，根据文本时间信息确定所述文本在录制的视频中的对应视频帧；在所述对应视频帧中添加根据对应的文本形成的字幕，从而可自动将文本形成的字幕添加到录制的视频中，无需人工***字幕，其操作简单，尤其在直播时，可实时获取文本信息并***到视频中，提高了在视频中***字幕的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例涉及一种实施环境的示意图；

图2是本申请实施提供的一种在视频中添加字幕的方法的流程图；

图3是本申请实施例提供的另一种在视频中添加字幕的方法的流程图；

图4是本申请实施例提供的又一种在视频中添加字幕的方法的流程图；

图5是本申请实施例提供的再一种在视频中添加字幕的方法的流程图；

图6是本申请实施例提供的一种在视频中添加字幕的逻辑示意图；

图7是本申请实施例提供的一种在视频中添加字幕装置的框图；

图8是本申请实施例提供的另一种在视频中添加字幕装置的框图；

图9是本申请实施例提供的一种终端的结构框图；

图10是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本申请各个实施例所涉及的一种实施环境的示意图，该实施环境包括：终端120和服务器140，终端120通过有线网络或无线网络与服务器140通信连接。该无线网络可以包括但不限于：无线保真(英文：Wireless Fidelity；简称：WIFI)网络、蓝牙网络、红外网络、紫蜂(英文：Zigbee)网络或数据网络等，该有线网络可以是电信运营商提供的以同轴电缆、双绞线和光纤等线缆来连接的网络。

其中，终端120可以是能够进行视频处理的电子设备，该电子设备可以是智能手机、平板电脑、膝上型便携计算机或台式计算机等等。该终端120可以用于主播直播，即作为主播终端，当该终端120用于观看直播视频，即作为用户端，该终端120中可以安装有录制视频以及播放歌曲音频的应用(application，App)和视频处理工具(或称为视频编辑工具)，终端120通过该录制视频以及播放歌曲音频的App对视频进行录制以及播放目标歌曲的音频。终端120还可以通过直播软件进行视频直播，并将用户输入的文本添加到直播视频上，以使观众接收到的直播视频中携带有观看该直播视频的用户输入的文本，如图1所示，本申请实施例以终端120是智能手机为例进行说明。

其中，服务器140可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。该服务器140中可以安装有视频处理工具软件(或称为视频编辑工具)，该视频处理工具中可以内置特效处理代码，服务器140可以通过执行视频处理工具内置的特效处理代码对录制视频进行处理，以在录制的视频中添加对应的歌词形成的字幕和用户输入的文本形成的字幕。

在另一种场景中，视频编辑工具也可以安装在终端120上，由终端120完成添加字幕的工作，然后将添加了字幕的视频上传到服务器140或保存到本地。

请参考图2，其示出了本申请实施例提供的一种在视频中添加字幕的方法的流程图，该方法可以应用于图1所示实施环境中的终端120。参见图2，可以包括如下步骤：

步骤201、在录制视频的过程中，获取文本以及文本对应的文本时间信息。

步骤202、根据文本时间信息确定文本在录制的视频中的对应视频帧。

步骤203、在对应视频帧中添加根据对应的文本形成的字幕。

综上，本申请实施例提供的在视频中添加字幕的方法，在录制视频的过程中，获取文本以及文本对应的文本时间信息，根据文本时间信息确定文本在录制的视频中的对应视频帧；在对应视频帧中添加根据对应的文本形成的字幕，从而可自动将文本形成的字幕添加到录制的视频中，无需人工***字幕，其操作简单，尤其在直播时，可实时获取文本信息并***到视频中，提高了在视频中***字幕的效率。

在本申请中，可以在录制的视频中添加主播演唱的目标歌曲的歌词，也可以在录制的视频中添加在直播过程中用户与主播互动时用户输入的文本信息，这两种方式可以同时进行，也可以只采用其中一种方式。下文中图3对应的实施例以在视频中添加歌词为例进行说明，图4对应的实施例以在视频中添加用户输入的文本为例说明的。

请参考图3，其示出了本申请实施例提供的另一种在视频中添加字幕的方法的流程图，该方法可以应用于图1所示实施环境中的终端120。参见图3，可以包括如下步骤：

步骤301、在录制视频的过程中，当接收到目标歌曲的播放指令时，获取目标歌曲的音频、歌词以及歌词对应的歌词时间信息。

其中，歌词时间信息指示每条歌词被演唱的时间段，每条歌词被演唱的时间段是根据该目标歌曲中的歌词在该目标歌曲中的演唱时间确定的。例如：歌词被演唱的时间段5-10秒对应的歌词1，歌词被演唱的时间段5-15秒对应的歌词2等。

另外，本申请中录制的视频可以为主播演唱歌曲的视频，当用户想要录制主播演唱歌曲的视频时，可以在安装有目标应用程序的终端中，开启目标应用程序，进入录制视频的界面，可以点击终端的界面上的开始录制按钮，触发终端接收到录制指令，终端开始录制视频。然后主播进入演唱歌曲的环节，可以在目标应用程序中搜索想要演唱的歌曲，并点击开始播放的按钮，而终端接收到目标歌曲的播放指令时，可以获取用户所选择的目标歌曲的音频(一般是伴奏音频)、歌词以及所述歌词对应的歌词时间信息，从而后续可以根据获取的目标歌曲的音频以及歌词对应的歌词时间信息在录制视频自动添加对应的歌词。

在本申请的一些实施例中，当接收到目标歌曲的播放指令时，还获取目标歌曲的属性信息，属性信息包括：目标歌曲的名称、作者和演唱者之中的至少一项；以在后续将目标歌曲的属性信息形成的字幕添加到录制的视频中。其中演唱者可从用户的资料中获取或预先设定，其他歌曲的属性信息可以从目标应用程序保存的歌曲的资料中获取。

其中，歌曲的属性信息在录制的视频帧的显示格式和显示时段可以预先设定，例如在目标歌曲开始播放的几秒内在视频帧中的中央区域从上到下依次显示歌曲名字、词曲作者和演唱者。

步骤302、播放目标歌曲的音频。

由于在步骤301中获取到了目标歌曲的音频，因此终端可以通过安装的目标应用程序播放目标歌曲。在接收到播放指令时，终端可以记录开始播放时间点，以作为后续处理的时间基准起点。

步骤303、根据播放音频的开始播放时间点和每条歌词的歌词时间信息，确定每条歌词在录制的视频中的对应视频帧。

其中，根据播放音频的开始播放时间点和每条歌词的歌词时间信息，确定每条歌词在录制的视频中的对应视频帧可以包括：从开始播放时间点起，当到达每条歌词的歌词时间信息指示的时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧。

其中，从开始播放时间点起，当到达每条歌词的歌词时间信息指示的时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧，可以通过定时器实现，包括：

从开始播放时间点起，到达定时器上设置的每一段对应时间段的起点时，将从该对应时间段的起点开始到终点结束录制的视频帧确定为对应的歌词的视频帧。

其中，开始播放时间点是指开始播放目标歌曲的时间点。定时器以此为定时起点，依照歌词的先后关系依次在定时器上为每条歌词设置对应时间段的起点和终点，起点和终点确定了歌词的演唱时间段，因此起点和终点之间的视频帧就是应当***该条歌词字幕的视频帧。所以在到达定时器上设置的每一段对应时间段的起点时，可以将从该对应时间段的起点开始到终点结束录制的所有视频帧确定为对应的歌词的视频帧。

从开始播放时间点起，当到达每条歌词的歌词时间信息指示的时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧也可以通过如下方式实现：在录制视频的过程中，实时获取录制视频的视频帧对应的本地时间，确定开始播放音频对应的视频帧的本地时间与播放音频过程中的每一视频帧对应的本地时间，通过播放音频过程中的每一视频帧对应的本地时间与开始播放音频对应的视频帧的本地时间之间的差值，可以确定目标歌曲的当前播放时长，然后检测该目标歌曲的当前播放时长是否位于每条歌词的歌词时间信息确定的任何一条歌词被演唱的时间段，当当前播放时长位于某条歌词所演唱的时间段时，就将当前录制的视频帧确定为对应的歌词的视频帧。

需要说明的是，确定每条歌词在录制的视频中的对应视频帧可以是在录制视频过程中，在实时获取的录制的视频的视频帧后，便确定该视频帧对应的歌词，这样，在录制视频的过程中，可以实时地将歌词添加到对应的视频帧中，由服务器分发到各个观看直播的用户端，从而用户端的用户在观看该直播时看到的即是带有歌词字母的视频。也可以是，在录制视频时，确定视频帧对应的歌词，得到视频帧与歌词的对应关系，在录制视频完成后，再根据视频帧与歌词的对应关系，将歌词添加到对应的视频帧上。

步骤304、在对应视频帧中添加根据对应的文本形成的字幕。

其中，在对应视频帧中添加根据对应的文本形成的字幕，可以包括：根据每条歌词生成特效字幕，将特效字幕添加到对应视频帧的画面中。

特效字幕可以是以特殊字体的形式生成的歌词字幕，特殊字体例如可以为娃娃体、带有拼音的字体等，也可以是根据歌词制作的预设动画片段。

在确定歌词所对应的视频帧后，可以将歌词生成的特效字幕添加至视频帧的画面中，例如：可以通过视频编辑工具将特效字幕添加至视频帧的画面中。

可以理解的是，字幕的添加可以在录制视频的过程中实时完成，也可以在整个视频录制完后再添加字幕。

为了将每条歌词中的每个字以依次增加的方式显示在该歌词对应的视频帧中，可以通过如下方式实现：

歌词时间信息还指示每条歌词中的每个字被演唱的时间段，该每个字被演唱的时间段可以仅包含有该每个字被演唱的开始时间点(该字的呈现时间可以持续到该条歌词结束)，则在步骤303中确定每条歌词在录制的视频中的对应视频帧，还需要包括确定每条歌词的每个字的对应视频帧，从而在对应视频帧中添加根据对应的歌词形成的字幕，确定每条歌词的每个字的对应视频帧的步骤与确定每条歌词对应的视频帧的步骤类似，不再赘述。以这样的方式呈现：在每条歌词的对应视频帧的字幕中依次增加每个字，使得每条歌词的每个字在该字的对应视频帧中开始呈现，在该条歌词的结束播放时间点时停止显示该字。也就是说：需要演唱到每条歌词的哪个字时，则对应视频帧上呈现这个字，例如以动态显示的方式呈现，然后在该条歌词持续的过程中，该字依然存在，后续只在该字的后面增加该条歌词的其他字。这种添加字幕的方式能够增强用户体验。

步骤305、获取目标歌曲的音频的结束播放时间点。

其中，结束播放时间点一般是指目标歌曲播放完成时所对应的本地时间。可以从开始播放时间点起，将经过目标歌曲的设定播放时长后的时刻设定为得到结束播放时间点。也可以通过目标引用程序直接给出的播放结束信号得到结束播放时间点。应该理解的是，开始播放时间点和结束播放时间点也可以直接以对应时刻的视频帧的帧号来表示。

步骤306、根据目标歌曲的音频的开始播放时间点和结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频。

在视频录制完成后，会得到录制的视频，并将歌词字幕添加至录制的视频中，录制的视频中可能包含有主播歌唱目标歌曲的准备阶段的视频和开始播放目标歌曲后主播演唱目标歌曲的视频，为了得到从开始播放目标歌曲至结束播放目标歌曲之间的主播歌唱目标歌曲的视频，可以对录制的视频进行截取，例如：终端会在检测到开始播放目标歌曲和目标歌曲播放完成后，标记开始播放目标歌曲对应的录制视频的本地时间和目标歌曲播放完成的对应的录制视频的本地时间，由于在录制视频的过程中，会将视频帧和本地时间对应存储，从而根据本地时间查找对应的视频帧，在查找到的视频帧处对录制的视频进行截取，得到带字幕的音乐视频。如果开始播放时间点和结束播放时间点是直接以对应时刻的视频帧的帧号来表示，则可以直接截取两个帧号之间的所有视频帧。

本申请的一些实施例中，可以先对录制的视频添加字幕，在添加完字幕之后再对录制的视频进行截取，也可以先对录制的视频进行截取，在对截取的视频添加字幕。

请参考图4，其示出了本申请实施例提供的另一种在视频中添加字幕的方法的流程图，该方法可以应用于图1所示实施环境中的终端120。参见图4，可以包括如下步骤：

步骤401、在录制视频的过程中，获取文本以及文本对应的文本时间信息。

其中，文本为在直播过程中用户输入的文本，文本时间信息为文本输入时间。

需要说明的是，用户输入的文本以及文本输入的时间可以是终端从服务器获取的，为了能够确定查找到用户输入的文本对应的视频帧，服务器获取到用户输入的文本对应的视频的视频标识以及录制的视频对应的主播标识，通过视频标识和主播标识传输到对应的终端。

步骤402、获取录制的视频中的视频帧的录制时间。

其中，视频帧的录制时间为录制该视频帧对应的时间。

步骤403、根据视频帧的录制时间和文本输入时间，确定用户输入的文本在录制的视频中的对应视频帧。

文本输入时间可以为用户在用户端输入该文本的时间。

其中，根据视频帧的录制时间和文本输入时间，确定文本在录制的视频中的对应视频帧可以为：将与文本输入时间相匹配的视频录制时间对应的视频帧作为在文本输入时间时用户输入的文本对应的视频帧，与文本输入时间相匹配的视频录制时间可以为：与文本输入时间相同的视频录制时间，由于用户输入的文本在上传至服务器的过程中存在时间误差，因此与文本输入时间相匹配的视频录制时间也可以为与在文本输入时间之后的预设时长的视频录制时间。

需要说明的是，确定用户输入的文本在录制的视频中的对应视频帧可以是在录制视频过程中，在实时获取的录制的视频的视频帧后，便确定视频帧对应的用户输入的本文，这样，在录制视频的过程中，可以实时地将用户输入的文本添加到对应的视频帧中，由服务器分发到各个观看直播的用户端，从而用户端的用户在观看该直播时看到的即是带有用户输入的文本的视频。也可以是，在录制视频时，确定视频帧对应的用户输入的文本，得到视频帧与用户输入的文本的对应关系，在录制视频完成后，再根据视频帧与用户输入的文本的对应关系，将用户输入的文本添加到对应的视频帧上。

步骤404、获取文本在视频帧中开始显示位置以及预设时长。

其中，预设时长指示字幕从开始显示至显示结束的时长。

需要说明的是，开始显示位置以及预设时长可以是从服务器获取的。

步骤405、从对应视频帧的开始显示位置，以预设的方式显示预设时长的用户输入的文本形成的字幕。

在本申请中，步骤404和405可以在终端上执行，也可以在服务器上执行，

当步骤404和405在服务器上执行时，可以将户输入的文本与录制的视频中的视频帧的对应关系发送给服务器，服务器再执行步骤404和405。

需要说明的是，在确定用户输入的文本对应的视频帧后，将该用户输入的文本形成的字幕显示在该视频帧上需要确定该用户输入文本在该视频帧上的开始显示位置、预设的方式、预设时长。例如：预设的方式可以为从右至左的滚动方式，因此，该用户输入的文本从开始显示位置由右至左滚动预设时长。

其中，在对应视频帧中添加根据对应的文本形成的字幕，可以包括：根据用户输入的文本生成特效字幕，将特效字幕添加到对应视频帧的画面中。

特效字幕可以是以特殊字体的形式生成的字幕，特殊字体例如可以为娃娃体、带有拼音的字体等。

请参考图5，其示出了本申请实施例提供的另一种在视频中添加字幕的方法的流程图，该方法可以应用于图1所示实施环境中的服务器140。参见图4，可以包括如下步骤：

步骤501、接收录制的视频和文本与对应视频帧的对应关系，该对应关系指示文本在录制的视频中的对应视频帧。

需要说明的是，当文本为歌词时，该对应关系为歌词在录制的视频帧中的对应视频帧，该对应关系可以是终端确定后发送给服务器，由服务器再根据歌词与录制的视频帧中的对应视频帧的对应关系，可以将歌词形成的字幕添加到对应的视频帧中。

当文本为用户输入的文本时，该对应关系为用户输入的文本与录制的视频帧中的对应视频帧，可以是从用户端获取用户输入的文本信息以及所述用户输入的文本信息对应的文本时间信息并发发送给主播终端，以便主播终端根据文本时间信息确定文本在录制的视频中的对应视频帧，在终端确定完对应关系后，该对应关系可以是终端确定后发送给服务器，也可以由服务器在本地根据文本时间信息确定文本在录制的视频中的对应视频帧，具体的，服务器可从用户端获取用户输入的文本、文本输入时间、用户输入的文本对应的视频标识、主播标识、开始显示位置及预设时长，其中，视频标识和主播标识为了确定用户输入的文本对应的视频，服务器从用于直播的主播终端获取视频标识和主播标识对应的视频以及视频帧的录制时间，服务器再根据视频帧的录制时间和文本输入时间，确定用户输入的文本在录制的视频中的对应视频帧，然后，从对应视频帧的开始显示位置，以预设的方式显示预设时长的用户输入的文本形成的字幕并由服务器分发到各个观看直播的用户端，从而用户端的用户在观看该直播时看到的即是带有用户输入的文本的视频。

步骤502、根据文本与对应视频帧的对应关系，在视频对应视频帧中添加根据对应的文本形成的字幕。

本申请实施例提供的在视频中添加字幕的方法，在录制视频的过程中，获取文本以及文本对应的文本时间信息，根据文本时间信息确定文本在录制的视频中的对应视频帧；在对应视频帧中添加根据对应的文本形成的字幕，从而可自动将文本形成的字幕添加到录制的视频中，无需人工***字幕，其操作简单，尤其在直播时，可实时获取文本信息并***到视频中，提高了在视频中***字幕的效率。

请参考图6，其示出了本申请实施例提供的另一种在视频中添加字幕的方法的流程图，该方法可以应用于图1所示的***。参见图6，可以包括如下步骤：

步骤601、终端在录制视频的过程中，当接收到目标歌曲的播放指令时，获取目标歌曲的音频、歌词以及歌词对应的歌词时间信息，歌词时间信息指示每条歌词被演唱的时间段。

步骤602、终端播放目标歌曲的音频。

步骤603、终端从开始播放时间点起，当到达每条歌词的歌词时间信息指示的时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧。

步骤604、终端将录制的视频和歌词与对应视频帧的对应关系发送给服务器。

为了便于终端边录制，边将录制的视频发送给服务器，终端还可以对录制的视频进行分段发送给服务器。例如，在开始对视频进行录制后，每隔预设时长，将录制的数据生成一个分段视频文件，当检测到主播对该歌曲演唱完成时，将录制的数据生成该歌曲的最后一个分段视频文件。每个分段视频文件用于指示主播演唱歌曲的部分演唱视频、该段演唱视频的视频帧与歌词的对应关系、该段演唱视频的视频帧对应的本地时间、主播演唱歌曲的名称以及录制视频的视频名称，从而使服务器根据主播演唱歌曲的部分演唱视频、该段演唱视频的视频帧对应的本地时间、主播演唱歌曲的名称以及录制视频的视频名称生成的全部视频文件即可组成完整的录制视频，在得到完整的录制视频后，服务器根据演唱视频的视频帧与歌词的对应关系，在录制的视频中添加歌词。其中，预设时长为1分钟，则可以每隔1分钟将录制的数据生成一个分段视频文件，预设时长也可以为演唱一条歌词所对应的时间。

终端当检测到播放目标歌曲时，终端可以获取到该目标歌曲的属性信息，也以将该属性信息发送给服务器，以便该服务器将该属性信息形成的字幕添加到录制的视频中，该属性信息可以包括：目标歌曲的名称、作者和演唱者之中的至少一项。

步骤605、服务器根据接收到的录制的视频和歌词与对应视频帧的对应关系，在对应视频帧中添加根据对应的歌词形成的字幕。

当任一主播在开始演唱歌曲时，终端还可以获取演唱的歌曲的歌词以及该歌词对应的视频帧，并建立歌词与对应视频帧的之间的对应关系并发送给服务器，以便服务器根据接收到的录制的视频和歌词与对应视频帧的对应关系，在对应视频帧中添加根据对应的歌词形成的字幕。

为了将每条歌词中的每个字以依次增加的方式显示在该歌词对应的视频帧中，该歌词与对应视频帧的对应关系还指示每条歌词的每个字的对应视频帧，

在对应视频帧中添加根据对应的歌词形成的字幕，还包括：

步骤606、终端将目标歌曲的音频的开始播放时间点和结束播放时间点发送给服务器。

步骤607、服务器根据目标歌曲的音频的开始播放时间点和结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频。

需要说明的是，在得到带字幕的音乐视频后，可以将该带字幕的音乐视频存储在服务器，当接收到用户获取该音乐视频的获取请求时，播放该音乐视频。

本发明实施例提供了一种在视频中添加字幕的方法，在录制视频的过程中，获取文本以及文本对应的文本时间信息，根据文本时间信息确定文本在录制的视频中的对应视频帧；在对应视频帧中添加根据对应的文本形成的字幕，从而可自动将文本形成的字幕添加到录制的视频中，无需人工***字幕，其操作简单，尤其在直播时，可实时获取文本信息并***到视频中，提高了在视频中***字幕的效率。

图7是本申请实施例提供的一种在视频中添加字幕的框图，该装置集成于终端中，如图7所示，该装置包括：

第一获取模块701，用于在录制视频的过程中，获取文本以及文本对应的文本时间信息；

第一确定模块702，用于根据文本时间信息确定文本在录制的视频中的对应视频帧；

第一添加模块703，用于在对应视频帧中添加根据对应的文本形成的字幕。

可选的，当文本为歌词，文本时间信息为歌词时间信息时，第一获取模块701，用于：

当接收到目标歌曲的播放指令时，获取目标歌曲的音频、歌词以及歌词对应的歌词时间信息，歌词时间信息指示每条歌词被演唱的时间段；

播放目标歌曲的音频。

可选的，第一确定模块702，用于：

根据播放音频的开始播放时间点和每条歌词的歌词时间信息，确定每条歌词在录制的视频中的对应视频帧。

可选的，第一确定模块702，用于：

从开始播放时间点起，当到达每条歌词的歌词时间信息指示的时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧。

可选的，第一确定模块702，用于：

可选的，歌词时间信息还指示每条歌词中的每个字被演唱的时间段，第一确定模块702，还用于：

确定每条歌词的每个字的对应视频帧；

第一添加模块703，用于：

可选的，第一添加模块703，用于：

根据每条歌词生成特效字幕，将特效字幕添加到，对应视频帧的画面中。

可选的，所述装置还包括：

第二获取模块704，用于获取所述目标歌曲的音频的结束播放时间点；

截取模块705，用于在本地根据目标歌曲的音频的开始播放时间点和结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频；或者，

将目标歌曲的音频的开始播放时间点和结束播放时间点发送给服务器，以使服务器根据目标歌曲的音频的开始播放时间点和结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频。

可选的，装置还包括：

第三获取模706，用于获取目标歌曲的属性信息，属性信息包括：目标歌曲的名称、作者和演唱者之中的至少一项。

第二添加模块707，用于将目标歌曲的属性信息形成的字幕添加到录制的视频中。

可选的，文本为在直播过程中用户输入的文本，文本时间信息为文本输入时间，第一确定模块702，用于：

获取录制的视频中的视频帧的录制时间；

根据视频帧的录制时间和文本输入时间，确定用户输入的文本在录制的视频中的对应视频帧。

可选的，装置还包括：

第四获取模块708，用于获取文本在视频帧中开始显示位置以及预设时长，预设时长指示字幕从开始显示至显示结束的时长；

第一添加模块703，用于：

从对应视频帧的开始显示位置，以预设的方式显示预设时长的用户输入的文本形成的字幕。

可选的，第一添加模块703，用于：

本地在对应视频帧中添加根据对应的文本形成的字幕；

或者，

将录制的视频和文本与对应视频帧的对应关系发送给服务器，以使服务器在对应视频帧中添加根据对应的文本形成的字幕。

本申请实施例提供的在视频中添加字幕的装置，在录制视频的过程中，获取文本以及文本对应的文本时间信息，根据文本时间信息确定文本在录制的视频中的对应视频帧；在对应视频帧中添加根据对应的文本形成的字幕，从而可自动将文本形成的字幕添加到录制的视频中，无需人工***字幕，其操作简单，尤其在直播时，可实时获取文本信息并***到视频中，提高了在视频中***字幕的效率。

图8是本申请实施例提供的一种在视频中添加字幕的框图，该装置集成于服务器中，如图8所示，该装置包括：

第一接收模块801，用于接收录制的视频和文本与对应视频帧的对应关系，对应关系指示文本在录制的视频中的对应视频帧；

第一添加模块802，用于根据文本与对应视频帧的对应关系，在视频的对应视频帧中添加根据对应的文本形成的字幕。

可选的，装置还包括：

第二接收模块803，用于接收目标歌曲的音频的开始播放时间点和结束播放时间点；

截取模块804，用于根据目标歌曲的音频的开始播放时间点和结束播放时间点对录制的视频进行截取，得到带字幕的音乐视频。

可选的，装置还包括：

第三接收模块805，用于接收目标歌曲的属性信息，属性信息包括：目标歌曲的名称、作者和演唱者之中的至少一项；

第二添加模块806，用于根据目标歌曲的属性信息形成的字幕添加到录制的视频中。

可选的，歌词与对应视频帧的对应关系还指示每条歌词的每个字的对应视频帧，

第一添加模块802，用于：

可选的，文本为用户输入的文本时，装置还包括：

第一获取模块807，用于从用户端获取用户输入的文本信息以及用户输入的文本信息对应的文本时间信息；

第一确定模块808，用于在本地根据文本时间信息确定文本在录制的视频中的对应视频帧；或者，

将用户输入的文本信息以及用户输入的文本信息对应的文本时间信息发送给终端，以便终端根据文本时间信息确定文本在录制的视频中的对应视频帧。

图9是本申请实施例提供的一种终端900的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的在视频中添加字幕的方法。

在一些实施例中，终端900还可选包括有：***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地，***设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

***设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和***设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和***设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBasedService，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本实施例中，终端还包括有一个或者一个以上的程序，这一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于进行本申请实施例提供的上述在视频中添加字幕的方法的指令。

图10是本申请实施例提供的一种服务器1000的结构框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的在视频中添加字幕的方法。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在视频中添加字幕的方法，应用于终端，其特征在于，所述方法包括：

根据所述文本时间信息确定所述文本在录制的视频中的对应视频帧；

在所述对应视频帧中添加根据对应的文本形成的字幕。

2.根据权利要求1所述的方法，其特征在于，当所述文本为歌词，所述文本时间信息为歌词时间信息时，所述获取文本以及所述文本对应的文本时间信息，包括：

播放所述目标歌曲的音频。

3.根据权利要求2所述的方法，其特征在于，根据文本时间信息确定所述文本在录制的视频中的对应视频帧，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据播放所述音频的开始播放时间点和每条歌词的歌词时间信息，确定每条歌词在录制的视频中的对应视频帧，包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述开始播放时间点起，当到达所述每条歌词的歌词时间信息指示的所述时间段时，将该时间段内录制的所有视频帧确定为该条歌词的对应视频帧，包括：

6.根据权利要求2所述的方法，其特征在于，所述歌词时间信息还指示每条歌词中的每个字被演唱的时间段，所述根据文本时间信息确定所述文本在录制的视频中的对应视频帧，还包括：

确定每条歌词的每个字的对应视频帧；

7.根据权利要求2所述的方法，其特征在于，在所述对应视频帧中添加根据对应的文本形成的字幕，包括：

8.根据权利要求2-7任一项所述的方法，其特征在于，所述方法还包括：

获取所述目标歌曲的音频的结束播放时间点；

9.根据权利要求2-7任一项所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述文本为在直播过程中用户输入的文本，所述文本时间信息为文本输入时间，所述根据文本时间信息确定所述文本在录制的视频中的对应视频帧，包括：

获取录制的视频中的视频帧的录制时间；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：获取所述文本在视频帧中开始显示位置以及预设时长，所述预设时长指示所述字幕从开始显示至显示结束的时长；

12.根据权利要求1所述的方法，其特征在于，在所述对应视频帧中添加根据对应的文本形成的字幕，包括：

本地在所述对应视频帧中添加根据对应的文本形成的字幕；

或者，

13.一种在视频中添加字幕的方法，应用于服务器，其特征在于，所述方法包括：

14.根据权利要求13所述的方法，其特征在于，所述文本为目标歌曲的歌词时，所述方法还包括：

接收目标歌曲的音频的开始播放时间点和结束播放时间点；

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

16.根据权利要求14所述的方法，其特征在于，所述文本与对应视频帧的对应关系还指示每条歌词的每个字的对应视频帧，

17.根据权利要求13所述的方法，其特征在于，所述文本为用户输入的文本时，所述方法还包括：

将所述用户输入的文本信息以及所述用户输入的文本信息对应的文本时间信息发送给主播终端，以便所述主播终端根据文本时间信息确定所述文本在录制的视频中的对应视频帧。

18.一种在视频中添加字幕的装置，其特征在于，所述装置包括：

第一确定模块，用于根据所述文本时间信息确定所述文本在录制的视频中的对应视频帧；

19.一种在视频中添加字幕的装置，其特征在于，所述装置包括：