CN113301444A

CN113301444A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113301444A
Application number: CN202110554116.XA
Authority: CN
Inventors: 何立伟; 陈铁军; 刘申亮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-24
Anticipated expiration: 2041-05-20
Also published as: CN113301444B

Abstract

本公开是关于一种视频处理方法、装置、电子设备及存储介质，属于图像处理领域。该视频处理方法包括：对视频中的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中的每个字符在视频中的出现时间；响应于文本信息中的多个词语相同且连续，根据多个词语中的第一个字符和最后一个字符在视频中的出现时间确定目标时间段，目标时间段用于表示多个词语在视频中的出现时间段，文本信息中的每个词语由至少一个字符组成；在视频中目标时间段对应的目标视频段中，添加多个词语依次出现的动态效果。根据本公开的方案，能够根据视频中人物的音频信息来添加动态字幕，通过该动态字幕对人物所强调的内容进行突出显示，提高了视频处理效果。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理领域，尤其涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术和电子设备的不断发展，观看视频已成为用户休闲状态下常用的一种娱乐形式，受到广大用户的青睐。为了使视频内容更加精彩，通常会人工为视频添加字幕，但是采用人工对视频进行处理，视频的处理效率较低。

发明内容

本公开提供了一种视频处理方法、装置、电子设备及存储介质，减少了人力成本，提高了视频处理效果。

根据本公开实施例的一方面，提供一种视频处理方法，所述视频处理方法包括：

对视频中的音频信息进行识别，得到所述音频信息对应的文本信息以及所述文本信息中的每个字符在所述视频中的出现时间；

响应于所述文本信息中的多个词语相同且连续，根据所述多个词语中的第一个字符和最后一个字符在所述视频中的出现时间确定目标时间段，所述目标时间段用于表示所述多个词语在所述视频中的出现时间段，所述文本信息中的每个词语由至少一个字符组成；

在所述视频中所述目标时间段对应的目标视频段中，添加所述多个词语依次出现的动态效果。

在一些实施例中，所述在所述视频中所述目标时间段对应的目标视频段中，添加所述多个词语依次出现的动态效果，包括：

响应于所述目标视频段中包括目标物体，在所述目标视频段中添加所述多个词语依次出现的动态效果。

在一些实施例中，所述对视频中的音频信息进行识别，得到所述音频信息对应的文本信息以及所述文本信息中的每个字符在所述视频中的出现时间，包括：

响应于所述视频中包括目标物体，对所述视频中的音频信息进行识别，得到所述音频信息对应的文本信息以及所述文本信息中的每个字符在所述视频中的出现时间。

从所述多个词语中，确定所述目标视频段中的每个视频帧需要显示的词语，任一视频帧需要显示的词语的数量不小于所述任一视频帧的上一个视频帧需要显示的词语的数量；

分别确定所述每个视频帧中需要显示的词语对应的显示位置；

在所述每个视频帧中所确定的显示位置，渲染对应的词语。

在一些实施例中，所述从所述多个词语中，确定所述目标视频段中的每个视频帧需要显示的词语，包括：

确定所述多个词语中每个词语的起始显示时间；

从所述视频中确定出所述目标时间段对应的目标视频段；

对于所述目标视频段中的每个视频帧，将所述起始显示时间早于或者等于所述视频帧对应的播放时间的词语，确定为所述视频帧需要显示的词语。

在一些实施例中，所述在所述每个视频帧中所确定的显示位置，渲染对应的词语，包括：

根据任一视频帧中需要显示的词语与所述目标物体之间的距离、所述词语中字符的数量、所述目标物体的尺寸，确定所述词语中每个字符的尺寸；

根据所述词语中每个字符的尺寸，在所述视频帧中所确定的显示位置，渲染所述词语中的每个字符。

在一些实施例中，所述词语中每个字符的尺寸根据以下公式计算得到：

其中，size为所述词语中每个字符的尺寸，k₁表示与所述目标物体的尺寸以及所述词语与所述目标物体之间的距离关联的系数，其中，k₁与所述目标物体的尺寸呈正相关关系，且k₁与所述距离呈负相关关系，L表示所述目标物体的长度，W表示所述目标物体的宽度，n表示所述词语中字符的数量，k₂表示与所述词语中字符数量关联的系数，且k₂与所述字符数量呈正相关关系；其中，k₁为大于0的任一数值，k₂为大于0且小于1的任一数值。

在一些实施例中，所述分别确定所述每个视频帧中需要显示的词语对应的显示位置，包括：

响应于所述多个词语的词语数量小于或者等于第一数量，在以目标物体为中心并以第一距离为半径的第一圆形曲线上，确定所述多个词语的显示位置；或者，

响应于所述多个词语的词语数量大于所述第一数量，在所述第一圆形曲线上，确定所述多个词语中前所述第一数量个词语的显示位置，在以所述目标物体为中心并以第二距离为半径的第二圆形曲线上，确定所述多个词语中剩余的词语的显示位置，所述第二距离大于所述第一距离。

确定连续的多个序号区间以及所述多个序号区间对应的距离，任一序号区间表示以目标物体为中心并以所述任一序号区间对应的距离为半径的圆形曲线上可显示的词语的序号，所述任一序号区间大于所述任一序号区间的前一个序号区间，且所述任一序号区间对应的距离大于所述前一个序号区间对应的距离；

按照所述多个词语中的每个词语的序号，确定所述每个词语与目标物体之间的距离为所述每个词语的序号所属的序号区间对应的距离；

对于所述每个视频帧，根据所述视频帧中所述目标物体的显示位置以及所述视频帧中需要显示的词语与所述目标物体之间的距离，确定所述词语在所述视频帧中的显示位置。

在一些实施例中，所述根据所述视频帧中所述目标物体的显示位置以及所述视频帧中需要显示的词语与所述目标物体之间的距离，确定所述词语在所述视频帧中的显示位置，包括：

对于所述视频帧中需要显示的任一词语，

根据所述词语与所述目标物体之间的距离、以及所述目标视频段中以所述目标物体为中心并以所述距离为半径的圆形曲线上需要显示的词语的数量，确定所述词语与所述目标物体的中心的相对位置；

获取所述目标物体的中心在所述视频帧中的显示位置；

根据所述词语与所述目标物体的中心的相对位置以及所述目标物体的中心在所述视频帧中的显示位置，确定所述词语在所述视频帧中的显示位置。

在一些实施例中，

所述词语与所述目标物体的中心的相对位置包括：所述词语与所述目标物体的中心的连线与参考基准线之间的夹角，所述参考基准线是以所述目标物体的中心为起点指向参考方向的射线，所述夹角根据以下公式计算得到：

其中，n为所述词语的序号，α为第n个词语对应的夹角，α_max为所述目标视频段中以所述目标物体为中心并以所述距离为半径的圆形曲线上，需要显示的多个词语对应的夹角范围中的最大值，n₀为所述目标视频段中以所述目标物体为中心并以所述距离为半径的圆形曲线上需要显示的词语的数量。

根据本公开实施例的再一方面，提供一种视频处理装置，所述视频处理装置包括：

识别单元，被配置为执行对视频中的音频信息进行识别，得到所述音频信息对应的文本信息以及所述文本信息中的每个字符在所述视频中的出现时间；

确定单元，被配置为执行响应于所述文本信息中的多个词语相同且连续，根据所述多个词语中的第一个字符和最后一个字符在所述视频中的出现时间确定目标时间段，所述目标时间段用于表示所述多个词语在所述视频中的出现时间段，所述文本信息中的每个词语由至少一个字符组成；

添加单元，被配置为执行在所述视频中所述目标时间段对应的目标视频段中，添加所述多个词语依次出现的动态效果。

在一些实施例中，所述添加单元，被配置为执行响应于所述目标视频段中包括目标物体，在所述目标视频段中添加所述多个词语依次出现的动态效果。

在一些实施例中，所述识别单元，被配置为执行响应于所述视频中包括目标物体，对所述视频中的音频信息进行识别，得到所述音频信息对应的文本信息以及所述文本信息中的每个字符在所述视频中的出现时间。

在一些实施例中，所述添加单元，包括：

词语确定子单元，被配置为执行从所述多个词语中，确定所述目标视频段中的每个视频帧需要显示的词语，任一视频帧需要显示的词语的数量不小于所述任一视频帧的上一个视频帧需要显示的词语的数量；

位置确定子单元，被配置为执行分别确定所述每个视频帧中需要显示的词语对应的显示位置；

渲染子单元，被配置为执行在所述每个视频帧中所确定的显示位置，渲染对应的词语。

在一些实施例中，所述词语确定子单元，被配置为执行确定所述多个词语中每个词语的起始显示时间；从所述视频中确定出所述目标时间段对应的目标视频段；对于所述目标视频段中的每个视频帧，将所述起始显示时间早于或者等于所述视频帧对应的播放时间的词语，确定为所述视频帧需要显示的词语。

在一些实施例中，所述渲染子单元，被配置为执行根据任一视频帧中需要显示的词语与所述目标物体之间的距离、所述词语中字符的数量、所述目标物体的尺寸，确定所述词语中每个字符的尺寸；根据所述词语中每个字符的尺寸，在所述视频帧中所确定的显示位置，渲染所述词语中的每个字符。

在一些实施例中，所述位置确定子单元，被配置为执行响应于所述多个词语的词语数量小于或者等于第一数量，在以目标物体为中心并以第一距离为半径的第一圆形曲线上，确定所述多个词语的显示位置；或者，

所述位置确定子单元，被配置为执行响应于所述多个词语的词语数量大于所述第一数量，在所述第一圆形曲线上，确定所述多个词语中前所述第一数量个词语的显示位置，在以所述目标物体为中心并以第二距离为半径的第二圆形曲线上，确定所述多个词语中剩余的词语的显示位置，所述第二距离大于所述第一距离。

在一些实施例中，所述位置确定子单元，被配置为执行确定连续的多个序号区间以及所述多个序号区间对应的距离，任一序号区间表示以目标物体为中心并以所述任一序号区间对应的距离为半径的圆形曲线上可显示的词语的序号，所述任一序号区间大于所述任一序号区间的前一个序号区间，且所述任一序号区间对应的距离大于所述前一个序号区间对应的距离；

所述位置确定子单元，被配置为执行按照所述多个词语中的每个词语的序号，确定所述每个词语与目标物体之间的距离为所述每个词语的序号所属的序号区间对应的距离；

所述位置确定子单元，被配置为执行对于所述每个视频帧，根据所述视频帧中所述目标物体的显示位置以及所述视频帧中需要显示的词语与所述目标物体之间的距离，确定所述词语在所述视频帧中的显示位置。

在一些实施例中，所述位置确定子单元，被配置为执行对于所述视频帧中需要显示的任一词语，

获取所述目标物体的中心在所述视频帧中的显示位置；

在一些实施例中，所述词语与所述目标物体的中心的相对位置包括：所述词语与所述目标物体的中心的连线与参考基准线之间的夹角，所述参考基准线是以所述目标物体的中心为起点指向参考方向的射线，所述夹角根据以下公式计算得到：

根据本公开实施例的再一方面，提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的易失性或非易失性存储器；

其中，所述一个或多个处理器被配置为执行上述方面所述的视频处理方法。

根据本公开实施例的再一方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方面所述的视频处理方法。

根据本公开实施例的再一方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得服务器能够执行上述方面所述的视频处理方法。

本申请实施例提供的视频处理方法、装置、电子设备和存储介质至少存在以下有益效果：

本申请实施例提供的是一种自动为视频添加动态字幕的方法，在视频中人物通过重复说出某一词语的方式来强调所要表达的内容时，能够根据视频中人所强调的内容添加动态字幕，通过该动态字幕对强调的内容进行突出显示，不仅减小了人力成本，还提高了视频处理效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种实施环境的示意图。

图2是根据一示例性实施例示出的一种视频处理方法的流程图。

图3是根据一示例性实施例示出的一种视频处理方法的流程图。

图4是根据一示例性实施例示出的一种词语与目标物体的相对位置关系的示意图。

图5是根据一示例性实施例示出的一种动态效果的示意图。

图6是根据一示例性实施例示出的一种视频处理方法的流程图。

图7是根据一示例性实施例示出的一种视频处理装置的框图。

图8是根据一示例性实施例示出的另一种视频处理装置的框图。

图9根据一示例性实施例示出的一种终端的框图。

图10是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图说明中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个词语包括3个词语，而每个是指这3个词语中的每一个词语，任一是指这3个词语中的任意一个，可以是第一个，可以是第二个、也可以是第三个。

本公开实施例提供的视频处理方法由电子设备执行，在一些实施例中，该电子设备为终端，该终端可以为手机、平板电脑、计算机等多种类型的终端。在一些实施例中，该电子设备为服务器，该服务器为一台服务器，或者由若干服务器组成的服务器集群，或者是一个云计算服务中心。在一些实施例中，该电子设备包括终端和服务器。

图1是根据一示例性实施例提供的一种实施环境的示意图，该实施环境包括：终端101和服务器102，终端101与服务器102之间通过无线或者有线网络连接。

终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现如数据传输、消息交互等功能。在一些实施例中，终端101为手机、平板电脑、计算机或者其他终端。在一些实施例中，目标应用为终端101操作***中的目标应用，或者为第三方提供的目标应用。例如，目标应用为视频处理应用，该视频应用具有处理视频的功能，当然，该视频处理应用还能够具有其他功能，例如，分享功能、点评功能等。在一些实施例中，服务器102为该目标应用的后台服务器或者为提供云计算以及云存储等服务的云服务器。

终端101用于基于目标应用向服务器102发送视频，服务器102用于对该视频进行处理，例如，在该视频中添加字幕等，之后，将处理后的视频返回给终端101。

本公开实施例提供的方法能够应用于任一种视频处理场景下。

例如，应用于为直播视频添加字幕的场景下：

在为直播视频添加字幕时，若采用本公开实施例提供的视频处理方法，能够自动识别视频中主播所强调的内容，并且根据主播所强调的内容为视频添加动态字幕，不仅减少了人力成本，还保证了视频处理效果。

需要说明的是，本公开实施例提供的方法能够应用于任一种视频处理的场景下，例如，对电视剧视频添加字幕的场景、为电影添加字幕的场景、为任一视频添加动态效果的场景下，本公开实施例对此不做限定。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，参见图2，包括以下步骤：

201、对视频中的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中每个字符在该视频中的出现时间。

该视频为任一视频，在一些实施例中，该视频为终端本地的视频，在一些实施例中，该视频是从其他终端获取的视频。在一些实施例中，视频是通过拍摄得到的，在另一些实施例中，该视频是通过其他方式得到的，本公开实施例对该视频不做限定。

其中，该视频包括多个视频帧以及音频信息，在播放视频时，多个视频帧和音频信息一同播放，以使观众不仅能看到画面还能听到声音。

对音频信息进行语音识别之后，可以得到音频信息对应的文本信息，该文本信息包括至少一个字符，由于音频信息是视频的音频信息，因此，文本信息可以看作是视频的字幕信息。

其中，视频不仅包括每个视频帧，还包括每个视频帧对应的播放时间，且音频信息包括多个音频帧以及每个音频帧对应的播放时间，这样，在同时播放视频帧和音频帧时，可以根据视频帧的播放时间和音频帧的播放时间进行播放，以使播放的画面和声音匹配。

由于音频信息包括每个音频帧对应的播放时间，因此，在对音频信息进行语音识别时，还可以得到文本信息中每个字符在视频中的出现时间。可选地，视频中人说出一个字符需要一定的时间，因此，每个字符在视频中的出现时间为一个时间段。可选地，视频中人说出一个字符需要的时间是很短的，因此，每个字符在视频中的出现时间为一个时间点。可选地，在每个字符在视频中的出现时间是一个时间点时，将一个固定时长作为每个字符的耗时。

其中，固定时长是***默认设置的时长、用户设置的时长、剪辑人员设置的时长等，本公开实施例对此不做限定。

202、响应于文本信息中的多个词语相同且连续，根据多个词语中的第一个字符和最后一个字符在视频中的出现时间确定目标时间段。

其中，多个词语相同且连续是指某个词语在文本信息中连续出现，例如，文本信息中包括“买这件衣服的扣1、扣1、扣1”，由此可知，词语“扣1”在文本信息中连续出现，因此，符合相同且连续条件的多个词语为“扣1、扣1、扣1”。

其中，目标时间段用于表示多个词语在视频中的出现时间段。其中，文本信息中的每个词语由至少一个字符组成。目标时间段的起始时间为多个词语中第一个字符在视频中的出现时间，目标时间段的终止时间为多个词语中最后一个字符在视频中的出现时间。

203、在视频中目标时间段对应的目标视频段中，添加多个词语依次出现的动态效果。

其中，目标视频段对应的时间段与多个词语对应的时间段相同，因此，目标视频段的播放内容与该多个词语对应。例如，多个词语为“扣1、扣1、扣1”，而目标视频段为主播正在说“扣1、扣1、扣1”的视频段。

在该目标视频段中人物会依次说出该多个词语，如果这多个词语是相同且连续的，那么这多个词语就是视频中人物重复说的词语。通常情况下，人们会对想要强调的内容进行重复，因此，这个词语是视频中人物所强调的内容。本公开实施例为了提高字幕的显示效果，在为目标视频段添加这多个词语对应的字幕时，会添加该多个词语依次出现的动态效果，从而通过该动态效果对这多个词语再次进行强调。

本公开实施例提供的视频处理方法，是一种自动为视频添加动态字幕的方法，在视频中人物通过重复说出某一词语的方式来强调所要表达的内容时，能够根据视频中人所强调的内容添加动态字幕，通过该动态字幕对强调的内容进行突出显示，不仅减小了人力成本，还提高了视频处理效果。

需要说明的是，文本信息中可以包括多组词语，每组词语包括多个词语，该多个词语在相同且在文本信息中连续，本公开实施例提供的视频处理方法能够为任一组词语进行添加动态字幕，例如，文本信息中包括“买这件衣服的扣1、扣1、扣1”以及“喜欢这件衣服的，买它，买它，买它”，该文本信息中包括两组词语，第一组词语为“扣1、扣1、扣1”，第二组词语为“买它，买它，买它”。

由于为每一组词语添加动态字幕的过程是同理的，因此，本公开实施例仅为一组词语添加动态字幕的过程为例进行示例性说明。

图3是根据一示例性实施例示出的一种视频处理方法的流程图，参见图3，包括以下步骤：

301、对视频的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中的每个字符在视频中的出现时间。

该视频为任一视频，在一些实施例中，该视频为本地的视频，在一些实施例中，该视频是从其他终端获取的视频。在一些实施例中，视频是通过拍摄得到的，在另一些实施例中，该视频是通过其他方式得到的，本公开实施例对视频不做限定。

该视频包括多个视频帧以及音频信息，在播放视频时，多个视频帧和音频信息一同播放，以使观众不仅能看到画面还能听到声音。

对音频信息进行识别之后，可以得到音频信息对应的文本信息，该文本信息包括至少一个字符，由于音频信息是视频的音频信息，因此，文本信息可以看作是视频的字幕信息。

在一些实施例中，对视频的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中每个字符在视频中的出现时间，包括：将视频的音频信息输入到语音识别模型中，调用该语音识别模型对音频信息进行处理，得到音频信息对应的文本信息以及文本信息中每个字符在视频中的出现时间，该语音识别模型是通过样本视频的样本语音信息和样本语音信息对应的样本文本信息以及样本文本信息中每个字符在样本视频中的出现时间训练的，其中，样本语音信息对应的样本文本信息是样本语音信息的真实文本信息，例如，样本文本信息是通过人工收听样本语音信息所制作出的包括音频内容的文本。

需要说明的是，本公开实施例中可以采用任一种语音识别方法，对视频中的音频信息进行语音识别，本公开实施例对步骤301采用的语音识别方法不做限定。

需要说明的是，本申请实施例仅是以对视频的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中每个字符在视频中的出现时间为例，对获取文本信息中字符在视频中的出现时间进行示例性说明。

在另一实施例中，通过语音识别模型对视频的音频信息进行识别，得到音频信息对应的文本信息，人工标注文本信息中字符在视频中的出现时间。

在另一实施例中，文本信息以及文本信息中字符在视频中的出现时间是通过任一种方式获取的，直接获取该文本信息以及文本信息中字符在视频中的出现时间。本申请实施例对得到文本信息以及文本信息中字符在视频中的出现时间的方式不做限定。

302、响应于文本信息中多个词语相同且连续，根据多个词语中的第一个字符和最后一个字符在视频中的出现时间确定目标时间段，目标时间段用于表示多个词语在视频中的出现时间段。

在一些实施例中，在执行步骤302之前，查询文本信息中是否包括多个词语相同且连续，在查询到文本信息中包括多个词语相同且连续时，执行响应于文本信息中多个词语相同且连续，根据多个词语中的第一个字符和最后一个字符在视频中的出现时间目标时间段的步骤。

在一些实施例中，查询文本信息中是否包括多个词语相同且连续，包括：对文本信息进行分词处理，得到多个分词结果，对相邻的分词结果进行比较，确定相邻的分词结果是否相同，若相邻的分词结果相同，则确定文本信息中包括多个词语相同且连续，若相连的分词结果均不相同，则确定文本信息中未包括多个词语相同且连续。

在查询文本信息是否包括多个词语相同且连续时，还要确定出相同且连续的这多个词语，在一些实施例中，对相邻的分词结果进行比较，确定相邻的分词结果是否相同，包括：将第一个分词结果作为参考分词结果，确定第二个分词结果与该参考分词结果是否相同，若第二个分词结果与参考分词结果相同，则继续确定第三分词结果与该参考分词结果是否相同，若第k个分词结果与参考分词结果不同，则将第k个分词结果作为参考分词结果继续对后面的分词结果进行比较。其中，若有至少一个分词结果与参考分词结果相同，则该至少一个分词结果与对应的参考分词结果为连续且相同的多个词语。通过这种比较方法，能够找到文本信息中相同且连续的多个词语。

在对视频中的音频信息进行识别之后，不仅得到了音频信息对应的文本信息，还得到了文本信息中的每个字符在该视频中的出现时间，因此，可以根据文本信息中每个字符在视频中的出现时间，确定多个词语对应的时间段。在一些实施例中，根据多个词语中的第一个字符和最后一个字符在视频中的出现时间确定目标时间段，包括：将多个词语中的第一个字符在视频中的出现时间确定为目标时间段的起始时间，将多个词语中的最后一个字符在视频中的出现时间确定为目标时间段的终止时间。

在一些实施例中，由于视频中人物说出一个字符需要一定的时间，因此，文本信息中每个字符在视频中的出现时间为一个时间段，该时间段包括字符在视频中的起始出现时间和终止出现时间，在一种可能实现方式中，确定目标时间段包括：将多个词语中第一个字符在视频中的起始出现时间作为目标时间段的起始时间，将多个词语中最后一个字符在视频中的终止出现时间作为目标时间段的终止时间。

303、从视频中确定该目标时间段对应的目标视频段。

需要说明的是，本公开实施例仅是以在文本信息包括多个词语相同且连续时，在目标视频段中添加多个词语依次出现的动态效果为例进行示例性说明，在一些实施例中，多个词语的显示位置是由目标物体确定的，因此，在目标视频段中包括目标物体时，才会执行在目标视频段中添加多个词语依次出现的动态效果的步骤。例如，在目标视频段中添加多个词语依次出现的动态效果，包括：响应于目标视频段中包括目标物体，在目标视频段中添加多个词语依次出现的动态效果。在本公开实施例中，添加的动态效果是为了强调视频中人物所强调的内容，因此，添加的动态效果是目标视频段包括的内容息息相关，本公开实施例在添加动态效果之前，会先确定目标视频段中是否包括目标物体，在目标视频段中包括目标物体时，才会添加动态效果，以使动态效果与目标视频段中的内容关联，提高了视频处理效果。

其中，目标视频段中包括目标物体可以是目标视频段的首帧包括目标物体，也可以是目标视频段中的每个视频帧包括目标物体。在一种可能实现方式中，响应于目标视频段中包括目标物体，在目标视频段中添加多个词语依次出现的动态效果，包括：响应于目标视频段中的首个视频帧包括目标物体，在目标视频段中添加多个词语依次出现的动态效果；或者，响应于目标视频段中的每个视频帧包括目标物体，在目标视频段中添加多个词语依次出现的动态效果；或者，响应于目标视频段中的第一个视频帧和最后一个视频帧包括目标物体，在目标视频段中添加多个词语依次出现的动态效果。

需要说明的是，由于目标视频段的时长通常较短，如果目标视频段中的第一个视频帧和最后一个视频帧包括目标物体，大多数情况下，目标视频段中的每个视频帧均包括目标物体，因此，在一种可能实现方式中，通过确定目标视频段中的第一个视频帧和最后一个视频帧是否包括目标物体，来确定目标视频段是否包括目标物体。

需要说明的是，如果目标视频段中的首个视频帧包括目标物体，而其余的视频帧中有些包括目标物体，有些不包括目标物体，可以根据首个视频帧中目标物体的位置，确定每个词语的显示位置，从而根据确定的每个词语的显示位置，在每个视频帧中进行相应的渲染。

需要说明的是，本公开实施例中仅是以先识别音频信息，再查找目标视频段是否包括目标物体为例，对视频的处理过程进行示例性说明。而在另一实施例中，会先查找视频是否包括目标物体，再确定是否进行音频信息的识别。

在一种可能实现方式中，对视频中的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中的每个字符在视频中的出现时间，包括：响应于视频中包括目标物体，对视频中的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中的每个字符在视频中的出现时间。

也就是说，如果视频中不包括目标物体，那么就不对视频中的音频信息进行识别得到文本信息，只有视频中包括目标物体时，才会对视频中的音频信息进行识别得到文本信息。

本公开实施例考虑到仅是在目标视频段包括目标物体时，才会在目标视频段中添加动态效果。因此，如果目标视频段未包括目标物体，那么对音频信息进行识别，得到的文本信息是无用的。因此，本公开实施例通过先确定视频中是否包括目标物体，再对音频信息进行识别，减少了电子设备进行无用工作，从而减少了电子设备的计算量，提高了视频处理的效率。

其中，视频中包括目标物体可以是视频中的每个视频帧均包括目标物体，或者，从视频中随机抽取一些视频帧，这些视频帧中包括目标物体，本公开实施例对视频中包括目标物体不做限定。

其中，目标物体可以是任一物体，例如，人脸、话筒、手机等。在一些实施例中，目标物体为预先设置的物体，在一种可能实现方式中，响应于目标视频段中包括目标物体，在目标视频段中添加多个词语依次出现的动态效果，包括：响应于目标视频段中包括与本地存储的物体标识对应的目标物体，在目标视频段中添加多个词语依次出现的动态效果。

在一些实施例中，目标物体可以是视频中的人所介绍的物体，例如，文本信息包括“这个卸妆水真好用，一擦就干净，买它，买它，买它”，那么视频中的人正在对卸妆水进行介绍，所强调的内容也与卸妆水有关，如果目标视频段中包括该卸妆水，那么为目标视频段添加动态字幕，以使观众更加关注该卸妆水，如果目标视频段中未包括该卸妆水，则不再为目标视频段添加动态字幕。在一种可能实现方式中，响应于目标视频段中包括目标物体，在目标视频段中添加多个词语依次出现的动态效果，包括：对多个词语之前的至少一个语句进行物体名称提取，响应于目标视频段中包括与提取到的物体名称对应的目标物体，在目标视频段中添加多个词语依次出现的动态效果。

其中，多个词语之前的至少一个语句可以是该多个词语之前的第一个语句、之前的第一个和第二个语句或者之前的第一个至第三个语句等，以保证该至少一个语句与多个词语的内容是关联的。

在一些实施例中，目标物体还可以是视频中人物手持的物体，在一些情况下，视频中人物手持的物体就是视频中人物所要强调的内容相关的物体，例如，视频中的人物为卖货主播，主播手持一商品，向观众介绍该商品，强调该商品的优点。在一种可能实现方式中，响应于目标视频段中包括目标物体，在目标视频段中添加多个词语依次出现的动态效果，包括：响应于目标视频段中包括由人物手持的目标物体，在目标视频段中添加多个词语依次出现的动态效果。

需要说明的是，该步骤303为可选执行步骤，在一些实施例中，无需从视频中确定目标视频段，而是确定每个词语的起始显示时间和显示时长，对视频中符合显示条件的视频帧进行渲染，其中，符合显示条件的视频帧是播放时间等于或者晚于词语的起始显示时间、且早于或者等于词语的终止显示时间的视频帧。通过每个词语的起始显示时间和显示时长，对视频进行处理，也能够达到在目标视频段中添加多个词语依次出现的动态效果。

在一些实施例中，在确定目标时间段之后，执行在视频中目标时间段对应的目标视频段中，添加多个词语依次出现的动态效果的步骤。在一种可能实现方式中，在视频中目标时间段对应的目标视频段中，添加多个词语依次出现的动态效果，包括：确定多个词语中每个词语的起始显示时间和显示时长，其中，多个词语中第一个词语的起始显示时间为目标时间段的起始时间，且多个词语的起始显示时间按照词语排列顺序依次递增，多个词语的终止显示时间为目标时间段的终止时间，其中，词语的终止显示时间为词语的起始显示时间和词语的显示时长之和；对于每个词语，在播放时间等于或者晚于该词语的起始显示时间、且早于或者等于词语的终止显示时间的视频帧中，渲染该词语。

在本公开实施例中，多个词语的起始显示时间是按照词语排列顺序依次递增的，也就是说，排列顺序越靠后的词语，起始显示时间越晚；而多个词语的终止显示时间是一致的，这样，在根据词语的起始显示时间和终止显示时间，在对应的视频帧中进行词语渲染之后，能够实现多个词语依次出现而同时消失的效果。

需要说明的是，在视频中添加多个词语依次出现再消失的动态效果时，对于播放时间早于第一个词语的起始显示时间的视频帧，设备并不会对该视频帧进行处理，而对于播放时间晚于词语的终止显示时间的视频帧，设备也不会进行处理，因此，设备可以根据第一个词语的起始显示时间，从视频中确定该起始显示时间对应的视频帧，从该视频帧开始依次对该视频帧以及该视频帧之后的其他视频帧进行处理，而在确定某一视频帧的播放时间晚于词语的终止显示时间时，停止处理。

在一些实施例中，每个词语间隔相同时间依次出现，确定多个词语中每个词语的起始显示时间和显示时长，包括：根据多个词语的词语数量，对目标时间段进行划分，得到时长相同的多个子时间段；按照多个子时间段的排列顺序和多个词语的排列顺序，分别将每个子时间段的起始时间确定为每个词语的起始显示时间；对于每个词语，根据子时间段对应的时长以及多个词语中位于词语之后的词语的数量，确定词语的显示时长。

其中，子时间段对应的时长为多个词语中相邻词语的显示时间间隔，由于子时间段的时长相同，因此，本公开实施例会按照相同的时间间隔依次显示多个词语，且多个词语依次出现后会同时消失。

例如，根据多个词语中位于该词语之后的词语的数量，以及相邻词语之间的显示时间间隔，确定该词语的显示时长，包括：将位于该词语之后的词语的数量加1后与显示时间间隔相乘，将得到的数值作为该词语的显示时长。

304、从多个词语中，确定目标视频段中的每个视频帧需要显示的词语，任一视频帧需要显示的词语的数量不小于任一视频帧的上一个视频帧需要显示的词语的数量。

本公开实施例为了提高字幕的显示效果，在为目标视频段添加这多个词语对应的字幕时，会添加该多个词语依次出现的动态效果，从而通过该动态效果对这多个词语再次进行强调。

需要说明的是，在一些实施例中，电子设备会对目标视频段中的每个视频帧进行词语渲染，在目标视频段中添加多个词语依次出现的动态效果。并且，当下一个词语出现时，上一个词语并不会消失，因此，该多个词语是依次出现的，并且电子设备在目标视频段的最后一个视频帧中会渲染该多个词语中的每个词语。但是电子设备并不对视频中目标视频段的下一视频帧进行词语渲染，也就是说，目标视频段的下一视频帧中不包括该多个词语中的任一词语。

由于目标视频段中越靠后的视频帧中显示的词语越多，因此，在播放处理后的目标视频段时，能够实现在目标视频段中呈现多个词语依次出现的效果。而在播放到目标视频段在视频中的下一视频帧时，由于下一视频帧中没有词语，因此，实现了多个词语在依次出现后同时消失的效果。

由于该多个词语依次出现，目标视频段中每个视频帧需要显示的词语也是不完全相同的。例如，多个词语为5个词语，目标视频段包括50个视频帧，其中，第1至10个视频帧需要显示1个词语，第11至20个视频帧需要显示2个词语，第21至30个视频帧需要显示3个词语，第31至40个视频帧需要显示4个词语，第41至50个视频帧需要显示5个词语。

在本公开实施例中，多个词语是依次出现的，因此，每个词语都有自己的起始显示时间，且每个词语的起始显示时间不同。通过控制每个词语的起始显示时间，能够使得多个词语依次呈现。在一种可能实现方式中，从该多个词语中，确定该目标视频段中的每个视频帧需要显示的词语，包括：确定该多个词语中每个词语的起始显示时间；对于目标视频段中的每个视频帧，将该起始显示时间早于或者等于该视频帧对应的播放时间的词语，确定为该视频帧需要显示的词语。

在一些实施例中，每个词语间隔相同时间依次出现，确定该多个词语中每个词语的起始显示时间，包括：根据该多个词语的词语数量，对该目标时间段进行划分，得到时长相同的多个子时间段；按照多个子时间段的排列顺序和多个词语的排列顺序，分别将每个子时间段的起始时间确定为每个词语的起始显示时间。其中，将每个子时间段的起始时间确定为每个词语的起始显示时间是指：词语的排列顺序与子时间段的排列顺序相同时，将该子时间段的起始时间确定为该词语的起始显示时间，使得每个词语能够间隔相同的时间出现，提高了动态消失效果。

例如，多个词语的词语数量为5，该多个词语对应的时间段为00:03:25至00:04:04，则将该时间段划分为5个时长相同的子时间段，该5个子时间段为00:03:25至00:03:32、00:03:33至00:03:40、00:03:41至00:03:48、00:03:49至00:03:56、00:03:57至00:04:04，将第一个子时间段的起始时间00:03:25作为第一个词语的起始显示时间，将第二个子时间段的起始时间00:03:33作为第二个词语的起始显示时间，将第三个子时间段的起始时间00:03:41作为第三个词语的起始显示时间，将第四个子时间段的起始时间00:03:49作为第四个词语的起始显示时间，将第五个子时间段的起始时间00:03:57作为第五个词语的起始显示时间。

当人重复说一个词语的时候，通常情况下，每个词语间隔会很短，因此，本公开实施例中按照相同的时间间隔依次显示多个词语，不仅能减少的运算量，还能保证词语的显示与视频中人物说出词语基本对应，保证了动态字幕显示的准确性。

在另一些实施例中，每个词语的显示时间是视频中人物说出该词语的时间，在一种可能实现方式中，确定该多个词语中每个词语的起始显示时间，包括：将每个词语中第一个字符对应的起始出现时间，确定为每个词语的起始显示时间，这样，能够保证该词语显示时，视频中的人物正在说出该词语，使得字幕内容与视频内容一致。

305、分别确定每个视频帧中需要显示的词语对应的显示位置。

在一些实施例中，同一词语在不同的视频帧中的显示位置是相同的，而在另一实施例中，同一词语在不同的视频帧中的显示位置可能是不同的，需要根据每个视频帧中的显示内容，为词语确定显示位置；在一些实施例中，每个词语的显示位置是预先设置的，而在另一实施例中，每个词语的显示位置都是实时计算出来的，本公开实施例对词语的显示位置不做限定。

在一种可能实现方式中，多个词语显示在目标物体对应的位置，本公开实施例以根据目标物体，确定词语的显示位置为例，对确定显示位置的过程进行示例性说明。

在一种可能实现方式中，多个词语显示在目标物体的外侧，且多个词语环绕目标物体显示。在一些实施例中，多个词语的数量较小，此时多个词语显示在目标物体外侧的一圈中。在另一些实施例中，多个词语的数量较多，此时多个词语分别显示在目标物体外侧的多个圈中。

在一些实施例中，分别确定每个视频帧中需要显示的词语对应的显示位置，包括：响应于多个词语的词语数量小于或者等于第一数量，在以目标物体为中心并以第一距离为半径的第一圆形曲线上，确定多个词语的显示位置；或者，响应于多个词语的词语数量大于第一数量，在第一圆形曲线上，确定多个词语中前第一数量个词语的显示位置，在以目标物体为中心并以第二距离为半径的第二圆形曲线上，确定多个词语中剩余的词语的显示位置，第二距离大于第一距离。

其中，第一数量为任一数量，例如，第一数量为3、5等。本公开实施例对第一数量不做限定。由于第二距离大于第一距离，因此，相对于第二圆形曲线来说，第一圆形曲线是目标物体的内圈，第二圆形曲线是目标物体的外圈。也就是说，电子设备会优先在内圈中布局词语，当内圈布局不下时，将剩余的词语布局在外圈。本公开实施例能够根据多个词语的词语数量，合理布局该多个词语，避免了词语较多时词语布局紧凑的问题，也避免了词语较少时词语布局稀疏的问题，使得词语的布局效果更好，提高了视频处理效果。

例如，多个词语的数量小于或者等于5时，多个词语显示在目标物体的内圈中，多个词语的数量大于5时，在目标物体的内圈显示5个词语，将其余词语显示在外圈中。其中，目标物体的内圈是以目标物体为中心，以第一长度为半径的圆形区域的边界。目标物体的外圈是以目标物体为中心，以第二长度为半径的圆形区域的边界。其中，第一长度小于第二长度。

需要说明的是，本公开实施例仅是以第二距离大于第一距离为例进行示例性说明，而在一些实施例中，第二距离小于第一距离。也就是说，电子设备会优先在外圈中布局词语，当外圈布局不下时，将剩余的词语布局在内圈。

由此可知，词语数量的多少影响词语目标物体之间的距离。因此，可以根据词语数量来确定词语与目标物体之间的距离。需要说明的是，在本公开实施例中，仅是以外圈和内圈为例对布局多个词语进行示例性说明，而在另一实施例中，并不限制圈的数量，电子设备可以将多个词语布局在一个圈上，也可以布局在两个圈上，还可以布局在三个圈上等。

在一种可能实现方式中，分别确定每个视频帧中需要显示的词语对应的显示位置，包括：确定连续的多个序号区间以及多个序号区间对应的距离，任一序号区间表示以目标物体为中心并以任一序号区间对应的距离为半径的圆形曲线上可显示的词语的序号，任一序号区间大于该任一序号区间的前一个序号区间，且该任一序号区间对应的距离大于前一个序号区间对应的距离；按照多个词语中的每个词语的序号，确定每个词语与目标物体之间的距离为每个词语的序号所属的序号区间对应的距离；对于每个视频帧，根据视频帧中目标物体的显示位置以及视频帧中需要显示的词语与目标物体之间的距离，确定词语在视频帧中的显示位置。

其中，词语的序号指示该词语在多个词语中的显示次序。其中，任一序号区间大于任一序号区间的前一个序号区间是指：任一序号区间中的最小值大于前一个序号区间中的最大值。通过划分多个序号区间来限定以目标物体为中心并以某一距离为半径的圆形曲线上显示第几个词语。

例如，多个序号区间为[1，5]和[6，12]，其中，序号区间[1，5]对应的距离为3厘米，序号区间[6，12]对应的距离为4厘米，那么多个词语中第1至5个词语与目标物体的距离为3厘米，多个词语中第6至12个词语与目标物体的距离为4厘米。

需要说明的是，在确定词语与目标物体之间的距离之后，该词语可以在以目标物体为圆心，以该距离为半径的圆形曲线上的任一位置进行显示，例如，从该圆形曲线上随机确定一个位置作为该词语的显示位置。又如，根据相应的规则，为该多个词语分配显示位置。

在一些实施例中，电子设备在进行视频处理时，每次圆形曲线上显示的词语的数量可能是不同的。在一种可能实现方式中，电子设备根据圆形曲线上需要显示的词语的数量来合理布局需要显示的词语。

例如，根据视频帧中目标物体的显示位置以及视频帧中需要显示的词语与目标物体之间的距离，确定该词语在视频帧中的显示位置，包括：对于视频帧中需要显示的任一词语：

根据该词语与目标物体之间的距离、以及目标视频段中以目标物体为中心并以该距离为半径的圆形曲线上需要显示的词语的数量，确定该词语与目标物体的中心的相对位置；获取该目标物体的中心在视频帧中的显示位置；根据词语与目标物体的中心的相对位置以及目标物体的中心在视频帧中的显示位置，确定词语在该视频帧中的显示位置。

因此，本公开实施例中，电子设备能够根据圆形曲线上需要显示的词语的数量合理布局需要显示的词语，提高了多个词语在圆形曲线上的布局效果，进而提高了视频的处理效果。

在一种可能实现方式中，词语与目标物体的中心的相对位置包括：词语与目标物体的中心的连线与参考基准线之间的夹角，该参考基准线是以目标物体的中心为起点指向参考方向的射线，该夹角根据以下公式计算得到：

其中，n为该词语的序号，α为第n个词语对应的夹角，α_max为目标视频段中以目标物体为中心并以该距离为半径的圆形曲线上，需要显示的多个词语对应的夹角范围中的最大值，n₀为目标视频段中以目标物体为中心并以该距离为半径的圆形曲线上需要显示的词语的数量。其中，n为大于或等于1的整数。

需要说明的是，本公开实施例中，词语在圆形曲线上显示的时候，是有显示范围的。该显示范围即是多个词语对应的夹角范围。例如，该显示范围是[0°，360°]，则词语在圆形曲线上的显示范围是整个圆形曲线；又如，该显示范围是[0°，180°]，则词语在圆形曲线上的显示范围是圆形曲线的上半部分。

在一种可能实现方式中，参考基准线是以目标物体的中心为原点的极坐标的极轴。词语与目标物体的中心的连线与参考基准线之间的夹角为词语在极坐标系中的极角。在极坐标系中，任一位置由极径和极角来进行描述。在本公开实施例中，在确定词语的显示位置时，先通过极坐标系确定词语与目标物体的相对位置，再进行坐标转换，得到词语在直角坐标系中的位置，该直角坐标系是视频帧的直角坐标系，因此，词语在直角坐标系中的位置就是词语在视频帧中的显示位置。在一种可能实现方式中，词语与目标物体的中心的相对位置通过词语在以目标物体的中心为原点的极坐标中的位置来表示。

在一些实施例中，根据词语与目标物体之间的距离，以及目标视频段中以目标物体为中心并以该距离为半径的圆形曲线上需要显示的词语的数量，确定词语与该目标物体的中心的相对位置，包括：在以目标物体的中心为原点的极坐标系中，将词语与目标物体之间的距离确定为词语的极径，基于词语与目标物体之间的距离，获取距离目标物体该距离的多个词语对应的极角范围；根据极角范围以及词语的序号，确定该词语的极角。

其中，与目标物体距离不同距离的多个词语的词语数量是不同的，例如，距离目标物体3厘米的多个词语的词语数量为5，这5个词语对应的极角范围是0-180度，这5个词语的极角为0-180度中的5个数值。又如，距离目标物体5厘米的多个词语的词语数量为7，这7个词语对应的极角范围是0-270度，那么这7个词语的极角为0-270度中的7个数值。

在一些实施例中，词语的极角不仅与极角范围相关还与词语的序号相关，也即是还与词语的显示次序相关。例如，词语的极角与词语的序号呈正相关关系，或者，词语的极角与词语的序号呈负相关关系。如果词语的极角与词语的序号呈正相关关系，电子设备在目标视频段中添加的动态效果为：多个词语按照逆时针的顺序依次出现；如果词语的极角与词语的序号呈负相关关系，电子设备在目标视频段中添加的动态效果为：多个词语按照顺时针的顺序依次出现。

在一种可能实现方式中，距离目标物体同一距离的多个词语中相邻词语的极角差是相同的，也就是说，距离目标物体同一距离的多个词语按照一定的间隔进行显示。在一些实施例中，根据极角范围以及词语的序号，确定词语的极角，包括：根据距离目标物体该距离的多个词语的词语数量以及极角范围，确定距离目标物体该距离的多个词语中相邻词语的极角间隔；根据极角间隔、极角范围以及词语的序号，确定词语的极角，保证了相邻词语之间的间隔一定，使得视频中呈现的多个词语更加工整，提高了动态显示效果。

例如，如图4所示，当多个词语为2个词语时，第一个词语的极角为120度，第二个词语的极角为60度；当多个词语为3个词语时，第一个词语的极角为180度，第二个词语的极角为90度，第三个词语的极角为0度；当多个词语为4个词语时，第一个词语的极角为180度，第二个词语的极角为120度，第三个词语的极角为60度，第四个词语的极角为0度。当多个词语为5个词语时，第一个词语的极角为180度，第二个词语的极角为135度，第三个词语的极角为90度，第四个词语的极角为45度，第五个词语的极角为0度。

例如，如图5所示，第一个视频帧中显示了第一个词语，第二个视频帧中显示了第一个词语和第二个词语，第三个视频帧中显示了第一个词语、第二个词语和第三个词语。其中，第一个词语、第二个词语和第三个词语之间的间隔相同。

需要说明的是，本公开实施例仅是以根据该词语的序号，为词语确定极角为例进行示例性说明。而在另一些实施例，在确定词语的极角时，可以随机为该词语确定一个极角。例如，词语的极角仅与极角范围相关，在极角范围中，为该词语随机选取一个数值作为该词语的极角。本公开实施例对确定极角的过程不做限定。

在一些实施例中，根据词语与目标物体的中心的相对位置以及目标物体的中心在视频帧中的显示位置，确定词语在视频帧中的显示位置，包括：根据目标物体在需要显示词语的视频帧中的显示位置，对词语的极径和极角进行坐标转换，得到词语在视频帧的直角坐标系中的坐标；将坐标确定为词语在视频帧中的显示位置。

其中，视频帧的直角坐标系可以是以视频帧的任一位置为原点的坐标系。

其中，词语在视频帧的直角坐标系中的坐标根据以下公式计算得到：

x＝x₀+r×cosα

y＝y₀+r×sinα

其中，x为词语在视频帧的直角坐标系中的横坐标，y为词语在视频帧的直角坐标系中的纵坐标，x₀为目标物体的中心在视频帧的直角坐标系中的横坐标，y₀为目标物体的中心在视频帧的直角坐标系中的纵坐标，α为词语的极角，r为词语的极径。

在一些实施例中，目标物体是不规则的物体，在确定目标物体的中心时，可以通过对视频帧进行识别，则通过识别框获取目标物体的中心的位置。在一种可能实现方式中，目标物体为人脸，识别框为人脸框，将人脸框的中心确定为人脸的中心，将人脸框的长度和宽度作为人脸的长度和宽度。

306、在每个视频帧中所确定的显示位置上，渲染对应的词语。

在一些实施例中，在多个视频帧中渲染的词语的显示样式是一致的，在另一些实施例中，在多个视频帧中渲染的词语的显示样式并不相同。

在一种可能实现方式中，词语的显示样式包括词语中每个字符的尺寸。在一些实施例中，在每个视频帧中所确定的显示位置上，显示对应的词语时，还会确定词语中每个字符的尺寸。在每个视频帧中所确定的显示位置上，显示对应的词语，包括：对于每个视频帧，确定该视频帧需要显示的词语的尺寸；根据词语的尺寸，在该视频帧中所确定的显示位置，渲染词语。

需要说明的是，在一些实施例中，在每个视频帧中渲染对应的词语时，都需要根据该视频中的显示内容，重新确定词语中每个字符的尺寸，而在另一些实施例中，可以提前预设好词语中每个字符的尺寸，或者根据首个视频帧确定好词语中每个字符的尺寸，后续视频帧中均使用该尺寸，其中，字符的尺寸可以是该字符的字号等。本公开实施例对字符的尺寸不做限定。

在一些实施例中，在每个视频帧中所确定的显示位置，渲染对应的词语，包括：根据任一视频帧中需要显示的词语与目标物体之间的距离、该词语中字符的数量、以及目标物体的尺寸，确定词语中每个字符的尺寸；根据该词语中每个字符的尺寸，在视频帧中所确定的显示位置，渲染该词语中的每个字符。

其中，词语中字符的尺寸与词语中的字符的数量呈负相关关系，词语中字符的尺寸与目标物体的尺寸呈正相关关系，词语中字符的尺寸与目标物体的尺寸呈正相关关系。

当一个词语的字符数量较多时，若该词语中字符的字号较大，那么在视频帧中渲染多个词语之后，多个词语会显得比较拥挤。因此，当词语的字符数量较多时，可以调小字符的字号，在词语的字符数量较多时，可以调大字符的字号。

另外，在一些实施例中，多个词语会显示在目标物体周围，如果目标物体在视频帧中所占区域较大，相应地，为了显示效果，字符的字号也应该相对较大，如果目标物体在视频帧中所占区域较小，相应地，为了显示效果，字符的字号也应该相对较小，本公开实施例中，会根据视频帧的显示内容，实时调整字符的字号，使得字符的大小与视频帧中的显示内容更加匹配，提高了动态特效的显示效果。

需要说明的是，本公开实施例仅是以根据视频帧中需要显示的词语与目标物体之间的距离、该词语中字符的数量以及目标物体的尺寸，确定词语中每个字符的尺寸为例，对确定词语中每个字符的尺寸进行示例性说明。而在另一实施例中，可以根据视频帧中需要显示的词语与目标物体之间的距离、该词语中字符的数量或者目标物体的尺寸中的至少一项，确定词语中每个字符的尺寸，还可以根据视频中的其他内容来确定词语中每个字符的尺寸；或者，根据多个词语在音频信息中的音量，确定该多个词语中每个字符的尺寸，其中，词语在音频信息中的音量越大，词语中每个字符的尺寸越大。

其中，词语中每个字符的尺寸根据以下公式计算得到：

其中，size为该词语中每个字符的尺寸，k₁表示与该目标物体的尺寸以及该词语与该目标物体之间的距离关联的系数，其中，k₁与该目标物体的尺寸呈正相关关系，且k₁与该距离呈负相关关系，L表示该目标物体的长度，W表示该目标物体的宽度，n表示该词语中字符的数量，k₂表示与该词语中字符数量关联的系数，且k₂与该字符数量呈正相关关系；其中，k₁为大于0的任一数值，k₂为大于0且小于1的任一数值。

通过上述公式来计算词语中字符的尺寸更加准确，提高了多个词语的显示效果，从而提高了视频的处理效果。

其中，词语的显示样式除了词语中每个字符的尺寸之外，还可以包括其他样式，例如，词语的显示颜色、词语的字体等。

在一些实施例中，本地包括第一词库，从本地获取第一词库；或者从服务器或者其他设备中获取第一词库。其中，第一词库包括不同的多个词语以及每个词语的显示样式参数，该词语的显示样式参数用于指示该词语的显示样式，例如，词语的颜色、字体等。

因此，在渲染词语时，可以从第一词库中获取该词语的显示样式参数，按照该显示样式参数对词语进行渲染。在一种可能实现方式中，在每个视频帧中所确定的显示位置，渲染对应的词语，包括：从第一词库中，获取词语对应的显示样式参数，第一词库包括不同的多个词语以及每个词语的显示样式参数，显示样式参数用于指示每个词语的显示样式；根据词语的显示样式参数，在每个视频帧中所确定的显示位置，渲染对应的词语。

本公开实施例提供的视频处理方法，在确定词语的显示位置时，考虑了词语的数量、词语对应的极角范围以及相邻词语之间的间隔等，使得在文本信息中出现数量不同的多个词语相同且连续时，多个词语的显示风格保持一致，提高了视频处理效果。

如图6所示，本公开实施例会对视频中的音频信息进行识别，得到文本信息，根据文本信息中的连续且相同的多个词语，确定被重复的词语以及该词语的重复次数，在多个词语对应的目标视频段中包括人脸时，对该目标视频段中的每个视频帧进行识别，确定每个视频帧中人脸框的位置以及人脸框的大小。并且，根据词语的重复次数，确定每个词语的起始显示时间，根据词语的重复次数、人脸框的位置以及人脸框的大小，确定每个词语的显示位置；根据词语中字符的数量、词语的重复词语、人脸框大小，确定每个词语中字符的尺寸。在确定出每个词语的起始显示时间、显示位于以及词语中字符的尺寸之后，在原视频中相应的视频帧上渲染对应的词语。

图7是根据一示例性实施例示出的一种视频处理装置的框图。参见图7，该视频处理装置包括：

识别单元701，被配置为执行对视频中的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中的每个字符在视频中的出现时间；

确定单元702，被配置为执行响应于文本信息中的多个词语相同且连续，根据多个词语中的第一个字符和最后一个字符在视频中的出现时间确定目标时间段，目标时间段用于表示多个词语在视频中的出现时间段，文本信息中的每个词语由至少一个字符组成；

添加单元703，被配置为执行在视频中目标时间段对应的目标视频段中，添加多个词语依次出现的动态效果。

如图8所示，在一些实施例中，添加单元703，被配置为执行响应于目标视频段中包括目标物体，在目标视频段中添加多个词语依次出现的动态效果。

在一些实施例中，识别单元701，被配置为执行响应于视频中包括目标物体，对视频中的音频信息进行识别，得到音频信息对应的文本信息以及文本信息中的每个字符在视频中的出现时间。

在一些实施例中，添加单元703，包括：

词语确定子单元7031，被配置为执行从多个词语中，确定目标视频段中的每个视频帧需要显示的词语，任一视频帧需要显示的词语的数量不小于任一视频帧的上一个视频帧需要显示的词语的数量；

位置确定子单元7032，被配置为执行分别确定每个视频帧中需要显示的词语对应的显示位置；

渲染子单元7033，被配置为执行在每个视频帧中所确定的显示位置，渲染对应的词语。

在一些实施例中，词语确定子单元7031，被配置为执行确定多个词语中每个词语的起始显示时间；从视频中确定出目标时间段对应的目标视频段；对于目标视频段中的每个视频帧，将起始显示时间早于或者等于视频帧对应的播放时间的词语，确定为视频帧需要显示的词语。

在一些实施例中，渲染子单元7033，被配置为执行根据任一视频帧中需要显示的词语与目标物体之间的距离、词语中字符的数量、目标物体的尺寸，确定词语中每个字符的尺寸；根据词语中每个字符的尺寸，在视频帧中所确定的显示位置，渲染词语中的每个字符。

在一些实施例中，词语中每个字符的尺寸根据以下公式计算得到：

其中，size为词语中每个字符的尺寸，k₁表示与目标物体的尺寸以及词语与目标物体之间的距离关联的系数，其中，k₁与目标物体的尺寸呈正相关关系，且k₁与该距离呈负相关关系，L表示目标物体的长度，W表示目标物体的宽度，n表示词语中字符的数量，k₂表示与词语中字符数量关联的系数，且k₂与字符数量呈正相关关系；其中，k₁为大于0的任一数值，k₂为大于0且小于1的任一数值。

在一些实施例中，位置确定子单元7032，被配置为执行响应于多个词语的词语数量小于或者等于第一数量，在以目标物体为中心并以第一距离为半径的第一圆形曲线上，确定多个词语的显示位置；或者，

位置确定子单元7032，被配置为执行响应于多个词语的词语数量大于第一数量，在第一圆形曲线上，确定多个词语中前第一数量个词语的显示位置，在以目标物体为中心并以第二距离为半径的第二圆形曲线上，确定多个词语中剩余的词语的显示位置，第二距离大于第一距离。

在一些实施例中，位置确定子单元7032，被配置为执行确定连续的多个序号区间以及多个序号区间对应的距离，任一序号区间表示以目标物体为中心并以任一序号区间对应的距离为半径的圆形曲线上可显示的词语的序号，任一序号区间大于任一序号区间的前一个序号区间，且任一序号区间对应的距离大于前一个序号区间对应的距离；

位置确定子单元7032，被配置为执行按照多个词语中的每个词语的序号，确定每个词语与目标物体之间的距离为每个词语的序号所属的序号区间对应的距离；

位置确定子单元7032，被配置为执行对于每个视频帧，根据视频帧中目标物体的显示位置以及视频帧中需要显示的词语与目标物体之间的距离，确定词语在视频帧中的显示位置。

在一些实施例中，位置确定子单元7032，被配置为执行：

对于视频帧中需要显示的任一词语，

根据词语与目标物体之间的距离、以及目标视频段中以目标物体为中心并以距离为半径的圆形曲线上需要显示的词语的数量，确定词语与目标物体的中心的相对位置；

获取目标物体的中心在视频帧中的显示位置；

根据词语与目标物体的中心的相对位置以及目标物体的中心在视频帧中的显示位置，确定词语在视频帧中的显示位置。

在一些实施例中，词语与目标物体的中心的相对位置包括：词语与目标物体的中心的连线与参考基准线之间的夹角，参考基准线是以目标物体的中心为起点指向参考方向的射线，夹角根据以下公式计算得到：

其中，n为词语的序号，α为第n个词语对应的夹角，α_max为目标视频段中以目标物体为中心并以距离为半径的圆形曲线上，需要显示的多个词语对应的夹角范围中的最大值，n₀为目标视频段中以目标物体为中心并以距离为半径的圆形曲线上需要显示的词语的数量。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，本公开实施例还提供了一种电子设备，该电子设备包括：一个或多个处理器；用于存储一个或多个处理器可执行指令的易失性或非易失性存储器；其中，一个或多个处理器被配置为执行上述视频处理方法中电子设备所执行的步骤。

在一些实施例中，电子设备被提供为终端。图9是根据一示例性实施例示出的一种终端900的结构框图。该终端900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器901所执行以实现本公开中方法实施例提供的视频处理方法。

在一些实施例中，终端900还可选包括有：***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地，***设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

***设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和***设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和***设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置在终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在另一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，电子设备被提供为服务器。图10是根据一示例性实施例示出的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1001和一个或一个以上的存储器1002，其中，存储器1002中存储有至少一条程序代码，该至少一条程序代码由处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1000可以用于执行上述视频处理方法中服务器所执行的步骤。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的程序代码由服务器的处理器执行时，使得服务器能够执行上述视频处理方法中服务器所执行的步骤。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述视频处理方法中服务器所执行的步骤。

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述视频处理方法包括：

2.根据权利要求1所述的视频处理方法，其特征在于，所述在所述视频中所述目标时间段对应的目标视频段中，添加所述多个词语依次出现的动态效果，包括：

3.根据权利要求1所述的视频处理方法，其特征在于，所述对视频中的音频信息进行识别，得到所述音频信息对应的文本信息以及所述文本信息中的每个字符在所述视频中的出现时间，包括：

4.根据权利要求1所述的视频处理方法，其特征在于，所述在所述视频中所述目标时间段对应的目标视频段中，添加所述多个词语依次出现的动态效果，包括：

在所述每个视频帧中所确定的显示位置，渲染对应的词语。

5.根据权利要求4所述的视频处理方法，其特征在于，所述从所述多个词语中，确定所述目标视频段中的每个视频帧需要显示的词语，包括：

确定所述多个词语中每个词语的起始显示时间；

从所述视频中确定出所述目标时间段对应的目标视频段；

6.根据权利要求4所述的视频处理方法，其特征在于，所述在所述每个视频帧中所确定的显示位置，渲染对应的词语，包括：

根据任一视频帧中需要显示的词语与所述目标物体之间的距离、所述词语中字符的数量、以及所述目标物体的尺寸，确定所述词语中每个字符的尺寸；

7.一种视频处理装置，其特征在于，所述视频处理装置包括：

8.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行如权利要求1至权利要求6任一项所述的视频处理方法。

9.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求6任一项所述的视频处理方法。

10.一种计算机程序产品，包括指令，其特征在于，所述指令被处理器执行时实现权利要求1至权利要求6任一项所述的视频处理方法。