CN111770375A

CN111770375A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN111770375A
Application number: CN202010504444.4A
Authority: CN
Inventors: 赵德玺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-10-13
Anticipated expiration: 2040-06-05
Also published as: EP3923283A1; CN111770375B; JP2021193559A; US20210385392A1; US11800042B2; JP7263660B2; KR102541051B1; KR20210152396A

Abstract

本申请公开了视频处理方法、装置、电子设备及存储介质，涉及视频识别和理解及深度学习领域，其中的方法可包括：在视频播放过程中，针对按照预定策略确定出的待处理的音频数据，该音频数据为未播放的音频数据，分别进行以下处理：从该音频数据对应的文本内容中提取出符合预定要求的词语，作为该音频数据的标签；根据所述标签确定出该音频数据对应的特效动画；当该音频数据开始播放时，将特效动画叠加到对应的视频画面上进行展示。所述方案可提升视频画面的呈现效果等。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术，特别涉及视频识别和理解及深度学习领域的视频处理方法、装置、电子设备及存储介质。

背景技术

目前，多数视频应用或网站都提供了弹幕这种视频播放时的互动方式，弹幕可包括文字和表情图等，可以增强用户间的互动，但这种方式并不能提升视频画面本身的呈现效果。

发明内容

本申请提供了视频处理方法、装置、电子设备及存储介质。

一种视频处理方法，包括：

在视频播放过程中，针对按照预定策略确定出的待处理的音频数据，所述音频数据为未播放的音频数据，分别进行以下处理：

从所述音频数据对应的文本内容中提取出符合预定要求的词语，作为所述音频数据的标签；

根据所述标签确定出所述音频数据对应的特效动画；

当所述音频数据开始播放时，将所述特效动画叠加到对应的视频画面上进行展示。

一种视频处理装置，包括：标签生成模块、动画获取模块以及动画展示模块；

所述标签生成模块，用于在视频播放过程中，针对按照预定策略确定出的待处理的音频数据，所述音频数据为未播放的音频数据，分别从所述音频数据对应的文本内容中提取出符合预定要求的词语，作为所述音频数据的标签；

所述动画获取模块，用于根据所述标签确定出所述音频数据对应的特效动画；

所述动画展示模块，用于当所述音频数据开始播放时，将所述特效动画叠加到对应的视频画面上进行展示。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如以上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：在视频播放过程中，可根据音频数据确定出对应的特效动画，并可将特效动画叠加到视频画面上进行展示，从而提升了视频画面的呈现效果，丰富了视频画面的内容及提升了视频画面的趣味性等。应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所述视频处理方法第一实施例的流程图；

图2为本申请所述视频处理方法第二实施例的流程图；

图3为本申请所述视频处理装置实施例30的组成结构示意图；

图4为根据本申请实施例所述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请所述视频处理方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，在视频播放过程中，针对按照预定策略确定出的待处理的音频数据，该音频数据为未播放的音频数据，分别按照102-104所示方式进行处理。

在102中，从该音频数据对应的文本内容中提取出符合预定要求的词语，作为该音频数据的标签。

在103中，根据所述标签确定出该音频数据对应的特效动画。

在104中，当该音频数据开始播放时，将特效动画叠加到对应的视频画面上进行展示。

优选地，可将视频按预定时长划分为M个连续的视频片段，M为大于一的正整数，具体取值可根据实际需要而定，针对任一视频片段对应的音频数据，可分别按照预定策略从中选出一段音频数据，作为待处理的音频数据。

比如，在播放某一视频片段的同时，可从下一视频片段对应的音频数据中选出一段音频数据，作为待处理的音频数据，并可按照102-104所示方式进行处理。

优选地，可从视频片段对应的音频数据中选出语义最为完整的一个语句对应的音频数据，作为待处理的音频数据。

通过上述方式，可避免待处理的音频数据数量过多，从而叠加过多的特效动画，增加资源消耗等。

对于待处理的音频数据，可从其对应的文本内容中提取出符合预定要求的词语，作为该音频数据的标签，其中，可通过现有的音频识别技术，获取到该音频数据对应的文本内容。

优选地，可对文本内容进行分词处理，针对任一分词结果，若确定该分词结果位于预先生成的热点词语词表中，则可确定该分词结果为热点词语，从而将该分词结果作为音频数据的标签。热点词语词表可通过人工或自动归纳总结的方式生成，并可周期性进行更新。针对任一分词结果，可分别确定其是否存在于热点词语词表中，若是，则可将该分词结果作为音频数据的标签。

热点词语通常为用户比较关注和感兴趣的内容，因此，通过提取热点词语，可使得后续展示给用户的特效动画更为贴合用户的实际需求等。

针对待处理的音频数据，还可将该音频数据输入预先训练得到的场景识别模型，得到识别出的该音频数据对应的场景，将所述场景也作为该音频数据的标签。场景识别模型可为预先采用机器学习或深度学习等方式训练得到的。场景识别模型主要是对音频环境音进行识别，识别结果通常为一个，如可为海浪、流水、刮风或鞭炮等。作为另外一种可能的实现方式，也可根据该音频数据对应的视频画面内容识别出该音频数据对应的场景，具体实现方式不限。

通过场景识别，可进一步丰富音频数据的标签的内容和类型等。

进一步地，可根据标签确定出音频数据对应的特效动画。优选地，若标签的数量为一，可直接获取该标签对应的特效动画，作为音频数据对应的特效动画，若标签的数量大于一，可先从中选出一个标签，然后获取选出的标签对应的特效动画，作为音频数据对应的特效动画。

当标签的数量为一时，该标签可能为热点词语，也可能为场景，无论是热点词语还是场景，均可直接获取该标签对应的特效动画。当标签的数量大于一时，则可首先从中选出一个标签，如何进行选择不作限制，比如，可设置热点词语的优先级大于场景的优先级，并可设置在文本内容中的出现位置靠前的热点词语的优先级高于在文本内容中的出现位置靠后的热点词语的优先级，根据优先级设置，选出一个优先级最高的标签，再比如，可设置场景的优先级大于热点词语的优先级，并可设置在文本内容中的出现位置靠前的热点词语的优先级高于在文本内容中的出现位置靠后的热点词语的优先级，根据优先级设置，选出一个优先级最高的标签，具体实现方式不限，之后，可获取选出的标签对应的特效动画。

在获取任一标签对应的特效动画时，若确定本地存储有该标签对应的特效动画，则可从本地获取该标签对应的特效动画，若确定本地未存储有该标签对应的特效动画，则可从服务端获取该标签对应的特效动画，并存储到本地。

即优先从本地获取特效动画，以提升获取速度和效率。对于从服务端获取到的特效动画，可存储到本地，这样当下次需要使用同样的特效动画时，即可直接从本地获取。

若从本地和服务端均无法获取到某一标签对应的特效动画，那么可重新选择标签或认为音频数据对应的特效动画为空(相当于不叠加特效动画)等。

无论是本地还是服务端，针对任一特效动画，均会同时存储其对应的标签，从而可方便快速地确定出请求获取的标签对应的特效动画。

由于本地存储空间有限，因此若任一特效动画在本地的存储时长超过第一预定时长，可将该特效动画从本地删除，和/或，若存储在本地的任一特效动画超过第二预定时长未被使用，也可将该特效动画从本地删除，第一预定时长和第二预定时长的具体取值均可根据实际需要而定。

通过上述方式，可实现对于本地存储的特效动画的有效管理和维护，使得本地存储的特效动画可及时更新，并提升了本地存储的特效动画的命中率等。

针对待处理的音频数据，可在当该音频数据开始播放时，将该音频数据对应的特效动画叠加到对应的视频画面上进行展示。即开始播放该音频数据时即可开始展示特效动画，特效动画的展示时长取决于特效动画本身的时长，特效动画的时长通常都较短，比如，该音频数据的时长为5秒，特效动画的时长为3秒，该音频数据的开始播放时间为整个视频播放时间中的第3分18秒，那么可从3分18秒开始展示特效动画，3分21秒时展示结束。特效动画可为Lottie动画、Webp动画等任意形式的动画。

展示特效动画时，可以采用在原有的视频画面层上再叠加一层效果层的方式，在效果层上展示特效动画，两层叠加展示，实现视频画面播放的同时，也展示了特效动画。

特效动画的展示区域不限，可根据实际需要，如可布满整个视频画面区域，也可为部分视频画面区域等。

基于上述介绍，图2为本申请所述视频处理方法第二实施例的流程图。如图2所示，包括以下具体实现方式。

在201中，在视频播放过程中，针对按照预定策略确定出的待处理的音频数据，该音频数据为未播放的音频数据，分别按照202-208所示方式进行处理。

可将视频按预定时长划分为M个连续的视频片段，M为大于一的正整数，针对任一视频片段对应的音频数据，分别按照预定策略从中选出一段音频数据，作为待处理的音频数据，如选出语义最为完整的一个语句对应的音频数据。

在202中，从该音频数据对应的文本内容中提取出符合预定要求的词语，作为该音频数据的标签。

可对文本内容进行分词处理，针对任一分词结果，若确定该分词结果位于预先生成的热点词语词表中，则可确定该分词结果为热点词语，进而可将该分词结果作为该音频数据的标签。

在203中，将该音频数据输入预先训练得到的场景识别模型，得到识别出的该音频数据对应的场景，将所述场景作为该音频数据的标签。

在204中，从该音频数据的标签中选出一个标签。

本实施例中，假设该音频数据的标签的数量大于一。

在205中，确定选出的标签对应的特效动画是否位于本地，若是，则执行206，否则，执行207。

在206中，从本地获取选出的标签对应的特效动画，之后执行208。

在207中，从服务端获取选出的标签对应的特效动画，并存储到本地，之后执行208。

在208中，当该音频数据开始播放时，将特效动画叠加到对应的视频画面上进行展示，结束流程。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。另外，某个实施例中没有详述的部分，可以参见其它实施例中的相关说明。

采用上述方法实施例所述方案，在视频播放过程中，可根据音频数据确定出对应的特效动画，并可将特效动画叠加到视频画面上进行展示，从而提升了视频画面的呈现效果，丰富了视频画面的内容及提升了视频画面的趣味性等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图3为本申请所述视频处理装置实施例30的组成结构示意图。如图3所示，包括：标签生成模块301、动画获取模块302以及动画展示模块303。

标签生成模块301，用于在视频播放过程中，针对按照预定策略确定出的待处理的音频数据，该音频数据为未播放的音频数据，分别从该音频数据对应的文本内容中提取出符合预定要求的词语，作为该音频数据的标签。

动画获取模块302，用于根据标签确定出该音频数据对应的特效动画。

动画展示模块303，用于当该音频数据开始播放时，将特效动画叠加到对应的视频画面上进行展示。

图3所示装置中还可进一步包括：音频获取模块300，用于将视频按预定时长划分为M个连续的视频片段，M为大于一的正整数，针对任一视频片段对应的音频数据，分别按照预定策略从中选出一段音频数据，作为待处理的音频数据，如选出语义最为完整的一个语句对应的音频数据。

针对音频数据对应的文本内容，标签生成模块301可对文本内容进行分词处理，针对任一分词结果，若确定该分词结果位于预先生成的热点词语词表中，则确定该分词结果为热点词语，将该分词结果作为音频数据的标签。

标签生成模块301还可将音频数据输入预先训练得到的场景识别模型，得到识别出的音频数据对应的场景，将所述场景作为音频数据的标签。

相应地，音频数据的标签的数量可能为一个，也可能为多个，动画获取模块302可在当标签的数量为一个时，直接获取该标签对应的特效动画，作为音频数据对应的特效动画，当标签的数量大于一个时，可从中选出一个标签，获取选出的标签对应的特效动画，作为音频数据对应的特效动画。

另外，动画获取模块302在需要获取任一标签对应的特效动画时，若确定本地存储有该标签对应的特效动画，则可从本地获取该标签对应的特效动画，若确定本地未存储有该标签对应的特效动画，则可从服务端获取该标签对应的特效动画，并存储到本地。

动画获取模块302还可在确定任一特效动画在本地的存储时长超过第一预定时长时，将该特效动画从本地删除，和/或，在确定存储在本地的任一特效动画超过第二预定时长未被使用时，将该特效动画从本地删除。

图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本申请装置实施例所述方案，在视频播放过程中，可根据音频数据确定出对应的特效动画，并可将特效动画叠加到视频画面上进行展示，从而提升了视频画面的呈现效果，丰富了视频画面的内容及提升了视频画面的趣味性等；通过划分视频片段等，可避免待处理的音频数据数量过多，从而叠加过多的特效动画，增加资源消耗等；热点词语通常为用户比较关注和感兴趣的内容，因此，通过提取热点词语作为音频数据的标签，可使得后续展示给用户的特效动画更为贴合用户的实际需求等；通过场景识别，可进一步丰富音频数据的标签的内容和类型等；在获取标签对应的特效动画时，可优先从本地获取，以提升获取速度和效率，对于从服务端获取到的特效动画，还可存储到本地，这样当下次需要使用同样的特效动画时，即可直接从本地获取；另外，还可对本地存储的特效动画进行有效的管理和维护，使得本地存储的特效动画可及时更新，并提升了本地存储的特效动画的命中率等。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图4中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网、广域网、区块链网络和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

根据所述标签确定出所述音频数据对应的特效动画；

2.根据权利要求1所述的方法，其特征在于，

所述从所述音频数据对应的文本内容中提取出符合预定要求的词语，作为所述音频数据的标签包括：

对所述文本内容进行分词处理；

针对任一分词结果，若确定所述分词结果位于预先生成的热点词语词表中，则确定所述分词结果为热点词语，将所述分词结果作为所述音频数据的标签。

3.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：将所述音频数据输入预先训练得到的场景识别模型，得到识别出的所述音频数据对应的场景，将所述场景作为所述音频数据的标签。

4.根据权利要求3所述的方法，其特征在于，

所述场景识别模型包括：采用深度学习方法训练得到的场景识别模型。

5.根据权利要求3所述的方法，其特征在于，

所述根据所述标签确定出所述音频数据对应的特效动画包括：

若所述标签的数量为一，则获取所述标签对应的特效动画，作为所述音频数据对应的特效动画；

若所述标签的数量大于一，则从中选出一个标签，获取选出的标签对应的特效动画，作为所述音频数据对应的特效动画；

6.根据权利要求5所述的方法，其特征在于，

获取任一标签对应的特效动画包括：

若本地存储有所述标签对应的特效动画，则从本地获取所述标签对应的特效动画；

若本地未存储有所述标签对应的特效动画，则从服务端获取所述标签对应的特效动画，并存储到本地。

7.根据权利要求6所述的方法，其特征在于，

该方法进一步包括：

若任一特效动画在本地的存储时长超过第一预定时长，则将所述特效动画从本地删除；

和/或，若存储在本地的任一特效动画超过第二预定时长未被使用，则将所述特效动画从本地删除。

8.根据权利要求1所述的方法，其特征在于，

所述待处理的音频数据的确定方式包括：

将所述视频按预定时长划分为M个连续的视频片段，M为大于一的正整数；

针对任一视频片段对应的音频数据，分别按照预定策略从中选出一段音频数据，作为所述待处理的音频数据。

9.根据权利要求8所述的方法，其特征在于，

所述按照预定策略从中选出一段音频数据包括：选出语义最为完整的一个语句对应的音频数据。

10.一种视频处理装置，其特征在于，包括：标签生成模块、动画获取模块以及动画展示模块；

11.根据权利要求10所述的装置，其特征在于，

所述标签生成模块对所述文本内容进行分词处理，针对任一分词结果，若确定所述分词结果位于预先生成的热点词语词表中，则确定所述分词结果为热点词语，将所述分词结果作为所述音频数据的标签。

12.根据权利要求10所述的装置，其特征在于，

所述标签生成模块进一步用于，将所述音频数据输入预先训练得到的场景识别模型，得到识别出的所述音频数据对应的场景，将所述场景作为所述音频数据的标签。

13.根据权利要求12所述的方法，其特征在于，

14.根据权利要求12所述的装置，其特征在于，

所述动画获取模块在所述标签的数量为一个时，获取所述标签对应的特效动画，作为所述音频数据对应的特效动画，在所述标签的数量大于一个时，从中选出一个标签，获取选出的标签对应的特效动画，作为所述音频数据对应的特效动画；

15.根据权利要求14所述的装置，其特征在于，

所述动画获取模块在需要获取任一标签对应的特效动画时，若确定本地存储有所述标签对应的特效动画，则从本地获取所述标签对应的特效动画，若确定本地未存储有所述标签对应的特效动画，则从服务端获取所述标签对应的特效动画，并存储到本地。

16.根据权利要求15所述的装置，其特征在于，

所述动画获取模块进一步用于，若确定任一特效动画在本地的存储时长超过第一预定时长，则将所述特效动画从本地删除，和/或，若确定存储在本地的任一特效动画超过第二预定时长未被使用，则将所述特效动画从本地删除。

17.根据权利要求10所述的装置，其特征在于，

所述装置中进一步包括：音频获取模块，用于将所述视频按预定时长划分为M个连续的视频片段，M为大于一的正整数，针对任一视频片段对应的音频数据，分别按照预定策略从中选出一段音频数据，作为所述待处理的音频数据。

18.根据权利要求17所述的装置，其特征在于，

所述音频获取模块选出语义最为完整的一个语句对应的音频数据。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。