CN111601154B

CN111601154B - 一种视频处理方法及相关设备

Info

Publication number: CN111601154B
Application number: CN202010381164.9A
Authority: CN
Inventors: 王鑫
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2022-04-29
Anticipated expiration: 2040-05-08
Also published as: CN111601154A

Abstract

本申请实施例公开了一种视频处理方法及相关设备，所述方法应用于电子设备，包括：在录制用于直播的媒体文件时获取所述媒体文件中的音频信息；识别所述音频信息，获得所述音频信息对应的文字信息；标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息；将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文件。采用本申请实施例，可以提高视频处理效率。

Description

一种视频处理方法及相关设备

技术领域

本申请涉及电子技术领域，尤其涉及一种视频处理方法及相关设备。

背景技术

在视频播放(例如视频、电影或电视)过程中，一般都会显现字幕以方便用户理解。但是，视频上的字幕均为后期人工撰写，然后通过软件附加在视频文件中，导致视频处理效率低。而且，如果是在直播过程中，由于无法及时人工撰写字幕，因此不能在直播的视频中显示字幕。

发明内容

本申请实施例提供一种视频处理方法及相关设备。可以提高视频处理效率，在直播过程中及时显示字幕。

第一方面，本申请实施例提供了一种视频处理方法，包括：

在录制用于直播的媒体文件时获取所述媒体文件中的音频信息；

识别所述音频信息，获得所述音频信息对应的文字信息；

标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息；

将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文件。

其中，所述识别所述音频信息，获得所述音频信息对应的文字信息包括：

向语音服务器发送所述音频信息，以使所述语音服务器识别所述音频信息并生成所述文字信息；

接收所述语音服务器返回的所述文字信息。

其中，所述识别所述音频信息，获得所述音频信息对应的文字信息之后，所述方法还包括：

对所述文字信息进行翻译得到翻译文字；

在播放添加有所述文字信息的媒体文件时，显示所述翻译文字和所述文字信息。

其中，所述播放添加有所述文字信息的媒体文件包括：

根据用户输入的操作指令，调整所述文字信息的显示格式。

其中，所述方法还包括：

启动语音控制模式，在所述语音控制模式下获取用户输入的语音信息，所述语音控制模式为通过语音控制录制所述媒体文件；

对所述语音信息进行语音识别得到控制命令；

根据所述控制命令，录制所述媒体文件。

第二方面，本申请实施例提供了一种视频处理装置，包括：

获取模块，用于在录制用于直播的媒体文件时获取所述媒体文件中的音频信息；

处理模块，用于识别所述音频信息，获得所述音频信息对应的文字信息；标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息；

所述处理模块，还用于将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文。

其中，所述装置还包括：

发送模块，用于向语音服务器发送所述音频信息，以使所述语音服务器识别所述音频信息并生成所述文字信息；

接收模块，用于接收所述语音服务器返回的所述文字信息。

其中，所述处理模块，还用于对所述文字信息进行翻译得到翻译文字；在播放添加有所述文字信息的媒体文件时，显示所述翻译文字和所述文字信息。

其中，所述装置还包括：所述处理模块，还用于根据用户输入的操作指令，调整所述文字信息的显示格式。

其中，所述处理模块，还用于启动语音控制模式，在所述语音控制模式下获取用户输入的语音信息，所述语音控制模式为通过语音控制录制所述媒体文件；对所述语音信息进行语音识别得到控制命令；根据所述控制命令，录制所述媒体文件。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器、通信接口和总线；所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；所述存储器存储有计算机程序；所述处理器通过执行所述存储器中存储的计算机程序，以实现第一方面或者第一方面的任意一种可能的设计所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在一个或多个处理器上运行时，执行如第一方面或第一方面的任意一种可能的设计所述的方法。

实施本申请实施例，在录制用于直播的媒体文件时获取媒体文件中的音频信息；识别音频信息，获得音频信息对应的文字信息；并标记文字信息中每个文字的时间点，该时间点为根据音频信息的播放时间确定的；最后将文字信息添加到媒体文件，播放添加有文字信息的媒体文件。通过在录制媒体文件过程中对音频信息进行语音识别得到字幕，以便在进行直播时将字幕添加到媒体文件中，而不需要人工撰写字幕，从而在直播过程中及时显示字幕，提高视频的处理效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理***的架构示意图；

图2是本申请实施例提供的一种视频处理方法的流程示意图；

图3是本申请实施例提供的另一种视频处理方法的流程示意图；

图4是本申请实施例提供的一种视频处理装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

下面对本申请实施例的***架构和业务场景进行描述。需要说明的是，本申请描述的***架构及业务场景是为了更加清楚的说明本申请的技术方案，并不构成对于本申请提供的技术方案的限定，本领域普通技术人员可知，随着***架构的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

请参见图1，图1是本申请实施例提供的一种视频处理***的架构示意图。该视频处理***包括录像机101、麦克风102、电子设备103和服务器104，该视频处理***用于处理视频(例如字幕)。其中，录像机101可以用于录制视频。麦克风102可以在录制视频过程中获取语音信息。电子设备103可以是各种类型的用户设备如手机、电脑、平板电脑等设备，也可以是智能手表、智能眼镜等可穿戴设备，本申请对此不做限定。可选的，该***还可以包括其他电子设备，此处仅以一个电子设备为例进行介绍，并非限定本申请实施例中的电子设备的数量。服务器104可以是一个服务器，也可以是多个服务器组成的服务器集群。电子设备103可以向服务器104发送请求信息。相应的，服务器接收到请求信息后，向电子设备103返回处理结果。

如图2所示，图2是本申请实施例提供的一种视频处理方法的流程示意图。本申请实施例中的步骤至少包括：

S201，在录制用于直播的媒体文件时获取所述媒体文件中的音频信息。

具体实现中，媒体文件包括视频信息和音频信息，可以通过录像机录制视频信息，同时通过麦克风获取与所述视频信息相关的音频信息。然后通过无线连接方式(例如wifi、蓝牙)或有线连接方式将视频信息和音频信息传输给电子设备。也可以直接通过电子设备录制媒体文件。

S202，识别所述音频信息，获得所述音频信息对应的文字信息。

具体的，电子设备可以在本地使用自动字幕工具，利用语音识别算法对所述音频信息进行语音识别得到文字信息。

S203，标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息。

具体实现中，可以标记所述文字信息中每个文字的时间点，形成一个时间轴。该时间轴为根据该文件信息相对应的音频信息的播放时间确定的，时间轴上的每一个时间点对应一个文字的显示时间。从而实现在视频播放过程中，保持音频信息和文字信息的同步。

例如，获取到与视频信息相关的语音信息为“大家好”，对于语音信息，“大”相对于视频播放的起始时间为3s，“家”相对于视频播放的起始时间为3.1s，“好”相对于视频播放的起始时间为3.2s。因此对于文字信息，可以标记“大”的时间点为3s，“家”的时间点为3.1s，“好”的时间点为3.2s。这样在视频播放过程中，可以同步播放音频信息和显示文字信息。

可选的，可以获取所述音频信息的语音音量；当所述语音音量大于预设阈值时，对所述音频信息进行语音识别得到文字信息。当所述语音音量不大于预设阈值时，可以显示提示信息，该提示信息用于提示用户扩大音量、并重新获取语音信息。通过限定语音音量，保障语音信息的清晰度，保障语音识别的准确性。

S203，将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文件。

具体实现中，可以将文字信息添加到媒体文件中，然后按照上述时间抽，播放添加有文字信息的媒体文件。可选的，可以在电子设备上对添加有所述文字信息的媒体文件进行直播，也可以将添加有所述文字信息的媒体文件发送给其他电子设备，以便在其他电子设备上进行直播。也可以对添加有所述文字信息的媒体文件进行保存，以便后续播放。

可选的，可以对所述文字信息进行翻译得到翻译文字；在播放添加有所述文字信息的媒体文件时，显示所述翻译文字和所述文字信息(例如中英双文)。进一步的，可以在媒体文件的显示界面上的预设显示位置，按照预设的显示方式显示所述文字信息。其中，预设显示位置可以为视频信息的显示界面上的中间位置、顶部位置或底部位置。预设的显示方式可以为渐变显示、跳变显示等等。此处不做限定。

可选的，在播放添加有所述文字信息的媒体文件时，可以根据用户输入的操作指令，调整所述文字信息的显示格式。例如可以对显示的文字信息进行放大、缩小，或者调整文字信息的字体、显示位置等等。

可选的，如果用户录制媒体文件时不需要获取媒体文件中的音频信息，可以启动语音控制模式，在所述语音控制模式下获取用户输入的语音信息，所述语音控制模式为通过语音控制录制所述媒体文件；然后对所述语音信息进行语音识别得到控制命令；根据所述控制命令，录制所述媒体文件。例如，在语音控制模式下，用户发出语音“停止”，则停止录制媒体文件。用户发出语音“开始”，则开始录制媒体文件。如果用户录制媒体文件时需要获取媒体文件中的音频信息，也可以从语音控制模式切换到语音录制模式，所述语音录制模式为对媒体文件中的音频信息进行语音识别的模式。

在本申请实施例中，在录制用于直播的媒体文件时获取媒体文件中的音频信息；识别音频信息，获得音频信息对应的文字信息；并标记文字信息中每个文字的时间点，该时间点为根据音频信息的播放时间确定的；最后将文字信息添加到媒体文件，播放添加有文字信息的媒体文件。通过在录制媒体文件过程中对音频信息进行语音识别得到字幕，以便在进行直播时将字幕添加到媒体文件中，而不需要人工撰写字幕，从而在直播过程中及时显示字幕，提高视频的处理效率。

如图3所示，图3是本申请实施例提供的另一种视频处理方法的流程示意图。本申请实施例中的步骤至少包括：

S301，在录制用于直播的媒体文件时获取所述媒体文件中的音频信息。

S302，电子设备向语音服务器发送所述音频信息。

S303，语音服务器接收到音频信息之后，识别所述音频信息并生成所述文字信息，然后向电子设备发送文字信息。

可选的，电子设备可以在本地使用自动字幕工具对所述音频信息进行语音识别得到文字信息。也可以通过语音服务器对所述音频信息进行语音识别得到文字信息。然后对通过本地方式识别得到文字信息和通过语音服务器识别得到的文字信息进行比较，如果通过本地方式识别得到文字信息的准确率高，则采用本地方式识别语音信息。如果通过语音服务器识别得到文字信息的准确率高，则通过语音服务器识别语音信息。

S304，标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息。

S305，将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文件。

如图4所示，图4是本申请实施例提供的一种视频处理装置的结构示意图。该视频处理装置可以包括获取模块401、处理模块402和发送模块403和接收模块404，各个模块的作用和功能如下。

获取模块401，用于在录制用于直播的媒体文件时获取所述媒体文件中的音频信息。

处理模块402，用于识别所述音频信息，获得所述音频信息对应的文字信息。

可选的，发送模块403，用于向语音服务器发送所述音频信息，以使所述语音服务器识别所述音频信息并生成所述文字信息；接收模块404，用于接收所述语音服务器返回的所述文字信息。通过不同的方式进行语音识别，保障语音识别的准确性。

可选的，可以对通过本地方式识别得到文字信息和通过语音服务器识别得到的文字信息进行比较，如果通过本地方式识别得到文字信息的准确率高，则采用本地方式识别语音信息。如果通过语音服务器识别得到文字信息的准确率高，则通过语音服务器识别语音信息。

可选的，处理模块402，还用于标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息。

处理模块402，还用于将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文件。

请参考图5，图5是本申请实施例提出的一种电子设备的结构示意图。如图所示，该电子设备可以包括：至少一个处理器501，例如CPU，至少一个接收器503，至少一个存储器504，至少一个发送器505，至少一个通信总线502。其中，通信总线502用于实现这些组件之间的连接通信。其中，本申请实施例中电子设备的接收器503和发送器505可以是有线发送端口，也可以为无线设备，例如包括天线装置，用于与其他节点设备进行信令或数据的通信。存储器504可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。存储器504中存储一组程序代码，且处理器501用于调用存储器中存储的程序代码，用于执行以下操作：

识别所述音频信息，获得所述音频信息对应的文字信息；

其中，处理器501还用于执行如下操作步骤：

接收所述语音服务器返回的所述文字信息。

其中，处理器501还用于执行如下操作步骤：

对所述文字信息进行翻译得到翻译文字；

其中，处理器501还用于执行如下操作步骤：

根据用户输入的操作指令，调整所述文字信息的显示格式。

其中，处理器501还用于执行如下操作步骤：

对所述语音信息进行语音识别得到控制命令；

根据所述控制命令，录制所述媒体文件。

进一步的，处理器还可以与存储器和通信总线相配合，执行上述申请实施例中电子设备的操作。

需要说明的是，本申请实施例同时也提供了一种存储介质，该存储介质用于存储应用程序，该应用程序用于在运行时执行图2所示的一种视频处理方法以及图3所示的一种视频处理方法中电子设备执行的操作。

需要说明的是，本申请实施例同时也提供了一种应用程序，该应用程序用于在运行时执行图2所示的一种视频处理方法以及图3所示的一种视频处理方法中电子设备执行的操作。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例所提供的内容下载方法及相关设备、***进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频处理方法，其特征在于，所述方法应用于电子设备，所述方法包括：

启动语音控制模式，在所述语音控制模式下获取用户输入的语音信息，所述语音控制模式为通过语音控制录制媒体文件的模式；

对所述语音信息进行语音识别得到控制命令；

根据所述控制命令，开始录制媒体文件；

从所述语音控制模式切换到语音录制模式，在录制用于直播的媒体文件时获取所述媒体文件中的音频信息，所述语音录制模式为对所述媒体文件中的音频信息进行语音识别的模式；

识别所述音频信息，获得所述音频信息对应的文字信息；

2.如权利要求1所述的方法，其特征在于，所述识别所述音频信息，获得所述音频信息对应的文字信息包括：

接收所述语音服务器返回的所述文字信息。

3.如权利要求1所述的方法，其特征在于，所述识别所述音频信息，获得所述音频信息对应的文字信息之后，所述方法还包括：

对所述文字信息进行翻译得到翻译文字；

4.如权利要求1-3任一项所述的方法，其特征在于，所述播放添加有所述文字信息的媒体文件包括：

根据用户输入的操作指令，调整所述文字信息的显示格式。

5.一种视频处理装置，其特征在于，所述装置包括：

处理模块，用于启动语音控制模式，在所述语音控制模式下获取用户输入的语音信息，所述语音控制模式为通过语音控制录制媒体文件的模式；对所述语音信息进行语音识别得到控制命令；根据所述控制命令，开始录制媒体文件；

获取模块，用于从所述语音控制模式切换到语音录制模式，在录制用于直播的媒体文件时获取所述媒体文件中的音频信息，所述语音录制模式为对所述媒体文件中的音频信息进行语音识别的模式；

所述处理模块，还用于识别所述音频信息，获得所述音频信息对应的文字信息；标记所述文字信息中每个文字的时间点，所述时间点为根据所述音频信息的播放时间确定的，所述时间点用于同步播放所述音频信息和所述文字信息；将所述文字信息添加到所述媒体文件，播放添加有所述文字信息的媒体文件。

6.如权利要求5所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收所述语音服务器返回的所述文字信息。

7.如权利要求5所述的装置，其特征在于，

所述处理模块，还用于对所述文字信息进行翻译得到翻译文字；在播放添加有所述文字信息的媒体文件时，显示所述翻译文字和所述文字信息。

8.如权利要求5-7任一项所述的装置，其特征在于，所述装置还包括：

所述处理模块，还用于根据用户输入的操作指令，调整所述文字信息的显示格式。

9.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-4任一项所述的方法。