CN113781988A

CN113781988A - 字幕显示方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113781988A
Application number: CN202110876235.7A
Authority: CN
Inventors: 卢家辉
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-12-10
Also published as: WO2023005193A1

Abstract

本公开关于一种字幕显示方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：接收音频内容；响应于字幕添加操作，对音频内容进行识别，得到文本内容；响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容；基于文本内容与旋律内容，生成字幕并在显示界面上展示。通过本公开，解决了相关技术中基于音频显示字幕时，存在体现音频内容单一的问题。

Description

字幕显示方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及计算机领域，尤其涉及一种字幕显示方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，在相关技术中，STT字幕(Speech To Text，语音识别字幕)功能很受用户的欢迎。STT字幕的出现，可以很方便地让用户利用音频内容生成字幕内容。这些字幕内容能够让视频作品在互联网范围内广泛传播，使得视频的观看者更容易和更清晰地了解视频创作者的创作内容以及视频中的音频的文字信息。但是，这些利用语音识别功能识别出来的STT字幕，往往存在体现音频内容单一的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供一种字幕显示方法、装置、电子设备及计算机可读存储介质，以至少解决相关技术中基于音频显示字幕时，存在体现音频内容单一的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种字幕显示方法，包括：接收音频内容；响应于字幕添加操作，对所述音频内容进行识别，得到文本内容；响应于旋律识别操作，对所述音频内容的旋律信息进行识别，得到旋律内容；基于所述文本内容和所述旋律内容，生成字幕并在显示界面上显示。

可选地，基于所述文本内容和所述旋律内容，生成字幕并在显示界面上显示，包括：将所述文本内容拆分为独立文字，并记录各独立文字在所述音频内容中的时间信息；对所述音频内容的旋律信息进行识别，得到旋律内容包括：分别基于所述各独立文字在所述音频内容中的时间信息，选择与所述时间信息对应的部分音频内容的旋律信息进行识别，得到所述各独立文字对应的独立旋律内容，其中，所述各独立文字对应的独立旋律内容构成所述文本内容对应的旋律内容；基于所述各独立文字与对应的所述独立旋律内容，生成字幕并在所述显示界面上显示。

可选地，在所述时间信息包括所述各独立文字在所述音频内容中的开始时间点，和时长的情况下，分别基于所述各独立文字在所述音频内容中的时间信息，选择与所述时间信息对应的部分音频内容的旋律信息进行识别，得到所述各独立文字对应的独立旋律内容，包括：分别基于所述各独立文字在所述音频内容中的所述开始时间点，以及所述时长，选择与所述开始时间点和所述时长对应的部分音频内容；对所述部分音频内容进行处理，得到所述部分音频内容的频谱分布；基于所述频谱分布，得到所述各独立文字对应的独立旋律内容。

可选地，所述基于所述频谱分布，得到所述各独立文字对应的独立旋律内容，包括：在所述音频内容为音乐，所述独立旋律内容为音乐旋律的情况下，确定所述频谱分布中的最高频率为所述各独立文字的主频率；将所述主频率转换为音乐文字信息，其中，所述音乐文字信息表征所述各独立文字的音乐旋律。

可选地，所述音乐文字信息包括以下至少之一：数字形式的简谱，符号形式的五线谱。

可选地，所述在显示界面上显示所述字幕，包括：在所述文本内容的上方或下方显示所述旋律内容。

根据本公开实施例的第二方面，提供一种字幕显示方法，包括：在显示界面上播放视频，其中，所述视频中包括音频内容；接收字幕显示指令；响应所述字幕显示指令，在所述显示界面上显示字幕，其中，所述字幕包括：文本内容和旋律内容，所述文本内容通过对所述音频内容进行识别得到，所述旋律内容通过对所述音频内容的旋律信息进行识别得到。

根据本公开实施例的第三方面，提供一种字幕显示装置，包括：第一接收模块，用于接收音频内容；第一识别模块，用于响应于字幕添加操作，对所述音频内容进行识别，得到文本内容；第二识别模块，用于响应于所述旋律识别操作，对所述音频内容的旋律信息进行识别，得到旋律内容；处理模块，用于基于所述文本内容和所述旋律内容，生成字幕并在显示界面上显示。

可选地，所述处理模块包括：拆分单元和第一处理单元，其中，所述拆分单元，用于将所述文本内容拆分为独立文字，并记录各独立文字在所述音频内容中的时间信息；所述第二识别模块，还用于分别基于所述各独立文字在所述音频内容中的时间信息，选择与所述时间信息对应的部分音频内容的旋律信息进行识别，得到所述各独立文字对应的独立旋律内容，其中，所述各独立文字对应的独立旋律内容构成所述文本内容对应的旋律内容；所述第一处理单元，用于基于所述各独立文字与对应的所述独立旋律内容，生成字幕并在所述显示界面上显示。

可选地，所述第二识别模块包括：选择单元，用于在所述时间信息包括所述各独立文字在所述音频内容中的开始时间点，和时长的情况下，分别基于所述各独立文字在所述音频内容中的所述开始时间点，以及所述时长，选择与所述开始时间点和所述时长对应的部分音频内容；第二处理单元，用于对所述部分音频内容进行处理，得到所述部分音频内容的频谱分布；第三处理单元，用于基于所述频谱分布，得到所述各独立文字对应的独立旋律内容。

可选地，所述第三处理单元包括：确定子单元，用于在所述音频内容为音乐，所述独立旋律内容为音乐旋律的情况下，确定所述频谱分布中的最高频率为所述各独立文字的主频率；转换子单元，用于将所述主频率转换为音乐文字信息，其中，所述音乐文字信息表征所述各独立文字的音乐旋律。

可选地，所述处理模块包括：显示单元，用于在所述文本内容的上方或下方显示所述旋律内容。

根据本公开实施例的第四方面，提供一种字幕显示装置，包括：播放模块，用于在显示界面上播放视频，其中，所述视频中包括音频内容；第二接收模块，用于接收字幕显示指令；显示模块，用于响应所述字幕显示指令，在所述显示界面上显示字幕，其中，所述字幕包括：文本内容和旋律内容，所述文本内容通过对所述音频内容进行识别得到，所述旋律内容通过对所述音频内容的旋律信息进行识别得到。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现任一项所述的字幕显示方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行任一项所述的字幕显示方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现任一项所述的字幕显示方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过响应于字幕添加操作与旋律识别操作，对音频内容进行识别得到文本内容与旋律内容，基于上述文本内容与旋律内容生成字幕，进而在显示界面上显示字幕，由于显示的字幕是携带有旋律内容的，因此，该字幕不仅显示了音频的文本内容，而且对文本内容所不能体现的旋律内容也进行了显示，尽可能地减少了音频内容的丢失，较为完整地体现了音频内容，解决了相关技术中基于音频显示字幕时，存在体现音频内容单一的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种用于实现字幕显示方法的计算机终端的硬件结构框图。

图2是根据一示例性实施例示出的一种字幕显示方法一的流程图。

图3是根据一示例性实施例示出的一种字幕显示方法二的流程图。

图4是根据本发明可选实施方式的字幕显示方法的流程图。

图5是根据一示例性实施例示出的字幕显示装置一的装置框图。

图6是根据一示例性实施例示出的字幕显示装置二的装置框图。

图7是根据一示例性实施例示出的一种终端的装置框图。

图8是根据一示例性实施例示出的一种服务器的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

STT字幕：STT是Speech To Text的缩写，即“从语音到文本”。在移动端视频剪辑软件当中，利用语音识别技术将用户输入的音频转化成为文字，再将文字转化成为字幕内容嵌入到视频当中，称为STT字幕。

FFT变换：FFT变换是Fast Fourier Transform的简写，即快速傅立叶变换。FFT变换是快速计算序列的离散傅里叶变换(DFT，Discere Fourier Transform)或其逆变换的方法。傅里叶分析将信号从原始域(通常是时间或空间)转换到频域的表示或者逆过来转换。FFT会通过把DFT矩阵分解为稀疏(大多为零)因子之积来快速计算此类变换。因此，它能够将计算DFT的复杂度从只用DFT定义计算需要的O(n2)，降低到O(nlogn)，其中n为数据大小。

音乐简谱：一般所称的音乐简谱，系指数字简谱，用数字来表示音乐的旋律。数字简谱以可动唱名法为基础，用1、2、3、4、5、6、7代表音阶中的7个基本级，读音为do、re、mi、fa、sol、la、ti(中国为si)，英文由C、D、E、F、G、A、B表示，休止以0表示。每一个数字的时值名相当于五线谱的4分音符。

音乐频谱分析：音乐频谱分析是一种很常用的算法。频谱原理：根据傅立叶分析，任何声音可以分解为数个甚至无限个正弦波，而它们往往又包含有无数多的谐波分量。利用FFT(快速傅立叶变换)，可以将数字信号从时域信号转换为频域信号，从而得出音乐的频谱特征。

实施例1

根据本公开实施例，提出了一种字幕显示方法的方法实施例。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据一示例性实施例示出的一种用于实现字幕显示方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中的字幕显示方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的字幕显示方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本公开提供了如图2所示的字幕显示方法。图2是根据一示例性实施例示出的一种字幕显示方法一的流程图，如图2所示，该方法用于上述的计算机终端中，包括以下步骤。

在步骤S21中，接收音频内容；

在步骤S22中，响应于字幕添加操作，对音频内容进行识别，得到文本内容；

在步骤S23中，响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容；

在步骤S24中，基于文本内容和旋律内容，生成字幕并在显示界面上显示。

采用上述处理，通过响应于字幕添加操作与旋律识别操作，对音频内容进行识别得到文本内容与旋律内容，基于上述文本内容与旋律内容生成字幕，进而在显示界面上显示字幕，由于显示的字幕是携带有旋律内容的，因此，该字幕不仅显示了音频的文本内容，而且对文本内容所不能体现的旋律内容也进行了显示，尽可能地减少了音频内容的丢失，较为完整地体现了音频内容，解决了相关技术中基于音频显示字幕时，存在体现音频内容单一的问题。

在一个或多个可选实施例中，接收音频内容，其中，音频内容可以是多种类型的音频，例如，可以是一段录音、一首歌、一段视频，等等。音频内容的格式也可以为多种，例如MP3(Moving Picture Experts Group Audio Layer 3)格式，WMA(Windows Media Audio)格式，等等。

在一个或多个可选实施例中，响应于字幕添加操作，对音频内容进行识别，得到文本内容。字幕添加操作可以是基于对预定的控件的操作，也可以***默认配置的，例如，一接收到音频内容即自动触发该操作。因此，可以基于不同的场景需要灵活设置。在对音频内容进行识别时，可以采用多种方式，例如，可以依据多种智能语音处理软件实现。另外，对音频内容进行识别时，可以是识别实时的音频内容，也可以是非实时的，具体根据需求而定。

在一个或多个可选实施例中，响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容。旋律识别操作可以是基于对旋律选择控件的操作，也可以***默认配置的，例如，该旋律识别操作和上述字幕添加操作可以统一为一个操作，即在接收到该字幕添加操作时，也触发旋律识别的功能，从而简化操作流程，避免二次操作。其中，音频内容的旋律信息包括多种，例如，在音频内容中，所能表达出的旋律信息为多种。例如，可以根据音频内容的基频与音调、谐波与音色、幅度与音强、音宽与频带等等特征，分析出多种旋律信息。比如，当音频内容为一首歌时，可以根据音频内容的频率判断出歌曲的旋律，之后，可以自动生成五线谱或者是在歌曲的每个字幕上显示对应的简谱等等。

在一个或多个可选实施例中，基于文本内容和旋律内容，生成字幕并在显示界面上显示。即可以在字幕上携带有旋律内容。例如，当音频内容为音乐时，在显示字幕时，可以在显示的字幕上显示该音乐的旋律，此时，这些旋律可以有多种表示方法，比如，用1、2、3、4、5、6、7代表音阶中的7个基本级，或由C、D、E、F、G、A、B表示。因为音频内容为音乐时，歌词中的一个字可能会有不同的旋律，进而谱写出一段乐曲。例如：“啊”，这一个字在很多乐曲中得以引用，虽然字相同，但是表示出了不同的旋律，此时，就可以在“啊”字的上方标出此字的旋律，而且，在很多由乐器演奏的乐曲中，没有字幕，但是有旋律，此时，就可依据在字幕中的旋律信息来获取该音频内容，使得字幕更为完整地体现音频内容。

在一个或多个可选实施例中，在显示界面上显示字幕。其中，在显示界面上显示的字幕包括在文本内容的上方或下方显示旋律内容。能够使得字幕展现出有关音频内容的更多信息，使得用户的观感更加丰富，提升用户的体验感。而且当用户为音频内容的剪辑者时，用户可以简易地生成带音乐的旋律信息(例如，音乐简谱)的STT字幕，提高了观看字幕的趣味性，而且使得STT字幕的表达能力更强，极大地提高了用户剪辑视频的积极性和音频内容相关作品的质量。

在一个或多个可选实施例中，基于文本内容和旋律内容，生成字幕并在显示界面上显示时，可以采用多种方式，例如，将文本内容拆分为独立文字，并记录各独立文字在音频内容中的时间信息；对音频内容的旋律信息进行识别，得到旋律内容包括：分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，其中，各独立文字对应的独立旋律内容构成文本内容对应的旋律内容；基于各独立文字与对应的独立旋律内容，生成字幕并在显示界面上显示。例如，在一首歌曲中，可以将识别出来的每一个文字作为一个独立文字，记录该独立文字在音频内容中的时间信息。之后，根据各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，文本内容所包括的各独立文字对应的独立旋律内容构成了整首歌的旋律。采用针对文本内容中包包括的文字逐个对应旋律，即通过精确地得到各独立文字对应的独立旋律内容，可以使得依据该独立旋律内容得到整个音频内容所表达出的旋律内容更为清楚，从而实现对音频内容的较为全面的展示。

在一个或多个可选实施例中，在时间信息包括各独立文字在音频内容中的开始时间点，和时长的情况下，分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容时，可以采用以下方式：分别基于各独立文字在音频内容中的开始时间点，以及时长，选择与开始时间点和时长对应的部分音频内容；对部分音频内容进行处理，得到部分音频内容的频谱分布；基于频谱分布，得到各独立文字对应的独立旋律内容。其中，每个文字起始时间和每个文字的时长，可以以秒为单位或者更小的时间单元进行记录。分别基于各独立文字在音频内容中的开始时间点，以及时长，选择与开始时间点和时长对应的部分音频内容得到对应的独立旋律内容，由于该部分音频内容是与独立文字对应的开始时间点和时长确定的，因此，能够使得得到的独立旋律内容是与该独立文字对应的。在对该部分音频内容进行处理，得到该部分音频内容的频谱分布时，也可以采用多种方式，例如，可以对部分音频内容进行快速傅里叶变换，得到该部分音频内容的频谱分布。具体可以采用以下操作：先确定各独立文字对应的音频信号，例如，在取出文本内容当中的每一个独立文字对应的起始时间和时长的基础上，根据这个起始时间和时长，得到原音频文件当中该时间段内的音频信号，并且将这个时间段的音频信号作为快速傅立叶变换算法的输入，通过快速傅立叶变换算法识别出原音频文件该时间段的频谱分布。之后，依据该频谱分布，得到各独立文字对应的独立旋律内容。

在一个或多个可选实施例中，基于频谱分布，得到各独立文字对应的独立旋律内容时，也可以采用多种方式，例如：在音频内容为音乐，独立旋律内容为音乐旋律的情况下，确定频谱分布中的最高频率为各独立文字的主频率；将主频率转换为音乐文字信息，其中，音乐文字信息表征各独立文字的音乐旋律。其中，该音乐文字信息的形式可以多种，例如，可以是数字形式的音乐简谱，也可以是符号形式的五线谱，等等。通过将频谱分布中最强的频率作为该各独立文字对应的时间点的主频率，相对于其它表示方式而言，能够更为准确地体现音频内容的音频特征信息。

图3是根据一示例性实施例示出的一种字幕显示方法二的流程图，如图3所示，该方法用于上述的计算机终端中，包括以下步骤。

在步骤S31中，在显示界面上播放视频，其中，视频中包括音频内容；

在步骤S32中，接收字幕显示指令；

在步骤S33中，响应字幕显示指令，在显示界面上显示字幕，其中，字幕包括：文本内容和旋律内容，文本内容通过对音频内容进行识别得到，旋律内容通过对音频内容的旋律信息进行识别得到。

采用上述处理，通过在显示界面上显示包括音频内容的视频内容，接收并响应字幕显示指令，在显示界面上显示基于文本内容与旋律内容生成的字幕，其中，文本内容与旋律内容是对音频内容进行识别得到的，因此，该字幕不仅显示了音频的文本内容，而且对文本内容所不能体现的旋律内容也进行了显示，尽可能地减少了音频内容的丢失，较为完整地体现了音频内容，解决了相关技术中基于音频显示字幕时，存在体现音频内容单一的问题。

基于上述实施例及可选实施例，提供了一种可选实施方式，下面具体说明。

在相关技术中，通过移动端视频剪辑软件，利用语音识别功能识别出来的STT字幕表达出来的信息没有音频内容来得丰富，音频内容中除文字以外的信息会在语音识别过程中丢失。例如，如果用户添加一段歌曲内容，STT字幕只能表达出文字的内容，如音乐旋律等信息在STT字幕当中是无法表达的。而这些音乐旋律信息，本身也是这段音频的信息内容之一。基于此，在本可选实施方式中，提供了一种字幕显示方法，在该方法中，在生成STT字幕的同时，将音频内容的音乐旋律信息在字幕上表达出来。

例如，通过移动端视频剪辑软件，识别用户歌唱内容，并且在显示的字幕中添加音乐简谱。该方法通过频谱识别算法，将音频当中旋律以音乐简谱的形式添加到STT字幕当中，使得STT字幕的表达能力更强，更有趣味性，更能提高视频作品的传播范围。

图4是根据本发明可选实施方式的字幕显示方法的流程图，如图4所示，基于用户进行有关音频内容的视频剪辑的场景，下面进行详细介绍：

1)用户使用移动端视频剪辑软件导入一段音频内容。

2)当用户选择添加STT字幕的时候，询问用户是否需要将音频旋律识别出来并且添加到字幕当中，如果用户选择不使用该功能，则直接添加STT字幕即可。如果用户选择该功能，则进行步骤3)。

3)通过语音识别技术，将音频内容识别成文本，并且在识别过程中，需要记录音频当中每一个文字的起始时间和时长(单位是秒)，将这些文本信息、每个字起始时间和文字的时长，以json的文本的形式保存，保存的形式如下所示：

需要说明的是，在这个json当中，识别出来的每一个文字作为数组当中的一个元素，元素当中还记录了这个文字的起始时间(start_time)和每个文字的时长(duration)。其中melody字段代表这个字所在时间点的旋律，该旋律会在下文的处理和得到。

4)遍历这个json根节点的数组，取出数组当中的每个元素(每一个文字)对应的起始时间和时长，根据这个起始时间和时长，到原音频文件当中获取该时间段所有声音信号,并且将这段时间的声音信号作为FFT算法的输入，通过FFT算法识别出原音频文件该时间段的频谱分布。之后，将该时间段频谱分布最强的频率作为该时间点的主频率，并且将主频率以简谱的形式记录到json当中，字段为melody，经过步骤4)之后，json的内容变为如下所示：

5)当视频剪辑软件添加STT字幕的时候，在STT字幕的上方添加音乐简谱的字幕，通过这种方式，就可以生成带有音乐简谱的STT字幕。

通过上述可选实施方式，可以达到至少以下几点有益效果：

(1)视频剪辑软件用户可以通过移动端视频剪辑软件简易地生成带音乐简谱信息的STT字幕，提高了视频作品的趣味性；

(2)使得STT字幕的表达能力更强，极大地提高了用户剪辑视频的积极性和剪辑作品的质量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例的方法。

实施例2

根据本公开实施例，还提供了一种用于实施上述字幕显示方法一的装置，图5是根据一示例性实施例示出的字幕显示装置一的装置框图。参照图5，该装置包括：第一接收模块502，第一识别模块504，第二识别模块506和处理模块508，下面对该装置进行说明。

第一接收模块502，用于接收音频内容；第一识别模块504，连接于上述第一接收模块502，用于响应于字幕添加操作，对音频内容进行识别，得到文本内容；第二识别模块506，连接于上述第一识别模块504，用于响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容；处理模块508，连接于上述第二识别模块506，用于基于文本内容和旋律内容，生成字幕并在显示界面上显示。

在一个或多个可选实施例中，处理模块508包括：拆分单元和第一处理单元，其中，拆分单元，用于将文本内容拆分为独立文字，并记录各独立文字在音频内容中的时间信息；第二识别模块，还用于分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，其中，各独立文字对应的独立旋律内容构成文本内容对应的旋律内容；第一处理单元，用于基于各独立文字与对应的独立旋律内容，生成字幕并在显示界面上显示。

在一个或多个可选实施例中，处理模块508还包括：显示单元，用于在文本内容的上方或下方显示旋律内容。

在一个或多个可选实施例中，第二识别模块506包括：选择单元，用于在时间信息包括各独立文字在音频内容中的开始时间点，和时长的情况下，分别基于各独立文字在音频内容中的开始时间点，以及时长，选择与开始时间点和时长对应的部分音频内容；第二处理单元，用于对部分音频内容进行处理，得到部分音频内容的频谱分布；第三处理单元，用于基于频谱分布，得到各独立文字对应的独立旋律内容。

在一个或多个可选实施例中，第三处理单元包括：确定子单元，用于在音频内容为音乐，独立旋律内容为音乐旋律的情况下，确定频谱分布中的最高频率为各独立文字的主频率；转换子单元，用于将主频率转换为音乐文字信息，其中，音乐文字信息表征各独立文字的音乐旋律。

此处需要说明的是，上述第一接收模块502，第一识别模块504，第二识别模块506和处理模块508对应于实施例1中的步骤S21至步骤S24，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本公开实施例，还提供了一种用于实施上述字幕显示方法二的装置，图6是根据一示例性实施例示出的字幕显示装置二的装置框图。参照图6，该装置包括：播放模块602，第二接收模块604和显示模块606，下面对该装置进行说明。

播放模块602，用于在显示界面上播放视频，其中，视频中包括音频内容；第二接收模块604，连接于上述播放模块602，用于接收字幕显示指令；显示模块606，连接于上述第二接收模块604，用于响应字幕显示指令，在显示界面上显示字幕，其中，字幕包括：文本内容和旋律内容，文本内容通过对音频内容进行识别得到，旋律内容通过对音频内容的旋律信息进行识别得到。

此处需要说明的是，上述播放模块602，第二接收模块604和显示模块606对应于实施例1中的步骤S31至步骤S33，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例3

本公开的实施例可以提供一种电子设备，该电子设备可以是一种终端，也可以是一种服务器。例如，当该电子设备为一种终端时，该终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述终端也可以为移动终端等终端设备。

可选地，在本实施例中，上述终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，图7是根据一示例性实施例示出的一种终端的结构框图。如图7所示，该终端可以包括：一个或多个(图中仅示出一个)处理器71、用于存储处理器可执行指令的存储器72；其中，处理器被配置为执行指令，以实现上述任一项的字幕显示方法。

其中，存储器可用于存储软件程序以及模块，如本公开实施例中的字幕显示方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的字幕显示方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收音频内容；响应于字幕添加操作，对音频内容进行识别，得到文本内容；响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容；基于文本内容和旋律内容，生成字幕并在显示界面上显示。

可选的，上述处理器还可以执行如下步骤的程序代码：基于文本内容和旋律内容，生成字幕并在显示界面上显示，包括：将文本内容拆分为独立文字，并记录各独立文字在音频内容中的时间信息；对音频内容的旋律信息进行识别，得到旋律内容包括：分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，其中，各独立文字对应的独立旋律内容构成文本内容对应的旋律内容；基于各独立文字与对应的独立旋律内容，生成字幕并在显示界面上显示。

可选的，上述处理器还可以执行如下步骤的程序代码：在时间信息包括各独立文字在音频内容中的开始时间点，和时长的情况下，分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，包括：分别基于各独立文字在音频内容中的开始时间点，以及时长，选择与开始时间点和时长对应的部分音频内容；对部分音频内容进行处理，得到部分音频内容的频谱分布；基于频谱分布，得到各独立文字对应的独立旋律内容。

可选的，上述处理器还可以执行如下步骤的程序代码：基于频谱分布，得到各独立文字对应的独立旋律内容，包括：在音频内容为音乐，独立旋律内容为音乐旋律的情况下，确定频谱分布中的最高频率为各独立文字的主频率；将主频率转换为音乐文字信息，其中，音乐文字信息表征各独立文字的音乐旋律。

可选的，上述处理器还可以执行如下步骤的程序代码：音乐文字信息包括以下至少之一：数字形式的简谱，符号形式的五线谱。

可选的，上述处理器还可以执行如下步骤的程序代码：在显示界面上显示字幕，包括：在文本内容的上方或下方显示旋律内容。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在显示界面上播放视频，其中，视频中包括音频内容；接收字幕显示指令；响应字幕显示指令，在显示界面上显示字幕，其中，字幕包括：文本内容和旋律内容，文本内容通过对音频内容进行识别得到，旋律内容通过对音频内容的旋律信息进行识别得到。

如上，该电子设备还可以是一种服务器，本公开的实施例提供了一种服务器，图8是根据一示例性实施例示出的一种服务器的结构框图。如图8所示，该服务器17可以包括：一个或多个(图中仅示出一个)处理组件81、用于存储处理组件81可执行指令的存储器82、提供电源的电源组件83，实现与外部网络通信的网络接口84和与外部进行数据传输的I/O输入输出接口85；其中，处理组件81被配置为执行指令，以实现上述任一项的字幕显示方法。

处理组件可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收音频内容；响应于字幕添加操作，对音频内容进行识别，得到文本内容；响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容；基于文本内容和旋律内容，生成字幕并在显示界面上显示。

可选的，上述处理组件还可以执行如下步骤的程序代码：基于文本内容和旋律内容，生成字幕并在显示界面上显示，包括：将文本内容拆分为独立文字，并记录各独立文字在音频内容中的时间信息；对音频内容的旋律信息进行识别，得到旋律内容包括：分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，其中，各独立文字对应的独立旋律内容构成文本内容对应的旋律内容；基于各独立文字与对应的独立旋律内容，生成字幕并在显示界面上显示。

可选的，上述处理组件还可以执行如下步骤的程序代码：在时间信息包括各独立文字在音频内容中的开始时间点，和时长的情况下，分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，包括：分别基于各独立文字在音频内容中的开始时间点，以及时长，选择与开始时间点和时长对应的部分音频内容；对部分音频内容进行处理，得到部分音频内容的频谱分布；基于频谱分布，得到各独立文字对应的独立旋律内容。

可选的，上述处理组件还可以执行如下步骤的程序代码：基于频谱分布，得到各独立文字对应的独立旋律内容，包括：在音频内容为音乐，独立旋律内容为音乐旋律的情况下，确定频谱分布中的最高频率为各独立文字的主频率；将主频率转换为音乐文字信息，其中，音乐文字信息表征各独立文字的音乐旋律。

可选的，上述处理组件还可以执行如下步骤的程序代码：音乐文字信息包括以下至少之一：数字形式的简谱，符号形式的五线谱。

可选的，上述处理组件还可以执行如下步骤的程序代码：在显示界面上显示字幕，包括：在文本内容的上方或下方显示旋律内容。

处理组件可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在显示界面上播放视频，其中，视频中包括音频内容；接收字幕显示指令；响应字幕显示指令，在显示界面上显示字幕，其中，字幕包括：文本内容和旋律内容，文本内容通过对音频内容进行识别得到，旋律内容通过对音频内容的旋律信息进行识别得到。

本领域普通技术人员可以理解，图7，图8所示的结构仅为示意，例如，上述终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7，图8其并不对上述电子装置的结构造成限定。例如，还可包括比图7，图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7，图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例4

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，当计算机可读存储介质中的指令由终端的处理器执行时，使得终端能够执行上述任一项的字幕显示方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的字幕显示方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：接收音频内容；响应于字幕添加操作，对音频内容进行识别，得到文本内容；响应于旋律识别操作，对音频内容的旋律信息进行识别，得到旋律内容；基于文本内容和旋律内容，生成字幕并在显示界面上显示。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于文本内容和旋律内容，生成字幕并在显示界面上显示，包括：将文本内容拆分为独立文字，并记录各独立文字在音频内容中的时间信息；对音频内容的旋律信息进行识别，得到旋律内容包括：分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，其中，各独立文字对应的独立旋律内容构成文本内容对应的旋律内容；基于各独立文字与对应的独立旋律内容，生成字幕并在显示界面上显示。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在时间信息包括各独立文字在音频内容中的开始时间点，和时长的情况下，分别基于各独立文字在音频内容中的时间信息，选择与时间信息对应的部分音频内容的旋律信息进行识别，得到各独立文字对应的独立旋律内容，包括：分别基于各独立文字在音频内容中的开始时间点，以及时长，选择与开始时间点和时长对应的部分音频内容；对部分音频内容进行处理，得到部分音频内容的频谱分布；基于频谱分布，得到各独立文字对应的独立旋律内容。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于频谱分布，得到各独立文字对应的独立旋律内容，包括：在音频内容为音乐，独立旋律内容为音乐旋律的情况下，确定频谱分布中的最高频率为各独立文字的主频率；将主频率转换为音乐文字信息，其中，音乐文字信息表征各独立文字的音乐旋律。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：音乐文字信息包括以下至少之一：数字形式的简谱，符号形式的五线谱。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在显示界面上显示字幕，包括：在文本内容的上方或下方显示旋律内容。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在显示界面上播放视频，其中，视频中包括音频内容；接收字幕显示指令；响应字幕显示指令，在显示界面上显示字幕，其中，字幕包括：文本内容和旋律内容，文本内容通过对音频内容进行识别得到，旋律内容通过对音频内容的旋律信息进行识别得到。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的计算机程序由终端的处理器执行时，使得终端能够执行上述任一项的字幕显示方法。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种字幕显示方法，其特征在于，包括：

接收音频内容；

响应于字幕添加操作，对所述音频内容进行识别，得到文本内容；

响应于旋律识别操作，对所述音频内容的旋律信息进行识别，得到旋律内容；

基于所述文本内容和所述旋律内容，生成字幕并在显示界面上显示。

2.根据权利要求1所述的方法，其特征在于，基于所述文本内容和所述旋律内容，生成字幕并在显示界面上显示，包括：

将所述文本内容拆分为独立文字，并记录各独立文字在所述音频内容中的时间信息；

对所述音频内容的旋律信息进行识别，得到旋律内容包括：分别基于所述各独立文字在所述音频内容中的时间信息，选择与所述时间信息对应的部分音频内容的旋律信息进行识别，得到所述各独立文字对应的独立旋律内容，其中，所述各独立文字对应的独立旋律内容构成所述文本内容对应的旋律内容；

基于所述各独立文字与对应的所述独立旋律内容，生成字幕并在所述显示界面上显示。

3.根据权利要求2所述的方法，其特征在于，在所述时间信息包括所述各独立文字在所述音频内容中的开始时间点，和时长的情况下，分别基于所述各独立文字在所述音频内容中的时间信息，选择与所述时间信息对应的部分音频内容的旋律信息进行识别，得到所述各独立文字对应的独立旋律内容，包括：

分别基于所述各独立文字在所述音频内容中的所述开始时间点，以及所述时长，选择与所述开始时间点和所述时长对应的部分音频内容；

对所述部分音频内容进行处理，得到所述部分音频内容的频谱分布；

基于所述频谱分布，得到所述各独立文字对应的独立旋律内容。

4.根据权利要求3所述的方法，其特征在于，所述基于所述频谱分布，得到所述各独立文字对应的独立旋律内容，包括：

在所述音频内容为音乐，所述独立旋律内容为音乐旋律的情况下，确定所述频谱分布中的最高频率为所述各独立文字的主频率；

将所述主频率转换为音乐文字信息，其中，所述音乐文字信息表征所述各独立文字的音乐旋律。

5.一种字幕显示方法，其特征在于，包括：

在显示界面上播放视频，其中，所述视频中包括音频内容；

接收字幕显示指令；

响应所述字幕显示指令，在所述显示界面上显示字幕，其中，所述字幕包括：文本内容和旋律内容，所述文本内容通过对所述音频内容进行识别得到，所述旋律内容通过对所述音频内容的旋律信息进行识别得到。

6.一种字幕显示装置，其特征在于，包括：

第一接收模块，用于接收音频内容；

第一识别模块，用于响应于字幕添加操作，对所述音频内容进行识别，得到文本内容；

第二识别模块，用于响应于旋律识别操作，对所述音频内容的旋律信息进行识别，得到旋律内容；

处理模块，用于基于所述文本内容和所述旋律内容，生成字幕并在显示界面上显示。

7.一种字幕显示装置，其特征在于，包括：

播放模块，用于在显示界面上播放视频，其中，所述视频中包括音频内容；

第二接收模块，用于接收字幕显示指令；

显示模块，用于响应所述字幕显示指令，在所述显示界面上显示字幕，其中，所述字幕包括：文本内容和旋律内容，所述文本内容通过对所述音频内容进行识别得到，所述旋律内容通过对所述音频内容的旋律信息进行识别得到。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的字幕显示方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的字幕显示方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的字幕显示方法。