CN113299318B

CN113299318B - 一种音频节拍的检测方法、装置、计算机设备和存储介质

Info

Publication number: CN113299318B
Application number: CN202110565138.6A
Authority: CN
Inventors: 罗海斯·马尔斯; 胡正倫
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2024-02-23
Anticipated expiration: 2041-05-24
Also published as: CN113299318A

Abstract

本发明实施例提供了一种音频节拍的检测方法、装置、计算机设备和存储介质，该方法包括：获取多媒体文件，多媒体文件中具有多帧音频信号，从多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量，对多帧音频特征向量进行编码，获得第一背景向量，在对第一背景向量添加关于音频信号的注意力的条件下，对第一背景向量进行全局的解码，获得音频信号表达的音符，注意力机制具有更高的感受野，可感知全局的信息，有注意对长期信息建模，适于处理音频信号中的节拍，并且，使用注意力机制训练时并不要求样本帧级对齐，降低对样本的要求，提高符合条件的样本的数量，在保证模型的性能的条件下简化模型训练，从而保证检测节拍的精确度。

Description

一种音频节拍的检测方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及多媒体的技术领域，尤其涉及一种音频节拍的检测方法、装置、计算机设备和存储介质。

背景技术

短视频、微电影等多媒体数据广泛应用，在这些多媒体数据中多使用不同的音乐，多媒体数据与音乐同步、方便进行字幕、特效等后期处理，提高用户观看多媒体数据的体验。

许多用户会使用特定的工具制作多媒体数据，这些工具多会使用音乐节拍检测算法(Musical beat detection)对齐多媒体数据与音乐的音符，从而减少将多媒体数据与音乐的音符同步的工作量。

目前，节拍检测算法多是使用卷积神经网络，卷积神经网络需要使用已对齐节拍的多媒体数据作为样本进行训练，但是，将连续的音乐注释成与音符相对应的片段，从而在时间轴上获得节拍精确的位置既困难又耗时，从而导致样本的数量少，卷积神经网络的性能受到有限的感受野和缺乏样本的影响，性能较差，检测的节拍的精确度较低。

发明内容

本发明实施例提出了一种音频节拍的检测方法、装置、计算机设备和存储介质，以解决检测的节拍的精确度较低的问题。

第一方面，本发明实施例提供了一种音频节拍的检测方法，包括：

获取多媒体文件，所述多媒体文件中具有多帧音频信号；

从所述多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量；

对多帧所述音频特征向量进行编码，获得第一背景向量；

在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符。

第二方面，本发明实施例还提供了一种音频节拍的检测装置，包括：

多媒体文件获取模块，用于获取多媒体文件，所述多媒体文件中具有多帧音频信号；

局部特征提取模块，用于从所述多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量；

音频编码模块，用于对多帧所述音频特征向量进行编码，获得第一背景向量；

音频解码模块，用于在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符。

第三方面，本发明实施例还提供了一种计算机设备，包括：

特征提取器，用于从多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量；

编码器，用于对多帧所述音频特征向量进行编码，获得第一背景向量；

带注意力的解码器，用于在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符。

第四方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的音频节拍的检测方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的音频节拍的检测方法。

在本实施例中，获取多媒体文件，多媒体文件中具有多帧音频信号，从多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量，对多帧音频特征向量进行编码，获得第一背景向量，在对第一背景向量添加关于音频信号的注意力的条件下，对第一背景向量进行全局的解码，获得音频信号表达的音符，注意力机制具有更高的感受野，可感知全局的信息，有注意对长期信息建模，适于处理音频信号中的节拍，并且，使用注意力机制训练时并不要求样本帧级对齐，降低对样本的要求，提高符合条件的样本的数量，在保证模型的性能的条件下简化模型训练，从而保证检测节拍的精确度。

附图说明

图1为本发明实施例一提供的一种音频节拍的检测方法的流程图；

图2为本发明实施例一提供的一种音频节拍的检测模型的结构示意图；

图3是本发明实施例一提供的一种编码器与带注意力的解码器的结构示意图；

图4为本发明实施例二提供的一种音频节拍的检测装置的结构示意图；

图5为本发明实施例三提供的一种计算机设备的结构示意图

图6为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种音频节拍的检测方法的流程图，本实施例可适用于对音频学习近距离的局部特征、基于长距离的全局背景建模，从而检测该音频的节拍的情况，该方法可以由音频节拍的检测装置来执行，该音频节拍的检测装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：

步骤101、获取多媒体文件。

在不同的业务场景中，多媒体文件的形式有所不同，例如，短视频、电影、电视剧，等等，本实施例对此不加以限制。

在多媒体文件中具有多帧音频信号，该音频信号的格式可以包括MP3、WMA、AAC，本实施例对此不加以限制。

针对不同的内容，该音频信号的形式有可能是用户说话的声音、动物的叫声、车鸣声，也有可能是歌曲、纯音乐、用户的哼唱，等等，即，可能存在至少部分音频信号存在节拍，即强拍和弱拍的组合规律，具体是指在乐谱中每一小节的音符总长度，常见的1/4、2/4、3/4、4/4、3/8、6/8、7/8、9/8、12/8拍等等，每小节的长度一般是固定的。

步骤102、从多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量。

在本实施例中，可以预先使用音频信号作为样本训练音频节拍的检测模型，该音频节拍的检测模型可用于检测音频信号的节拍，当训练完成时，记录该音频节拍的检测模型的结构及其参数，当检测当前多媒体数据的节拍时，将该结构下的音频节拍的检测模型加载至内存，并在音频节拍的检测模型中应用该参数。

进一步而言，如图2所示，音频节拍的检测模型包括特征提取器、编码器(Encoder)、带注意力的解码器(Attention-Decoder)。

其中，该特征提取器可用于对于提取音频信号的特征，针对当前的多媒体文件，可将其多个音频信号组成的序列x₁，x₂，…，x_T输入特征提取器中进行处理，从而输出该音频信号的特征，为便于标识，该特征可以称之为音频特征向量。

在一种特征提取器的示例中，该特征提取器可以卷积层(Convolutional Layer)，卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。

因此，在本示例中，在音频节拍的检测模型中可确定卷积层，将多媒体文件的多帧音频信号输入卷积层中进行卷积操作，获得多帧音频特征向量，卷积层可以将音频信号编码为高级表示，处理有限的感受野(Receptive Field)的局部结构。

其中，感受野的定义是卷积层输出的特征图(feature map)上的数据在输入的数据上映射的区域大小。

当然，上述特征提取器只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它特征提取器，例如，多个卷积层、GRU(gated recurrent unit，门控循环单元)，等等，本发明实施例对此不加以限制。另外，除了上述判断处理方法外，本领域技术人员还可以根据实际需要采用其它特征提取器，本发明实施例对此也不加以限制。

步骤103、对多帧音频特征向量进行编码，获得第一背景向量。

一般情况下，编码器可用于将不定长的输入序列变换成一个定长的背景变量，在音频节拍的检测模型中，该编码器可用于提取音频信号中高层次的语音特征。

进一步而言，该编码器可以包括能够处理序列数据的网络，一般为堆叠的神经网络，例如，循环神经网络、递归神经网络，等等，其中，递归神经网络可以是单向的(每个第一时间步的第一隐藏状态取决于该第一时间步及之前的音频特征信号)、也可以是双向的(每个第一时间步的第一隐藏状态同时取决于该第一时间步之前和之后的音频特征信号(包括当前第一时间步输入的音频特征信号)，并编码了整个音频特征信号，以使将来的信息能够用于当前第一时间步长的预测)，在使用特征提取器提取音频特征向量之后，将音频特征向量组成的序列输入至编码器进行编码，编码器在完成编码时，输出第一背景向量。

在一种编码的方式中，对于单向的循环神经网络等编码器，背景变量通常来自于最终时间步的隐藏状态，针对批量大小为1的多媒体文件中各个音频信号的音频特征向量x₁，x₂，…，x_T，在第一时间步i，编码器将音频特征向量x_t和上个第一时间步的第一隐藏状态h_i-1变换为当前第一时间步的隐藏状态h_i，那么，可以用函数f表达编码器隐藏层的变换：

h_i＝f(x_i,h_i-1)

接下来，编码器通过自定义函数q将各个第一时间步的第一隐藏状态变换为第一背景变量：

c＝q(h₁,…,h_T)

在一些应用中，也可以直接将最后的隐藏层状态作为最终的语义编码C，即满足：

因此，在此种情况下，可以确定预先针对音频信号训练的编码器，将多帧音频特征向量输入编码器中进行编码，以输出位于编码器中末位第一时间步的多帧隐藏状态，作为第一背景向量。

步骤104、在对第一背景向量添加关于音频信号的注意力的条件下，对第一背景向量进行全局的解码，获得音频信号表达的音符。

传统的方案中，卷积神经网络共享基于位置的核函数来获取局部的信息，从而捕获边缘和形状等特征。然而，音乐等音频信号通常有一个长期的层次结构，相类似的模式可能会重复出现在样本中。

卷积神经网络没有显式地对输入音频信号的特征中的时间依赖性和模式进行建模。在过去，可以使用递归神经网络建模。然而，随着音频信号长度的增加，递归神经网络不能记住所有过去的信息。

这种随着输入大小的增加而忘记过去信息的限制可以通过使用额外的注意力来处理的，注意力模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如，人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点，然后对这一区域投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息。

因此，本实施例在音频节拍的检测模型中设置添加注意力的解码器，解码器用于将定长的背景变量变换成一个目标序列，为了利用自注意保持长期的层次结构，可在解码器中添加注意力的机制，在检测节拍的情况下，注意力在输入的第一背景向量本身内执行，从而使其自注意，自注意有助于根据不同的音频信号对音符的重要程度来对调节编码、解码的过程。

与卷积神经网络不同的是，在自注意的表示是通过第一背景向量的每一帧在不同状态下的注意力来计算的，并且对更相关的状态赋予更多的权重，每个状态感知全局信息，这将有助于对音乐结构和节拍建模长期信息。此外，使用注意力机制训练的***不依赖帧级对齐，因此，简化了音频节拍的检测模型的训练。

在本发明的一个实施例中，步骤104包括如下步骤：

步骤1041、确定预先针对音频信号训练的解码器。

步骤1042、基于当前所有第一背景向量计算位于解码器中当前第二时间步的第二背景向量，以表达对于音频信号的注意力。

对于添加注意力的解码器，可使用先前编码器的输出第一背景向量和当前第二时间步的第二背景向量的上下文向量对当前帧第二背景向量进行预测，使得在训练时，可对音频节拍的检测模型进行端到端的训练。

在本发明实施例的一个示例中，步骤1042包括如下步骤：

步骤10421、确定位于编码器中当前各个第一时间步的第一隐藏状态。

在本示例中，若使用循环神经网络等编码器，其末位第一时间步的多帧隐藏状态为第一背景向量，此时，可查询定位于编码器中当前各个第一时间步的第一隐藏状态，其中，编码器用于对多帧音频特征向量进行编码。

步骤10422、在同步解码器中当前第二时间步的条件下，分别对各个第一隐藏状态配置与音频信号的注意力相关的权重。

在本示例中，权重与注意力正相关，即对某帧第一隐藏状态的注意力更高，则该帧第一隐藏状态的权重越大，反之，对某帧第一隐藏状态的注意力更低，则该帧第一隐藏状态的权重越小。

在具体实现中，对于采用循环神经网络等解码器来说，如果要预测音频信号的符号y_t，则在第二时间步t，是可以知道在之前在解码器的隐层节点输出的第二隐藏状态s_t-1，而解码器添加注意力的目的是要计算生成符号y_t时的输入的各个音频信号对y_t来说的注意力分配概率分布，那么可以用第二时间步t的第二隐藏状态s_t-1去一一和编码器对应的隐层节点状态(即)进行对比，获得符号y_t和每个音频信号对齐的可能性。

一方面，可确定位于编码器中当前各个第一时间步的第一隐藏状态，另一方面，可确定位于解码器中上一第二时间步的第二隐藏状态。

从而将第一隐藏状态与第二隐藏状态输入与音频信号适配的注意力机制中，以输出相关性，其中，注意力机制可用于计算每帧第一隐藏状态对每帧第二隐藏状态的贡献，例如，加性注意力机制(additive attention)、位置基注意力机制(location baseattention)、点积注意力机制(dot product attention)、标度点积注意力机制(scaleddot product attention)，等等，本实施例对此不加以限制。

以softmax函数为例，如图3所示，注意力机制S(score)根据解码器在上一第二时间步的第二隐藏状态s_t-1和编码器在各个第一时间步的第一隐藏状态h_i计算softmax函数的输入，softmax函数输出概率分布，作为权重α_t,i，可表示为：

α_t,i＝softmax(score(s_t-1,h_i))

步骤10423、基于第一隐藏状态与权重计算位于解码器中当前第二时间步的第二背景向量，以表达对于音频信号的注意力。

在具体实现中，针对编码器中各个第一时间步，计算第一隐藏状态与权重之间的乘积，针对编码器中所有第一时间步，计算乘积之间的和值，获得位于解码器中当前第二时间步的第二背景向量，以表达对于音频信号的注意力。

进一步而言，如图3所示，注意力是通过使用第二隐藏状态的上下文向量来实现的，第二隐藏状态的上下文向量是编码器在各个第一时间步的第一隐藏状态进行加权平均，表示为：

其中，c_t为第二时间步t的第二背景向量，h_i为编码器在各个第一时间步的第一隐藏状态，α_t,i为在第二时间步中对于各个第一隐藏状态的权重。

步骤1043、将第二背景向量输入解码器中进行全局的解码，以输出音频信号表达的音符。

一般情况下，解码器可用于将特征信息变换成一个定长的输出序列，在音频节拍的检测模型中，该编码器可用于根据音频信号的语音特征识别音频信号表达的音符。

进一步而言，该解码器可以包括能够处理序列数据的网络，一般为堆叠的神经网络，例如，循环神经网络、递归神经网络，等等，

编码器输出的第一背景变量编码了整个语音信号的语音特征向量x₁，x₂，…，x_T的信息，得到第一背景向量，在添加注意的条件下得到第二背景向量。给定音频信号表达的音符的序列y₁，y₂，…，y_T，对每个第二时间步t(解码器的第二时间步t与编码器的第一时间步i是有区别的)，解码器输出yt的条件概率将基于之前的输出序列y₁，y₂，…，y_t-1和第二背景变量c，即P(y_t∣y₁，y₂，…，y_t-1，c)。

一般情况下，解码器是一个堆叠的神经网络，它计算输出音频信号表达的符号序列y＝[y₁，y₂，…，y_T]的概率，表示如下：

进一步而言，解码器从潜在的第二背景向量h＝[h₁，h₂，...，h_T]预测音频信号x表达的符号序列y＝[y₁，y₂，…，y_T]，其中，T表示解码器预测的符号的数目。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图4为本发明实施例二提供的一种音频节拍的检测装置的结构框图，具体可以包括如下模块：

多媒体文件获取模块401，用于获取多媒体文件，所述多媒体文件中具有多帧音频信号；

局部特征提取模块402，用于从所述多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量；

音频编码模块403，用于对多帧所述音频特征向量进行编码，获得第一背景向量；

音频解码模块404，用于在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符。

在本发明的一个实施例中，所述局部特征提取模块402包括：

卷积层确定模块，用于确定卷积层；

卷积操作模块，用于将所述多媒体文件的多帧音频信号输入所述卷积层中进行卷积操作，获得多帧音频特征向量。

在本发明的一个实施例中，所述音频编码模块403包括：

编码器确定模块，用于确定预先针对音频信号训练的编码器；

第一背景向量编码模块，用于将多帧所述音频特征向量输入所述编码器中进行编码，以输出位于所述编码器中末位第一时间步的多帧隐藏状态，作为第一背景向量。

在本发明的一个实施例中，所述音频解码模块404包括：

解码器确定模块，用于确定预先针对音频信号训练的解码器；

第二背景向量计算模块，用于基于当前所有所述第一背景向量计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力；

第二背景向量解码模块，用于将所述第二背景向量输入所述解码器中进行全局的解码，以输出所述音频信号表达的音符。

在本发明的一个实施例中，所述第二背景向量计算模块包括：

第一隐藏状态确定模块，用于确定位于编码器中当前各个第一时间步的第一隐藏状态，所述编码器用于对多帧所述音频特征向量进行编码；

权重配置模块，用于在同步所述解码器中当前第二时间步的条件下，分别对各个所述第一隐藏状态配置与所述音频信号的注意力相关的权重；

第二背景向量求解模块，用于基于所述第一隐藏状态与所述权重计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力。

在本发明的一个实施例中，所述权重配置模块包括：

第二隐藏状态确定模块，用于确定位于解码器中上一第二时间步的第二隐藏状态；

相关性计算模块，用于将所述第一隐藏状态与所述第二隐藏状态输入与所述音频信号适配的注意力机制中，以输出相关性；

相关性激活模块，用于对所述相关性进行激活，获得与所述音频信号的注意力相关的权重。

在本发明的一个实施例中，所述第二背景向量求解模块包括：

乘积计算模块，用于针对所述编码器中各个第一时间步，计算所述第一隐藏状态与所述权重之间的乘积；

求和模块，用于针对所述编码器中所有第一时间步，计算所述乘积之间的和值，获得位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力。

本发明实施例所提供的音频节拍的检测装置可执行本发明任意实施例所提供的音频节拍的检测方法，具备执行方法相应的功能模块和有益效果。

实施例三

图5为本发明实施例三提供的一种计算机设备的结构框图，该计算机设备具体可以包括：

特征提取器501，用于从多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量；

编码器502，用于对多帧所述音频特征向量进行编码，获得第一背景向量；

带注意力的解码器503，用于在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符。

在本发明的一个实施例中，所述特征提取器501包括：

卷积层，用于对所述多媒体文件的多帧音频信号输入进行卷积操作，获得多帧音频特征向量。

在本发明的一个实施例中，所述编码器502预先针对音频信号训练，还用于：

对多帧所述音频特征向量输入进行编码，以输出位于所述编码器中末位第一时间步的多帧隐藏状态，作为第一背景向量。

在本发明的一个实施例中，所述带注意力的解码器503包括：

预先针对音频信号训练的解码器；

注意力模块，用于基于当前所有所述第一背景向量计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力；

所述解码器，用于将所述第二背景向量输入所述解码器中进行全局的解码，以输出所述音频信号表达的音符。

在本发明的一个实施例中，所述注意力模块还用于：

确定位于编码器中当前各个第一时间步的第一隐藏状态，所述编码器用于对多帧所述音频特征向量进行编码；

在同步所述解码器中当前第二时间步的条件下，分别对各个所述第一隐藏状态配置与所述音频信号的注意力相关的权重；

基于所述第一隐藏状态与所述权重计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力。

在本发明的一个实施例中，所述注意力模块还用于：

确定位于所述编码器中当前各个第一时间步的第一隐藏状态；

确定位于解码器中上一第二时间步的第二隐藏状态；

将所述第一隐藏状态与所述第二隐藏状态输入与所述音频信号适配的注意力机制中，以输出相关性；

对所述相关性进行激活，获得与所述音频信号的注意力相关的权重。

在本发明的一个实施例中，所述解码器还用于：

针对所述编码器中各个第一时间步，计算所述第一隐藏状态与所述权重之间的乘积；

针对所述编码器中所有第一时间步，计算所述乘积之间的和值，获得位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力。

本发明实施例所提供的计算机设备可执行本发明任意实施例所提供的音频节拍的检测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的音频节拍的检测方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频节拍的检测方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音频节拍的检测方法，其特征在于，包括：

获取多媒体文件，所述多媒体文件中具有多帧音频信号；

对多帧所述音频特征向量进行编码，获得第一背景向量；

在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符；

所述对多帧所述音频特征向量进行编码，获得第一背景向量，包括：

确定预先针对音频信号训练的编码器；

将多帧所述音频特征向量输入所述编码器中进行编码，以输出位于所述编码器中末位第一时间步的多帧隐藏状态，作为第一背景向量。

2.根据权利要求1所述的方法，其特征在于，所述从所述多媒体文件的多帧音频信号中提取局部的特征，获得多帧音频特征向量，包括：

确定卷积层；

将所述多媒体文件的多帧音频信号输入所述卷积层中进行卷积操作，获得多帧音频特征向量。

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符，包括：

确定预先针对音频信号训练的解码器；

基于当前所有所述第一背景向量计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力；

将所述第二背景向量输入所述解码器中进行全局的解码，以输出所述音频信号表达的音符。

4.根据权利要求3所述的方法，其特征在于，所述基于当前所有所述第一背景向量计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力，包括：

5.根据权利要求4所述的方法，其特征在于，所述与所述解码器中当前第二时间步同步的条件下，分别对各个所述第一隐藏状态配置与所述音频信号的注意力相关的权重，包括：

确定位于解码器中上一第二时间步的第二隐藏状态；

6.根据权利要求4所述的方法，其特征在于，所述基于所述第一隐藏状态与所述权重计算位于所述解码器中当前第二时间步的第二背景向量，以表达对于所述音频信号的注意力，包括：

7.一种音频节拍的检测装置，其特征在于，包括：

音频解码模块，用于在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符；

所述音频编码模块包括：

8.一种计算机设备，其特征在于，包括：

带注意力的解码器，用于在对所述第一背景向量添加关于所述音频信号的注意力的条件下，对所述第一背景向量进行全局的解码，获得所述音频信号表达的音符；

所述编码器预先针对音频信号训练，还用于：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的音频节拍的检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的音频节拍的检测方法。