CN109192223B

CN109192223B - 音频对齐的方法和装置

Info

Publication number: CN109192223B
Application number: CN201811103153.3A
Authority: CN
Inventors: 肖纯智
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2020-10-27
Anticipated expiration: 2038-09-20
Also published as: CN109192223A

Abstract

本申请提供了一种音频对齐的方法和装置，属于计算机技术领域。所述方法包括：在将第一音频和第二音频进行对齐处理时，可以对第一音频和第二音频分别进行分帧处理，得到第一音频的音频帧和第二音频的音频帧，然后确定第一音频中各音频帧与第二音频中各音频帧的距离，对第一音频中各音频帧与第二音频中各音频帧的距离进行调整，其中，对于第一音频中的第一音频帧和第二音频中的第二音频帧，根据第一音频帧的发音信息和第二音频帧的发音信息，对第一音频帧和第二音频帧的距离进行调整，发音信息包括非周期性特征和/或能量特征；根据所有调整后的距离，选择第一音频和第二音频的最佳对齐路径。采用本申请，可以提高音频对齐的准确率。

Description

音频对齐的方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种音频对齐的方法和装置。

背景技术

随着计算机技术的发展，越来越多的场景中需要用到音频对齐，例如，语音识别场景中、音频调节场景中等。

相关技术中，音频对齐的方式一般是采用DTW(Dynamic Time Warping，动态时间规整)算法，将两个待对齐的音频进行分帧处理，然后计算两个待对齐音频的各音频帧之间的距离(该距离用于反映音频帧之间的相似度)，基于距离，选择最佳对齐路径，进行音频对齐。

由于在进行音频对齐时，仅使用了DTW算法确定出的距离，有可能会使音频对齐不准确。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频对齐的方法和装置。所述技术方案如下：

第一方面，提供了一种音频对齐的方法，所述方法包括：

对第一音频进行分帧处理，并对第二音频进行分帧处理；

根据动态时间规整DTW算法，确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离；

对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，所述第一音频帧为所述第一音频中的任一音频帧，所述第二音频帧为所述第二音频中的任一音频帧，所述发音信息包括非周期性特征和/或能量特征；

根据所有调整后的距离，选择所述第一音频和所述第二音频的最佳对齐路径。

可选的，所述非周期性特征包括平均幅度差函数AMDF的凹点强度、过零率、相关峰中的一种或多种。

可选的，所述发音信息包括能量特征；

所述根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，包括：

确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值；

根据预先存储的差值范围与调整值的对应关系，确定所述差值所属的差值范围对应的调整值；

基于所述调整值，对所述第一音频帧和所述第二音频帧的距离进行调整。

可选的，所述发音信息包括非周期性特征；

如果所述第一音频帧和所述第二音频帧均表现为非周期性，则获取预先存储的衰减系数；

基于所述衰减系数，对所述第一音频帧和所述第二音频帧的距离进行调整。

可选的，所述发音信息包括非周期性特征和能量特征；

确定所述第一音频帧的能量值和所述第二音频帧的能量值的差值；根据预先存储的差值范围与调整值的对应关系，确定所述差值所属的差值范围对应的调整值；

基于所述调整值和所述衰减系数，对所述第一音频帧和所述第二音频帧的距离进行调整。

可选的，所述方法还包括：

如果所述第一音频帧中存在AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况，则确定所述第一音频帧表现为非周期性；

如果所述第二音频帧中存在平均幅度差函数AMDF的凹点强度超过第一预设数值、过零率超过第二预设数值、相关峰的数目小于第三预设数值中的一种或多种情况，则确定所述第二音频帧表现为非周期性。

第二方面，提供了一种音频对齐的装置，所述装置包括：

分帧模块，用于对第一音频进行分帧处理，并对第二音频进行分帧处理；

距离确定模块，用于根据动态时间规整DTW算法，确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离；对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，所述第一音频帧为所述第一音频中的任一音频帧，所述第二音频帧为所述第二音频中的任一音频帧，所述发音信息包括非周期性特征和/或能量特征；

路径选择模块，用于根据所有调整后的距离，选择所述第一音频和所述第二音频的最佳对齐路径。

可选的，所述发音信息包括能量特征；

所述距离确定模块，用于：

可选的，所述发音信息包括非周期性特征；

所述距离确定模块，用于：

可选的，所述发音信息包括非周期性特征和能量特征；

所述距离确定模块，用于：

可选的，所述距离确定模块，还用于：

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，在使用DTW算法确定出第一音频中各音频帧与第二音频中各音频帧的距离后，还使用各音频帧的发音信息对各个距离进行调整，后续可以使用调整后的距离，选择第一音频和第二音频的最佳对齐路径。这样，由于在确定出距离后，还基于发音信息进行调整，可以使距离更准确，进而可以找到更准确的最佳对齐路径。

附图说明

图1是本发明实施例提供的一种音频对齐的方法流程图；

图2是本发明实施例提供的一种音频帧的示意图；

图3是本发明实施例提供的一种确定距离的示意图；

图4是本发明实施例提供的一种确定距离的示意图；

图5是本发明实施例提供的一种选择最佳路径的示意图；

图6是本发明实施例提供的一种音频对齐的装置的结构示意图；

图7是本发明实施例提供的一种终端的结构示意图；

图8是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种音频对齐的方法，该方法的执行主体可以是终端或服务器，终端可以是电脑、手机、平板电脑等，服务器可以是进行音频对齐处理的应用程序的后台服务器。

终端中可以设置有处理器、存储器和收发器等，处理器可以用于进行音频对齐的过程的处理，存储器可以用于进行音频对齐的过程中需要的数据以及产生的数据，收发器可以用于接收以及发送数据。终端中还可以包括麦克风、屏幕等输出输出设备，麦克风可以用于播放音频或采集语音信号等，屏幕可以是触控屏，屏幕可以用于显示操作选项、音频对齐结果等处理。

服务器中可以设置有处理器、存储器和收发器等，处理器可以用于进行音频对齐的过程的处理，存储器可以用于进行音频对齐的过程中需要的数据以及产生的数据，收发器可以用于接收以及发送数据。

本发明实施例以执行主体为终端为例进行方案的详细描述，其它情况与之类似，本发明实施例不再赘述。

在进行实施前，首先介绍一下本发明实施例的应用场景：

在语音控制场景中，用户可以使用语音控制终端，终端接收到用户发出的语音信号后，为了使识别结果更准确，可以将接收自用户的语音信号与预先存储的每个语音信号进行对齐处理，确定出最匹配的语音信号，执行该语音信号对应的指令。

另外，在音频调整场景中，用户演唱了一首歌曲，有可能音调不太准，可以获取该首歌曲的原唱音频，将原唱音频与用户演唱的歌曲的音频进行对齐处理，对齐之后，使用原唱音频中的音调，调整用户演唱的歌曲的音频的音调，使用户演唱的歌曲的音频的音调更准。

以上仅给出了两种应用场景，凡是进行音频对齐的处理均可以应用本申请的方案。

本发明实施例提供了一种音频对齐的方法，如图1所示，该方法的处理流程可以如下：

步骤101，对第一音频进行分帧处理，并对第二音频进行分帧处理。

在实施中，终端要对两个音频进行对齐处理时，可以获取这两个音频的音频数据，这两个音频为第一音频和第二音频。然后终端可以使用预设的分帧算法，对第一音频的音频数据进行分帧处理，得到第一音频的音频帧，并对第二音频的音频数据进行分帧处理，得到第二音频的音频帧。

例如，在分帧处理时，首先给帧设定一个步长，即帧移，一般帧移不超过音频帧的二分之一，它是连续两个音频帧中未重叠的部分，如图2所示，示出了第k个音频帧与第k+1个音频帧。

步骤102，根据DTW算法，确定第一音频中各音频帧与第二音频中各音频帧的距离。

其中，距离可以用于表征第一音频中音频帧与第二音频中音频帧的相似度。

在实施中，在对第一音频和第二音频分别进行分帧处理后，可以计算第一音频中各音频帧与第二音频中各音频帧的距离，计算方式可以如下：

假设第一音频一共有n个音频帧(q1,q2,…,qi,…,qn)，第二音频一共有m个音频帧(c1,c2,…,cj,…,cm)，为了对齐两个音频，首先可以构造一个n*m的矩阵网络，矩阵元素(i,j)表示qi和cj两个点的距离d(qi,cj)，也就是第一音频中第i个音频帧与第二音频中第j个音频帧之间的相似度，此处一般采用欧式距离，d(qi,cj)＝(qi-cj)²。在计算d(qi,cj)时，可以将相同频点的第i个音频帧的振幅与第j个音频帧的振幅相减，得到一个差值，然后将所有频点的差值的平方相加，就得到了d(qi,cj)。依照上述方法即可计算出第一音频的各音频帧和第二音频的各音频帧的距离。

需要说明的是，此处计算d(qi,cj)有多种方式，以上仅给出了一种可行的是实现方式。

步骤103，对第一音频中各音频帧与第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据第一音频帧的发音信息和第二音频帧的发音信息，对第一音频帧和第二音频帧的距离进行调整。

其中，第一音频帧为第一音频中的任一音频帧，第二音频帧为第二音频中的任一音频帧，发音信息包括非周期性特征和/或能量特征。

在实施中，在确定出第一音频的各音频帧和第二音频的各音频帧的距离后，可以对该距离进行调整，调整方式可以如下：

对于第一音频帧和第二音频帧，可以使用第一音频帧的信号频谱获取第一音频帧的发音信息，并且可以使用第二音频帧的信号频谱获取第二音频帧的发音信息，在获取到发音信息后，可以根据第一音频帧的发音信息和第二音频帧的发音信息的差异，对第一音频帧和第二音频帧的距离进行调整。依照此方式可以对第一音频的各音频帧和第二音频的各音频帧的距离进行调整，得到多个调整后的距离。

可选的，非周期性特征可以是非周期性声源的特征，非周期性声源相对于周期性声源(周期性声源一般是在声门处由声带振动产生)而言，一般非周期性声源包括在唇、齿、喉、声道等处产生的送气声、***声。非周期性特征可以包括AMDF(Average MagnitudeDifference Function，平均幅度差函数)的凹点强度、过零率、相关峰中的一种或多种。AMDF的凹点强度指波形凹陷处的振幅，过零率指一个音频帧中波形的振幅超过零占未超过零的比例，相关峰指音频帧的波形中出现的形状和大小相同的波峰。

可选的，上述距离可以为包络mel谱距离、mel谱距离、频谱距离、倒谱距离中的任意一种，距离为包络mel谱距离，在计算距离前，首先要确定每个音频帧的包络谱，然后再确定包络mel谱距离。

倒谱距离，倒谱是一种信号的傅里叶变换谱经对数运算后再进行傅里叶反变换，由于傅里叶谱是复数谱，所以又称为复倒谱。

可选的，发音信息包括能量特征时，步骤103中，调整距离的方式可以如下：

确定第一音频帧的能量值和第二音频帧的能量值的差值；根据预先存储的差值范围与调整值的对应关系，确定差值所属的差值范围对应的调整值；基于调整值，对第一音频帧和第二音频帧的距离进行调整。

其中，差值范围与调整值的对应关系可以预设，并且存储至终端中。

在实施中，终端可以确定第一音频帧中各频点的振幅，然后使用各频点的振幅确定出各频点的能量值(一般能量值为振幅的平方成正比关系)，取各频点能量值的平均值，即为第一音频帧的能量值，并且可以确定第二音频帧中各频点的振幅，然后使用各频点的振幅确定出各频点的能量值(一般能量值为振幅的平方成正比关系)，取各频点能量值的平均值，即为第二音频帧的能量值。然后计算第一音频帧的能量值和第二音频帧的能量值的差值，并获取预先存储的差值范围与调整值的对应关系，在该对应关系中，确定该差值所属的差值范围，查找该差值范围对应的调整值，在第一音频帧和第二音频帧的距离的基础上，加上调整值，得到第一音频帧和第二音频帧的调整后的距离。

在上述差值范围与调整值的对应关系中，一般是差值范围的端点值越大，调整值越大，但是调整值有一个上限值。

可选的，发音信息包括非周期性特征，步骤103中，调整距离的方式可以如下：

如果第一音频帧和第二音频帧均表现为非周期性，则获取预先存储的衰减系数；基于衰减系数，对第一音频帧和第二音频帧的距离进行调整。

其中，衰减系数可以预设，并且存储至终端中，如0.8等。

在实施中，终端可以在第一音频帧的信号频谱中，获取第一音频帧的非周期性特征，并可以在第二音频帧的信号频谱中，获取第二音频帧的非周期性特征，如果第一音频帧中存在AMDF的凹点强度大于第一预设数值(可以预设，并且存储在终端中)、过零率超过第二预设数值(可以预设，并且存储在终端中)、相关峰的数目小于第三预设数值(可以预设，并且存储在终端中)中的一种或多种情况时，则说明第一音频帧表现为非周期性。如果第二音频帧中存在AMDF的凹点强度大于第一预设数值(可以预设，并且存储在终端中)、过零率超过第二预设数值(可以预设，并且存储在终端中)、相关峰的数目小于第三预设数值(可以预设，并且存储在终端中)中的一种或多种情况时，则说明第二音频帧表现为非周期性。

基于上述方式，如果确定第一音频帧和第二音频帧均表现为非周期性，则可以获取预先存储的衰减系数，将第一音频帧和第二音频帧的距离乘以衰减系数，得到第一音频帧和第二音频帧调整后的距离。

需要说明的是，由于音频帧中一般不会出现非周期性特征，所以如果在两个音频帧都表现为非周期性时，说明音频帧的相似性比较高。

可选的，发音信息包括非周期性特征和能量特征，步骤103中，调整距离的方式可以如下：

如果第一音频帧和第二音频帧均表现为非周期性，则获取预先存储的衰减系数；确定第一音频帧的能量值和第二音频帧的能量值的差值；根据预先存储的差值范围与调整值的对应关系，确定差值所属的差值范围对应的调整值；基于调整值和衰减系数，对第一音频帧和第二音频帧的距离进行调整。

在实施中，终端可以在第一音频帧的频谱中，获取第一音频帧的非周期性特征，并可以在第二音频帧的频谱中，获取第二音频帧的非周期性特征，如果第一音频帧中存在AMDF的凹点强度大于第一预设数值(可以预设，并且存储在终端中)、过零率超过第二预设数值(可以预设，并且存储在终端中)、相关峰的数目小于第三预设数值(可以预设，并且存储在终端中)中的一种或多种情况时，则说明第一音频帧表现为非周期性。如果第二音频帧中存在AMDF的凹点强度大于第一预设数值(可以预设，并且存储在终端中)、过零率超过第二预设数值(可以预设，并且存储在终端中)、相关峰的数目小于第三预设数值(可以预设，并且存储在终端中)中的一种或多种情况时，则说明第二音频帧表现为非周期性。基于上述方式，如果确定第一音频帧和第二音频帧均表现为非周期性，则可以获取预先存储的衰减系数。

然后终端可以确定第一音频帧中各频点的振幅，然后使用各频点的振幅确定出各频点的能量值(一般能量值为振幅的平方成正比关系)，取各频点能量值的平均值，即为第一音频帧的能量值，并且可以确定第二音频帧中各频点的振幅，然后使用各频点的振幅确定出各频点的能量值(一般能量值为振幅的平方成正比关系)，取各频点能量值的平均值，即为第二音频帧的能量值。然后计算第一音频帧的能量值和第二音频帧的能量值的差值，并获取预先存储的差值范围与调整值的对应关系，在该对应关系中，确定该差值所属的差值范围，查找该差值范围对应的调整值。

然后将第一音频帧和第二音频帧的距离乘以衰减系数，得到一个乘积，将乘积与调整值相加，得到第一音频帧和第二音频帧的调整后的距离，或者，将第一音频帧和第二音频帧的距离与调整值相加，得到一个数值，将该数值与衰减系数相乘，得到第一音频帧和第二音频帧的调整后的距离。

步骤104，根据所有调整后的距离，选择第一音频和第二音频的最佳对齐路径。

在实施中，终端在对所有距离进行调整后，可以使用所有调整后的距离，选择第一音频和第二音频的最佳对齐路径，也即使第一音频和第二音频进行对齐处理。

例如，假设第一音频中包括A、B、C、D、E和F6个音频帧，第二音频中包括1、2、3、4，一共4个音频帧，第一音频的各音频帧和第二音频的各音频帧的距离可以如图3所示，我们要找出的是左下角(1,1)到右上角(6,4)的最短路径，也即最佳对齐路径，再假设当一个方格((i-1,j-1)或者(i-1,j)或者(i,j-1))中到下一个方格(i,j)，如果是横着或者竖着，其距离为d(i,j)，如果是斜着对角线过来的则是2d(i,j)，其约束条件可以为：

其中，g(i,j)表示2个音频都从起始分量逐次匹配，已经到了第一音频中的i分量和第二音频中的j分量，并且匹配到此步是2个音频之间的距离，并且都是在前一次匹配的结果上加d(i,j)或者2d(i,j)，然后取最小值。

假设g(0,0)＝0,就是说g(1,1)＝g(0,0)+2d(1,1)＝0+2*2＝4，然后g(1,2)＝g(1,1)+d(1,2)＝4+1＝5，g(2,1)＝g(1,1)+d(2,1)＝4+3＝7，在计算g(2,2)时，如果从g(1,2)来算，是g(2,2)＝g(1,2)+d(2,2)＝5+4＝9,因为是竖着上去的，如果从g(2,1)来算，是g(2,2)＝g(2,1)+d(2,2)＝7+4＝11,因为是横着往右走的。如果从g(1,1)来算，g(2,2)＝g(1,1)+2*d(2,2)＝4+2*4＝12.因为是斜着过去的。综上，取最小值为9.所以g(2,2)＝9。使用相同的方式，即可计算出从g(1,1)至g(6,4)之间所有的g(i,j)，如图4所示。

然后计算第一排最小值来源方向，如图4中虚线箭头所指向的方向，计算完第一排之后，计算第二排，依此方式，结果如图5所示，第一音频和第二音频直接的距离为26，使用此追溯到最短距离的路径，如图5中最粗的线的构成的路径，即最佳对齐路径。

需要说明的是，以上仅为一种可选的方式，凡是可以使用距离找到最佳对齐路径，均可以应用于本发明实施例。

还需要说明的是，上述实施例是以执行主体为终端为例，在执行主体是服务器时，仅将上述终端替换为服务器即可。

基于相同的技术构思，本发明实施例还提供了一种音频对齐的装置，如图6所示，该装置包括：

分帧模块610，用于对第一音频进行分帧处理，并对第二音频进行分帧处理；

距离确定模块620，用于根据DTW算法，确定所述第一音频中各音频帧与所述第二音频中各音频帧的距离；对所述第一音频中各音频帧与所述第二音频中各音频帧的距离进行调整，其中，对于第一音频帧和第二音频帧，根据所述第一音频帧的发音信息和所述第二音频帧的发音信息，对所述第一音频帧和所述第二音频帧的距离进行调整，所述第一音频帧为所述第一音频中的任一音频帧，所述第二音频帧为所述第二音频中的任一音频帧，所述发音信息包括非周期性特征和/或能量特征；

路径选择模块630，用于根据所有调整后的距离，选择所述第一音频和所述第二音频的最佳对齐路径。

可选的，所述发音信息包括能量特征；

所述距离确定模块620，用于：

可选的，所述发音信息包括非周期性特征；

所述距离确定模块620，用于：

如果根据所述第一音频的非周期性特征和所述第二音频的非周期性特征，确定所述第一音频帧和所述第二音频帧均表现为非周期性，则获取预先存储的衰减系数；

可选的，所述发音信息包括非周期性特征和能量特征；

所述距离确定模块620，用于：

可选的，所述距离确定模块620，还用于：

需要说明的是：上述实施例提供的音频对齐的装置在音频对齐时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频对齐的装置与音频对齐的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7示出了本发明一个示例性实施例提供的终端700的结构框图。该终端700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的音频对齐方法。

在一些实施例中，终端700还可选包括有：***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地，***设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

***设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是本发明实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述进行音频对齐的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频对齐的方法，其特征在于，所述方法包括：

对第一音频进行分帧处理，并对第二音频进行分帧处理；

2.根据权利要求1所述的方法，其特征在于，所述发音信息包括能量特征；

3.根据权利要求1所述的方法，其特征在于，所述发音信息包括非周期性特征；

4.根据权利要求1所述的方法，其特征在于，所述发音信息包括非周期性特征和能量特征；

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

6.一种音频对齐的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述发音信息包括能量特征；

所述距离确定模块，用于：

8.根据权利要求6所述的装置，其特征在于，所述发音信息包括非周期性特征；

所述距离确定模块，用于：

9.根据权利要求6所述的装置，其特征在于，所述发音信息包括非周期性特征和能量特征；

所述距离确定模块，用于：

10.根据权利要求8或9所述的装置，其特征在于，所述距离确定模块，还用于：