CN106250400B

CN106250400B - 一种音频数据处理方法、装置以及***

Info

Publication number: CN106250400B
Application number: CN201610571692.4A
Authority: CN
Inventors: 赵伟峰; 刘培; 孔令城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2021-03-26
Anticipated expiration: 2036-07-19
Also published as: CN106250400A

Abstract

本发明实施例公开了一种音频数据处理方法、装置以及***，包括：客户端获取用户音频数据，并将用户音频数据发送至服务器；服务器提取用户音频数据的用户音频特征，并根据用户音频特征分别计算用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；服务器从多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至客户端；客户端在第一预设显示区域显示各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示用户音频数据对应的音频质量分数。采用本发明，可以使与音频数据的分析结果相关联的展示内容更加丰富。

Description

一种音频数据处理方法、装置以及***

技术领域

本发明涉及互联网技术领域，尤其涉及一种音频数据处理方法、装置以及***。

背景技术

目前的智能终端(如手机、平板电脑、台式电脑等等)通常都具备基本的音频处理能力，例如，可以录制用户的声音，因此，目前的智能终端是可以支持目前大多数的音频处理应用。目前大多数的音频处理应用都可以对所录制到的用户歌声进行计算分析，以计算出用户的唱歌分数，并向用户显示该唱歌分数，使得用户可以直观的知道自己的唱歌水平。但是，由于目前这些音频处理应用对用户歌声的分析维度比较单一(即都只能分析用户的唱歌水平)，所以导致最终的展示内容也比较单一(即最终只显示了用户的唱歌分数)，使得展示效果不够丰富。

发明内容

本发明实施例提供一种音频数据处理方法、装置以及***，可以使与音频数据的分析结果相关联的展示内容更加丰富。

本发明第一方面提供了一种音频数据处理方法，包括：

客户端获取用户音频数据，并将所述用户音频数据发送至所述服务器；

所述服务器提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；

所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端；

所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

本发明第二方面提供了一种音频数据处理方法，包括：

服务器接收客户端发送的用户音频数据；

所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

本发明第三方面提供了一种音频数据处理装置，其特征在于，包括：

接收模块，用于接收客户端发送的用户音频数据；

计算模块，用于提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；

选择发送模块，用于从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

本发明第四方面提供了一种音频数据处理***，包括客户端和服务器；

所述客户端，用于获取用户音频数据，并将所述用户音频数据发送至所述服务器，且还用于在第一预设显示区域显示所述服务器所发送的目标预设音频数据对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数；

所述服务器包括上述第三方面所提供的音频数据处理装置。

本发明实施例中的客户端将获取到的用户音频数据发送到服务器，使得服务器可以计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度，进而根据各音色相似度的排序从中选择出目标预设音频数据，并将目标预设音频数据对应的音频属性信息和音色相似度发送至所述客户端；由于不再仅限于在唱歌水平的维度上对用户音频数据进行分析，所以使得所述客户端不仅可以显示用户音频数据的音频质量分数，还可以显示目标预设音频数据对应的音频属性信息和音色相似度，从而使与用户音频数据的分析结果相关联的展示内容更加丰富。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频数据处理***的结构示意图；

图2是本发明实施例提供的一种音频数据处理方法的流程示意图；

图2a是本发明实施例提供的一种客户端界面展示图；

图2b是本发明实施例提供的另一种客户端界面展示图；

图3是本发明实施例提供的一种音频数据处理方法的时序示意图；

图4是本发明实施例提供的另一种音频数据处理方法的流程示意图；

图5是本发明实施例提供的一种音频数据处理装置的结构示意图；

图6是本发明实施例提供的一种计算模块的结构示意图；

图7是本发明实施例提供的一种标签设置单元的结构示意图；

图8是本发明实施例提供的一种选择发送模块的结构示意图；

图9是本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种音频数据处理***的结构示意图。所述***可以包括客户端100和服务器200，所述客户端100与所述服务器200通过网络进行连接，所述客户端100可以包括手机、平板电脑、台式电脑等具备音频处理功能和网络通信功能的智能终端，所述服务器200可以为音频处理应用的后台服务器200。所述***可以应用于对用户歌声进行多维度分析的应用场景，例如，当用户通过所述客户端100录制自己的歌声，在录制完毕后，所述客户端100可以计算并显示用户歌声数据的唱歌分数(唱歌分数可以是根据用户歌声的音准、节奏等因素进行计算得到的)，所述客户端100同时还将所述用户歌声数据发送到所述服务器200，所述服务器200可以提取用户歌声数据的用户音频特征，并根据所述用户音频特征分别计算所述用户歌声数据与预设的音频数据库中的多个预设明星歌声数据之间的音色相似度；所述服务器200再从所述多个预设明星歌声数据中选取预设匹配数量的目标预设明星歌声数据，并将各目标预设明星歌声数据分别对应的歌名、歌手名、歌手头像以及音色相似度等信息发送至所述客户端100，由此可见，所述***不仅可以在唱歌水平这一维度上对用户歌声数据进行分析，还可以在与明星歌声的音色相似度这一维度上对用户歌声数据进行分析，因此，使得所述客户端100可以同时显示唱歌分数、各目标预设明星歌声数据分别对应的歌名、歌手名、歌手头像、音色相似度等信息，从而使与用户歌声数据的分析结果相关联的展示内容更加丰富。

请参见图2，是本发明实施例所提供的一种音频数据处理方法的流程示意图，所述方法可以包括：

S201，客户端获取用户音频数据，并将所述用户音频数据发送至所述服务器；

具体的，所述客户端可以获取用户所输入的用户音频数据。例如，当用户在唱歌时，所述客户端可以通过麦克风获取用户的录歌音频，该录歌音频即为所述用户音频数据。当用户结束输入所述用户音频数据时(如录歌结束时)，所述客户端可以计算所获取到的完整的所述用户音频数据对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息。同时，所述客户端还可以将获取到的完整的所述用户音频数据添加在音色相似度计算请求中，并将携带所述用户音频数据的音色相似度计算请求发送至服务器。

请一并参见图2a，是本发明实施例提供的一种客户端界面展示图，如图2a所示，图2a中的区域A正在显示“SS”、“4829分”、“正在计算你的明星嗓指数，稍等片刻”。其中，“SS”和“4829分”代表所述音频质量分数，“正在计算你的明星嗓指数，稍等片刻”代表所述音色相似度计算提示信息。

S202，所述服务器提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；

具体的，所述服务器可以提取所述用户音频数据中每一帧数据分别对应的用户音频特征，并对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签，并根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型，计算所述用户音频数据对应的个性化音色向量，最后再分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的向量余弦距离；所述个性化音色计算模型是基于预设的共性音色计算模型和所述多个预设音频数据训练得到的，且一个向量余弦距离指所述用户音频数据与一个预设音频数据之间的音色相似度。

可选的，所述用户音频特征可以为MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)音频特征；所述共性音色计算模型可以为UBM(Universal BackgroundModel，通用背景模型)，所述个性化音色计算模型为I-vector计算模型。

其中，对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签的过程可以包括VAD(Voice Activity Detection，语音活动检测)检测，其具体过程可以为：对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据(MFCC音频特征中的首位数据是用于代表信号的能量)进行归一化处理，得到待匹配信号能量值；再将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较，并根据比较结果对每一帧数据进行识别，以识别出包含语音信息的帧数据和不包含语音信息的帧数据(如若某一帧数据对应的待匹配信号能量值大于所述预设能量阈值，则根据该比较结果可以确定该帧数据包含语音信息；如若某一帧数据对应的待匹配信号能量值小于或等于所述预设能量阈值，则根据该比较结果可以确定该帧数据不包含语音信息)；再为所述包含有语音信息的帧数据设置有效数据标签，并将所述不包含语音信息的帧数据删除。

可选的，所述服务器预先训练所述UBM和所述I-vector计算模型的具体过程可以为：所述服务器提取各预设音频数据中每一帧数据分别对应的预设音频特征(所述预设音频特征可以为MFCC音频特征)，并对携带有有效数据标签的预设音频特征进行归一化处理；所述有效数据标签是用于标识包含有语音信息的帧数据的标签；再利用已归一化且携带有有效数据标签的预设音频特征，通过EM算法(Expectation Maximization Algorithm，期望最大化算法)，训练出UBM。UBM是一个GMM(Gaussian Mixture Model，混合高斯模型)，GMM本质上是一种多维概率密度函数，对于M阶GMM的概率密度函数可以使用如下公式表示：

其中，

M阶GMM是用M个单高斯分布组成的，每个单高斯分布如下式：

也就是说一个单高斯分布是一个多维的正态分布。一个GMM的训练过程，就是已知N个数据点，假设服从M阶GMM分布的情况下，估计出影响因子c_k、均值μ_k和协方差∑_k这些参数，这些参数所确定的概率分布生成所述已知N个数据点的概率最大，而这个概率实际上等于

这个乘积称为似然函数。通常单个点的概率都很小，为了防止计算过程中下溢，通常会对其取对数，把乘积变为求和

等到Log似然函数，接下来只要将这个函数最大化，即找到这样一组参数值，它让似然函数取得最大值，这样的参数就是最合适的参数，即完成了参数估计的过程，也就是模型训练。GMM的Log似然函数为：

由于在对数函数中有加和，没办法使用直接求导的方法求得最大值，但这里可以使用EM方法。EM算法流程如下：

S11：估计数据由每个单高斯分布生成的概率：对于每个数据x_i来说，它由第k个单高斯分布生成的概率为：

S12：通过极大似然估计，可以求得μ_k、∑_k的值：

其中，

因此，

重复以上S11和S12步骤，直到似然函数的值收敛位置。S11步骤为E-step，即估计；S12步骤为M-step，即最大化。UBM模型训练好后，可以获取所述UBM的均值向量，所述UBM的均值向量可以用于训练所述I-vector计算模型。I-vector是基于单一空间的跨信道算法，该空间既包含了说话人空间的信息也包含了信道空间的信息。对于给定的语音，高斯超向量表示如下:

M＝m+Tw，

其中，m是说话人无关且信道无关的超向量，通常为UBM的均值向量拼接而成，即上述UBM中的μ_k；T是一个低秩的矩阵；w是服从标准正态分布的随机向量，这个随机向量简称I-vector。其中，T的训练算法中所涉及到的输入参数包括已归一化且携带有有效数据标签的预设音频特征、T的秩rank、UBM和最大迭代次数，输出参数包括rank*CF的矩阵T。T的训练算法包括如下步骤S21-S27：

S21，计算零阶、一阶及二阶统计量，随机初始化T。记当前迭代次数为It＝0:

其中，N_c(h)为语音h的零阶充分统计量，F_c(h)为一阶充分统计量。其中，

且该值为语音段h的第t帧特征在GMM模型第c个混元上的状态占有概率。

S22，中心化一阶统计量

S23，扩展统计量为矩阵，方便运算：

其中，I为F*F的单位矩阵。FF(h)为CF*1的列向量。

S24，计算说话人因子方差与均值：

S25，累积所有语音的统计量：

S26，更新V：

S27，It自增。若It已大于迭代次数则结束训练，否则返回S24步骤。以上训练完成后即可得到总的变化矩阵T，然后计算总变化因子w(I-vector)，它的计算公式为：

所述I-vector计算模型训练完后，即可基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量，并保存各预设音频数据分别对应的个性化音色向量，以便于后续用于计算与所述用户音频数据之间的音色相似度；所述个性化音色向量即为w(I-vector)值。

其中，所述服务器计算所述用户音频数据对应的个性化音色向量的具体过程可以为：对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理，并将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中，通过所述I-vector计算模型(即上述的总变化因子w(I-vector)的计算公式)计算出所述用户音频数据对应的w(I-vector)值。

其中，所述服务器在计算所述用户音频数据对应的个性化音色向量与各预设音频数据对应的个性化音色向量之间的音色相似度时，具体可以利用向量间的余弦距离来表示音色相似度，如余弦距离计算公式为：

w₁可以表示所述用户音频数据对应的个性化音音色向量，w₂可以表示其中一个预设音频数据对应的个性化音色向量，因此，所述用户音频数据与该预设音频数据之间的向量余弦距离即为k(w₁，w₂)，即音色相似度为k。

S203，所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端；

具体的，所述服务器可以对所述用户音频数据与各预设音频数据之间的音色相似度进行排序，得到音色相似度排序表，再从所述音色相似度排序表中按序获取预设匹配数量的音色相似度，作为目标音色相似度；所述目标音色相似度的数量等于所述预设匹配数量；所述服务器进一步获取每个所述目标音色相似度所对应的预设音频数据，作为目标音频数据，并将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。例如，所述预设匹配数量为3，那么服务器将会把排前三的音色相似度所对应的预设音频数据确定为目标预设音频数据，然后将这三个目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。所述音频属性信息可以包括目标预设音频数据对应的歌名、歌手名字、歌手头像以及预设文案内容，如某个预设文案内容可以为“你也有海豚音”。

S204，所述客户端在预设显示区域对所述各目标预设音频数据分别对应的音频属性信息和音色相似度进行显示；

具体的，当所述客户端接收到所述各目标预设音频数据分别对应的音频属性信息和音色相似度时，所述客户端可以对所述音频质量分数对应的图形面积进行动态缩小，并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数，并取消对所述音色相似度计算提示信息的显示，使得所述客户端的当前界面可以空出部分显示区域(所空出的部分显示区域即为第一预设显示区域)，此时可以进一步在所述第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度。

请一并参见图2b，是本发明实施例所提供的另一种客户端界面展示图，图2b中的区域B是所述第二预设显示区域，区域C是所述第一预设显示区域，当所述客户端接收到所述各目标预设音频数据分别对应的音频属性信息和音色相似度时，图2a中的区域A中的所述音频质量分数对应的图形面积在动态缩小，并将动态缩小后的所述音频质量分数显示在图2b中的区域B(即图2b中所显示的“SS”、“4829分”)，同时取消对图2a中的所述音色相似度计算提示信息的显示，使得图2a中的区域A可以空出来，进而可以在图2b中的区域C中显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度；其中，图2b中的所述各目标预设音频数据分别对应的音频属性信息和音色相似度包括：3个目标预设音频数据分别对应的音频属性信息和音色相似度，分别为歌手A、歌手B、歌手C分别对应的音频属性信息和音色相似度，也说明用户的音色与这三位歌手的音色最为相似；其中，用户与歌手A的音色相似度为0.96(即向量余弦距离为0.96)，则可以在图2b中的歌手A头像下面显示相应文案内容：“相似度96％”、“你也有海豚音”；其中，用户与歌手B的音色相似度为0.9(即向量余弦距离为0.9)，则可以在图2b中的歌手B的头像下面显示相应文案内容“相似度90％”、“翻版XXX就是你”；其中，用户与歌手C的音色相似度为0.88(即向量余弦距离为0.88)，则可以在歌手C的头像下面显示相应文案内容：“相似度88％”、“你也是舞娘吗？”

可选的，当所述服务器检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时，所述服务器将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。例如，预设相似度阈值为0.9，而多个目标预设音频数据分别对应的音色相似度中的最大音色相似度为0.93，则所述服务器可以将音色相似度为0.93的目标预设音频数据的音频属性信息、为0.93的音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。

请参见图3，是本发明实施例提供的一种音频数据处理方法的时序示意图，所述方法可以包括：

S301，客户端获取用户音频数据，并计算和显示所述用户音频数据对应的音频质量分数；

具体的，所述客户端可以获取用户所输入的用户音频数据。例如，当用户在唱歌时，所述客户端可以通过麦克风获取用户的录歌音频，该录歌音频即为所述用户音频数据。当用户结束输入所述用户音频数据时(如录歌结束时)，所述客户端可以计算所获取到的完整的所述用户音频数据对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息。例如，所述音色相似度计算提示信息可以为一组字符串：“正在计算你的明星嗓指数，稍等片刻”。

S302，所述客户端发送所述用户音频数据到服务器；

具体的，所述客户端还可以将获取到的完整的所述用户音频数据添加在音色相似度计算请求中，并将携带所述用户音频数据的音色相似度计算请求发送至服务器。

S303，所述服务器基于训练好的I-vector计算模型计算所述用户音频数据对应的个性化音色向量；

具体的，在S301步骤之前，所述服务器可以预设一个音频数据库中(所述音频数据库包括多个预设音频数据)，并预设I-vector计算模型，并基于I-vector计算模型预先计算各预设音频数据分别对应的个性化音色向量，其中，所述服务器的预设过程可以具体为：所述服务器提取各预设音频数据中每一帧数据分别对应的预设音频特征，并对携带有有效数据标签的预设音频特征进行归一化处理；所述有效数据标签是用于标识包含有语音信息的帧数据的标签(通过VAD检测即可检测出帧数据是否包含语音信息)；所述服务器再基于最大期望EM算法和已归一化且携带有有效数据标签的预设音频特征训练UBM的模型参数，并在所述UBM的模型参数训练完成后获取所述UBM的均值向量，并基于所述UBM的均值向量、所述已归一化且携带有有效数据标签的预设音频特征以及预设的迭代次数训练I-vector计算模型中的低秩矩阵，并在低秩矩阵训练完成后，所述服务器基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量；所述个性化音色向量为I-vector值。其中，训练UBM的模型参数和训练I-vector计算模型中的低秩矩阵的具体实现过程可以参见上述图2对应实施例中的S202中对所述UBM和所述I-vector计算模型的具体训练过程，这里不再进赘述。

当所述服务器接收到所述客户端发送的所述用户音频数据时，所述服务器可以提取所述用户音频数据中每一帧数据分别对应的用户音频特征，所述用户音频特征可以为MFCC音频特征；所述服务器可以进一步对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据(MFCC音频特征中的首位数据是用于代表信号的能量)进行归一化处理，得到待匹配信号能量值，并将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较，并根据比较结果对每一帧数据进行识别，以识别出包含语音信息的帧数据和不包含语音信息的帧数据，并为所述包含有语音信息的帧数据设置有效数据标签，并将所述不包含语音信息的帧数据删除；所述服务器再对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理，并将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中，通过所述I-vector计算模型计算出所述用户音频数据对应的w(I-vector)值(即所述用户音频数据对应的个性化音色向量)。

S304，所述服务器分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的音色相似度；

具体的，所述服务器在计算所述用户音频数据对应的个性化音色向量与各预设音频数据对应的个性化音色向量之间的音色相似度时，具体可以利用向量间的余弦距离来表示音色相似度，如余弦距离计算公式为：

S305，所述服务器对所述用户音频数据与各预设音频数据之间的音色相似度进行排序，得到音色相似度排序表；

S306，所述服务器从所述音色相似度排序表中按序获取预设匹配数量的音色相似度，作为目标音色相似度；

例如，所述预设匹配数量为3，那么所述服务器将会把排前三的音色相似度确定为目标音色相似度。

S307，所述服务器获取每个所述目标音色相似度所对应的预设音频数据，作为目标音频数据；

S308，所述服务器将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端；

具体的，所述音频属性信息可以包括目标预设音频数据对应的歌名、歌手名字、歌手头像以及预设文案内容，如某个预设文案内容可以为“你也有海豚音”。

S309，所述客户端对所述音频质量分数对应的图形面积进行动态缩小，并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数，并在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度；

请参见图4，是本发明实施例提供的另一种音频数据处理方法的流程示意图，所述方法可以包括：

S401，服务器接收客户端发送的用户音频数据；

S402，所述服务器提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；

S403，所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

其中，S401-S403步骤的具体实现方式可以参见上述图2对应实施例中的S201-S204，这里不再进行赘述。

请参见图5，是本发明实施例提供的一种音频数据处理装置的结构示意图。所述音频数据处理装置1可以应用于服务器中，所述音频数据处理装置1可以包括：预设提取处理模块40、预设训练模块50、预设计算模块60、接收模块10、计算模块20、选择发送模块30；

所述预设提取处理模块40，用于提取各预设音频数据中每一帧数据分别对应的预设音频特征，并对携带有有效数据标签的预设音频特征进行归一化处理；所述有效数据标签是用于标识包含有语音信息的帧数据的标签；

所述预设训练模块50，用于基于最大期望EM算法和已归一化且携带有有效数据标签的预设音频特征训练UBM的模型参数，并在所述UBM的模型参数训练完成后获取所述UBM的均值向量；

所述预设训练模块50，还用于基于所述UBM的均值向量、所述已归一化且携带有有效数据标签的预设音频特征以及预设的迭代次数训练I-vector计算模型中的低秩矩阵；

所述预设计算模块60，用于在低秩矩阵训练完成后，基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量；所述个性化音色向量为I-vector值。

其中，所述预设提取处理模块40、所述预设训练模块50以及所述预设计算模块60的具体实现方式可以参见上述图2对应实施例中的S202步骤中的所述服务器预先训练所述UBM和所述I-vector计算模型的具体过程，这里不再进行赘述。

所述接收模块10，用于接收客户端发送的用户音频数据；

具体的，所述客户端可以获取用户所输入的用户音频数据。例如，当用户在唱歌时，所述客户端可以通过麦克风获取用户的录歌音频，该录歌音频即为所述用户音频数据。当用户结束输入所述用户音频数据时(如录歌结束时)，所述客户端可以计算所获取到的完整的所述用户音频数据对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息。同时，所述客户端还可以将获取到的完整的所述用户音频数据添加在音色相似度计算请求中，因此，所述接收模块10可以接收所述客户端发送的携带所述用户音频数据的音色相似度计算请求。

所述计算模块20，用于提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；

具体的，请一并参见图6，是所述计算模块20的结构示意图，所述计算模块20可以包括：特征提取单元201、标签设置单元202、计算单元203；

所述特征提取单元201，用于提取所述用户音频数据中每一帧数据分别对应的用户音频特征；所述用户音频特征可以为MFCC音频特征；

所述标签设置单元202，用于对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签；

所述计算单元203，用于根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型，计算所述用户音频数据对应的个性化音色向量；所述个性化音色计算模型即为所述I-vector计算模型。此处的所述计算单元203可以具体用于对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理，并将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中，并基于所述I-vector计算模型计算出所述用户音频数据对应的个性化音色向量。

所述计算单元203，还用于分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的向量余弦距离；其中，一个向量余弦距离指所述用户音频数据与一个预设音频数据之间的音色相似度。

进一步的，再请一并参见图7，是本发明实施例提供的一种标签设置单元202的结构示意图，所述标签设置单元202可以包括：归一化处理子单元2021、匹配识别子单元2022、设置删除子单元2023；

所述归一化处理子单元2021，用于对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据进行归一化处理，得到待匹配信号能量值；

所述匹配识别子单元2022，用于将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较，并根据比较结果对每一帧数据进行识别，以识别出包含语音信息的帧数据和不包含语音信息的帧数据；

所述设置删除子单元2023，用于为所述包含有语音信息的帧数据设置有效数据标签，并将所述不包含语音信息的帧数据删除。

所述选择发送模块30，用于从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

具体的，再请一并参见图8，是本发明实施例提供的一种选择发送模块30的结构示意图，所述选择发送模块30可以包括：排序单元301、选择单元302、数据获取单元303、发送单元304；

所述排序单元301，用于对所述用户音频数据与各预设音频数据之间的音色相似度进行排序，得到音色相似度排序表；

所述选择单元302，用于从所述音色相似度排序表中按序获取预设匹配数量的音色相似度，作为目标音色相似度；所述目标音色相似度的数量等于所述预设匹配数量；

所述数据获取单元303，用于获取每个所述目标音色相似度所对应的预设音频数据，作为目标音频数据；

所述发送单元304，用于将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。

其中，当所述客户端接收到所述各目标预设音频数据分别对应的音频属性信息和音色相似度时，所述客户端可以对所述音频质量分数对应的图形面积进行动态缩小，并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数，并取消对所述音色相似度计算提示信息的显示，使得所述客户端的当前界面可以空出部分显示区域(所空出的部分显示区域即为第一预设显示区域)，此时可以进一步在所述第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度。

可选的，所述选择发送模块30还用于当检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时，将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。

请参见图9，是本发明实施例提供的另一种音频数据处理装置的结构示意图。如图9所示，所述音频数据处理装置1000可以应用于服务器中，所述音频数据处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的音频数据处理装置1000中，网络接口1004主要用于连接客户端；而用户接口1003主要用于为用户提供输入的接口，获取用户输出的数据；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现

接收客户端发送的用户音频数据；

提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度；

从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

在一个实施例中，所述处理器1001在执行从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端时，具体执行以下步骤：

对所述用户音频数据与各预设音频数据之间的音色相似度进行排序，得到音色相似度排序表；

从所述音色相似度排序表中按序获取预设匹配数量的音色相似度，作为目标音色相似度；所述目标音色相似度的数量等于所述预设匹配数量；

获取每个所述目标音色相似度所对应的预设音频数据，作为目标音频数据；

将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。

在一个实施例中，所述处理器1001在执行提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度时，具体执行以下步骤：

提取所述用户音频数据中每一帧数据分别对应的用户音频特征；

对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签；

根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型，计算所述用户音频数据对应的个性化音色向量；所述个性化音色计算模型是基于预设的共性音色计算模型和所述多个预设音频数据训练得到的；

分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的向量余弦距离；

其中，一个向量余弦距离指所述用户音频数据与一个预设音频数据之间的音色相似度。

在一个实施例中，所述用户音频特征为梅尔频率倒谱系数MFCC音频特征；

则所述处理器1001在执行对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签时，具体执行以下步骤：

对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据进行归一化处理，得到待匹配信号能量值；

将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较，并根据比较结果对每一帧数据进行识别，以识别出包含语音信息的帧数据和不包含语音信息的帧数据；

为所述包含有语音信息的帧数据设置有效数据标签，并将所述不包含语音信息的帧数据删除。

在一个实施例中，所述共性音色计算模型为通用背景模型UBM，所述个性化音色计算模型为I-vector计算模型；

则所述处理器1001在执行提取所述用户音频数据的用户音频特征之前，还执行以下步骤：

提取各预设音频数据中每一帧数据分别对应的预设音频特征，并对携带有有效数据标签的预设音频特征进行归一化处理；所述有效数据标签是用于标识包含有语音信息的帧数据的标签；

基于最大期望EM算法和已归一化且携带有有效数据标签的预设音频特征训练UBM的模型参数，并在所述UBM的模型参数训练完成后获取所述UBM的均值向量；

基于所述UBM的均值向量、所述已归一化且携带有有效数据标签的预设音频特征以及预设的迭代次数训练I-vector计算模型中的低秩矩阵；

在低秩矩阵训练完成后，基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量；所述个性化音色向量为I-vector值。

在一个实施例中，所述处理器1001在执行根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型，计算所述用户音频数据对应的个性化音色向量时，具体执行以下步骤：

对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理；

将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中，并基于所述I-vector计算模型计算出所述用户音频数据对应的个性化音色向量。

在一个实施例中，所述处理器1001还执行以下步骤：

当检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时，将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

客户端获取用户音频数据，并将所述用户音频数据发送至服务器；

所述客户端计算所述用户音频数据对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息；

所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，所述音频属性信息包括目标预设音频数据对应的歌名、歌手名字、歌手头像以及预设文案内容；

当所述客户端接收到所述各目标预设音频数据分别对应的音频属性信息和音色相似度时，对所述音频质量分数对应的图形面积进行动态缩小，并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数，并取消对所述音色相似度计算提示信息的显示，并在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度。

2.如权利要求1所述的方法，其特征在于，所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，包括：

3.如权利要求1所述的方法，其特征在于，所述服务器提取所述用户音频数据的用户音频特征，并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度，包括：

4.如权利要求3所述的方法，其特征在于，所述用户音频特征为梅尔频率倒谱系数MFCC音频特征；

则所述对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签，包括：

5.如权利要求3所述的方法，其特征在于，所述共性音色计算模型为通用背景模型UBM，所述个性化音色计算模型为I-vector计算模型；

则所述服务器提取所述用户音频数据的用户音频特征的步骤之前，还包括：

所述服务器提取各预设音频数据中每一帧数据分别对应的预设音频特征，并对携带有有效数据标签的预设音频特征进行归一化处理；所述有效数据标签是用于标识包含有语音信息的帧数据的标签；

6.如权利要求5所述的方法，其特征在于，所述根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型，计算所述用户音频数据对应的个性化音色向量，包括：

7.如权利要求1所述的方法，其特征在于，还包括：

当所述服务器检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时，所述服务器将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。

8.一种音频数据处理方法，其特征在于，包括：

服务器接收客户端发送的用户音频数据，所述用户音频数据用于计算对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息；

所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数，所述第二预设显示区域用于显示图形面积动态缩小后的所述音频质量分数，所述音频属性信息包括目标预设音频数据对应的歌名、歌手名字、歌手头像以及预设文案内容。

9.一种音频数据处理装置，其特征在于，包括：

接收模块，用于接收客户端发送的用户音频数据，所述用户音频数据用于计算对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息；

选择发送模块，用于从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据，并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端，以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，并在第二预设显示区域显示所述用户音频数据对应的音频质量分数，所述第二预设显示区域用于显示图形面积动态缩小后的所述音频质量分数，所述音频属性信息包括目标预设音频数据对应的歌名、歌手名字、歌手头像以及预设文案内容。

10.如权利要求9所述的装置，其特征在于，所述选择发送模块包括：

排序单元，用于对所述用户音频数据与各预设音频数据之间的音色相似度进行排序，得到音色相似度排序表；

选择单元，用于从所述音色相似度排序表中按序获取预设匹配数量的音色相似度，作为目标音色相似度；所述目标音色相似度的数量等于所述预设匹配数量；

数据获取单元，用于获取每个所述目标音色相似度所对应的预设音频数据，作为目标音频数据；

发送单元，用于将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。

11.如权利要求9所述的装置，其特征在于，所述计算模块包括：

特征提取单元，用于提取所述用户音频数据中每一帧数据分别对应的用户音频特征；

标签设置单元，用于对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签；

计算单元，用于根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型，计算所述用户音频数据对应的个性化音色向量；所述个性化音色计算模型是基于预设的共性音色计算模型和所述多个预设音频数据训练得到的；

所述计算单元，还用于分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的向量余弦距离；

12.如权利要求11所述的装置，其特征在于，所述用户音频特征为梅尔频率倒谱系数MFCC音频特征；

则所述标签设置单元包括：

归一化处理子单元，用于对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据进行归一化处理，得到待匹配信号能量值；

匹配识别子单元，用于将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较，并根据比较结果对每一帧数据进行识别，以识别出包含语音信息的帧数据和不包含语音信息的帧数据；

设置删除子单元，用于为所述包含有语音信息的帧数据设置有效数据标签，并将所述不包含语音信息的帧数据删除。

13.如权利要求11所述的装置，其特征在于，所述共性音色计算模型为通用背景模型UBM，所述个性化音色计算模型为I-vector计算模型；

则所述音频数据处理装置还包括：

预设提取处理模块，用于提取各预设音频数据中每一帧数据分别对应的预设音频特征，并对携带有有效数据标签的预设音频特征进行归一化处理；所述有效数据标签是用于标识包含有语音信息的帧数据的标签；

预设训练模块，用于基于最大期望EM算法和已归一化且携带有有效数据标签的预设音频特征训练UBM的模型参数，并在所述UBM的模型参数训练完成后获取所述UBM的均值向量；

所述预设训练模块，还用于基于所述UBM的均值向量、所述已归一化且携带有有效数据标签的预设音频特征以及预设的迭代次数训练I-vector计算模型中的低秩矩阵；

预设计算模块，用于在低秩矩阵训练完成后，基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量；所述个性化音色向量为I-vector值。

14.如权利要求13所述的装置，其特征在于，

所述计算单元，具体用于对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理，并将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中，并基于所述I-vector计算模型计算出所述用户音频数据对应的个性化音色向量。

15.如权利要求9所述的装置，其特征在于，

所述选择发送模块，还用于当检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时，将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。

16.一种音频数据处理***，其特征在于，包括客户端和服务器；

所述客户端，用于获取用户音频数据，并将所述用户音频数据发送至所述服务器，用于计算所述用户音频数据对应的音频质量分数，并显示所述音频质量分数以及音色相似度计算提示信息，且还用于对所述音频质量分数对应的图形面积进行动态缩小，并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数，并取消对所述音色相似度计算提示信息的显示，并在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度，所述音频属性信息包括目标预设音频数据对应的歌名、歌手名字、歌手头像以及预设文案内容；

所述服务器包括权利要求9-15任一项所述的音频数据处理装置。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于加载并执行如权利要求8的方法步骤。

18.一种音频数据处理装置，其特征在于，包括：处理器、存储器和网络接口；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求8的方法步骤。