CN112435688A

CN112435688A - 音频识别方法、服务器及存储介质

Info

Publication number: CN112435688A
Application number: CN202011313926.8A
Authority: CN
Inventors: 鲁霄
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-02
Anticipated expiration: 2040-11-20
Also published as: CN112435688B

Abstract

本申请实施例公开了一种音频识别方法、服务器及存储介质，包括：提取待识别音频的音频指纹作为基准指纹，将基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；从候选指纹集合中确定出与基准指纹匹配度最高的参考指纹；基于参考指纹与候选指纹集合中的任一候选指纹确定参考指纹与任一候选指纹的LCS；基于LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定参考指纹与每一候选指纹之间的相似度；基于参考指纹与每一候选指纹之间的相似度，筛选出参考指纹的至少一个同音指纹；基于参考指纹以及至少一个同音指纹，确定目标音频。采用本申请，可以提高音频识别的准确度。

Description

音频识别方法、服务器及存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种音频识别方法、服务器及存储介质。

背景技术

听歌识曲功能为广大音乐爱好者检索喜欢的音乐提供了一种非常便利搜索方式，用户只需录制环境中的音乐，或者哼唱歌曲片段，输入应用软件就可以识别出这是哪首歌曲。目前的听歌识曲，主要是根据输入歌曲的特征信息在海量的曲库中进行检索，选出与输入歌曲最相似的歌曲。

在对现有技术的研究和实践过程中，本发明的发明人发现：用户上传的音频片段可能对应有多个版本的音频，而目前的音乐平台音频识别过程粗糙，并未考虑到不同版本之间的差异，导致音乐平台依据用户提供的片段来选出的歌曲可能并不是音频片段真正的来源，不是用户真正想要的。可以看出，目前的音频识别准确性较差。

发明内容

本申请实施例提供一种音频识别方法、服务器及存储介质，以期提高音频识别的准确度。

第一方面，为本申请实施例提供了一种音频识别方法，包括：

提取待识别音频的音频指纹作为基准指纹，将所述基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；

从上述候选指纹集合中确定出与所述基准指纹匹配度最高的参考指纹；

基于上述参考指纹与上述候选指纹集合中的任一候选指纹确定上述参考指纹与上述任一候选指纹的最长公共子序列LCS；

基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，其中，上述第一覆盖范围长度为上述参考指纹中包含上述LCS的最短子序列长度，上述第二覆盖范围长度为上述每一候选指纹中包含上述LCS的最短子序列长度；

基于上述参考指纹与上述每一候选指纹之间的相似度，从上述候选指纹集合中筛选出上述参考指纹的至少一个同音指纹；

基于上述参考指纹以及上述至少一个同音指纹，确定上述待识别音频对应的目标音频。

可选的，上述基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，包括：

根据上述第一覆盖范围长度和上述第二覆盖范围长度确定为覆盖范围总长度；

根据上述LCS的长度与上述覆盖范围总长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述根据上述第一覆盖范围长度和上述第二覆盖范围长度确定为覆盖范围总长度，包括：

获取第一权重系数和第二权重系数，基于上述第一权重系数和上述第二权重系数对上述第一覆盖范围长度和上述第二覆盖范围长度进行加权计算得到上述覆盖范围总长度。

可选的，上述基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，还包括：

根据上述LCS的长度与上述第一覆盖范围长度之间的比值，以及上述LCS的长度与上述第二覆盖范围长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述根据上述LCS的长度与上述第一覆盖范围长度之间的比值，以及上述LCS的长度与上述第二覆盖范围长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度，包括：

获取第一权重系数和第二权重系数，基于上述第一权重系数和上述第二权重系数对上述LCS的长度与上述第一覆盖范围长度之间的比值和上述LCS的长度与上述第二覆盖范围长度之间的比值进行加权计算得到上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述基于上述参考指纹与上述候选指纹集合中的任一候选指纹，确定上述参考指纹与上述任一候选指纹的最长公共子序列LCS，包括：

基于上述参考指纹与上述任一候选指纹，确定上述参考指纹与上述任一候选指纹的匹配矩阵；

基于上述匹配矩阵确定上述参考指纹与上述任一候选指纹之间的最优匹配路径；

基于上述最优匹配路径确定上述参考指纹与上述任一候选指纹的LCS。

可选的，上述基于上述参考指纹以及上述至少一个同音指纹，确定上述待识别音频对应的目标音频，包括：

获取上述参考指纹的音频以及各个同音指纹对应的音频为至少一个同音音频，上述同音音频携带版本信息；

根据预设优先级规则以及上述同音音频的版本信息确定上述同音音频的优先级；

将上述至少一个同音音频中最高优先级的同音音频确定为上述待识别音频对应的目标音频。

可选的，上述根据预设优先级规则以及上述同音音频的版本信息确定上述同音音频的优先级，包括：

将上述同音音频中版本信息为原唱的同音音频的优先级确定为最高优先级。

第二方面，为本申请实施例提供了一种音频识别装置，包括：

提取模块，用于提取待识别音频的音频指纹作为基准指纹；

匹配模块，用于将所述基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；

参考指纹确定模块，用于从上述候选指纹集合中确定出与上述基准指纹匹配度最高的参考指纹；

LCS确定模块，用于基于上述参考指纹与上述候选指纹集合中的任一候选指纹确定上述参考指纹与上述任一候选指纹的最长公共子序列LCS；

相似度确定模块，用于基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，其中，上述第一覆盖范围长度为上述参考指纹中包含上述LCS的最短子序列长度，上述第二覆盖范围长度为上述每一候选指纹中包含上述LCS的最短子序列长度；

同音指纹筛选模块，用于基于上述参考指纹与上述每一候选指纹之间的相似度，从上述候选指纹集合中筛选出上述参考指纹的至少一个同音指纹；

目标音频确定模块，用于基于上述参考指纹以及上述至少一个同音指纹，确定上述待识别音频对应的目标音频。

可选的，上述相似度确定模块，包括：

总长度确定单元，用于根据上述第一覆盖范围长度和上述第二覆盖范围长度确定为覆盖范围总长度；

第一相似度确定单元，用于根据上述LCS的长度与上述覆盖范围总长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述总长度确定单元，具体用于：

可选的，上述相似度确定模块，还包括：

第二相似度确定单元，用于根据上述LCS的长度与上述第一覆盖范围长度之间的比值，以及上述LCS的长度与上述第二覆盖范围长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述第二相似度确定单元，具体用于：

可选的，上述LCS确定模块，包括：

匹配矩阵确定单元，用于基于上述参考指纹与上述任一候选指纹，确定上述参考指纹与上述任一候选指纹的匹配矩阵；

最优路径确定单元，用于基于上述匹配矩阵确定上述参考指纹与上述任一候选指纹之间的最优匹配路径；

LCS确定单元，用于基于上述最优匹配路径确定上述参考指纹与上述任一候选指纹的LCS。

可选的，上述目标音频确定模块，包括：

同音音频获取单元，用于获取上述参考指纹的音频以及各个同音指纹对应的音频为至少一个同音音频，上述同音音频携带版本信息；

优先级确定单元，用于根据预设优先级规则以及上述同音音频的版本信息确定上述同音音频的优先级；

目标音频确定单元，用于将上述至少一个同音音频中最高优先级的同音音频确定为上述待识别音频对应的目标音频。

可选的，上述优先级确定单元，用于将上述同音音频中版本信息为原唱的同音音频的优先级确定为最高优先级。

第三方面，为本申请实施例提供了一种服务器，包括处理器、存储器和收发器，上述处理器、上述存储器和上述收发器相互连接，其中，上述存储器用于存储支持上述电子设备执行上述音频识别方法的计算机程序，上述计算机程序包括程序指令；上述处理器被配置用于调用上述程序指令，执行如上述本申请实施例一方面中上述的音频识别方法。

第四方面，为本申请实施例提供了一种存储介质，上述存储介质存储有计算机程序，上述计算机程序包括程序指令；上述程序指令当被处理器执行时使上述处理器执行如本申请实施例一方面中上述的音频识别方法。

在本申请实施例中，提取待识别音频的音频指纹作为基准指纹，将基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；从候选指纹集合中确定出与基准指纹匹配度最高的参考指纹；基于参考指纹与候选指纹集合中的任一候选指纹确定参考指纹与任一候选指纹的LCS；基于LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定参考指纹与任一候选指纹之间的相似度；并基于参考指纹与任一候选指纹之间的相似度，筛选出参考指纹的至少一个同音指纹；进而基于参考指纹以及至少一个同音指纹，确定待识别音频对应的目标音频。采用本申请，可以提高音频识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种***架构示意图；

图2是本申请实施例提供的一种音频识别方法的流程示意图；

图3是本申请实施例提供的一种确定最优匹配路径的过程示意图；

图4是本申请实施例提供的一种音频识别方法的流程示意图；

图5是本申请实施例提供的一种音频识别装置的结构示意图；

图6是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本申请实施例提供的一种***架构示意图。如图1所示，该***构架示意图包括音频识别平台和用户终端集群，其中，用户终端集群可以包括多个用户终端，如图1所示，具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。

其中，音频识别平台和用户终端集群中的每个用户终端可以为计算机设备，包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID，mobile internetdevice)、POS(Point Of Sales，销售点)机、可穿戴设备(例如智能手表、智能手环等)等。

进一步地，如图1所示，在具体实施音频识别方法的过程中，用户可以使用用户终端输入音频识别请求，音频识别平台在收到音频识别请求后，通知用户终端开始进行音频采集，从而对用户的哼唱声音或是环境中的声音等进行录音，得到待识别音频。提取待识别音频的音频指纹作为基准指纹，计算基准指纹与预设音频指纹库中的每个音频指纹之间的匹配度得到至少一个匹配度，从预设音频指纹库中筛选出匹配度大于或者等于预设匹配度阈值的至少一个音频指纹以得到候选指纹集合，并将候选指纹集合中匹配度最高的候选指纹确定为参考指纹。之后，根据参考指纹与候选指纹集合中的任一候选指纹计算得到参考指纹与任一候选指纹的最长公共子序列(Longest Common Subsequence，LCS)，并基于LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定参考指纹与任一候选指纹之间的相似度。基于参考指纹与任一候选指纹之间的相似度，筛选出相似度大于或者等于预设相似度阈值的至少一个候选指纹以得到参考指纹的至少一个同音指纹，进而获取参考指纹的音频以及各个同音指纹对应的音频为至少一个同音音频，该同音音频携带版本信息，根据预设优先级规则以及同音音频的版本信息确定同音音频的优先级，将至少一个同音音频中优先级最高的同音音频确定为待识别音频对应的目标音频。

请参见图2，是本申请实施例提供的一种音频识别方法的流程示意图。如图1所示，该方法实施例包括如下步骤：

S101，提取待识别音频的音频指纹作为基准指纹。

在执行步骤S101之前，音频识别平台可对音频库中的各音频进行音频指纹提取，将提取得到的各音频指纹存储到预设音频指纹库中，并记录各音频与音频指纹的映射关系。

在一些可行的实施方式中，用户终端向音频识别平台发送音频识别请求，音频识别平台在接收到该音频识别请求后，获取待识别音频，对待识别音频进行音频指纹提取，并将待识别音频的音频指纹作为基准指纹，用于查询与其最接近或最相似的音频指纹。

举例来说，用户可以使用用户终端输入音频识别请求，音频识别平台在收到音频识别请求后，通知用户终端开始进行音频采集，从而对用户的哼唱声音或是环境中的声音等进行录音，得到待识别音频，该待识别音频即为本次音频识别请求对应的待识别音频。当然，用户也可以将用户终端本地存储的，或是从网络上下载的音频上传给音频识别平台，进而，音频识别平台得到音频识别请求及其对应的待识别音频。

之后，音频识别平台对待识别音频的音频信号进行音频指纹提取，得到待识别音频的音频指纹，该音频指纹包含了待识别音频的音频特征信息。其中，对音频信号的音频指纹提取具体可以包括对音频信号进行分帧、加窗、快速傅里叶变换(Fast FourierTransform，FFT)频域变换、提取局部峰值和转换哈希序列等。

具体的，音频识别平台在得到待识别音频后，对待识别音频的音频信号进行分帧和加窗处理。分帧为按预设规则将整段音频信号切成多段，每一段即为一帧，以使音频信号在微观上是平稳的，从而能为后期的音频信号处理输入平稳信号。然后，音频识别平台使用预设的加窗函数分别对每帧音频进行加窗，预设的加窗函数可以是汉明窗等，从而使分帧后的音频信号更加连贯，表现出周期函数特征。

之后，音频识别平台对每一帧音频信号进行FFT频域变换，得到包含频域信息的频谱。进而，音频识别平台提取频谱中的局部峰值，并转换成哈希序列该哈希序列即为待识别音频的音频指纹，并将待识别音频的音频指纹作为基准指纹。需要说明的是，该哈希序列中可以包括多个哈希值。

S102，将基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合。

音频识别平台计算基准指纹与预设音频指纹库中的每个音频指纹的匹配度，实现音频指纹的检索或匹配。

在一些可行的实施方式中，基准指纹和预设音频指纹库中的音频指纹均使用哈希序列表征，音频识别平台可分别统计基准指纹与预设音频指纹库中各音频指纹所包含的相同哈希值的数量，根据相同哈希值的数量，分别计算基准指纹与预设音频指纹库中各音频指纹的匹配度。

具体的，以预设音频指纹库中任一音频指纹为例，音频识别平台将基准指纹哈希序列中的哈希值与该音频指纹哈希序列中的哈希值进行一一比对，并统计相同哈希值的数量，音频识别装置将得到的相同哈希值的数量作为基准指纹与该音频指纹之间的匹配度，进而得到基准指纹与预设音频指纹库中各音频指纹之间的匹配度，并基于匹配度将预设音频指纹库中，与基准指纹之间的匹配度大于或者等于预设匹配度阈值的音频指纹筛选出来，得到至少一个候选指纹，进而得到候选指纹集合。

S103，从候选指纹集合中确定出与基准指纹匹配度最高的参考指纹。

在一些可行的实施方式中，音频识别平台将候选指纹集合中，与基准指纹之间的匹配度最高的候选指纹确定为参考指纹。

需要说明的是，这里的候选指纹可以理解为其对应的音频与待识别音频是相同或可视为相同的，例如同一首歌曲，或是编曲不同的同一首歌。

S104，基于参考指纹与候选指纹集合中的任一候选指纹确定参考指纹与任一候选指纹的最长公共子序列LCS。

在一些可行的实施方式中，音频识别平台基于参考指纹与任一候选指纹，确定参考指纹与任一候选指纹的匹配矩阵；基于匹配矩阵确定参考指纹与任一候选指纹之间的最优匹配路径；基于最优匹配路径确定参考指纹与任一候选指纹的LCS。

其中，音频识别平台可采用动态规划的方式确定参考指纹与任一候选指纹的LCS，实现方式如下：

根据参考指纹、任一候选指纹和预设匹配值计算得到匹配矩阵A，匹配矩阵A包括(j+1)*(k+1)个矩阵元素，其中，j为参考指纹的序列元素个数，k为任一候选指纹的序列元素个数；

将匹配矩阵A中的矩阵元素A(j+1,k+1)确定为第一目标元素，从第一目标元素在匹配矩阵A中对应的多个可选路径元素中确定第一目标元素的路径元素；

将第一目标元素的路径元素确定为第二目标元素，从第二目标元素在匹配矩阵A中对应的多个可选路径元素中确定第二目标元素的路径元素，直至第m目标元素的路径元素为匹配矩阵A中的矩阵元素A(1,1)；

根据第一目标元素和至少一个路径元素确定最优匹配路径；

从最优匹配路径对应的多个矩阵元素中筛选出目标矩阵元素，根据目标矩阵元素确定参考指纹与任一候选指纹的LCS。

具体的，音频识别平台根据参考指纹、第一候选指纹和预设匹配值计算得到匹配矩阵A，匹配矩阵A包括(j+1)*(k+1)个矩阵元素，其中，j为参考指纹的序列元素个数，k为第一候选指纹的序列元素个数，具体实现过程如下：

音频识别平台根据预设矩阵元素A(1,:)、A(:,1)，确定匹配矩阵A的第一行矩阵元素A(1,:)和第一列矩阵元素A(:,1)，根据参考指纹的第m个序列元素与第一候选指纹的第n个序列元素之间的差值、预设匹配值、预设匹配分数、矩阵元素A(m,n)、A(m-1,n)以及A(m,n-1)，确定A(m+1,n+1)，其中，m为大于等于1并且小于等于j的整数，n为大于等于1并且小于等于k的整数，可以理解的，若参考指纹的第m个序列元素与参考基频子序列的第n个序列元素之间的差值与预设匹配值相等，则A(m+1,n+1)为A(m,n)与预设匹配分数之间的和，否则，A(m+1,n+1)为A(m-1,n)与A(m,n-1)之间的最大值，根据上述方式可确定A(m+1,n+1)，即匹配矩阵A中第m+1行、第n+1列的矩阵元素值。进而可根据上述方式计算得到匹配矩阵A。这里，预设匹配值为0。

其中，A(1,:)、A(:,1)和预设匹配分数均由人为设定，这里对此不做限定。

这里对A(1,:)＝A(:,1)＝0，预设匹配分数＝1时，音频识别平台确定参考指纹与第一候选指纹之间的匹配矩阵的实现过程进行详细举例说明，请参见图3，是本申请实施例提供的一种确定最佳匹配路径的过程示意图。如图3所示，音频识别平台根据参考指纹S1＝{ACDEFGGH}、第一候选指纹S2＝{CEGDHFGHB}和预设矩阵元素A(1,:)＝A(:,1)＝0确定匹配矩阵A中包括9*10个矩阵元素，并且匹配矩阵A的第一行和第一列的矩阵元素均为0，之后，确定匹配矩阵A中第2行、第2列的矩阵元素A(2,2)，具体计算过程可以为：计算参考指纹S1中的第一个序列元素A与第一候选指纹S2中的第一个序列元素C之间的差值，该差值不等于预设匹配值0，则将A(1,2)＝A(2,1)＝0中的最大值0确定为A(2,2)。之后，确定匹配矩阵A中第3行、第2列的矩阵元素A(3,2)，具体计算过程可以为：计算参考指纹S1中的第二个序列元素C与第一候选指纹S2中的第一个序列元素C之间的差值，该差值等于预设匹配值0，则将A(2,1)＝0与预设匹配分数1之间的和1确定为A(3,2)。根据上述方式可计算得到匹配矩阵A中的每一个矩阵元素，参考指纹S1与第一候选指纹S2之间的匹配矩阵见图3中虚线中的区域。

之后，音频识别平台可以通过回溯的方法在匹配矩阵A中找到最优匹配路径。

举例来说，请再参见图3，匹配矩阵A可以由多条从匹配矩阵的第一个矩阵元素A(1,1)＝0到最后一个矩阵元素A(9,10)＝5的匹配路径组成，音频识别平台将最后一个矩阵元素A(9,10)＝5确定为第一目标元素，由于该第一目标元素在匹配矩阵A中对应的参考指纹S1的序列元素H与第一候选指纹S2中的序列元素B不相等，则将第一目标元素的可选路径元素A(9,9)＝5和A(8,10)＝4中的最大值A(9,9)＝5确定为第一目标元素的路径元素。将A(9,9)＝5确定为第二目标元素，由于该第二目标元素在匹配矩阵A中对应的参考指纹S1中的序列元素H与第一候选指纹S2中的序列元素H相等，则将第二目标元素的可选路径元素A(8,8)＝4确定为第二目标元素的路径元素。根据上述方式，得到每个目标元素的路径元素，直至得到的最后一个路径元素为A(1,1)＝0，则按照第一目标元素和多个路径元素确定的顺序连接形成最优匹配路径，即图2中箭头形成的路径。

之后，音频识别平台根据最优匹配路径确定参考指纹与第一候选指纹的LCS。

具体的，音频识别平台从最优匹配路径对应的多个矩阵元素中，筛选出满足参考指纹S1中的序列元素与第一候选指纹S2中的序列元素相等的至少一个目标矩阵元素，将每个目标矩阵元素在参考指纹S1或第一候选指纹S2中对应的序列元素，按照序列元素在参考指纹S1或第一候选指纹S2中对应的序列编号从小到大的顺序，对至少一个目标矩阵元素对应的至少一个序列元素进行排序，得到排序后的至少一个序列元素，将即参考指纹与第一候选指纹的LCS。

举例来说，音频识别平台从图3所示的最佳匹配路径对应的矩阵元素A(1,1)、A(2,1)、A(3,2)、A(4,2)、A(5,3)、A(6,3)、A(7,4)、A(7,5)、A(7,6)、A(7,7)、A(8,8)、A(9,9)、A(9,10)中筛选得到矩阵元素所在位置对应的参考指纹S1中的序列元素与第一候选指纹S2中的序列元素相等的目标矩阵元素A(3,2)、A(5,3)、A(7,4)、A(8,8)和A(9,9)，将A(3,2)、A(5,3)、A(7,4)、A(8,8)和A(9,9)分别在参考指纹S1中对应的序列元素s2＝C、s4＝E、s6＝G、s7＝G和s8＝H，按照序列元素在参考指纹S1中对应的序列编号(2、4、6、7和8)从小到大的顺序，对上述序列元素进行排序后得到C、E、G、G和H，进而得到参考指纹S1与第一候选指纹S2的LCS＝{C,E,G,G,H}。

S105，基于LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定参考指纹与每一候选指纹之间的相似度。

其中，上述第一覆盖范围长度为上述参考指纹中包含上述LCS的最短子序列长度，上述第二覆盖范围长度为上述每一候选指纹中包含上述LCS的最短子序列长度。

举例来说，假设参考指纹S1＝{ACDEFGGH}、第一候选指纹S2＝{CEGDHFGHB}和LCS＝{C,E,G,G,H}，则LCS的长度为5，参考指纹S1中包含LCS的最短子序列为{CDEFGGH},该序列{CDEFGGH}的序列长度为7，即第一覆盖范围长度为7；第一候选指纹S2中包含LCS的最短子序列为{CEGDHFGH},该序列{CEGDHFGH}的序列长度为8，即第二覆盖范围长度为8。

在一些可行的实施方式中，音频识别平台根据第一覆盖范围长度和第二覆盖范围长度确定为覆盖范围总长度；根据LCS的长度与覆盖范围总长度之间的比值，确定参考指纹与每一候选指纹之间的相似度。

具体的，音频识别平台根据第一覆盖范围长度和第二覆盖范围长度确定为覆盖范围总长度可包括以下实现方式：将第一覆盖范围长度x₁与第二覆盖范围长度x₂之间的和确定为覆盖范围总长度X，即X＝x₁+x₂；或者，获取第一权重系数α₁和第二权重系数α₂，基于第一权重系数和第二权重系数对第一覆盖范围长度和第二覆盖范围长度进行加权计算得到覆盖范围总长度X，即X＝x₁*α₁+x₂*α₂，其中，α₁和α₂均为大于等于0且小于等于1的任意数，并且α₁+α₂＝1。

之后，音频识别平台根据预设系数γ，LCS的长度与覆盖范围总长度之间的比值z，计算得到参考指纹与每一候选指纹之间的相似度为γ*z。

举例来说，假设参考指纹S1＝{A,C,D,E,F,G,G,H}、第一候选指纹S2＝{C,E,G,D,H,F,G,H,B}、LCS＝{C,E,G,G,H}、LCS的长度为5、第一覆盖范围长度为7、第二覆盖范围长度为8和预设系数γ＝2，则音频识别平台将第一覆盖范围长度7与第二覆盖范围长度8之间的和确定为覆盖范围总长度15，根据预设系数γ＝2，LCS的长度与覆盖范围总长度之间的比值z＝5/15，计算得到参考指纹S1与第一候选指纹S2之间的相似度为γ*z＝2/3。

S106，基于参考指纹与每一候选指纹之间的相似度，从候选指纹集合中筛选出参考指纹的至少一个同音指纹。

在一些可行的实施方式中，音频识别平台可以将相似度数值最大的其他候选指纹，作为参考指纹的同音指纹：或者，音频识别平台将相似度数值按照由大至小的顺序，选取排序在前预设位次的其他候选指纹，作为参考指纹的同音指纹；或者，在候选指纹集合中，筛选出与参考指纹的相似度大于或者等于预设相似度阈值的候选指纹，作为上述参考指纹的同音指纹，其中，预设相似度阈值可根据实际需要灵活调整，例如25％。

进一步地，参考指纹与其他候选指纹的相似度还可以通过相关性等方式进行计算。其中，相关性可以是计算参考指纹与其他候选指纹哈希序列的方差，将方差值作为参考指纹与其他候选指纹的相似度。然后，音频识别平台将方差数值满足预设要求的其他候选指纹，作为参考指纹的同音指纹。

需要说明的是，同音指纹可以理解为其对应的音频与参考指纹对应的音频是相同或可视为相同的。例如，在音乐平台的曲库中，存在编号不同但其实是同一首歌曲的多个音频，比如是同一首歌曲的不同版本，不同歌手翻唱的不同版本，或是收入不同专辑或电台的同一首歌曲，将属于同一首歌的多个音频定义为同音音频，它们的音频指纹即为同音指纹。

S107，基于参考指纹以及至少一个同音指纹，确定待识别音频对应的目标音频。

在一些可行的实施方式中，音频识别平台可获取参考指纹的音频以及各个同音指纹对应的音频为至少一个同音音频，同音音频携带版本信息；根据预设优先级规则以及同音音频的版本信息确定同音音频的优先级；将至少一个同音音频中优先级最高的同音音频确定为待识别音频对应的目标音频。

其中，版本信息包括音频的来源、歌手、播放量、上架和/或发行时间等信息，可以是音频自带的预设信息。同音音频可以是来源不同和/或版本等版本信息不同的音频。

例如，音频识别平台根据同音音频中的来源信息，将来源为专辑的版本优先级设定为最高，来源为电台的版本优先级设定为最低。由此，音频识别平台将来源为专辑的同音音频确定为目标音频。

例如，音频识别平台根据同音音频的上架时间，按照时间先后顺序，将上架时间最早的版本优先级设置为最高，上架时间最晚的版本优先级设置为最低。由此，音频识别平台将上架时间最早的同音音频确定为目标音频。

例如，音频识别平台根据同音音频的播放量，按照从高到低的顺序，将播放量最高的版本优先级设置为最高，播放量最低的版本优先级设置为最低。由此，音频识别平台将播放量最高的同音音频确定为目标音频。

又如，音频识别平台根据同音音频的歌手，将歌手优先级最高的版本优先级设置为最高，歌手优先级最低的版本优先级设置为最低。例如原唱歌手的优先级高于其他翻唱歌手。由此，音频识别平台将原唱音频确定为目标音频。

由此，目标音频为与待识别音频最相似，且版本最准确音频。

在本申请实施例中，音频识别平台在确定参考指纹与任一候选指纹的LCS后，根据LCS的长度、第一覆盖范围长度(参考指纹中包含LCS的最短子序列长度)和第二覆盖范围长度(任一候选指纹中包含LCS的最短子序列长度)，计算得到参考指纹与任一候选指纹之间的相似度，从而避免了忽略两指纹的序列长度，仅考虑全局相似度的情况，提高了音频相似度的准确度，进而提高了音频识别的准确度。

请参见图4，是本申请实施例提供的一种音频识别方法的流程示意图。如图4所示，该方法实施例包括如下步骤：

S201，提取待识别音频的音频指纹作为基准指纹。

S202，将基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合。

S203，从候选指纹集合中确定出与基准指纹匹配度最高的参考指纹。

S204，基于参考指纹与候选指纹集合中的任一候选指纹确定参考指纹与任一候选指纹的最长公共子序列LCS。

S205，根据第一覆盖范围长度和第二覆盖范围长度确定为覆盖范围总长度，根据LCS的长度与覆盖范围总长度之间的比值，确定参考指纹与每一候选指纹之间的相似度。

这里，步骤S201-步骤S205的具体实现方式可参考图2对应的实施例中步骤S101-步骤S105的描述，此处不再赘述。

S206，根据LCS的长度与第一覆盖范围长度之间的比值，以及LCS的长度与第二覆盖范围长度之间的比值，确定参考指纹与每一候选指纹之间的相似度。

在一些可行的实施方式中，音频识别平台可获取第一权重系数γ₁和第二权重系数γ₂，基于第一权重系数γ₁和第二权重系数γ₂对LCS的长度与第一覆盖范围长度之间的比值z₁和LCS的长度与第二覆盖范围长度之间的比值z₂进行加权计算得到参考指纹与上述任一候选指纹之间的相似度为z₁*γ₁+z₂*γ₂，其中，第一权重系数γ₁和第二权重系数γ₂均为大于等于0且小于等于1的任意数，并且γ₁+γ₂＝1。

举例来说，假设参考指纹S1＝{A,C,D,E,F,G,G,H}、第一候选指纹S2＝{C,E,G,D,H,F,G,H,B}、LCS＝{C,E,G,G,H}、LCS的长度为5、第一覆盖范围长度为7、第二覆盖范围长度为8和第一权重系数γ₁＝0.5和第二权重系数γ₂＝0.5，则音频识别平台根据第一权重系数γ₁＝0.5和第二权重系数γ₂＝0.5对LCS的长度与第一覆盖范围长度之间的比值z₁＝5/7和LCS的长度与第二覆盖范围长度之间的比值z₂＝5/8，计算得到参考指纹与第一候选指纹之间的相似度为z₁*γ₁+z₂*γ₂＝75/112。

S207，基于参考指纹与每一候选指纹之间的相似度，从候选指纹集合中筛选出参考指纹的至少一个同音指纹。

这里，步骤S207的具体实现方式可参考图2对应的实施例中步骤S106的描述，此处不再赘述。

S208，基于参考指纹以及至少一个同音指纹，确定待识别音频对应的目标音频。

在一些可行的实施方式中，音频识别平台将参考指纹及其同音指纹对应的音频，全部作为待识别音频对应的目标音频。这样，避免了由于版本问题而导致漏选的与待识别音频实质相同的音频，提高了音频识别的准确度。

在本申请实施例中，音频识别平台在确定参考指纹与任一候选指纹的LCS后，可根据LCS的长度与覆盖范围总长度的比值确定参考指纹与任一候选指纹之间的相似度，其中，覆盖范围总长度可根据第一覆盖范围长度(参考指纹中包含LCS的最短子序列长度)和第二覆盖范围长度(任一候选指纹中包含LCS的最短子序列长度)确定；也可根据LCS的长度与第一覆盖范围长度的比值，以及LCS的长度与第二覆盖范围长度的比值确定参考指纹与任一候选指纹之间的相似度，从而来平衡两指纹的序列长度不同造成的差异，也更加强调局部相似度，避免了由于原唱的歌曲指纹相似度评估过低被过滤掉，造成返还翻唱版本的情况，提高了音频相似度的准确度，进而提高了音频识别的准确度。

请参见图5，为本申请实施例提供了一种音频识别装置的结构示意图。该音频识别装置应用于音频识别平台，如图5所示，该音频识别装置包括提取模块51、匹配模块52、参考指纹确定模块53、LCS确定模块54、相似度确定模块55、同音指纹筛选模块56和目标音频确定模块57。

提取模块51，用于提取待识别音频的音频指纹作为基准指纹；

匹配模块52，用于将上述基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；

参考指纹确定模块53，用于从上述候选指纹集合中确定出与上述基准指纹匹配度最高的参考指纹；

LCS确定模块54，用于基于上述参考指纹与上述候选指纹集合中的任一候选指纹确定上述参考指纹与上述任一候选指纹的最长公共子序列LCS；

相似度确定模块55，用于基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，其中，上述第一覆盖范围长度为上述参考指纹中包含上述LCS的最短子序列长度，上述第二覆盖范围长度为上述每一候选指纹中包含上述LCS的最短子序列长度；

同音指纹筛选模块56，用于基于上述参考指纹与上述每一候选指纹之间的相似度，从上述候选指纹集合中筛选出上述参考指纹的至少一个同音指纹；

目标音频确定模块57，用于基于上述参考指纹以及上述至少一个同音指纹，确定上述待识别音频对应的目标音频。

可选的，上述相似度确定模块55，包括：

总长度确定单元551，用于根据上述第一覆盖范围长度和上述第二覆盖范围长度确定为覆盖范围总长度；

第一相似度确定单元552，用于根据上述LCS的长度与上述覆盖范围总长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述总长度确定单元551，具体用于：

可选的，上述相似度确定模块55，还包括：

第二相似度确定单元553，用于根据上述LCS的长度与上述第一覆盖范围长度之间的比值，以及上述LCS的长度与上述第二覆盖范围长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度。

可选的，上述第二相似度确定单元553，具体用于：

获取第一权重系数和第二权重系数，基于上述第一权重系数和上述第二权重系数对上述LCS的长度与上述第一覆盖范围长度之间的比值和上述LCS的长度与上述第二覆盖范围长度之间的比值进行加权计算得到上述参考指纹与上述任一候选指纹之间的相似度。

可选的，上述LCS确定模块54，包括：

匹配矩阵确定单元541，用于基于上述参考指纹与上述任一候选指纹，确定上述参考指纹与上述任一候选指纹的匹配矩阵；

最优路径确定单元542，用于基于上述匹配矩阵确定上述参考指纹与上述任一候选指纹之间的最优匹配路径；

LCS确定单元543，用于基于上述最优匹配路径确定上述参考指纹与上述任一候选指纹的LCS。

可选的，上述目标音频确定模块57，包括：

同音音频获取单元571，用于获取上述参考指纹的音频以及各个同音指纹对应的音频为至少一个同音音频，上述同音音频携带版本信息；

优先级确定单元572，用于根据预设优先级规则以及上述同音音频的版本信息确定上述同音音频的优先级；

目标音频确定单元573，用于将上述至少一个同音音频中最高优先级的同音音频确定为上述待识别音频对应的目标音频。

可选的，上述优先级确定单元572，用于将上述同音音频中版本信息为原唱的同音音频的优先级确定为最高优先级。

可以理解的，该音频识别装置5用于实现图2和图4实施例中音频识别平台所执行的步骤。关于图5的音频识别装置5包括的功能块的具体实现方式及相应的有益效果，可参考前述图2和图4的实施例的具体介绍，这里不赘述。

上述图5所示实施例中的音频识别装置5可以以图6所示的服务器600来实现。请参见图6，为本申请实施例提供了一种服务器的结构示意图。如图6所示，上述服务器600可以包括：一个或多个处理器601和存储器602。上述处理器601和存储器602通过总线603连接。其中，上述存储器602用于存储计算机程序，该计算机程序包括程序指令；处理器601用于执行存储器602存储的程序指令，执行如下操作：

提取待识别音频的音频指纹作为基准指纹；

将上述基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；

从上述候选指纹集合中确定出与上述基准指纹匹配度最高的参考指纹；

可选的，上述处理器601基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，具体执行以下操作：

可选的，上述处理器601根据上述第一覆盖范围长度和上述第二覆盖范围长度确定为覆盖范围总长度，具体执行以下操作：

可选的，上述处理器601基于上述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定上述参考指纹与每一候选指纹之间的相似度，还具体执行以下操作：

可选的，上述处理器601根据上述LCS的长度与上述第一覆盖范围长度之间的比值，以及上述LCS的长度与上述第二覆盖范围长度之间的比值，确定上述参考指纹与上述每一候选指纹之间的相似度，具体执行以下操作：

可选的，上述处理器601基于上述参考指纹与上述候选指纹集合中的任一候选指纹，确定上述参考指纹与上述任一候选指纹的最长公共子序列LCS，具体执行以下操作：

可选的，上述处理器601基于上述参考指纹以及上述至少一个同音指纹，确定上述待识别音频对应的目标音频，具体执行以下操作：

可选的，上述处理器601根据预设优先级规则以及所述同音音频的版本信息确定上述同音音频的优先级，具体执行以下操作：

在本申请实施例中还提供了一种计算机存储介质，可以用于存储图5所示实施例中上述音频识别装置所用的计算机软件指令，其包含用于执行上述实施例中为音频识别装置所设计的程序。该存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

在本申请实施例中还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备运行该计算机程序产品或计算机程序时，可以执行上述图5所示实施例中为所设计的音频识别装置。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请中，“A和/或B”是指下述情况之一：A，B，A和B。“……中至少一个”是指所列出的各项或者任意数量的所列出的各项的任意组合方式，例如，“A、B和C中至少一个”是指下述情况之一：A，B，C，A和B，B和C，A和C，A、B和C这七种情况中的任一种。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频识别方法，其特征在于，包括：

提取待识别音频的音频指纹作为基准指纹；

将所述基准指纹与预设音频指纹库中的每个音频指纹进行匹配得到候选指纹集合；

从所述候选指纹集合中确定出与所述基准指纹匹配度最高的参考指纹；

基于所述参考指纹与所述候选指纹集合中的任一候选指纹，确定所述参考指纹与所述任一候选指纹的最长公共子序列LCS；

基于所述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定所述参考指纹与每一候选指纹之间的相似度，其中，所述第一覆盖范围长度为所述参考指纹中包含所述LCS的最短子序列长度，所述第二覆盖范围长度为所述每一候选指纹中包含所述LCS的最短子序列长度；

基于所述参考指纹与所述每一候选指纹之间的相似度，从所述候选指纹集合中筛选出所述参考指纹的至少一个同音指纹；

基于所述参考指纹以及所述至少一个同音指纹，确定所述待识别音频对应的目标音频。

2.根据权利要求1所述的方法，其特征在于，所述基于所述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定所述参考指纹与每一候选指纹之间的相似度，包括：

根据所述第一覆盖范围长度和所述第二覆盖范围长度确定为覆盖范围总长度；

根据所述LCS的长度与所述覆盖范围总长度之间的比值，确定所述参考指纹与所述每一候选指纹之间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一覆盖范围长度和所述第二覆盖范围长度确定为覆盖范围总长度，包括：

获取第一权重系数和第二权重系数，基于所述第一权重系数和所述第二权重系数对所述第一覆盖范围长度和所述第二覆盖范围长度进行加权计算得到所述覆盖范围总长度。

4.根据权利要求1所述的方法，其特征在于，所述基于所述LCS的长度、第一覆盖范围长度和第二覆盖范围长度，确定所述参考指纹与每一候选指纹之间的相似度，还包括：

根据所述LCS的长度与所述第一覆盖范围长度之间的比值，以及所述LCS的长度与所述第二覆盖范围长度之间的比值，确定所述参考指纹与所述每一候选指纹之间的相似度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述LCS的长度与所述第一覆盖范围长度之间的比值，以及所述LCS的长度与所述第二覆盖范围长度之间的比值，确定所述参考指纹与所述每一候选指纹之间的相似度，包括：

获取第一权重系数和第二权重系数，基于所述第一权重系数和所述第二权重系数对所述LCS的长度与所述第一覆盖范围长度之间的比值和所述LCS的长度与所述第二覆盖范围长度之间的比值进行加权计算得到所述参考指纹与所述每一候选指纹之间的相似度。

6.根据权利要求1所述的方法，其特征在于，所述基于所述参考指纹与所述候选指纹集合中的任一候选指纹，确定所述参考指纹与所述任一候选指纹的最长公共子序列LCS，包括：

基于所述参考指纹与所述任一候选指纹，确定所述参考指纹与所述任一候选指纹的匹配矩阵；

基于所述匹配矩阵确定所述参考指纹与所述任一候选指纹之间的最优匹配路径；

基于所述最优匹配路径确定所述参考指纹与所述任一候选指纹的LCS。

7.根据权利要求1所述的方法，其特征在于，所述基于所述参考指纹以及所述至少一个同音指纹，确定所述待识别音频对应的目标音频，包括：

获取所述参考指纹的音频以及各个同音指纹对应的音频为至少一个同音音频，所述同音音频携带版本信息；

根据预设优先级规则以及所述同音音频的版本信息确定所述同音音频的优先级；

将所述至少一个同音音频中最高优先级的同音音频确定为所述待识别音频对应的目标音频。

8.根据权利要求7所述的方法，其特征在于，所述根据预设优先级规则以及所述同音音频的版本信息确定所述同音音频的优先级，包括：

将所述同音音频中版本信息为原唱的同音音频的优先级确定为最高优先级。

9.一种服务器，其特征在于，包括处理器、存储器和收发器，所述处理器、存储器和收发器相互连接，其中，所述收发器用于接收或发送数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，执行如权利要求1-8任一项所述的音频识别方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令；所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的音频识别方法。