CN104133851A

CN104133851A - 音频相似度的检测方法和检测装置、电子设备

Info

Publication number: CN104133851A
Application number: CN201410320089.XA
Authority: CN
Inventors: 沈建荣; 谭国斌; 马哲
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2014-11-05
Anticipated expiration: 2034-07-07
Also published as: CN104133851B

Abstract

本公开是关于音频相似度的检测方法和检测装置、电子设备，该检测方法包括：获取待检测音频流；确定所述待检测音频流的特征参数值；将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。在本公开的技术方案中，通过将音频流之间的特征参数值进行比较，使得相似度的判断更为准确、量化，有助于提升用户的使用体验。

Description

音频相似度的检测方法和检测装置、电子设备

技术领域

本公开涉及音频处理技术领域，尤其涉及音频相似度的检测方法和检测装置、电子设备。

背景技术

随着科技水平的发展，人们可以通过各种途径获取电影、电视剧、歌曲、演讲视频等影视资料。在日益加快的生活节奏下，人们已经不满足于对影视资料的单纯欣赏，而是通过模仿对白、歌曲等方式来自娱自乐，以达到身心放松、减压的目的。

然而在相关技术中，人们只能够根据自身或他人的感受，粗略地判断出模仿过程中的音频相似度，导致音频相似度判断结果的准确性不高，影响人们的使用体验。

发明内容

本公开提供音频相似度的检测方法和检测装置，以解决相关技术中仅依据人为感受来判断音频相似度，导致判断结果准确性不高的问题。

根据本公开实施例的第一方面，提供一种音频相似度的检测方法，包括：

获取待检测音频流；

确定所述待检测音频流的特征参数值；

将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；

根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

可选的，确定所述待检测音频流的特征参数值包括：

解析所述待检测音频流，得到数字脉冲信号的强度值；

累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述待检测音频流的特征参数值。

可选的，累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述特征参数值包括：

调用所述参考音频流中的数字脉冲信号的最大强度值；

根据所述最大强度值，对所述待检测音频流的数字脉冲信号的强度值进行归一化处理；

累加归一化处理后的数字脉冲信号的强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值。

调用预配置的字幕分割策略；

采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组；

分别计算出每个组的累加强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值。

可选的，将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较包括：

根据用于预先对所述参考音频流进行量化处理的量化策略，对所述待检测音频流的特征参数值进行量化处理；

根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。

可选的，根据用于预先对所述参考音频流进行量化处理的量化策略，对所述待检测音频流的特征参数值进行量化处理包括：

调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系；

将所述待检测音频流的特征参数值与所述对应关系进行匹配，获得所述待检测音频流的特征参数值所属的量化区间；

将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。

当所述待检测音频流被划分为多个音频块时，确定每个音频块与播放时间轴之间的对应关系；

根据所述对应关系，分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较。

根据本公开实施例的第二方面，提供一种音频相似度的检测装置，包括：

获取单元，用于获取待检测音频流；

确定单元，用于确定所述待检测音频流的特征参数值；

比较单元，用于将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；

计算单元，用于根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

可选的，所述确定单元包括：

解析子单元，用于解析所述待检测音频流，得到数字脉冲信号的强度值；

累加子单元，用于累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述待检测音频流的特征参数值。

可选的，所述累加子单元包括：

第一调用模块，用于调用所述参考音频流中包含的采样到的数字脉冲信号的最大强度值；

处理模块，用于根据所述最大强度值，对所述待检测音频流的数字脉冲信号的强度值进行归一化处理；

第一计算模块，用于累加归一化处理后的数字脉冲信号的强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值。

可选的，所述累加子单元包括：

第二调用模块，用于调用预配置的字幕分割策略；

划分模块，用于采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组；

第二计算模块，用于分别计算出每个组的累加强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值。

可选的，所述比较单元包括：

量化子单元，用于根据用于预先对所述参考音频流进行量化处理的量化策略，对所述待检测音频流的特征参数值进行量化处理；

第一处理子单元，用于根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。

可选的，所述量化子单元包括：

第三调用模块，用于调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系；

匹配模块，用于将所述待检测音频流的特征参数值与所述对应关系进行匹配，获得所述待检测音频流的特征参数值所属的量化区间；

处理模块，用于将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。

可选的，所述比较单元包括：

确定子单元，用于当所述待检测音频流被划分为多个音频块时，确定每个音频块与播放时间轴之间的对应关系；

第二处理子单元，用于根据所述对应关系，分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待检测音频流；

确定所述待检测音频流的特征参数值；

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过分别获取待检测音频流和参考音频流的特征参数值，使得基于该特征参数值的相似度判断过程无需依赖用户的主观感受，从而令判断结果更加准确，有助于提升用户的使用体验。

本公开还可以通过解析音频流对应的数字脉冲信号的强度值，并基于该强度值的累加运算，实现了基于量化计算的相似度比较，有助于提升判断结果的准确性。

本公开还可以通过归一化处理，有助于控制数字脉冲信号的强度值的数值范围，方便对特征参数值的后续计算；同时，通过采用基于参考音频流的归一化处理，使得待检测音频流对应的数字脉冲信号的强度值被引入参考音频流对应的参考系中，从而有助于提升两者间的可比性，并提高相似度比较的准确度。

本公开还可以通过将数字脉冲信号的强度值划分为多个数组，将待检测音频流分为多个部分，并分别将每个部分与参考音频流的相应部分进行比较，从而实现逐句、逐字比较，进一步提升用户的使用体验。

本公开还可以通过对特征参数值的量化处理，有助于降低数值比较时的复杂度和计算量，便于本公开的技术方案在实时场景以及嵌入式设备上的实现。

本公开还可以通过划分待检测音频流，并将每个音频块对应的特征参数值分别进行比较，从而通过控制划分区间来实现更为细致的相似度比较，比如逐句或逐字划分音频块时，即可相应实现音频相似度的逐句比较或逐字比较。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音频相似度的检测方法的流程图；

图2是根据一示例性实施例示出的一种音频相似度的检测方法中采样数字脉冲信号的示意图；

图3是根据一示例性实施例示出的另一种音频相似度的检测方法的流程图；

图4是根据一示例性实施例示出的一种音频相似度的检测方法中对强度值划分组的示意图；

图5是根据一示例性实施例示出的一种音频相似度的检测方法中对特征参数值进行量化处理的示意图；

图6是根据一示例性实施例示出的另一种音频相似度的检测方法中对特征参数值进行量化处理的示意图；

图7是根据一示例性实施例示出的另一种音频相似度的检测方法的流程图；

图8是根据一示例性实施例示出的一种音频相似度的检测装置的框图；

图9是根据一示例性实施例示出的另一种音频相似度的检测装置的框图；

图10是根据一示例性实施例示出的另一种音频相似度的检测装置的框图；

图11是根据一示例性实施例示出的另一种音频相似度的检测装置的框图；

图12是根据一示例性实施例示出的另一种音频相似度的检测装置的框图；

图13是根据一示例性实施例示出的另一种音频相似度的检测装置的框图；

图14是根据一示例性实施例示出的另一种音频相似度的检测装置的框图；

图15是根据一示例性实施例示出的一种用于音频相似度的检测装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种音频相似度的检测方法的流程图，如图1所示，该检测方法可以用于终端中，包括以下步骤：

在步骤101中，获取待检测音频流；

在本实施例中，用户通过模仿影视资料时进行录音，则从该录音中提取出仅包含用户人声的音频流，即待检测音频流。待检测音频流可以由终端上配置的录音设备直接采集得到；或者，也可以由其他录音设备采集，并将该待检测音频流在终端上进行相似度检测。同时，实时采集待检测音频流和执行相似度检测操作；或者，也可以事先采集待检测音频流，并在之后的任意时刻执行相似度检测操作。

在步骤102中，确定所述待检测音频流的特征参数值；

在本实施例中，针对不同格式的待检测音频流，其对应的特征参数也可能存在差异；而同一格式的待检测音频流也可以通过多种不同的特征参数进行表征。因此，可以根据实际需求来确定具体用于相似度检测的特征参数，并确定对应的特征参数值。

在本实施例中，比如待检测音频流可以为PCM(Pulse Code Modulation，脉冲编码调制)流，则特征参数值可以是该PCM流的数字脉冲信号的强度值。比如图2为一示例性实施例示出的一种音频相似度的检测方法的采样数字脉冲信号的示意图，其中按照预设的采样率对录音设备采集到的用户声音的模拟量进行采样，则在各个采样点(分别对应于t1、t2……t19等时间点)分别得到对应的数字脉冲信号的强度值(用于构成待检测音频流)，而这些数字脉冲信号的强度值即可用于实现基于数值的、量化的相似度比较。

在步骤103中，将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；

在本实施例中，参考音频流来自被模仿的影视资料。比如当被模仿的影视资料为歌曲时，该参考音频流为该歌曲中仅包含原唱人声的音频流；或者，被模仿的声音也可以不是人声，比如动物的叫声，则参考音频流为相应影视资料中仅包含该动物声音的音频流，以避免背景音乐等其他声音的干扰。

在本实施例中，对于参考音频流和待检测音频流的处理方式应当相同或相对应，以确保分别得到的特征参数值具有更强的可比性。

在本实施例中，将参考音频流的特征参数值与待检测音频流的特征参数值进行比较时，实际上是计算出两个数值之间的相对比例。比如当参考音频流的特征参数值为Va、待检测音频流的特征参数值为Vb时，比较的方式可以为Va/Vb的形式、或者Vb/Va的形式、或者的形式等。

在步骤104中，根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

在本实施例中，以Va/Vb的形式进行比较为例。假定Va＞Vb，则Va/Vb的数值大于1，则可以将Vb/Va的计算结果转换为百分制的分数值，作为待检测音频流与参考音频流的相似度；假定Va＜Vb，则Va/Vb的数值属于区间(0,1)，则可以直接将Va/Vb的计算结果转换为百分制的分数值，作为待检测音频流与参考音频流的相似度；假定Va＝Vb，则Va/Vb＝1，即待检测音频流的与参考音频流的相似度为100％。

由上述实施例可见，通过分别获取待检测音频流和参考音频流的特征参数值，并执行基于特征参数值的比较，无需依赖于用户的主观感受，而能够实现更为量化的相似度判断，使计算出的相似度结果更准确，有助于提升用户的使用体验。

作为典型场景的应用，以图2所示的PCM流的待检测音频流和参考音频流为例进行说明。在步骤102中计算待检测音频流的特征参数值时，可以通过解析所述待检测音频流，得到数字脉冲信号的强度值。作为一示例性实施例，可以直接执行数字脉冲信号的强度值之间的比较操作，比如按照采样顺序将对应于同一时刻的两个数字脉冲信号(分别对应于待检测音频流和参考音频流)的强度值进行数值比较，并最终合并所有数字脉冲信号对应的比较结果。

或者，作为另一示例性实施例，也可以累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述待检测音频流的特征参数值。通过执行对数字脉冲信号的累加操作，使得特征参数值的数量减小，从而有助于降低数值比较过程和相似度计算过程的计算量，便于实现对相似度的实时计算和在嵌入式设备上的应用。

作为一示例性实施例，还可以对数字脉冲信号的强度值进行归一化等量化处理，其处理步骤如下：调用所述参考音频流中包含的采样到的数字脉冲信号的最大强度值；根据所述最大强度值，对所述数字脉冲信号的强度值进行归一化处理；通过累加归一化处理后的数字脉冲信号的强度值，计算所述待检测音频流的特征参数值。

在本实施例中，当需要对待检测音频流的数字脉冲信号的强度值进行归一化处理时，参考音频流的数字脉冲信号的强度值也应当已经预先执行了相同的归一化处理，以确保得到的特征参数值具有可比性。比如可以将每个数字脉冲信号的强度值均除以调用的最大强度值，从而将所有的数字脉冲信号的强度值均归一化至数值区间[0,1]。

由上述实施例可知，对数字脉冲信号的强度值进行累加时，可以将所有强度值进行累加，即针对待检测音频流和参考音频流，给出一个整体上的相似度判断，比如在用户完成一首歌曲的演唱之后，给出相应的得分；或者，也可以对数字脉冲信号的强度值进行分组累加，以实现更为精准的相似度判断，下面将结合图3进行说明。

图3是根据一示例性实施例示出的一种音频相似度的检测方法的流程图，如图3所示，该检测方法可以包括以下步骤：

在步骤301中，获取待检测音频流；

在步骤302中，解析所述待检测音频流，得到数字脉冲信号的强度值；

在步骤303中，调用预配置的字幕分割策略；

在本实施例中，当需要对待检测音频流执行数字脉冲信号的强度值的分组操作时，参考音频流也应当已经预先执行了相应的分组操作，即采用该预配置的字幕分割策略实现所述分组操作，以确保得到的特征参考值具有可比性。

在步骤304中，采用所述字幕分割策略将所述数字脉冲信号的强度值划分为多个组；

在本实施例中，由于待检测音频流、参考音频流和字幕均需要按照相同的时间轴进行播放，因而三者在时间上具有同步性。基于时间上的同步性，则待检测音频流对应的数字脉冲信号的强度值的采样时间点与字幕时间轴之间就存在对应关系，即通过向时间轴的投影，使得字幕中的每个字与数字脉冲信号的强度值之间存在一一对应的映射关系，从而能够实现逐字或逐句地对数字脉冲信号的强度值进行组的划分。

请参考图4，以用户对某歌曲的翻唱为例进行说明。假定图4所示的待检测音频流为用户实际翻唱过程中录制得到的，其中的每个采样点对应于一个数字脉冲信号。待检测音频流和字幕均沿时间轴进行播放，因而能够按照字幕来实现对数字脉冲信号的强度值的数组划分。

假定需要执行逐字判断相似度。根据图4所示的对应关系，则待检测音频流中的1-5个数字脉冲信号的强度值分为一组，对应于字幕中的“今”；待检测音频流中的6-10个数字脉冲信号的强度值分为另一组，对应于字幕中的“天”；依此实现对所有数字脉冲信号的强度值的数组划分。

在步骤305中，分别计算出每个组的累加强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值；

在本实施例中，以逐字判断相似度为例。通过计算每个数组对应的累加强度值，从而得到分别对应于每个字的特征参数值，从而通过将对应于同一个字的两个特征参数值(分别来自待检测音频流和参考音频流)进行数值比较，即可得到用户在模仿这个字时的相似度。

作为一示例性实施例，比如可以按照下述公式来实现对数字脉冲信号的强度值的累加计算：

V_{i + 1} = \frac{(V_{i} \times L_{i} + v_{i + 1} \times l_{i} + 1)}{L_{i} + l_{i + 1}};

其中，V_i为当前数组中累加至第i个强度值时的累加强度值，L_i为当前数组中的第1个强度值的采样时间点至第i个强度值的采样时间点之间的时间长度，v_i+1为当前数组中的第i+1个强度值，l_i+1为当前数组中的第i个强度值的采样时间点与第i+1个强度值的采样时间点之间的时间长度。

当然，如果选择逐句判断，则作为一示例性实施例，可以按句对数字脉冲信号的强度值进行数组划分，计算每个数组对应的累加强度值，并通过将对应于同一个句子的两个特征参数值(分别来自待检测音频流和参考音频流)进行数值比较，即可得到用户在模仿这个句子时的相似度，此处不再赘述。而作为另一示例性实施例，也可以先按照逐字判断的方式，分别获取每个字对应的累加强度值的比较结果或相似度，再据此确定整个句子对应的相似度。

在步骤306中，将所述参考音频流的特征参数值与所述待检测音频流的特征参数值进行比较；

作为一示例性实施例，还可以对每个数组对应的累加强度值进行量化处理，包括：根据用于预先对所述参考音频流进行量化处理的量化策略，对所述待检测音频流的特征参数值进行量化处理；根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。

在本实施例中，当需要对每个数组对应的累加强度值进行量化处理时，参考音频流也应当已经预先执行了相应的分组操作和量化处理，以确保得到的特征参考值具有可比性。而通过执行量化处理，使得累加强度值的数值范围被限定在较小的数值范围内，且降低了数值复杂度，从而有助于降低特征参数值的比较和相似度计算过程中的复杂度。

可选的，量化处理的过程可以包括：调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系；将所述待检测音频流的特征参数值与所述对应关系进行匹配，获得所述待检测音频流的特征参数值所属的量化区间；将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。

其中，量化处理过程中的量化区间的设置方式、量化区间与量化数值之间的对应关系等的设置方式有很多，且均可以根据实际情况来确定。下面以其中两种设置方式为例进行说明，但并不作为对本公开的限制。

图5示出了一种量化处理的实施方式。在该实施方式中，操作步骤包括：调用所述参考音频流的未量化处理时的最大特征参数值Vmax和最小特征参数值Vmin；在所述最大特征参数值Vmax和所述最小特征参数值Vmin之间设置多个数值区间，所述数值区间与量化数值一一对应；根据所述待检测音频流的特征参数值所处的数值区间，将对应的量化数值作为量化后的特征参数值。

比如Vmax＝100，Vmin＝1，则可以在区间[1,100]内设置n个数值区间，比如可以将[1,10]设置为数值区间一，对应于量化数值1，即当待检测音频流的数字脉冲信号的强度值属于该数值区间一时，则将其量化为数值1；可以将[11,20]设置为数值区间二，对应于量化数值2，即当待检测音频流的数字脉冲信号的强度值属于该数值区间二时，则将其量化为数值2；依此，可以在Vmax与Vmin之间设置十个数值区间，从而将待检测音频流的数字脉冲信号的强度值均量化至区间[1,10]中，从而有助于降低计算的复杂度。

可选的，图6示出了另一种量化处理的实施方式。在该实施方式中，操作步骤包括：调用所述参考音频流的未量化处理的最大特征参数值Vmax、最小特征参数值Vmin和中间特征参数值Vmid；分别在所述最大特征参数值Vmax和所述中间特征参数值Vmid之间、所述中间特征参数值Vmid和所述最小特征参数值Vmin之间设置多个数值区间，所述数值区间与量化数值一一对应；根据所述待检测音频流的特征参数值所处的数值区间，将对应的量化数值作为量化后的特征参数值。

同样的，比如Vmax＝100，Vmin＝1，Vmid＝51，则可以在区间[1,51]内设置m个数值区间，比如10个数值区间：数值区间一为[1,5]，对应于量化数值1，数值区间二为[6,10]，对应于量化数值2；依此设置其他数值区间。同时，可以在区间[51,100]内设置(n-m)个数值区间，比如5个数值区间：数值区间十一(假定m＝10)为[51,60]，对应于量化数值11，数值区间十二为[61,70]，对应于量化数值12；依此设置其他数值区间。通过上述操作，使得待检测音频流的数字脉冲信号的强度值均量化至区间[1,15]中，从而有助于降低计算的复杂度。

在步骤307中，根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

在本实施例中，相似度的计算可以直接采用比较的结果，也可以根据比较的结果间接得到。在直接采用比较的结果时，比如对于采用逐字判断相似度的情况，若比较结果为0.8，则相似度评分可以为80分(即相似度为80％)。

在间接采用比较的结果时，计算方式多样，可以根据实际需求进行设置。作为一示例性实施例，可以对多个比较结果对应的相似度评分进行叠加，比如采用逐字判断的同时，通过将一个句子中的所有字的相似度叠加以实现整句评分。作为另一示例性实施例，可以对比较结果的数值进行转换，以生成相似度评分，例如可以设置数值区间和评分之间的对应关系，则根据比较结果的数值所处的数值区间，即可确定相应的相似度评分。

作为一示例性实施例，下面结合对翻唱歌曲进行评分的典型应用场景，对本公开的实施例进行描述。其中，包括对参考音频流的预配置过程，以及据此实现的对待检测音频流的相似度判断过程。

1、预配置过程

通过预配置过程的处理，可以得到用于对待检测音频流进行相似度判断的预配置评分文件，该文件可以由终端自行生成并存储在本地；或者，也可以由服务器生成，并下载到终端后，用于终端的相似度判断操作。

针对当前所需处理的歌曲，提取对应的参考音频流和歌词文件。其中，参考音频流可以从该歌曲的音频文件中提取，该参考音频流可以为仅包含原唱人声的PCM流，比如统一采用16bit编码，采样率为44.1kHz；而歌词文件中，应确保其记录了字幕中的每个字对应的播放时间段，比如可以包含对应的起始播放时间点和播放时长。基于上述参考音频流和歌词文件，执行下述处理步骤：

A、读取参考音频流，将其中的每个数字脉冲信号的强度值记载进内存，得到相应的数组F。比如以16bit为单位，每个单位为一帧，按帧记载上述强度值。

B、可选的，对数组F执行归一化操作。比如选取数组F中的最大值Fmax，并将数组F中的每个值都除以Fmax，使得每个数值都属于区间[0,1]，从而得到新的数组F’。

C、根据歌词文件确定每个字的时长Ti(代表第i个字的时长)，据此将数组F’(若未执行步骤B，则应选用数组F)进行分组，并分别计算每组对应的累加和，得到由所有累加和构成数组V，且数组V中数字的个数与歌词的个数相同。

D、可选的，选取数组V中的最大值Vmax和最小值Vmin，然后根据Vmax和Vmin对数组V进行量化，比如量化至数值范围[1,10]，以作为新的数组L。或者，选取数组中的最大值Vmax、最小值Vmin和中间值Vmid，然后根据最大值Vmax、最小值Vmin和中间值Vmid对数组V进行量化，以得到数组L。

E、数组T、数组V、数组L、数值Fmax、数值Vmid、数值Vmin和数值Vmax等，均属于对应于参考音频流的特征参数值，以用于生成预配置评分文件。比如可以生成为json格式如下：

当然，如果根据Vmax和Vmin对数组V进行量化，则预配置评分文件中可以不包含参数Vmid。同时，如果不执行步骤B中的归一化操作，预配置评分文件中可以不包含参数Fmax；如果不执行步骤D，预配置评分文件中可以不包含参数Vmid、Vmax和Vmin。

2、相似度判断过程

终端从本地或服务器获取预配置评分文件，以确定参考音频流的特征参数值。基于预配置评分文件中包含的特征参数值的类型，终端可以确定用于待检测音频流的处理方式。比如当包含特征参数值Fmax时，则需要执行归一化处理；当包含特征参数值Vmax和Vmin时，需要据此执行量化处理；或者当包含特征参数值Vmid、Vmax和Vmin，需要据此执行量化处理等。下面以预配置评分文件中包含数组T、数组L、数值Fmax、数值Vmid、数值Vmin和数值Vmax为例，对相似度判断过程进行描述。

A’、调用对应于当前歌曲的预配置评分文件，解析出其中包含的数组T、数组L、数值Fmax、数值Vmid、数值Vmin和数值Vmax。

B’、获取用户翻唱的待检测音频流的PCM流。以用户实时翻唱和评分为例进行说明，则需要从终端的录音设备中反复提取实时生成的PCM流片段，并执行如下处理：

B1、按照预设长度单位，读取PCM流片段中的数字脉冲信号的强度值。比如仍以16bit为单位，读取相应的数组F’。

B2、按照读取顺序，依次累加数组F’中的数值，以生成对应于累加和数组V’。对应于上述的预配置过程，此处的目标是获取对应于每个字的强度值累加和，即数组V’中的数值与歌词中的每个字一一对应。

为了实现上述目的，则在执行对F’中数值的累加操作时，需要记录本次累加操作的已持续时间Tnow，并与数组T中对应的时长Tm(即第m个字)进行比较。

B3、当Tnow＝Tm时，结束对数组F’中数值的累加和计算，并将相应的累加和V’m作为数组V’中的元素，该数值V’m对应于歌词中的第m个字。若歌曲尚未结束，则返回步骤B1，生成对应于下一个字的数值V’m+1。

C、根据数值Vmid、数值Vmin和数值Vmax，对数组V’中的每个数值进行量化处理，得到相应的数组L’。比如对于第m个字，其对应于数组L’中的数值L’m，则将L’m与数组L中的Lm进行比较，并输出相应的相似度评分。

比如可以计算L’m/Lm的值，若L’m/Lm≤1，则可以将该结果直接作为评分(比如当L’m/Lm＝0.8时，评分为80分)；若L’m/Lm＞1，则可以将Lm/L’m作为评分(比如当L’m/Lm＝1.25时，将Lm/L’m＝0.8作为评分，即80分)。

通过上述实施例，即可实现对用户的模仿音频流的逐字打分；在此基础上，通过对一个句子中的每个字对应的评分进行叠加，即可得到该句对应的评分；类似地，还可以实现对整段或整首歌曲进行评分。当然，通过对预配置评分文件的修改，比如将数组T中的数值更换为每个句子对应的时长，则可以直接实现逐句评分。

图7是根据一示例性实施例示出的一种音频相似度的检测方法的流程图，如图7所示，该检测方法可以包括以下步骤：

在步骤701中，获取待检测音频流；

在步骤702中，确定所述待检测音频流的特征参数值；

在步骤703中，当所述待检测音频流被划分为多个音频块时，确定每个音频块与播放时间轴之间的对应关系；

在本实施例中，由于待检测音频流、参考音频流和字幕均需要按照相同的时间轴进行播放，因而三者在时间上具有同步性。基于时间上的同步性，即可在待检测音频流与参考音频流之间建立准确的对应关系，以确保音频相似度的判断准确性。

其中，可以根据实际需求来确定对待检测音频流的划分方式，而通过控制每个音频块的大小(当应用场景为歌曲翻唱时，具体表现为对应歌词字数的多少)，即可控制对待检测音频流的划分精细度，从而控制音频相似度判断的精细度。

在步骤704中，根据所述对应关系，分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较；

在本实施例中，比如对于歌曲，当划分得到的每个音频块对应于歌词中的每个句子或每个字时，可以相应地实现对用户翻唱歌曲的逐句或逐字评分，即用户在唱完每个句子或每个字时，都能够得到相应的相似度评分，从而清楚地了解到每句话/每个字唱得好或不好，有助于提升用户的使用体验。

在步骤705中，根据每个音频块对应的比较结果，计算相应的音频相似度。

与前述的音频相似度的检测方法的实施例相对应，本公开还提供了音频相似度的检测装置的实施例。

图8是根据一示例性实施例示出的一种音频相似度的检测装置的框图。参照图8，该装置包括获取单元81，确定单元82，比较单元83和计算单元84。

其中，获取单元81，被配置为获取待检测音频流；

确定单元82，被配置为确定所述待检测音频流的特征参数值；

比较单元83，被配置为将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；

计算单元84，被配置为根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

在上述实施例中，通过分别获取待检测音频流和参考音频流的特征参数值，使得基于该特征参数值的相似度判断过程无需依赖用户的主观感受，从而令判断结果更加准确，有助于提升用户的使用体验。

如图9所示，图9是根据一示例性实施例示出的另一种音频相似度的检测装置的框图，该实施例在前述图8所示实施例的基础上，所述确定单元82可以包括：解析子单元821和累加子单元822。

其中，解析子单元821，被配置为解析所述待检测音频流，得到数字脉冲信号的强度值；

累加子单元822，被配置为累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述待检测音频流的特征参数值。

在上述实施例中，通过解析音频流对应的数字脉冲信号的强度值，并基于该强度值的累加运算，实现了基于量化计算的相似度比较，有助于提升判断结果的准确性。

如图10所示，图10是根据一示例性实施例示出的另一种音频相似度的检测装置的框图，该实施例在前述图9所示实施例的基础上，所述累加子单元822包括：

其中，第一调用模块822A，被配置为调用所述参考音频流中的数字脉冲信号的最大强度值；

处理模块822B，被配置为根据所述最大强度值，对所述待检测音频流的数字脉冲信号的强度值进行归一化处理；

第一计算模块822C，被配置为累加归一化处理后的数字脉冲信号的强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值。

在上述实施例中，通过归一化处理，有助于控制数字脉冲信号的强度值的数值范围，方便对特征参数值的后续计算；同时，通过采用基于参考音频流的归一化处理，使得待检测音频流对应的数字脉冲信号的强度值被引入参考音频流对应的参考系中，从而有助于提升两者间的可比性，并提高相似度比较的准确度。

需要说明的是，上述图10所示的装置实施例中的累加子单元822的结构也可以包含在前述图8或图9中的装置实施例中，对此本公开不进行限制。

如图11所示，图11是根据一示例性实施例示出的另一种音频相似度的检测装置的框图，该实施例在前述图9所示实施例的基础上，所述累加子单元822包括：

第二调用模块822D，被配置为调用预配置的字幕分割策略；

划分模块822E，被配置为采用所述字幕分割策略将所述待检测音频流的数字脉冲信号的强度值划分为多个组；

第二计算模块822F，被配置为分别计算出的每个组的累加强度值，并将得到的累加强度值作为所述待检测音频流的特征参数值。

在上述实施例中，通过将数字脉冲信号的强度值划分为多个数组，将待检测音频流分为多个部分，并分别将每个部分与参考音频流的相应部分进行比较，从而实现逐句、逐字比较，进一步提升用户的使用体验。

需要说明的是，上述图11所示的装置实施例中的累加子单元822的结构也可以包含在前述图8至图10任意一个装置实施例中，对此本公开不进行限制。

如图12所示，图12是根据一示例性实施例示出的另一种音频相似度的检测装置的框图，该实施例在前述图11所示实施例的基础上，所述比较单元83包括：

量化子单元831，被配置为根据用于预先对所述参考音频流进行量化处理的量化策略，对所述待检测音频流的特征参数值进行量化处理；

第一处理子单元832，被配置为根据量化后的所述待检测音频流的特征参数值与量化后的所述参考音频流的特征参数值进行所述比较。

在上述实施例中，通过对特征参数值的量化处理，有助于降低数值比较时的复杂度和计算量，便于本公开的技术方案在实时场景以及嵌入式设备上的实现。

需要说明的是，上述图12所示的装置实施例中的比较单元83的结构也可以包含在前述图8至图11任意一个装置实施例中，对此本公开不进行限制。

如图13所示，图13是根据一示例性实施例示出的另一种音频相似度的检测装置的框图，该实施例在前述图12所示实施例的基础上，所述量化子单元831包括：

第三调用模块831A，被配置为调用根据所述参考音频流的特征参数值设置的量化区间与量化数值的对应关系；

匹配模块831B，被配置为将所述待检测音频流的特征参数值与所述对应关系进行匹配，获得所述待检测音频流的特征参数值所属的量化区间；

处理模块831C，被配置为将与所述所属的量化区间对应的量化数值确定为所述量化后的待检测音频流的特征参数值。

如图14所示，图14是根据一示例性实施例示出的另一种音频相似度的检测装置的框图，该实施例在前述图11所示实施例的基础上，所述比较单元83包括：

确定子单元833，被配置为当所述待检测音频流被划分为多个音频块时，确定每个音频块与播放时间轴之间的对应关系；

第二处理子单元834，被配置为根据所述对应关系，分别将所述待检测音频流中每个音频块的特征参数值与所述参考音频流中对应音频块的特征参数值进行比较。

在上述实施例中，通过对待检测音频流的划分，以及对每个音频块分别进行相似度判断，从而能够实现对歌曲翻唱评分的逐句或逐字实施，提升音频相似度判断的精细度和准确性。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开还提供一种音频相似度的检测装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：获取待检测音频流；确定所述待检测音频流的特征参数值；将所述待检测音频流的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

相应的，本公开还提供一种电子设备，所述电子设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待检测音频流；确定所述待检测音频流的特征参数值；将所述待检测音频流的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；根据所述比较的结果，计算所述待检测音频流与所述参考音频流的相似度。

图15是根据一示例性实施例示出的一种用于音频相似度检测的装置1500的框图。例如，装置1500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图15，装置1500可以包括以下一个或多个组件：处理组件1502，存储器1504，电源组件1506，多媒体组件1508，音频组件1510，输入/输出(I/O)的接口1512，传感器组件1514，以及通信组件1516。

处理组件1502通常控制装置1500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1502可以包括一个或多个模块，便于处理组件1502和其他组件之间的交互。例如，处理部件1502可以包括多媒体模块，以方便多媒体组件1508和处理组件1502之间的交互。

存储器1504被配置为存储各种类型的数据以支持在装置1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1506为装置1500的各种组件提供电力。电源组件1506可以包括电源管理***，一个或多个电源，及其他与为装置1500生成、管理和分配电力相关联的组件。

多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1508包括一个前置摄像头和/或后置摄像头。当装置1500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1510被配置为输出和/或输入音频信号。例如，音频组件1510包括一个麦克风(MIC)，当装置1500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中，音频组件1510还包括一个扬声器，用于输出音频信号。

I/O接口1512为处理组件1502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1514包括一个或多个传感器，用于为装置1500提供各个方面的状态评估。例如，传感器组件1514可以检测到装置1500的打开/关闭状态，组件的相对定位，例如所述组件为装置1500的显示器和小键盘，传感器组件1514还可以检测装置1500或装置1500一个组件的位置改变，用户与装置1500接触的存在或不存在，装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1504，上述指令可由装置1500的处理器1520执行以完成上述音频相似度的检测方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种音频相似度的检测方法，所述方法包括：

获取待检测音频流；

确定所述待检测音频流的特征参数值；

将所述待检测音频流的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频相似度的检测方法，其特征在于，包括：

获取待检测音频流；

确定所述待检测音频流的特征参数值；

2.根据权利要求1所述的检测方法，其特征在于，确定所述待检测音频流的特征参数值包括：

解析所述待检测音频流，得到数字脉冲信号的强度值；

3.根据权利要求2所述的检测方法，其特征在于，累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述特征参数值包括：

调用所述参考音频流中的数字脉冲信号的最大强度值；

4.根据权利要求2所述的检测方法，其特征在于，累加所述数字脉冲信号的强度值，将得到的累加强度值作为所述特征参数值包括：

调用预配置的字幕分割策略；

5.根据权利要求1所述的检测方法，其特征在于，将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较包括：

6.根据权利要求5所述的检测方法，其特征在于，根据用于预先对所述参考音频流进行量化处理的量化策略，对所述待检测音频流的特征参数值进行量化处理包括：

7.根据权利要求1所述的检测方法，其特征在于，将预先获知的所述待检测音频流对应的参考音频流的特征参数值，与所述待检测音频流的特征参数值进行比较包括：

8.一种音频相似度的检测装置，其特征在于，包括：

获取单元，用于获取待检测音频流；

确定单元，用于确定所述待检测音频流的特征参数值；

9.根据权利要求8所述的检测装置，其特征在于，所述确定单元包括：

10.根据权利要求9所述的检测装置，其特征在于，所述累加子单元包括：

第一调用模块，用于调用所述参考音频流中的数字脉冲信号的最大强度值；

11.根据权利要求9所述的检测装置，其特征在于，所述累加子单元包括：

第二调用模块，用于调用预配置的字幕分割策略；

12.根据权利要求8所述的检测装置，其特征在于，所述比较单元包括：

13.根据权利要求12所述的检测装置，其特征在于，所述量化子单元包括：

14.根据权利要求8所述的检测装置，其特征在于，所述比较单元包括：

15.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待检测音频流；

确定所述待检测音频流的特征参数值；