CN110728972B - 音色相似度的确定方法、装置及计算机存储介质 - Google Patents
音色相似度的确定方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN110728972B CN110728972B CN201910980167.1A CN201910980167A CN110728972B CN 110728972 B CN110728972 B CN 110728972B CN 201910980167 A CN201910980167 A CN 201910980167A CN 110728972 B CN110728972 B CN 110728972B
- Authority
- CN
- China
- Prior art keywords
- feature vectors
- audio
- mean
- vector
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 527
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种音色相似度的确定方法、装置及计算机存储介质,涉及数据处理技术领域。该方法可以基于k个第一均值特征向量以及k个第二均值特征向量,确定第一音频和第二音频的音色相似度。由于每个第一均值特征向量是基于m个第一特征向量中的多个第一特征向量的平均值确定的,每个第二均值特征向量是基于m个第二特征向量中的多个第二特征向量的平均值确定的,因此相较于现有技术中直接根据第一特征向量和第二特征向量确定音色相似度,本公开实施例提供的音色相似度确定方法确定的音色相似度的准确性较高。
Description
技术领域
本公开涉及数据处理技术领域,特别涉及一种音色相似度的确定方法、装置及计算机存储介质。
背景技术
用户在使用手机等终端中安装的音频客户端录制音频后,音频客户端可以确定用户的音频与其他音频的音色相似度,以便用户获知与其音色相似的其他音频。
相关技术中,音频客户端可以基于用户的音频确定第一特征向量,并可以基于其他音频确定第二特征向量,之后可以计算第一特征向量与第二特征向量的余弦距离,并将该余弦距离确定为用户的音频和其他音频的音色相似度。
但是,相关技术中确定的音色相似度的准确性较低。
发明内容
本公开提供了一种音色相似度的确定方法、装置及计算机存储介质,可以解决相关技术的确定的音色相似度的准确性较低的问题。所述技术方案如下:
一方面,提供了一种音色相似度的确定方法,所述方法包括:
获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量,所述第一音频与所述第二音频为不同的音频,所述m为大于1的整数;
根据m个所述第一特征向量确定k个第一均值特征向量,每个所述第一均值特征向量基于m个所述第一特征向量中的多个所述第一特征向量的平均值确定,所述k为正整数;
根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量,每个所述第二均值特征向量基于m所述个第二特征向量中的多个所述第二特征向量的平均值确定;
基于k个所述第一均值特征向量以及k个所述第二均值特征向量确定所述第一音频和所述第二音频的音色相似度。
可选的,所述根据m个所述第一特征向量确定k个第一均值特征向量,包括:
将m个所述第一特征向量划分为k个不同的第一向量组,每个所述第一向量组包括n个连续的第一特征向量,所述n为大于1且小于所述m的整数;
对于每个所述第一向量组,将所述第一向量组包括的n个连续的第一特征向量的平均值确定为一个第一均值特征向量,得到k个所述第一均值特征向量;
所述根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量,包括:
将m个所述第二特征向量划分为k个不同的第二向量组,每个所述第二向量组包括n个连续的第二特征向量;
对于每个所述第二向量组,将所述第二向量组包括的n个连续的第二特征向量的平均值确定为一个第二均值特征向量,得到k个所述第二均值特征向量。
可选的,任意两个所述第一向量组的交集为空,且相邻两个所述第一向量组包括的所述第一特征向量连续;
任意两个所述第二向量组的交集为空,且相邻两个所述第二向量组包括的所述第二特征向量连续。
可选的,所述k为大于1的整数,所述基于k个所述第一均值特征向量以及k个所述第二均值特征向量确定所述第一音频和所述第二音频的音色相似度,包括:
对于每个所述第一均值特征向量以及对应的一个所述第二均值特征向量,采用皮尔逊算法进行处理,确定一个音色距离,得到k个所述音色距离;
将k个所述音色距离的平均值确定为所述第一音频和所述第二音频的音色相似度。
可选的,所述获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量包括:
获取所述第一音频的多个第一初始特征向量,以及所述第二音频的多个第二初始特征向量;
对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理,得到m个第一特征向量和m个第二特征向量。
可选的,所述对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理,包括:
采用动态时间归整算法对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理。
可选的,所述获取所述第一音频的多个第一初始特征向量,以及所述第二音频的多个第二初始特征向量,包括:
从所述第一音频中提取多个第一梅尔倒谱参数作为多个第一初始特征向量;
从所述第二音频中提取出多个第二梅尔倒谱参数作为多个第二初始特征向量。
另一方面,提供了一种音色相似度的确定装置,所述装置包括:
获取模块,用于获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量,所述第一音频与所述第二音频为不同的音频,所述m为大于1的整数;
第一确定模块,用于根据m个所述第一特征向量确定k个第一均值特征向量,每个所述第一均值特征向量基于m个所述第一特征向量中的多个所述第一特征向量的平均值确定,所述k为正整数;
第二确定模块,用于根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量,每个所述第二均值特征向量基于m所述个第二特征向量中的多个所述第二特征向量的平均值确定;
第三确定模块,用于基于k个所述第一均值特征向量以及k个所述第二均值特征向量确定所述第一音频和所述第二音频的音色相似度。
可选的,所述第一确定模块用于:
将m个所述第一特征向量划分为k个不同的第一向量组,每个所述第一向量组包括n个连续的第一特征向量,所述n为大于1且小于所述m的整数;
对于每个所述第一向量组,将所述第一向量组包括的n个连续的第一特征向量的平均值确定为一个第一均值特征向量,得到k个所述第一均值特征向量;
所述第二确定模块用于:
将m个所述第二特征向量划分为k个不同的第二向量组,每个所述第二向量组包括n个连续的第二特征向量;
对于每个所述第二向量组,将所述第二向量组包括的n个连续的第二特征向量的平均值确定为一个第二均值特征向量,得到k个所述第二均值特征向量。
可选的,任意两个所述第一向量组的交集为空,且相邻两个所述第一向量组包括的所述第一特征向量连续;
任意两个所述第二向量组的交集为空,且相邻两个所述第二向量组包括的所述第二特征向量连续。
可选的,所述k为大于1的整数,所述第三确定模块用于:
对于每个所述第一均值特征向量以及对应的一个所述第二均值特征向量,采用皮尔逊算法进行处理,确定一个音色距离,得到k个所述音色距离;
将k个所述音色距离的平均值确定为所述第一音频和所述第二音频的音色相似度。
可选的,所述获取模块包括:
获取子模块,用于获取所述第一音频的多个第一初始特征向量,以及所述第二音频的多个第二初始特征向量;
对齐子模块,用于对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理,得到m个第一特征向量和m个第二特征向量。
可选的,所述对齐子模块用于:
采用动态时间归整算法对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理。
可选的,所述获取子模块用于:
从所述第一音频中提取多个第一梅尔倒谱参数作为多个第一初始特征向量;从所述第二音频中提取出多个第二梅尔倒谱参数作为多个第二初始特征向量。
又一方面,提供了一种音色相似度的确定装置,所述装置包括:存储器和处理器;所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述方面所述的音色相似度的确定方法。
再一方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行如上述方面所述的音色相似度的确定方法。
再一方面,提供了一种包含指令的计算机程序产品,当所述计算机程序产品在所述计算机上运行时,使得所述计算机执行上述方面所述的音色相似度的确定方法。
本公开提供的技术方案带来的有益效果至少包括:
本公开提供了一种音色相似度的确定方法、装置及计算机存储介质,该方法可以基于k个第一均值特征向量以及k个第二均值特征向量,确定第一音频和第二音频的音色相似度。由于每个第一均值特征向量是基于m个第一特征向量中的多个第一特征向量的平均值确定的,每个第二均值特征向量是基于m个第二特征向量中的多个第二特征向量的平均值确定的,因此相较于现有技术中直接根据第一特征向量和第二特征向量确定音色相似度,本公开实施例提供的音色相似度确定方法确定的音色相似度的准确性较高。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种终端的示意图;
图2是本公开实施例提供的一种音色相似度的确定方法的流程图;
图3是本公开实施例提供的另一种音色相似度的确定方法的流程图;
图4是本公开实施例提供的一种基于k个第一均值特征向量以及k个第二均值特征向量确定音色相似度的方法流程图;
图5是本公开实施例提供的一种音色相似度的确定装置的结构示意图;
图6是本公开实施例提供的一种获取模块的结构示意图;
图7是本公开实施例提供的另一种音色相似度的确定装置的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
本公开实施例提供的音色相似距离的确定方法可以应用于终端。图1是本公开实施例提供的一种终端的示意图。如图1所示,该终端100上可以安装有音频客户端10a。该音频客户端10a可以获取第一音频和第二音频,并确定该第一音频和第二音频的音色相似度。
其中,该终端100可以是智能手机、平板电脑、MP4(moving picture expertsgroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机等等。该音频客户端10a可以为能够录制和播放音频的客户端,例如可以为K歌客户端。
本公开实施例提供了一种音色相似度的确定方法,该方法可以应用于图1所示的实施环境中的音频客户端。参见图2,该方法可以包括:
步骤101、获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量。
其中,m为大于1的整数。第一音频与第二音频为不同的音频。
步骤102、根据m个第一特征向量确定k个第一均值特征向量。
其中,k为正整数,每个第一均值特征向量基于m个第一特征向量中的多个第一特征向量的平均值确定。
步骤103、根据m个第二特征向量确定与k个第一均值特征向量一一对应的k个第二均值特征向量。
每个第二均值特征向量基于m个第二特征向量中的多个第二特征向量的平均值确定。
步骤104、基于k个第一均值特征向量以及k个第二均值特征向量确定第一音频和第二音频的音色相似度。
在本公开实施例中,可以采用皮尔逊(pearson)算法对该k个第一均值特征向量,以及该k个第一特征均值向量一一对应的k个第二均值特征向量进行处理,以确定第一音频和第二音频的音色相似度。或者,可以确定k个第一均值特征向量,以及与该k个第一均值特征向量一一对应的k个第二均值特征向量的余弦距离,以确定第一音频和第二音频的音色相似度。
综上所述,本公开实施例提供了一种音色相似度的确定方法,该方法可以基于k个第一均值特征向量以及k个第二均值特征向量,确定第一音频和第二音频的音色相似度。由于每个第一均值特征向量是基于m个第一特征向量中的多个第一特征向量的平均值确定的,每个第二均值特征向量是基于m个第二特征向量中的多个第二特征向量的平均值确定的,因此相较于现有技术中直接根据第一特征向量和第二特征向量确定音色相似度,本公开实施例提供的音色相似度确定方法确定的音色相似度的准确性较高。
图3是本公开实施例提供的另一种音色相似度的确定方法的流程图,该方法可以应用于图1所示的实施环境中的音频客户端。参见图3,该方法可以包括:
步骤201、获取第一音频的多个第一初始特征向量,以及第二音频的多个第二初始特征向量。
其中,第一音频与第二音频为不同的音频。例如,该第一音频和第二音频可以是不同用户录制的音频。并且,该第一音频和该第二音频的内容可以相同。例如,第一音频和第二音频可以是音频客户端获取的不同用户针对同一内容录制的音频。其中,该内容可以包括曲谱、歌词和语句等。该多个第一初始特征向量和第二音频的多个第二初始特征向量的个数可以相同,也可以不同。
在一种可选的实现方式中,音频客户端可以对第一音频和第二音频进行进行梅尔倒谱(Mel-cepstrum)参数的特征提取,以从第一音频中提取多个第一梅尔倒谱参数作为多个第一初始特征向量,并从第二音频中提取出多个第二梅尔倒谱参数作为多个第二初始特征向量。
示例的,音频客户端可以采用音频处理工具(例如Librosa),先基于第一音频获取第一梅尔频谱,并基于第二音频获取第二梅尔频谱,之后可以对第一梅尔频谱和第二梅尔频谱进行取对数处理。进一步的,可以对取对数处理后的第一梅尔频谱和第二梅尔频谱进行离散余弦变换处理,得到多个第一梅尔倒谱参数以及多个第二梅尔倒谱参数。最后可以将多个第一梅尔倒谱参数作为第一初始特征向量,并将多个第二梅尔倒谱参数作为第二初始特征向量。或者,音频客户端可以直接采用语音信号处理工具(Speech SignalProcessing Toolkit,SPTK)对第一音频和第二音频进行特征提取,得到多个第一梅尔倒谱参数以及多个第二梅尔倒谱参数。
在另一种可选的实现方式中,音频客户端可以对第一音频和第二音频进行梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的特征提取,以从第一音频中提取多个第一梅尔频率倒谱参数作为多个第一初始特征向量,并从第二音频中提取多个第二梅尔频率倒谱参数作为多个第二初始特征向量。
在又一种可选的实现方式中,音频客户端可以对第一音频和第二音频进行加权梅尔频率倒谱系数(Weighed Mel-Frequency Cepstral Coefficients,WMFCC)的特征提取,以从第一音频中提取多个第一加权梅尔频率倒谱参数作为多个第一初始特征向量,并从第二音频中提取出多个第二加权梅尔频率倒谱参数作为多个第二初始特征向量。
在再一种可选的实现方式中,音频客户端可以直接获取第一音频和第二音频的频域能量谱,并从第一音频的频域能量谱中提取多个第一能量值作为多个第一初始特征向量,并从第二音频的频域能量谱中提取出多个第二能量值作为多个第二初始特征向量。
示例的,音频客户端可以对第一音频和第二音频进行傅里叶变换,以获取第一音频的频域能量谱和第二音频的频域能量谱。
需要说明的是,各个第一初始特征向量和各个第二初始特征向量的维数可以相等,且各个第一初始特征向量和各个第二初始特征向量均可以为多维特征向量,也即是,每个初始特征向量可以包括多个分量。
步骤202、对多个第一初始特征向量,以及多个第二初始特征向量进行对齐处理,得到m个第一特征向量和m个第二特征向量。
其中,m为大于1的整数。
在一种可选的实现方式中,音频客户端可以采用动态时间归整(Dynamic TimeWarping,DTW)算法对多个第一初始特征向量,以及多个第二初始特征向量进行对齐处理,以得到m个第一特征向量和m个第二特征向量。
示例的,音频客户端可以先根据多个第一初始特征向量和多个第二初始特征向量建立一个多行多列的矩阵网格(该矩阵网格的行数可以等于多个第一初始特征向量的个数,该矩阵网格的列数可以等于多个第二初始特征向量的个数)。然后计算每个网格格点对应的数值,并以矩阵网格外的任一点为起点,该任一点对应的数值为0(可以认为该任一点为矩阵网格的位于第1行第0列,或第0行第1列,或第0行第0列的网格格点),以矩阵网格的最后一行(或列)的任一网格格点为终点,按行(或列)的顺序从起点开始,依次连接矩阵网格中的若干网格格点直至终点,得到多条通过该矩阵网格的若干网格格点的路径。之后,可以计算每条路径的累积距离,得到多个累积距离。最后,可以根据该多个累积距离确定累积距离最小的路径,并根据该累积距离最小的路径对多个第一初始特征向量和多个第二初始特征向量进行调整,从而实现多个第一初始特征向量和多个初始特征向量的对齐。
其中,若音频客户端获取的第一初始特征向量的个数为P,第二初始特征向量的个数为Q,则该矩阵网格可以为P行Q列矩阵网格,且该矩阵网格中第p行第q列的网格格点对应的数值为第p个第一初始特征向量与第q个第二初始向量的距离,该距离可以为余弦距离或欧式距离。p为不大于P的正整数,q为不大于Q的正整数。
在另一种可选的实现方式中,音频客户端可以采用语音识别的方式对多个第一初始特征向量,以及多个第二初始特征向量进行对齐处理,以得到m个第一特征向量和m个第二特征向量。
示例的,音频客户端可以对获取多个第一初始特征向量和多个第二初始特征向量进行解码,解码过程中可以利用发音字典,声学模型,语言模型等信息得到每个初始特征向量的音素概率。然后,对于每个初始特征向量,可以根据该初始特征向量的音素概率确定该初始特征向量对应的音素。进而可以将同一音素对应的多个初始特征向量对齐,从而可以实现多个第一初始特征向量和多个第二初始特征向量的对齐。
其中,在将同一音素对应的多个特征向量对齐的过程中,可以获取该音素对应的多个第一初始特征向量,以及多个第二初始特征向量。若该音素对应的第一初始特征向量的个数大于该音素对应的第二初始特征向量的个数,则可以对该音素对应的第二初始特征向量进行差值填充处理,或者对该音素对应第一初始特征向量进行抽值处理。若该音素对应的第一初始特征向量的个数小于该音素对应的第二初始特征向量的个数,则可以对该音素对应的第二初始特征向量进行抽值处理,或者对该音素对应的第一初始特征向量进行差值填充处理。
由于音频客户端对多个第一初始特征向量和多个第二初始特征向量进行对齐处理,一方面可以确保对齐后的第一初始特征向量(即第一特征向量)和对齐后的第二初始特征向量(即第二特征向量)的个数相同,以便于后续确定第一音频和第二音频的音色相似度。另一方面,可以避免因第一音频和第二音频的差异对后续确定的第一音频和第二音频的音色相似度的准确性的影响。其中,第一音频和第二音频的差异可以包括:第一音频和第二音频的起始时间的差异。
步骤203、根据m个第一特征向量确定k个第一均值特征向量。
在本公开实施例中,每个第一均值特征向量基于m个第一特征向量中的多个第一特征向量的平均值确定。该多个第一特征向量可以连续,也可以不连续。其中,k为正整数。
可选的,音频客户端可以先将m个第一特征向量划分为k个不同的第一向量组。之后,对于每个第一向量组,音频客户端可以将每个第一向量组包括的多个第一特征向量的平均值确定为一个第一均值特征向量,从而得到k个第一均值特征向量。其中,k个不同的第一向量组是指任意两个第一向量组包括的第一特征向量不完全相同。即任意两个第一向量组包括的第一特征向量完全不同或仅部分相同。
需要说明的是,k个第一向量组中的各个第一向量组包括的第一特征向量的个数可以不同,也即是,k个第一均值特征向量是基于不同数量的第一特征向量的平均值确定的。或者,k个第一向量组中的各个第一向量组包括的第一特征向量的个数均可以相同,例如可以均为n个,也即是,k个第一均值特征向量是基于相同数量的第一特征向量的平均值确定的。其中,n可以为大于1且小于m的整数,且n满足:m=n*k。
还需要说明的是,每个第一向量组对应的播放时长可以为100毫秒(ms)至1秒(s),相应的,音频客户端可以根据每个第一向量组对应的播放时长确定n的取值,即需要确保n个第一特征向量中的前n-1个第一特征向量的对应的间隔播放时长与一个第一特征向量对应的播放时长之和为100ms至1s。其中,每个第一特征向量对应一个第一音频帧,该第一音频帧是指:音频客户端在获取第一初始向量的过程中,对第一音频进行采样得到的多个离散的第一音频帧中的一个第一音频帧。每个第一特征向量对应的间隔播放时长可以是指:多个第一音频帧中每相邻两个第一音频帧包括的多个采样点中的第一个采样点之间的播放间距。第一特征向量对应的播放时长可以是指:第一音频帧包括的多个采样点中第一个采样点与最后一个采样点之间的播放间距。
在本公开实施例中,音频客户端对m个第一特征向量的分组方式有多种,相应的,划分得到k个第一向量组具有多种形式。本公开实施例以以下几种可选的实现方式进行示例性说明:
在第一种可选的实现方式中,音频客户端可以将m个第一特征向量中每连续的n个第一特征向量划分为一个第一向量组,且每个第一向量组中第一个第一特征向量与前一个第一向量组中最后一个第一特征向量相邻,继而得到k个第一向量组。该k个第一向量组中任意两个第一向量组的交集为空,即任意两个第一向量组包括的n个第一特征向量均不相同。并且,相邻两个第一向量组包括的第一特征向量连续,即相邻的两个第一向量组中,前一个第一向量组中的最后一个第一特征向量,与后一个第一向量组中的第一个第一特征向量为该m个第一特征向量中相邻的两个第一特征向量。
示例的,假设音频客户端获取到了8个第一特征向量:a、b、c、d、e、f、g、和h,则可以将每4个连续的第一特征向量划分为一个第一向量组,得到2个第一向量组,其中一个第一向量组包括a、b、c和d四个第一特征向量,另一个第一向量组包括e、f、g和h四个第一特征向量。
由于音频客户端可以按等分的方式将m个第一特征向量划分为k个第一向量组,即将每连续n个第一特征向量划分为一个第一向量组,由此一方面可以降低音频客户端的运算复杂度,从而可以有效提高音频客户端的运算效率,另一方面可以提高每个第一向量组对应的第一音频的音色的稳定度,确保后续确定的第一音频和第二音频的音色相似度的准确性。
在第二种可选的实现方式中,音频客户端可以将m个第一特征向量中每连续的n个第一特征向量划分为一个第一向量组,且每个第一向量组中第一个第一特征向量可以与前一个第一向量组中除第一个第一特征向量外的任一第一特征向量相同,继而得到k个第一向量组。该k个第一向量组中存在交集不为空的两个第一向量组,即存在包括相同第一特征向量的两个第一向量组。
示例的,假设音频客户端获取到了8个第一特征向量:a、b、c、d、e、f、g、和h,则可以将每4个连续的第一特征向量划分为一个第一向量组,得到4个第一向量组,该4个第一向量组中的第一个第一向量组可以包括a、b、c和d四个第一特征向量,第二个第一向量组可以包括b、c、d和e四个第一特征向量,第三个第一向量组可以包括c、d、e和f四个第一向量组,第四个第一向量组可以包括d、e、f和g四个第一特征向量。并且,该四个第一向量组中相邻两个第一向量组中的后一个第一向量组中的第一个第一特征向量与前一个第一向量组中的第二个第一特征向量相同。
在第三种可选的实现方式中,音频客户端可以将m个第一特征向量中间隔排布的n个第一特征向量划分为一个第一向量组。例如,音频客户端可以将m个第一特征向量中,奇数位的第一特征向量划分为一个第一向量组,将偶数位的第一特征向量划分为一个第一向量组,从而得到2个第一向量组。
示例的,假设音频客户端获取到了8个第一特征向量:a、b、c、d、e、f、g、和h,则可以将每间隔一个排布的4个第一特征向量划分为一个第一向量组,得到2个第一向量,其中一个第一向量组包括a、c、e和g四个第一特征向量,另一个第一向量组包括b、d、f和h四个第一特征向量。
步骤204、根据m个第二特征向量确定与k个第一均值特征向量一一对应的k个第二均值特征向量。
在本公开实施例中,每个第二均值特征向量基于m个第二特征向量中的多个第二特征向量的平均值确定。该多个第二特征向量可以连续,也可以不连续。
可选的,音频客户端可以先将m个第二特征向量划分为k个不同的第二向量组。之后,对于每个第二向量组,音频客户端可以将每个第二向量组包括的多个第二特征向量的平均值确定为一个第二均值特征向量,从而得到k个第二均值特征向量。
其中,k个不同的第二向量组可以是指任意两个第二向量组包括的第二特征向量不完全不同。即任意两个第二向量组包括的第二特征向量完全不同或仅部分相同。
需要说明的是,k个第二向量组中的各个第二向量组包括的第二特征向量的个数可以不同,也即是,k个第二均值特征向量是基于不同数量的第二特征阵列的平均值确定的。或者,k个第二向量组中的各个第二向量组包括的第二特征向量的个数均可以相同,例如可以为n个,也即是,k个第二均值特征向量是基于相同数量的第二特征向量确定的。
音频客户端对m个第二特征向量进行分组的方式,可以参考上述对m个第一特征向量的分组方式,本公开实施例在此不再赘述。
需要说明的是,音频客户端需要采用相同的分组方式对m个第一特征向量和m个第二特征向量进行分组,即需要保证每个第一向量组包括的第一特征向量的个数与对应的一个第二向量组包括的第二特征向量的个数相同,第一特征向量之间的连续性和第二特征向量之间的连续性相同,以及相邻第一向量组间的连续性与相邻第二向量组间的连续性相同,以确保最终确定的第一音频和第二音频的准确性。
步骤205、基于k个第一均值特征向量以及k个第二均值特征向量确定第一音频和第二音频的音色相似度。
在本公开实施例中,音频客户端可以采用pearson算法对该k个第一均值特征向量,以及与k个第一特征均值向量一一对应的k个第二均值特征向量进行处理,以确定第一音频和第二音频的音色相似度。或者,音频客户端可以确定k个第一均值特征向量,以及k个第二均值特征向量的余弦距离,从而确定第一音频和第二音频的音色相似度。
需要说明的是,若k等于1,则音频客户端可以直接基于k个第一均值特征向量以及k个第二均值特征向量确定第一音频和第二音频的音色相似度。若k为大于1的整数,则音频客户端可以先基于k个第一均值特征向量以及k个第二均值特征向量,确定k个音色距离,进而根据该k个音色距离确定第一音频和第二音频的音色相似度。
本公开实施例以k为大于1的整数,以及采用pearson算法为例,对上述步骤205的实现过程进行示例性说明。参见图4,该实现过程可以包括:
步骤2051、对于每个第一均值特征向量以及对应的一个第二均值特征向量,采用pearson算法进行处理,确定一个音色距离,得到k个音色距离。
其中,pearson算法满足下述公式:
式中,corri是指k个音色距离中的第i个音色距离,i为不大于k的正整数。l是指第一均值特征向量和第二均值特征向量中每个均值特征向量的维数,即每个均值特征向量所包括的分量的个数,l为大于1的整数。Xij是指第i个第一均值特征向量中的第j个分量,Yij是指第i个第二均值特征向量中的第j个分量,j为不大于l的正整数。
步骤2052、将k个音色距离的平均值确定为第一音频和第二音频的音色相似度。
可选的,该平均值可以为算数平均值、几何平均值或均方根值。本公开实施例对此不做限定。
需要说明的是,本公开实施例提供的音色相似度的确定方法的步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。例如,步骤203可以与步骤204同步执行。任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化的方法,都应涵盖在发明的保护范围之内,因此不再赘述。
综上所述,本公开实施例提供了一种音色相似度的确定方法,该方法可以基于k个第一均值特征向量,以及k个第二均值特征向量,确定第一音频和第二音频的音色相似度。由于每个第一均值特征向量是基于m个第一特征向量中的多个第一特征向量的平均值确定的,每个第二均值特征向量是基于m个第二特征向量中的多个第二特征向量的平均值确定的,因此相较于现有技术中直接根据第一特征向量和第二特征向量确定音色相似度,本公开实施例提供的音色相似度确定方法确定的准确性较高。
本公开实施例提供了一种音色相似度的确定装置,参见图6,该装置可以包括:
获取模块301,用于获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量。
其中,第一音频与第二音频为不同的音频,m为大于1的整数。
第一确定模块302,用于根据m个第一特征向量确定k个第一均值特征向量,每个第一均值特征向量基于m个第一特征向量中的多个第一特征向量的平均值确定,k为正整数。
第二确定模块303,用于根据m个第二特征向量确定与k个第一均值特征向量一一对应的k个第二均值特征向量,每个第二均值特征向量基于m个第二特征向量中的多个第二特征向量的平均值确定。
第三确定模块304,用于基于k个第一均值特征向量以及k个第二均值特征向量确定第一音频和第二音频的音色相似度。
可选的,该第一确定模块302用于:
将m个第一特征向量划分为k个不同的第一向量组,每个第一向量组包括n个连续的第一特征向量,n为大于1且小于m的整数;
对于每个第一向量组,将第一向量组包括的n个连续的第一特征向量的平均值确定为一个第一均值特征向量,得到k个第一均值特征向量。
该第二确定模块303用于:
将m个第二特征向量划分为k个不同的第二向量组,每个第二向量组包括n个连续的第二特征向量;
对于每个第二向量组,将第二向量组包括的n个连续的第二特征向量的平均值确定为一个第二均值特征向量,得到k个第二均值特征向量。
可选的,任意两个第一向量组的交集为空,且相邻两个第一向量组包括的第一特征向量连续;任意两个第二向量组的交集为空,且相邻两个第二向量组包括的第二特征向量连续。
可选的,k为大于1的整数,该第三确定模块304用于:
对于每个第一均值特征向量以及对应的一个第二均值特征向量,采用皮尔逊算法进行处理,确定一个音色距离,得到k个音色距离;
将k个音色距离的平均值确定为第一音频和第二音频的音色相似度。
可选的,参见图6,获取模块301可以包括:
获取子模块3011,用于获取第一音频的多个第一初始特征向量,以及第二音频的多个第二初始特征向量;
对齐子模块3012,用于对多个第一初始特征向量,以及多个第二初始特征向量进行对齐处理,得到m个第一特征向量和m个第二特征向量。
可选的,对齐子模块3012用于:
采用动态时间归整算法对多个第一初始特征向量,以及多个第二初始特征向量进行对齐处理。
可选的,获取子模块3011用于:
从第一音频中提取多个第一梅尔倒谱参数作为多个第一初始特征向量;
从第二音频中提取出多个第二梅尔倒谱参数作为多个第二初始特征向量。
综上所述,本公开实施例提供了音色相似度的确定装置,该装置可以基于k个第一均值特征向量以及k个第二均值特征向量,确定第一音频和第二音频的音色相似度。由于每个第一均值特征向量是基于m个第一特征向量中的多个第一特征向量的平均值确定的,每个第二均值特征向量是基于m个第二特征向量中的多个第二特征向量的平均值确定的,因此相较于现有技术中直接根据第一特征向量和第二特征向量确定音色相似度,本公开实施例提供的音色相似度确定方法确定的音色相似度的准确性较高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、各模块以及各子模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图7是本公开实施例提供的另一种音色相似度的确定装置的结构示意图,参见图7,该装置400可以包括:处理器401、存储器402以及存储在该存储器402上并可在该处理器401上运行的计算机程序,该处理器401执行该计算机程序时可以实现如上述方法实施例提供的音色相似度的确定方法,例如图2或图3所示的方法。
本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该计算机可读存储介质在计算机上运行时,使得计算机执行如上述方法实施例提供的音色相似度的确定方法,例如图2或图3所示的方法。
本公开实施例还提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例提供的音色相似度的确定方法,例如图2或图3所示的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的示例性实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种音色相似度的确定方法,其特征在于,所述方法包括:
获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量,所述第一音频与所述第二音频为不同的音频,所述m为大于1的整数;
根据m个所述第一特征向量确定k个第一均值特征向量,每个所述第一均值特征向量基于m个所述第一特征向量中的多个所述第一特征向量的平均值确定,所述k为正整数;
根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量,每个所述第二均值特征向量基于m所述个第二特征向量中的多个所述第二特征向量的平均值确定,其中,根据m个所述第一特征向量确定k个第一均值特征向量的方式与根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量的方式相同;
基于k个所述第一均值特征向量以及k个所述第二均值特征向量确定所述第一音频和所述第二音频的音色相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据m个所述第一特征向量确定k个第一均值特征向量,包括:
将m个所述第一特征向量划分为k个不同的第一向量组,每个所述第一向量组包括n个连续的第一特征向量,所述n为大于1且小于所述m的整数;
对于每个所述第一向量组,将所述第一向量组包括的n个连续的第一特征向量的平均值确定为一个第一均值特征向量,得到k个所述第一均值特征向量;
所述根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量,包括:
将m个所述第二特征向量划分为k个不同的第二向量组,每个所述第二向量组包括n个连续的第二特征向量;
对于每个所述第二向量组,将所述第二向量组包括的n个连续的第二特征向量的平均值确定为一个第二均值特征向量,得到k个所述第二均值特征向量。
3.根据权利要求2所述的方法,其特征在于,任意两个所述第一向量组的交集为空,且相邻两个所述第一向量组包括的所述第一特征向量连续;
任意两个所述第二向量组的交集为空,且相邻两个所述第二向量组包括的所述第二特征向量连续。
4.根据权利要求1至3任一所述的方法,其特征在于,所述k为大于1的整数,所述基于k个所述第一均值特征向量以及k个所述第二均值特征向量确定所述第一音频和所述第二音频的音色相似度,包括:
对于每个所述第一均值特征向量以及对应的一个所述第二均值特征向量,采用皮尔逊算法进行处理,确定一个音色距离,得到k个所述音色距离;
将k个所述音色距离的平均值确定为所述第一音频和所述第二音频的音色相似度。
5.根据权利要求1至3任一所述的方法,其特征在于,所述获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量包括:
获取所述第一音频的多个第一初始特征向量,以及所述第二音频的多个第二初始特征向量;
对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理,得到m个第一特征向量和m个第二特征向量。
6.根据权利要求5所述的方法,其特征在于,所述对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理,包括:
采用动态时间归整算法对多个所述第一初始特征向量,以及多个所述第二初始特征向量进行对齐处理。
7.根据权利要求5所述的方法,其特征在于,所述获取所述第一音频的多个第一初始特征向量,以及所述第二音频的多个第二初始特征向量,包括:
从所述第一音频中提取多个第一梅尔倒谱参数作为多个第一初始特征向量;
从所述第二音频中提取出多个第二梅尔倒谱参数作为多个第二初始特征向量。
8.一种音色相似度的确定装置,其特征在于,所述装置包括:
获取模块,用于获取第一音频的m个第一特征向量,以及第二音频的m个第二特征向量,所述第一音频与所述第二音频为不同的音频,所述m为大于1的整数;
第一确定模块,用于根据m个所述第一特征向量确定k个第一均值特征向量,每个所述第一均值特征向量基于m个所述第一特征向量中的多个所述第一特征向量的平均值确定,所述k为正整数;
第二确定模块,用于根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量,每个所述第二均值特征向量基于m所述个第二特征向量中的多个所述第二特征向量的平均值确定,其中,根据m个所述第一特征向量确定k个第一均值特征向量的方式与根据m个所述第二特征向量确定与k个所述第一均值特征向量一一对应的k个第二均值特征向量的方式相同;
第三确定模块,用于基于k个所述第一均值特征向量以及k个所述第二均值特征向量确定所述第一音频和所述第二音频的音色相似度。
9.一种音色相似度的确定装置,其特征在于,所述装置包括:存储器和处理器;所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一所述的音色相似度的确定方法。
10.一种计算机存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得所述计算机执行如权利要求1至7任一所述的音色相似度的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980167.1A CN110728972B (zh) | 2019-10-15 | 2019-10-15 | 音色相似度的确定方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980167.1A CN110728972B (zh) | 2019-10-15 | 2019-10-15 | 音色相似度的确定方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728972A CN110728972A (zh) | 2020-01-24 |
CN110728972B true CN110728972B (zh) | 2022-02-11 |
Family
ID=69221300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910980167.1A Active CN110728972B (zh) | 2019-10-15 | 2019-10-15 | 音色相似度的确定方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728972B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016017980A (ja) * | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | 声まね音声評価装置、声まね音声評価方法及びプログラム |
EP3014612A1 (en) * | 2013-06-24 | 2016-05-04 | Nokia Technologies OY | Acoustic music similarity determiner |
CN105989837A (zh) * | 2015-02-06 | 2016-10-05 | 中国电信股份有限公司 | 音频匹配方法及装置 |
CN106250400A (zh) * | 2016-07-19 | 2016-12-21 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置以及*** |
CN108417228A (zh) * | 2018-02-02 | 2018-08-17 | 福州大学 | 乐器音色迁移下的人声音色相似性度量方法 |
CN109300484A (zh) * | 2018-09-13 | 2019-02-01 | 广州酷狗计算机科技有限公司 | 音频对齐方法、装置、计算机设备以及可读存储介质 |
CN109686377A (zh) * | 2018-12-24 | 2019-04-26 | 龙马智芯(珠海横琴)科技有限公司 | 音频识别方法及装置、计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8670983B2 (en) * | 2010-09-02 | 2014-03-11 | Nexidia Inc. | Speech signal similarity |
-
2019
- 2019-10-15 CN CN201910980167.1A patent/CN110728972B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3014612A1 (en) * | 2013-06-24 | 2016-05-04 | Nokia Technologies OY | Acoustic music similarity determiner |
JP2016017980A (ja) * | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | 声まね音声評価装置、声まね音声評価方法及びプログラム |
CN105989837A (zh) * | 2015-02-06 | 2016-10-05 | 中国电信股份有限公司 | 音频匹配方法及装置 |
CN106250400A (zh) * | 2016-07-19 | 2016-12-21 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置以及*** |
CN108417228A (zh) * | 2018-02-02 | 2018-08-17 | 福州大学 | 乐器音色迁移下的人声音色相似性度量方法 |
CN109300484A (zh) * | 2018-09-13 | 2019-02-01 | 广州酷狗计算机科技有限公司 | 音频对齐方法、装置、计算机设备以及可读存储介质 |
CN109686377A (zh) * | 2018-12-24 | 2019-04-26 | 龙马智芯(珠海横琴)科技有限公司 | 音频识别方法及装置、计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Vocal timbre analysis using latent Dirichlet allocation and cross-gender vocal timbre similarity;Tomoyasu Nakano;《2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20140714;5202-5206 * |
利用深度学习构建基于内容的音乐推荐***;林雨辉;《中国优秀硕士学位论文全文数据库哲学与人文科学辑》;20190731;F086-290 * |
基于风格相似的个性化音乐推荐***研究;李健;《中国优秀硕士学位论文全文数据库信息科技辑》;20170630;I138-1510 * |
Also Published As
Publication number | Publication date |
---|---|
CN110728972A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
CN105976812B (zh) | 一种语音识别方法及其设备 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
US4837831A (en) | Method for creating and using multiple-word sound models in speech recognition | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
US7684986B2 (en) | Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
KR20140028174A (ko) | 음성 인식 방법 및 이를 적용한 전자 장치 | |
US20230317052A1 (en) | Sample generation method and apparatus | |
CN111798840A (zh) | 语音关键词识别方法和装置 | |
Shaikh Naziya et al. | Speech recognition system—a review | |
US10706867B1 (en) | Global frequency-warping transformation estimation for voice timbre approximation | |
US20030187651A1 (en) | Voice synthesis system combining recorded voice with synthesized voice | |
Lounnas et al. | CLIASR: a combined automatic speech recognition and language identification system | |
Yu et al. | Sparse cepstral codes and power scale for instrument identification | |
Chadha et al. | Optimal feature extraction and selection techniques for speech processing: A review | |
Wang et al. | Detection of cross-dataset fake audio based on prosodic and pronunciation features | |
CN111737515B (zh) | 音频指纹提取方法、装置、计算机设备和可读存储介质 | |
CN111445922B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN112908308A (zh) | 一种音频处理方法、装置、设备及介质 | |
CN110728972B (zh) | 音色相似度的确定方法、装置及计算机存储介质 | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
Abbas et al. | Pashto Spoken Digits database for the automatic speech recognition research | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |