CN108091340B

CN108091340B - 声纹识别方法、声纹识别***和计算机可读存储介质

Info

Publication number: CN108091340B
Application number: CN201611035943.3A
Authority: CN
Inventors: 雷利博; 薛韬; 罗超
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2020-11-03
Anticipated expiration: 2036-11-22
Also published as: WO2018095167A1; CN108091340A

Abstract

本发明提供了一种声纹识别方法和***，所述方法包括：接收待测试音频并将其分割为第一和第二部分；选择一个样本音频并将其分割为第一和第二部分；通过使用梅尔倒谱系数的提取方法，提取针对待测试音频和样本音频的特征矩阵；通过将待测试音频的第一部分的特征矩阵作为第一类样本，并将所选样本音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第二部分与第二类样本的匹配程度；以类似方式针对样本音频的第一部分、待测试音频的第一部分和样本音频的第二部分，分别计算其与对应作为第二类样本的待测试音频、所选样本音频和待测试音频的匹配程度；根据上述各匹配程度，确定待测试音频和样本音频是否来自同一个人的声音。

Description

声纹识别方法、声纹识别***和计算机可读存储介质

技术领域

本发明涉及声纹识别领域，具体地，涉及一种声纹识别方法和声纹识别***和计算机可读存储介质。

背景技术

声纹是指通过特殊的电声转换仪器(诸如，声谱仪、语图仪等)绘制的展现声波特征的波谱图形，是各种声学特征图谱的集合。对于人体来说，声纹是长期稳定的特征信号，由于发声器官先天的生理差异和后天形成的行为差异，每个人的声纹都带着强烈的个人色彩。

声纹识别是根据人语音中所包含的独一无二的发音生理和行为特征等特征参数，自动对说话人身份进行识别的生物识别方法。声纹识别主要采集人的语音信息，提取特有的语音特征并将它转化成数字符号，且将其存成特征模板，使得在应用时将待识别语音与数据库中的模板进行匹配，从而判别说话人的身份。20世纪60年代开始，关于声谱分析的研究技术开始提出并应用于说话人特征分析。目前声纹识别技术已相对成熟并走向实用。

声谱分析在现代人的生活中发挥着重大作用，例如，工业生产中机械的安装、调整和运转可借助声谱分析进行监察。此外，声谱分析在乐器制作工艺的科学检验、珠宝鉴定、通信和广播设备的有效利用方面都有广泛的应用。在通信方面，可以利用“声纹识别”技术来进行身份认证，从而判别说话人的身份。目前该领域的研究成果大多是基于文本相关性的，即，被验证者必需按照规定的文本发音，从而使该项技术的发展受到了限制。此外，现有算法的容错性太差，基本都是靠一个相似度的得分来评定两份语音特征的样本是否属于同一个人。如果样本量不够大或者样本的语音特征相似度较高，则难以做出准确判断。

因此，需要一种文本无关型的声纹识别技术，使得能够更加灵活地应用声纹识别技术。本发明提供了一种文本无关型的声纹识别方法和声纹识别***，其中所述声纹识别方法能够在小样本的情况下有效提高声纹识别的容错性，快速高效地识别出两段音频是否属于同一个人，从而具有广阔的应用前景。通过声纹识别技术中的说话人识别，可以实现利用语音信息进行身份鉴别。

发明内容

本公开的方面在于解决至少上述问题和/或缺点并提供至少下述优点。

根据本发明的第一方面，提供了一种声纹识别方法，可以包括：接收待测试音频并将待测试音频分割为第一部分和第二部分；从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分；通过使用梅尔倒谱系数的提取方法，提取针对所述待测试音频以及所选样本音频的特征矩阵；通过将待测试音频的第一部分的特征矩阵作为第一类样本，并将所选样本音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第二部分属于第二类样本的比例a；通过将所选样本音频的第一部分的特征矩阵作为第一类样本，并将待测试音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算所选样本音频的第二部分属于第二类样本的比例b；通过将待测试音频的第二部分的特征矩阵作为第一类样本，并将所选样本音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第一部分属于第二类样本的比例c；通过将所选样本音频的第二部分的特征矩阵作为第一类样本，并将待测试音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算所选样本音频的第一部分属于第二类样本的比例d；根据计算出的a、b、c和d，计算待测试音频与所选样本音频的匹配程度，以便确定待测试音频和所选样本音频是否来自同一个人的声音。

优选地，所述方法还包括：对所接收的待测试音频进行预处理，其中所述预处理包括以下操作中的至少一个：对待检测音频进行预加重；通过使用交叠分段的分帧方法对待测试音频进行分帧；施加汉明窗以消除吉布斯效应；以及区分语音帧和非语音帧并舍弃非语音帧。

优选地，所述将待测试音频分割为第一部分和第二部分包括将待测试音频分割为长度相等的两部分。

优选地，所述将所选样本音频分割为第一部分和第二部分包括将所选样本音频分割为长度相等的两部分。

优选地，所述计算待测试音频与样本音频的匹配程度包括：计算a、b、c和d的平均值；以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。

根据本发明的第二方面，提供了一种声纹识别***，可以包括：接收器，配置为接收待测试音频；样本数据库，配置为存储一个或更多个样本音频；支持向量机，配置为根据分类样本对测试数据进行分类；控制器，配置为：将来自接收器的待测试音频分割为第一部分和第二部分，并从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分；通过使用梅尔倒谱系数的提取方法，提取针对待测试音频以及所选样本音频的特征矩阵；通过向支持向量机输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机，计算待测试音频的第二部分属于第二类样本的比例a；通过向支持向量机输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机，计算所选样本音频的第二部分属于第二类样本的比例b；通过向支持向量机输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机，计算待测试音频的第一部分属于第二类样本的比例c；通过向支持向量机输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机，计算所选样本音频的第一部分属于第二类样本的比例d；根据计算出的a、b、c和d，计算待测试音频与样本音频的匹配程度，以便确定待测试音频和样本音频是否来自同一个人的声音。

优选地，所述控制器还可以配置为对所接收的待测试音频进行预处理；其中所述预处理包括以下操作中的至少一个：对待检测音频进行预加重；通过使用交叠分段的分帧方法对待测试音频进行分帧；施加汉明窗以消除吉布斯效应；以及区分语音帧和非语音帧并舍弃非语音帧。

优选地，所述控制器还配置为将待测试音频分割为长度相等的两部分。

优选地，所述控制器还配置为将所选样本音频分割为长度相等的两部分。

优选地，所述控制器还配置为：计算a、b、c和d的平均值；以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。

根据本发明的第三方面，提供了一种声纹识别***，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如本发明第一方面所述的声纹识别方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如本发明第一方面所述的声纹识别方法。

附图说明

以下结合附图，将更清楚本公开的示例实施例的上述和其它方面、特征以及优点，附图中：

图1示出了根据本发明的示例实施例的声纹识别***的结构框图；

图2示出了根据本发明的示例实施例的声纹识别方法的操作逻辑图；

图3示出了根据本发明的示例实施例的声纹识别方法的流程图；以及

图4示出了图3中的训练支持向量机并计算音频匹配度的处理中的一个示例图。

具体实施方式

以下参考附图描述了本发明的示例实施。本发明提供了一种文本无关型的声纹识别方法和声纹识别***，其中所述声纹识别方法能够在小样本的情况下有效提高声纹识别的容错性，快速高效地识别出两段音频是否属于同一个人，从而具有广阔的应用前景。通过声纹识别技术中的说话人识别，可以实现利用语音信息进行身份鉴别。

图1示出了根据本发明的示例实施例的声纹识别***100的结构框图。如图1所示，声纹识别***100包括接收器110，配置为接收待测试音频；样本数据库120，配置为存储一个或更多个样本音频；支持向量机130，配置为根据分类样本对测试数据进行分类；以及控制器140。支持向量机130能够执行分类功能，具体地，对于线性不可分的情况，首先通过非线性变换将输入空间变换到一个高维空间，使样本被变换为线性可分的情况，其中这里提到的非线性变换是通过适当的内积函数实现的；然后在新的空间中寻求最优的线性分类面，从而实现分类功能。所述控制器140可以配置为：将来自接收器110的待测试音频分割为第一部分和第二部分，并从样本数据库130中选择一个样本音频并将所选样本音频分割为第一部分和第二部分，例如，将待测试音频和所选样本音频均分割为长度相等的两部分。尽管上述实施例描述了将待测试音频和所选样本音频均分割为长度相等的两部分，然而应注意，还可以以不同的分割比例来分割待测试音频和所选样本音频，且二者的分割比例可以是不一样的。接着，控制器140通过使用梅尔倒谱系数(MFCC)的提取方法，提取针对待测试音频以及所选样本音频的特征矩阵。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。目前MFCC及其提取方法已经广泛地应用在语音识别领域。

随后，控制器140通过使用支持向量机来确定待测试音频和所选样本音频是否来自同一个人。具体地，通过向支持向量机130输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机130，计算待测试音频的第二部分属于第二类样本的比例a；通过向支持向量机130输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机130，计算所选样本音频的第二部分属于第二类样本的比例b；通过向支持向量机130输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机130，计算待测试音频的第一部分属于第二类样本的比例c；通过向支持向量机130输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机130，计算所选样本音频的第一部分属于第二类样本的比例d；并且根据计算出的a、b、c和d，计算待测试音频与样本音频的匹配程度，以便确定待测试音频和样本音频是否来自同一个人的声音。在一个实施例中，控制器140可以通过计算a、b、c和d的平均值，并将所述平均值与0.5的比值确定为待测试音频与样本音频的匹配程度。

在备选实施例中，所述控制器140还可以配置为对所接收的待测试音频进行预处理，例如，对待检测音频进行预加重；前值滤波和高频补偿；接着通过使用交叠分段的分帧方法对待测试音频进行分帧；然后施加汉明窗以消除吉布斯效应；以及区分语音帧和非语音帧并舍弃非语音帧。由于声音信号往往是连续变化的，为了将连续变化信号简化，假设在一个短时间尺度内，音频信号不发生改变，使得将信号以多个取样点集合成一个单位，称为“讯框”，即“一帧”。一帧往往为20-40毫秒，如果讯框长度更短，那每个讯框内的取样点将不足以做出可靠的频谱计算，但若长度太长，则每个讯框信号会变化太大。

图2示出了根据本发明的示例实施例的声纹识别方法的操作逻辑图。首先，在操作S01，通过接收器接收待测试音频；接着在操作S05，对待测试音频进行预处理，例如，前值滤波和高频补偿；接着通过使用交叠分段的分帧方法对待测试音频进行分帧；然后施加汉明窗以消除吉布斯效应；以及区分语音帧和非语音帧并舍弃非语音帧。在操作S10，将待测试音频分割为第一和第二部分。此外，在操作S15，可以从样本数据库选择样本音频，并在操作S20将所选样本音频分为第一部分和第二部分。随后，在操作S25，通过使用梅尔倒谱系数的提取方法，提取针对待测试音频和所选样本音频的各个部分的特征向量，以便在操作S30用所述特征向量中的一个或更多个来训练支持向量机。最后，在操作S35，确定待测试音频和所选样本音频是否来自同一个人。

图3示出了根据本发明的示例实施例的声纹识别方法的流程图。在步骤S305，接收待测试音频A并将待测试音频A分割为第一部分A1和第二部分A2。在步骤S310，从样本数据库中选择一个样本音频B并将所选样本音频B分割为第一部分B1和第二部分B2。例如，可以将待测试音频A从中间分割成长度相等的A1和A2两部分，同时将样本音频B同样地从中间分割成B1和B2两部分。此外，除了上述分割方式之外，还可以以其他分割比例来分割待测试音频和所选样本音频，例如，将待测试音频分割为1∶2的两个部分，且将所选样本音频分割为2∶3：的两个部分。

此外，在执行步骤S305之前，所述方法还可以包括对待测试音频进行预处理，例如，对待检测音频进行预加重；通过使用交叠分段的分帧方法对待测试音频进行分帧；施加汉明窗以消除吉布斯效应；以及区分语音帧和非语音帧并舍弃非语音帧等。在一个实施例中，首先根据语音信号的频率特点设计了一个特殊的滤波器对信号进行滤波、高频补偿；然后采用交叠分段的分帧方法进行分帧；其次给信号加上了汉明窗以消除吉布斯效应；接着利用端点检测的方法，按照短时能量和短时平均过零率的高低区分语音帧和非语音帧，并将非语音帧舍弃。

接着，在步骤S315，通过使用梅尔倒谱系数的提取方法，提取针对所述待测试音频以及所选样本音频的特征矩阵。也就是说，根据梅尔倒谱系数的提取方法从每一个说话人的语音的每一帧都中提取出一个1行20列的向量作为其特征向量，那么一个人的n帧就构成了一个n行20列的特征矩阵。

接下来，执行训练支持向量机的步骤。在步骤S320，通过将待测试音频的第一部分A1的特征矩阵作为第一类样本，并将所选样本音频B的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第二部分A2属于第二类样本的比例a，以便判别待测试音频的第二部分A2是否属于所选样本音频；接着在步骤S325，通过将所选样本音频的第一部分B1的特征矩阵作为第一类样本，并将待测试音频A的特征矩阵作为第二类样本，执行支持向量机训练，并计算所选样本音频的第二部分B2属于第二类样本的比例b；然后，在步骤S330，通过将待测试音频的第二部分A2的特征矩阵作为第一类样本，并将所选样本音频B的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第一部分A1属于第二类样本的比例c；以及在步骤S335，通过将所选样本音频的第二部分B2的特征矩阵作为第一类样本，并将待测试音频A的特征矩阵作为第二类样本，执行支持向量机训练，并计算所选样本音频的第一部分B1属于第二类样本的比例d。上述操作S320至S335中的任一操作可以示例性地表示为图4。图4示出了上述操作S320至S335中的训练支持向量机并计算音频匹配度的处理中的一个示例图。

最后，继续参考图3，在步骤S340，根据计算出的a、b、c和d，计算待测试音频与所选样本音频的匹配程度，以便确定待测试音频和所选样本音频是否来自同一个人的声音。例如，可以计算a、b、c和d的平均值，以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。在这种情况下，如果待测试音频与所选样本音频属于一个人的，则平均值的大小应该接近0.5。如果不是来自同一个人，则平均值的比例应该接近0。因此，可以将该平均值与0.5的比值视为待测试音频与样本音频的匹配度。根据这个匹配度，能确认匹配结果与测试样本是否为一个人的声音，防止误判。

应注意，可以基于不同应用环境的需求，设置不同的比例阈值来确定待测试音频与样本音频是否来自同一个人。例如，在安全性较低的情况下，可以通过将阈值设置为较低值，例如，70％，来确定样本音频和待测试音频是否来自同一个人，即，如果计算出的比值大于或等于70％，则认为二者来自同一个人，否则认为二者来自不同的人的声音。在安全性较高的情况下(例如，门禁***)，可以通过将阈值设置为较高值，例如，95％，来确定样本音频和待测试音频是否来自同一个人。这样能够实现根据应用需要来调整识别准确度的效果，更便于用户使用。

因此，本发明所提出的声纹识别方法和***能够通过分割待匹配音频和样本音频，使得在小样本的条件下以不同方式组合分割后的样本进行分类，达到高容错性、高效率的准确身份识别。

应注意，以上方案仅是示出本发明构思的一个具体实现方案，本发明不限于上述实现方案。可以省略或跳过上述实现方案中的一部分处理，而不脱离本发明的精神和范围。

前面的方法可以通过多种计算机装置以可执的程序命令形式实现并记录在计算机可读记录介质中。在这种情况下，计算机可读记录介质可以包括单独的程序命令、数据文件、数据结构或其组合。同时，记录在记录介质中的程序命令可以专门设计或配置用于本发明，或是计算机软件领域的技术人员已知应用的。计算机可读记录介质包括例如硬盘、软盘或磁带等磁性介质、例如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD)等光学介质、例如光磁软盘的磁光介质以及例如存储和执行程序命令的ROM、RAM、闪存等硬件装置。此外，程序命令包括编译器形成的机器语言代码和计算机通过使用解释程序可执行的高级语言。前面的硬件装置可以配置成作为至少一个软件模块操作以执行本发明的操作，并且逆向操作也是一样的。

尽管以特定顺序示出并描述了本文方法的操作，然而可以改变每个方法的操作的顺序，使得可以以相反顺序执行特定操作或使得可以至少部分地与其它操作同时来执行特定操作。此外，本发明不限于上述示例实施例，它可以在不脱离本公开的精神和范围的前提下，包括一个或多个其他部件或操作，或省略一个或多个其他部件或操作。

以上已经结合本发明的优选实施例示出了本发明，但是本领域的技术人员将会理解，在不脱离本发明的精神和范围的情况下，可以对本发明进行各种修改、替换和改变。因此，本发明不应由上述实施例来限定，而应由所附权利要求及其等价物来限定。

Claims

1.一种声纹识别方法，包括：

接收待测试音频并将待测试音频分割为第一部分和第二部分；

从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分；

通过使用梅尔倒谱系数的提取方法，提取针对所述待测试音频以及所选样本音频的特征矩阵；

通过将待测试音频的第一部分的特征矩阵作为第一类样本，并将所选样本音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第二部分属于第二类样本的比例a；

通过将所选样本音频的第一部分的特征矩阵作为第一类样本，并将待测试音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算所选样本音频的第二部分属于第二类样本的比例b；

通过将待测试音频的第二部分的特征矩阵作为第一类样本，并将所选样本音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第一部分属于第二类样本的比例c；

通过将所选样本音频的第二部分的特征矩阵作为第一类样本，并将待测试音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算所选样本音频的第一部分属于第二类样本的比例d；

根据计算出的a、b、c和d，计算待测试音频与所选样本音频的匹配程度，以便确定待测试音频和所选样本音频是否来自同一个人的声音，

其中所述计算待测试音频与样本音频的匹配程度包括：

计算a、b、c和d的平均值；以及

将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。

2.根据权利要求1所述的方法，还包括：对所接收的待测试音频进行预处理，其中所述预处理包括以下操作中的至少一个：

对待检测音频进行预加重；

通过使用交叠分段的分帧方法对待测试音频进行分帧；

施加汉明窗以消除吉布斯效应；以及

区分语音帧和非语音帧并舍弃非语音帧。

3.根据权利要求1所述的方法，其中所述将待测试音频分割为第一部分和第二部分包括将待测试音频分割为长度相等的两部分。

4.根据权利要求1所述的方法，其中所述将所选样本音频分割为第一部分和第二部分包括将所选样本音频分割为长度相等的两部分。

5.一种声纹识别***，包括：

接收器，配置为接收待测试音频；

样本数据库，配置为存储一个或更多个样本音频；

支持向量机，配置为根据分类样本对测试数据进行分类；

控制器，配置为：

将来自接收器的待测试音频分割为第一部分和第二部分，并从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分；

通过使用梅尔倒谱系数的提取方法，提取针对待测试音频以及所选样本音频的特征矩阵；

通过向支持向量机输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机，计算待测试音频的第二部分属于第二类样本的比例a；

通过向支持向量机输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机，计算所选样本音频的第二部分属于第二类样本的比例b；

通过向支持向量机输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机，计算待测试音频的第一部分属于第二类样本的比例c；

通过向支持向量机输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机，计算所选样本音频的第一部分属于第二类样本的比例d；

根据计算出的a、b、c和d，计算待测试音频与样本音频的匹配程度，以便确定待测试音频和样本音频是否来自同一个人的声音，

其中所述控制器还配置为：计算a、b、c和d的平均值；以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。

6.根据权利要求5所述的***，其中所述控制器还配置为对所接收的待测试音频进行预处理；其中所述预处理包括以下操作中的至少一个：

对待检测音频进行预加重；

通过使用交叠分段的分帧方法对待测试音频进行分帧；

施加汉明窗以消除吉布斯效应；以及

区分语音帧和非语音帧并舍弃非语音帧。

7.根据权利要求5所述的***，其中所述控制器还配置为将待测试音频分割为长度相等的两部分。

8.根据权利要求5所述的***，其中所述控制器还配置为将所选样本音频分割为长度相等的两部分。

9.一种声纹识别***，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至4中任一项所述的声纹识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至4中任一项所述的声纹识别方法。