CN108091340B - 声纹识别方法、声纹识别***和计算机可读存储介质 - Google Patents
声纹识别方法、声纹识别***和计算机可读存储介质 Download PDFInfo
- Publication number
- CN108091340B CN108091340B CN201611035943.3A CN201611035943A CN108091340B CN 108091340 B CN108091340 B CN 108091340B CN 201611035943 A CN201611035943 A CN 201611035943A CN 108091340 B CN108091340 B CN 108091340B
- Authority
- CN
- China
- Prior art keywords
- audio
- tested
- sample
- type
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims description 5
- 239000011159 matrix material Substances 0.000 claims abstract description 52
- 238000012706 support-vector machine Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000009432 framing Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 206010021703 Indifference Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种声纹识别方法和***,所述方法包括:接收待测试音频并将其分割为第一和第二部分;选择一个样本音频并将其分割为第一和第二部分;通过使用梅尔倒谱系数的提取方法,提取针对待测试音频和样本音频的特征矩阵;通过将待测试音频的第一部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分与第二类样本的匹配程度;以类似方式针对样本音频的第一部分、待测试音频的第一部分和样本音频的第二部分,分别计算其与对应作为第二类样本的待测试音频、所选样本音频和待测试音频的匹配程度;根据上述各匹配程度,确定待测试音频和样本音频是否来自同一个人的声音。
Description
技术领域
本发明涉及声纹识别领域,具体地,涉及一种声纹识别方法和声纹识别***和计算机可读存储介质。
背景技术
声纹是指通过特殊的电声转换仪器(诸如,声谱仪、语图仪等)绘制的展现声波特征的波谱图形,是各种声学特征图谱的集合。对于人体来说,声纹是长期稳定的特征信号,由于发声器官先天的生理差异和后天形成的行为差异,每个人的声纹都带着强烈的个人色彩。
声纹识别是根据人语音中所包含的独一无二的发音生理和行为特征等特征参数,自动对说话人身份进行识别的生物识别方法。声纹识别主要采集人的语音信息,提取特有的语音特征并将它转化成数字符号,且将其存成特征模板,使得在应用时将待识别语音与数据库中的模板进行匹配,从而判别说话人的身份。20世纪60年代开始,关于声谱分析的研究技术开始提出并应用于说话人特征分析。目前声纹识别技术已相对成熟并走向实用。
声谱分析在现代人的生活中发挥着重大作用,例如,工业生产中机械的安装、调整和运转可借助声谱分析进行监察。此外,声谱分析在乐器制作工艺的科学检验、珠宝鉴定、通信和广播设备的有效利用方面都有广泛的应用。在通信方面,可以利用“声纹识别”技术来进行身份认证,从而判别说话人的身份。目前该领域的研究成果大多是基于文本相关性的,即,被验证者必需按照规定的文本发音,从而使该项技术的发展受到了限制。此外,现有算法的容错性太差,基本都是靠一个相似度的得分来评定两份语音特征的样本是否属于同一个人。如果样本量不够大或者样本的语音特征相似度较高,则难以做出准确判断。
因此,需要一种文本无关型的声纹识别技术,使得能够更加灵活地应用声纹识别技术。本发明提供了一种文本无关型的声纹识别方法和声纹识别***,其中所述声纹识别方法能够在小样本的情况下有效提高声纹识别的容错性,快速高效地识别出两段音频是否属于同一个人,从而具有广阔的应用前景。通过声纹识别技术中的说话人识别,可以实现利用语音信息进行身份鉴别。
发明内容
本公开的方面在于解决至少上述问题和/或缺点并提供至少下述优点。
根据本发明的第一方面,提供了一种声纹识别方法,可以包括:接收待测试音频并将待测试音频分割为第一部分和第二部分;从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;通过使用梅尔倒谱系数的提取方法,提取针对所述待测试音频以及所选样本音频的特征矩阵;通过将待测试音频的第一部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分属于第二类样本的比例a;通过将所选样本音频的第一部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第二部分属于第二类样本的比例b;通过将待测试音频的第二部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第一部分属于第二类样本的比例c;通过将所选样本音频的第二部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第一部分属于第二类样本的比例d;根据计算出的a、b、c和d,计算待测试音频与所选样本音频的匹配程度,以便确定待测试音频和所选样本音频是否来自同一个人的声音。
优选地,所述方法还包括:对所接收的待测试音频进行预处理,其中所述预处理包括以下操作中的至少一个:对待检测音频进行预加重;通过使用交叠分段的分帧方法对待测试音频进行分帧;施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。
优选地,所述将待测试音频分割为第一部分和第二部分包括将待测试音频分割为长度相等的两部分。
优选地,所述将所选样本音频分割为第一部分和第二部分包括将所选样本音频分割为长度相等的两部分。
优选地,所述计算待测试音频与样本音频的匹配程度包括:计算a、b、c和d的平均值;以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
根据本发明的第二方面,提供了一种声纹识别***,可以包括:接收器,配置为接收待测试音频;样本数据库,配置为存储一个或更多个样本音频;支持向量机,配置为根据分类样本对测试数据进行分类;控制器,配置为:将来自接收器的待测试音频分割为第一部分和第二部分,并从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;通过使用梅尔倒谱系数的提取方法,提取针对待测试音频以及所选样本音频的特征矩阵;通过向支持向量机输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第二部分属于第二类样本的比例a;通过向支持向量机输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第二部分属于第二类样本的比例b;通过向支持向量机输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第一部分属于第二类样本的比例c;通过向支持向量机输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第一部分属于第二类样本的比例d;根据计算出的a、b、c和d,计算待测试音频与样本音频的匹配程度,以便确定待测试音频和样本音频是否来自同一个人的声音。
优选地,所述控制器还可以配置为对所接收的待测试音频进行预处理;其中所述预处理包括以下操作中的至少一个:对待检测音频进行预加重;通过使用交叠分段的分帧方法对待测试音频进行分帧;施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。
优选地,所述控制器还配置为将待测试音频分割为长度相等的两部分。
优选地,所述控制器还配置为将所选样本音频分割为长度相等的两部分。
优选地,所述控制器还配置为:计算a、b、c和d的平均值;以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
根据本发明的第三方面,提供了一种声纹识别***,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如本发明第一方面所述的声纹识别方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如本发明第一方面所述的声纹识别方法。
附图说明
以下结合附图,将更清楚本公开的示例实施例的上述和其它方面、特征以及优点,附图中:
图1示出了根据本发明的示例实施例的声纹识别***的结构框图;
图2示出了根据本发明的示例实施例的声纹识别方法的操作逻辑图;
图3示出了根据本发明的示例实施例的声纹识别方法的流程图;以及
图4示出了图3中的训练支持向量机并计算音频匹配度的处理中的一个示例图。
具体实施方式
以下参考附图描述了本发明的示例实施。本发明提供了一种文本无关型的声纹识别方法和声纹识别***,其中所述声纹识别方法能够在小样本的情况下有效提高声纹识别的容错性,快速高效地识别出两段音频是否属于同一个人,从而具有广阔的应用前景。通过声纹识别技术中的说话人识别,可以实现利用语音信息进行身份鉴别。
图1示出了根据本发明的示例实施例的声纹识别***100的结构框图。如图1所示,声纹识别***100包括接收器110,配置为接收待测试音频;样本数据库120,配置为存储一个或更多个样本音频;支持向量机130,配置为根据分类样本对测试数据进行分类;以及控制器140。支持向量机130能够执行分类功能,具体地,对于线性不可分的情况,首先通过非线性变换将输入空间变换到一个高维空间,使样本被变换为线性可分的情况,其中这里提到的非线性变换是通过适当的内积函数实现的;然后在新的空间中寻求最优的线性分类面,从而实现分类功能。所述控制器140可以配置为:将来自接收器110的待测试音频分割为第一部分和第二部分,并从样本数据库130中选择一个样本音频并将所选样本音频分割为第一部分和第二部分,例如,将待测试音频和所选样本音频均分割为长度相等的两部分。尽管上述实施例描述了将待测试音频和所选样本音频均分割为长度相等的两部分,然而应注意,还可以以不同的分割比例来分割待测试音频和所选样本音频,且二者的分割比例可以是不一样的。接着,控制器140通过使用梅尔倒谱系数(MFCC)的提取方法,提取针对待测试音频以及所选样本音频的特征矩阵。梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。目前MFCC及其提取方法已经广泛地应用在语音识别领域。
随后,控制器140通过使用支持向量机来确定待测试音频和所选样本音频是否来自同一个人。具体地,通过向支持向量机130输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机130,计算待测试音频的第二部分属于第二类样本的比例a;通过向支持向量机130输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机130,计算所选样本音频的第二部分属于第二类样本的比例b;通过向支持向量机130输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机130,计算待测试音频的第一部分属于第二类样本的比例c;通过向支持向量机130输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机130,计算所选样本音频的第一部分属于第二类样本的比例d;并且根据计算出的a、b、c和d,计算待测试音频与样本音频的匹配程度,以便确定待测试音频和样本音频是否来自同一个人的声音。在一个实施例中,控制器140可以通过计算a、b、c和d的平均值,并将所述平均值与0.5的比值确定为待测试音频与样本音频的匹配程度。
在备选实施例中,所述控制器140还可以配置为对所接收的待测试音频进行预处理,例如,对待检测音频进行预加重;前值滤波和高频补偿;接着通过使用交叠分段的分帧方法对待测试音频进行分帧;然后施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。由于声音信号往往是连续变化的,为了将连续变化信号简化,假设在一个短时间尺度内,音频信号不发生改变,使得将信号以多个取样点集合成一个单位,称为“讯框”,即“一帧”。一帧往往为20-40毫秒,如果讯框长度更短,那每个讯框内的取样点将不足以做出可靠的频谱计算,但若长度太长,则每个讯框信号会变化太大。
图2示出了根据本发明的示例实施例的声纹识别方法的操作逻辑图。首先,在操作S01,通过接收器接收待测试音频;接着在操作S05,对待测试音频进行预处理,例如,前值滤波和高频补偿;接着通过使用交叠分段的分帧方法对待测试音频进行分帧;然后施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。在操作S10,将待测试音频分割为第一和第二部分。此外,在操作S15,可以从样本数据库选择样本音频,并在操作S20将所选样本音频分为第一部分和第二部分。随后,在操作S25,通过使用梅尔倒谱系数的提取方法,提取针对待测试音频和所选样本音频的各个部分的特征向量,以便在操作S30用所述特征向量中的一个或更多个来训练支持向量机。最后,在操作S35,确定待测试音频和所选样本音频是否来自同一个人。
图3示出了根据本发明的示例实施例的声纹识别方法的流程图。在步骤S305,接收待测试音频A并将待测试音频A分割为第一部分A1和第二部分A2。在步骤S310,从样本数据库中选择一个样本音频B并将所选样本音频B分割为第一部分B1和第二部分B2。例如,可以将待测试音频A从中间分割成长度相等的A1和A2两部分,同时将样本音频B同样地从中间分割成B1和B2两部分。此外,除了上述分割方式之外,还可以以其他分割比例来分割待测试音频和所选样本音频,例如,将待测试音频分割为1∶2的两个部分,且将所选样本音频分割为2∶3:的两个部分。
此外,在执行步骤S305之前,所述方法还可以包括对待测试音频进行预处理,例如,对待检测音频进行预加重;通过使用交叠分段的分帧方法对待测试音频进行分帧;施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧等。在一个实施例中,首先根据语音信号的频率特点设计了一个特殊的滤波器对信号进行滤波、高频补偿;然后采用交叠分段的分帧方法进行分帧;其次给信号加上了汉明窗以消除吉布斯效应;接着利用端点检测的方法,按照短时能量和短时平均过零率的高低区分语音帧和非语音帧,并将非语音帧舍弃。
接着,在步骤S315,通过使用梅尔倒谱系数的提取方法,提取针对所述待测试音频以及所选样本音频的特征矩阵。也就是说,根据梅尔倒谱系数的提取方法从每一个说话人的语音的每一帧都中提取出一个1行20列的向量作为其特征向量,那么一个人的n帧就构成了一个n行20列的特征矩阵。
接下来,执行训练支持向量机的步骤。在步骤S320,通过将待测试音频的第一部分A1的特征矩阵作为第一类样本,并将所选样本音频B的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分A2属于第二类样本的比例a,以便判别待测试音频的第二部分A2是否属于所选样本音频;接着在步骤S325,通过将所选样本音频的第一部分B1的特征矩阵作为第一类样本,并将待测试音频A的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第二部分B2属于第二类样本的比例b;然后,在步骤S330,通过将待测试音频的第二部分A2的特征矩阵作为第一类样本,并将所选样本音频B的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第一部分A1属于第二类样本的比例c;以及在步骤S335,通过将所选样本音频的第二部分B2的特征矩阵作为第一类样本,并将待测试音频A的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第一部分B1属于第二类样本的比例d。上述操作S320至S335中的任一操作可以示例性地表示为图4。图4示出了上述操作S320至S335中的训练支持向量机并计算音频匹配度的处理中的一个示例图。
最后,继续参考图3,在步骤S340,根据计算出的a、b、c和d,计算待测试音频与所选样本音频的匹配程度,以便确定待测试音频和所选样本音频是否来自同一个人的声音。例如,可以计算a、b、c和d的平均值,以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。在这种情况下,如果待测试音频与所选样本音频属于一个人的,则平均值的大小应该接近0.5。如果不是来自同一个人,则平均值的比例应该接近0。因此,可以将该平均值与0.5的比值视为待测试音频与样本音频的匹配度。根据这个匹配度,能确认匹配结果与测试样本是否为一个人的声音,防止误判。
应注意,可以基于不同应用环境的需求,设置不同的比例阈值来确定待测试音频与样本音频是否来自同一个人。例如,在安全性较低的情况下,可以通过将阈值设置为较低值,例如,70%,来确定样本音频和待测试音频是否来自同一个人,即,如果计算出的比值大于或等于70%,则认为二者来自同一个人,否则认为二者来自不同的人的声音。在安全性较高的情况下(例如,门禁***),可以通过将阈值设置为较高值,例如,95%,来确定样本音频和待测试音频是否来自同一个人。这样能够实现根据应用需要来调整识别准确度的效果,更便于用户使用。
因此,本发明所提出的声纹识别方法和***能够通过分割待匹配音频和样本音频,使得在小样本的条件下以不同方式组合分割后的样本进行分类,达到高容错性、高效率的准确身份识别。
应注意,以上方案仅是示出本发明构思的一个具体实现方案,本发明不限于上述实现方案。可以省略或跳过上述实现方案中的一部分处理,而不脱离本发明的精神和范围。
前面的方法可以通过多种计算机装置以可执的程序命令形式实现并记录在计算机可读记录介质中。在这种情况下,计算机可读记录介质可以包括单独的程序命令、数据文件、数据结构或其组合。同时,记录在记录介质中的程序命令可以专门设计或配置用于本发明,或是计算机软件领域的技术人员已知应用的。计算机可读记录介质包括例如硬盘、软盘或磁带等磁性介质、例如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD)等光学介质、例如光磁软盘的磁光介质以及例如存储和执行程序命令的ROM、RAM、闪存等硬件装置。此外,程序命令包括编译器形成的机器语言代码和计算机通过使用解释程序可执行的高级语言。前面的硬件装置可以配置成作为至少一个软件模块操作以执行本发明的操作,并且逆向操作也是一样的。
尽管以特定顺序示出并描述了本文方法的操作,然而可以改变每个方法的操作的顺序,使得可以以相反顺序执行特定操作或使得可以至少部分地与其它操作同时来执行特定操作。此外,本发明不限于上述示例实施例,它可以在不脱离本公开的精神和范围的前提下,包括一个或多个其他部件或操作,或省略一个或多个其他部件或操作。
以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (10)
1.一种声纹识别方法,包括:
接收待测试音频并将待测试音频分割为第一部分和第二部分;
从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;
通过使用梅尔倒谱系数的提取方法,提取针对所述待测试音频以及所选样本音频的特征矩阵;
通过将待测试音频的第一部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分属于第二类样本的比例a;
通过将所选样本音频的第一部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第二部分属于第二类样本的比例b;
通过将待测试音频的第二部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第一部分属于第二类样本的比例c;
通过将所选样本音频的第二部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第一部分属于第二类样本的比例d;
根据计算出的a、b、c和d,计算待测试音频与所选样本音频的匹配程度,以便确定待测试音频和所选样本音频是否来自同一个人的声音,
其中所述计算待测试音频与样本音频的匹配程度包括:
计算a、b、c和d的平均值;以及
将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
2.根据权利要求1所述的方法,还包括:对所接收的待测试音频进行预处理,其中所述预处理包括以下操作中的至少一个:
对待检测音频进行预加重;
通过使用交叠分段的分帧方法对待测试音频进行分帧;
施加汉明窗以消除吉布斯效应;以及
区分语音帧和非语音帧并舍弃非语音帧。
3.根据权利要求1所述的方法,其中所述将待测试音频分割为第一部分和第二部分包括将待测试音频分割为长度相等的两部分。
4.根据权利要求1所述的方法,其中所述将所选样本音频分割为第一部分和第二部分包括将所选样本音频分割为长度相等的两部分。
5.一种声纹识别***,包括:
接收器,配置为接收待测试音频;
样本数据库,配置为存储一个或更多个样本音频;
支持向量机,配置为根据分类样本对测试数据进行分类;
控制器,配置为:
将来自接收器的待测试音频分割为第一部分和第二部分,并从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;
通过使用梅尔倒谱系数的提取方法,提取针对待测试音频以及所选样本音频的特征矩阵;
通过向支持向量机输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第二部分属于第二类样本的比例a;
通过向支持向量机输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第二部分属于第二类样本的比例b;
通过向支持向量机输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第一部分属于第二类样本的比例c;
通过向支持向量机输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第一部分属于第二类样本的比例d;
根据计算出的a、b、c和d,计算待测试音频与样本音频的匹配程度,以便确定待测试音频和样本音频是否来自同一个人的声音,
其中所述控制器还配置为:计算a、b、c和d的平均值;以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
6.根据权利要求5所述的***,其中所述控制器还配置为对所接收的待测试音频进行预处理;其中所述预处理包括以下操作中的至少一个:
对待检测音频进行预加重;
通过使用交叠分段的分帧方法对待测试音频进行分帧;
施加汉明窗以消除吉布斯效应;以及
区分语音帧和非语音帧并舍弃非语音帧。
7.根据权利要求5所述的***,其中所述控制器还配置为将待测试音频分割为长度相等的两部分。
8.根据权利要求5所述的***,其中所述控制器还配置为将所选样本音频分割为长度相等的两部分。
9.一种声纹识别***,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至4中任一项所述的声纹识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至4中任一项所述的声纹识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611035943.3A CN108091340B (zh) | 2016-11-22 | 2016-11-22 | 声纹识别方法、声纹识别***和计算机可读存储介质 |
PCT/CN2017/106886 WO2018095167A1 (zh) | 2016-11-22 | 2017-10-19 | 声纹识别方法和声纹识别*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611035943.3A CN108091340B (zh) | 2016-11-22 | 2016-11-22 | 声纹识别方法、声纹识别***和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108091340A CN108091340A (zh) | 2018-05-29 |
CN108091340B true CN108091340B (zh) | 2020-11-03 |
Family
ID=62168704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611035943.3A Active CN108091340B (zh) | 2016-11-22 | 2016-11-22 | 声纹识别方法、声纹识别***和计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108091340B (zh) |
WO (1) | WO2018095167A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109031961B (zh) * | 2018-06-29 | 2021-04-06 | 百度在线网络技术(北京)有限公司 | 用于控制操作对象的方法和装置 |
CN108908377B (zh) * | 2018-07-06 | 2020-06-23 | 达闼科技(北京)有限公司 | 说话人识别方法、装置和机器人 |
CN110889008B (zh) * | 2018-09-10 | 2021-11-09 | 珠海格力电器股份有限公司 | 一种音乐推荐方法、装置、计算装置和存储介质 |
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN115100776B (zh) * | 2022-05-30 | 2023-12-26 | 厦门快商通科技股份有限公司 | 一种基于语音识别的门禁认证方法、***及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318692A (ja) * | 2000-05-11 | 2001-11-16 | Yasutaka Sakamoto | 音声認識による人物同定システム |
US20070239457A1 (en) * | 2006-04-10 | 2007-10-11 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management |
CN101562012A (zh) * | 2008-04-16 | 2009-10-21 | 创而新(中国)科技有限公司 | 语音分级测定方法及*** |
CN102820033A (zh) * | 2012-08-17 | 2012-12-12 | 南京大学 | 一种声纹识别方法 |
CN103562993A (zh) * | 2011-12-16 | 2014-02-05 | 华为技术有限公司 | 说话人识别方法及设备 |
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
CN105244026A (zh) * | 2015-08-24 | 2016-01-13 | 陈娟 | 一种语音处理方法及装置 |
CN106062871A (zh) * | 2014-03-28 | 2016-10-26 | 英特尔公司 | 使用所选择的群组样本子集来训练分类器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664011B (zh) * | 2012-05-17 | 2014-03-12 | 吉林大学 | 一种快速说话人识别方法 |
CN102737633B (zh) * | 2012-06-21 | 2013-12-25 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
CN104464756A (zh) * | 2014-12-10 | 2015-03-25 | 黑龙江真美广播通讯器材有限公司 | 一种小型说话人情感识别*** |
-
2016
- 2016-11-22 CN CN201611035943.3A patent/CN108091340B/zh active Active
-
2017
- 2017-10-19 WO PCT/CN2017/106886 patent/WO2018095167A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318692A (ja) * | 2000-05-11 | 2001-11-16 | Yasutaka Sakamoto | 音声認識による人物同定システム |
US20070239457A1 (en) * | 2006-04-10 | 2007-10-11 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management |
CN101562012A (zh) * | 2008-04-16 | 2009-10-21 | 创而新(中国)科技有限公司 | 语音分级测定方法及*** |
CN103562993A (zh) * | 2011-12-16 | 2014-02-05 | 华为技术有限公司 | 说话人识别方法及设备 |
CN102820033A (zh) * | 2012-08-17 | 2012-12-12 | 南京大学 | 一种声纹识别方法 |
CN106062871A (zh) * | 2014-03-28 | 2016-10-26 | 英特尔公司 | 使用所选择的群组样本子集来训练分类器 |
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN105244026A (zh) * | 2015-08-24 | 2016-01-13 | 陈娟 | 一种语音处理方法及装置 |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
SVM based Arabic speaker verification system for mobile devices;Alarifi, A;《2012 International Conference on Information Technology and e-Services (ICITeS)》;20120331;全文 * |
说话人识别算法研究;傅庚申;《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》;20050715(第3期);I136-29页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018095167A1 (zh) | 2018-05-31 |
CN108091340A (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN111816218B (zh) | 语音端点检测方法、装置、设备及存储介质 | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
Ahmad et al. | A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network | |
CN108091340B (zh) | 声纹识别方法、声纹识别***和计算机可读存储介质 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Sun et al. | Speaker diarization system for RT07 and RT09 meeting room audio | |
Mitra et al. | Articulatory features from deep neural networks and their role in speech recognition | |
WO2014153800A1 (zh) | 语音识别*** | |
Baloul et al. | Challenge-based speaker recognition for mobile authentication | |
Ananthi et al. | SVM and HMM modeling techniques for speech recognition using LPCC and MFCC features | |
Tolba | A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Sapijaszko et al. | An overview of recent window based feature extraction algorithms for speaker recognition | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
Krishna et al. | Emotion recognition using dynamic time warping technique for isolated words | |
Raghib et al. | Emotion analysis and speech signal processing | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
Swathy et al. | Review on feature extraction and classification techniques in speaker recognition | |
Biagetti et al. | Distributed speech and speaker identification system for personalized domotic control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |