CN114141252A - 声纹识别方法、装置、电子设备和存储介质 - Google Patents
声纹识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114141252A CN114141252A CN202111422132.XA CN202111422132A CN114141252A CN 114141252 A CN114141252 A CN 114141252A CN 202111422132 A CN202111422132 A CN 202111422132A CN 114141252 A CN114141252 A CN 114141252A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice
- audio
- determining
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000010606 normalization Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种声纹识别方法、装置、电子设备和存储介质,其中方法包括:对待识别音频进行切分,得到多个音频段;对所述多个音频段进行说话人声音检测,得到多个人声音频段;对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。本发明提供的方法、装置、电子设备和存储介质,提高了说话人识别的准确率,提高了说话人识别的效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种声纹识别方法、装置、电子设备和存储介质。
背景技术
对于一些音乐爱好者来说,如果听到一首心仪的歌曲,很自然地想知道该歌曲的歌手身份信息。
现有的识别方法,通过采用多维度的特征对歌曲本身进行识别,比如曲风特征、音频特征或者人声特征等,然后将识别的特征在一定范围内的歌手库中进行匹配。由于特征分散,匹配范围较大,导致识别准确率低,识别效率低。
发明内容
本发明提供一种声纹识别方法、装置、电子设备和存储介质,用于解决现有的声纹识别方法识别准确率低,识别效率低的技术问题。
本发明提供一种声纹识别方法,包括:
对待识别音频进行切分,得到多个音频段;
对所述多个音频段进行说话人声音检测,得到多个人声音频段;
对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;
对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。
根据本发明提供的声纹识别方法,所述对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息,包括:
基于所述目标类别中各人声音频段属于所述目标类别的置信度,从所述目标类别包括的多个人声音频段中确定至少一个目标人声音频段;
基于所述至少一个目标人声音频段,确定所述待识别音频对应的说话人身份信息。
根据本发明提供的声纹识别方法,所述基于所述目标类别中各人声音频段属于所述目标类别的置信度,从所述目标类别包括的多个人声音频段中确定至少一个目标人声音频段,包括:
基于所述目标类别中各人声音频段与所述目标类别的聚类中心之间的聚类距离,确定所述目标类别中各人声音频段满足的距离分布;
根据所述距离分布确定对应的置信区间,将聚类距离落在所述置信区间中的人声音频段确定为目标人声音频段。
根据本发明提供的声纹识别方法,所述基于所述至少一个目标人声音频段,确定所述待识别音频对应的说话人身份信息,包括:
对所述至少一个目标人声音频段的声纹特征进行均值归一化,基于均值归一化结果确定所述目标类别的声纹特征;
将所述目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定所述待识别音频对应的说话人身份信息。
根据本发明提供的声纹识别方法,所述将所述目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定所述待识别音频对应的说话人身份信息,包括:
基于各声纹数据的声纹特征与所述目标类别的声纹特征之间的特征距离,确定各声纹数据的声纹特征与所述目标类别的声纹特征的声纹相似度;
确定所述预设声纹库中与所述目标类别的声纹相似度最高的目标声纹数据,将所述目标声纹数据对应的身份信息作为所述待识别音频对应的说话人身份信息。
根据本发明提供的声纹识别方法,所述预设声纹库基于如下步骤确定:
获取多个声纹数据,以及各声纹数据对应的身份信息;
对各声纹数据进行声纹特征提取,确定各声纹数据的声纹特征;
基于各声纹数据的声纹特征,以及各声纹数据对应的身份信息,建立所述预设声纹库。
根据本发明提供的声纹识别方法,所述对所述多个音频段进行说话人声音检测,得到多个人声音频段,包括:
确定各音频段的语音特征;
基于各音频段的语音特征,对各音频段进行说话人声音检测,确定各音频段的语音特征为说话人声纹特征的概率;
将所述说话人声纹特征的概率大于预设概率阈值的音频段确定为所述人声音频段。
本发明提供一种声纹识别装置,包括:
切分单元,用于对待识别音频进行切分,得到多个音频段;
过滤单元,用于对所述多个音频段进行说话人声音检测,得到多个人声音频段;
聚类单元,用于对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;
识别单元,用于对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述声纹识别方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述声纹识别方法的步骤。
本发明提供的声纹识别方法、装置、电子设备和存储介质,对待识别音频进行切分,得到多个音频段,对多个音频段进行说话人声音检测,得到多个人声音频段,对多个人声音频段进行聚类确定出包含人声音频段数量最多的目标类别,根据目标类别确定待识别音频对应的说话人身份信息,通过对切分后的音频段进行说话人声音检测,去除了非人声的干扰并提取了有利于识别说话人的有用信息,通过对人声音频段进行聚类,进一步地减少了类人声或者其他人声的干扰,提高了说话人识别的准确率,相比于现有技术中需要借助对背景音乐的识别来得到歌曲信息从而辅助识别说话人身份信息,本方案不需要对待识别音频中背景音乐进行识别,提高了说话人识别的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的声纹识别方法的流程示意图之一;
图2为本发明提供的声纹识别方法的流程示意图之二;
图3为本发明提供的声纹识别装置的结构示意图;
图4为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前大部分的歌手识别的思路大多是通过歌曲本身进行识别,这种识别方式通常采用多维度的特征进行识别,比如曲风特征、歌曲音频声纹特征或者人声特征分离等方式。采用曲风特征和歌曲音频声纹方式识别的是音乐本身,在此之后在查找唱该歌曲的歌手,但是唱这首歌的歌手比较多,若以歌曲作为标签,会大大搜索的范围,会增加误判的几率;若是采用信号手段过滤音乐,分离出人声,通常要有相应歌曲的纯音,这样就大大提高的说话人身份的门槛要求。
下面结合附图,通过具体的实施例及其应用场景对本发明实施例提供的声纹识别方法、装置、电子设备和可读存储介质进行详细地说明。
声纹识别方法可应用于终端,具体可由终端中的硬件或软件执行。该声纹识别方法的执行主体可以为终端,或者终端的控制装置等。
该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等其它便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
图1为本发明提供的声纹识别方法的流程示意图之一,如图1所示,该方法包括:
步骤110,对待识别音频进行切分,得到多个音频段。
具体地,本发明实施例中的待识别音频可以为由歌手演唱的歌曲文件。待识别音频中歌手演唱所用的语言可以为中文、英文、法文、韩文和日文等,本发明实施例对于歌曲的演唱语音不作具体限定。待识别音频的存储格式可以为MP3、MPEG、WMA和AAC等。本发明实施例对于待识别音频的存储格式不作具体限定。除了可以通过公开网络获取待识别音频外,还可以通过具有录音功能的设备进行获取,例如录音机、移动电话、平板电脑等电子设备。
对待识别音频进行切分,就是将一个完整的待识别音频文件切分成多个音频段。每一音频段为待识别音频文件中的一部分。切分待识别音频时,可以采用按照时间切分的方法,例如按照设定的时长对待识别音频进行切分,得到多个等时长的音频段。也可以采用按照歌曲内容进行切分,例如按照歌手是否进行演唱对待识别音频进行切分,得到多个包含歌手演唱的音频段和多个不包含歌手演唱的音频段。
步骤120,对多个音频段进行说话人声音检测,得到多个人声音频段。
具体地,可以对多个音频段进行说话人声音检测,也就是检测每个音频段是否包含说话人的声音。如果任一音频段中包含说话人的声音,则该音频段为人声音频段;如果任一音频段中不包含说话人的声音,而是背景音乐,则该音频段为非人声音频段。例如,歌手在演唱歌曲时,大多数情况下并不是一直在发声,因此,待识别音频切分后的得到的多个音频段,有的为包含歌手演唱的人声音频段,有的为不包含歌手演唱的非人声音频段。
将多个音频段中的非人声音频段去除,保留人声音频段,用于说话人识别。
步骤130,对多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别。
具体地,对于得到的多个人声音频段,其中一部分是真正包含歌手演唱内容的音频段,另一部分有可能是类似人声(类人声)的音频段,或者是在夹杂了其他人声的音频段。例如歌曲演唱过程中,可能会出现歌手邀请观众或者嘉宾进行互动的情形,可能会出现主持人进行后台解说的情形,可能会出现观众高声呐喊的情形等等,这些情形都会导致人声音频段中混入了非歌手的说话人声音,导致说话人身份识别的难度增加,说话人身份识别的准确率降低。
因此,可以对多个人声音频段进行聚类,让声音特征相似的人声音频段归于一类。由于歌曲中歌手的演唱占据绝大部分,因此,聚类后得到的包含人声音频段数量最多的类就是需要进行识别的目标类别。对目标类别中的人声音频段进行识别时,能够得到更纯粹的说话人声音,提高说话人身份的准确率。
聚类的方法包括K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类、用高斯混合模型的最大期望聚类、层次聚类和谱聚类等。本发明实施例对于聚类方法的选择不作具体限定。
步骤140,对目标类别中的人声音频段进行声纹识别,确定待识别音频对应的说话人身份信息。
具体地,说话人身份信息可以包括歌手姓名,还可以包括与歌手相关的其他信息,例如演唱专辑、演唱会信息、年龄信息、个人喜好等信息,本发明实施例对此不作具体限定。
对目标类别进行识别时可以采用声纹识别。可以对目标类别中的人声音频段进行声纹特征提取,将提取到的声纹特征与已有歌手的声纹特征进行对比,确定待识别音频对应的说话人身份信息。
由于目标类别中所包含的人声音频段是经过过滤和聚类后得到的音频段,已经减少了背景音乐和其他人声的干扰,因此,能够准确地识别得到说话人身份信息。
本发明实施例提供的声纹识别方法,对待识别音频进行切分,得到多个音频段,对多个音频段进行说话人声音检测,得到多个人声音频段,对多个人声音频段进行聚类确定出包含人声音频段数量最多的目标类别,根据目标类别确定待识别音频对应的说话人身份信息,通过对切分后的音频段进行说话人声音检测,去除了非人声的干扰并提取了有利于识别说话人的有用信息,通过对人声音频段进行聚类,进一步地减少了类人声或者其他人声的干扰,提高了说话人识别的准确率,相比于现有技术中需要借助对背景音乐的识别来得到歌曲信息从而辅助识别说话人身份信息,本方案不需要对待识别音频中背景音乐进行识别,提高了说话人识别的效率。
基于上述实施例,步骤110包括:
基于语音活动检测算法,对待识别音频进行检测,得到多个音频段。
具体地,语音活动检测(Voice Activity Detection,VAD)算法又称语音端点检测算法或者语音边界检测算法,一般用于鉴别音频信号当中的语音出现(speech presence)和语音消失(speech absence)。
采用语音活动检测算法,可以检测到待识别音频中出现歌手发声的起点时刻和终点时刻,从而提取得到待识别音频中仅包含歌手发声的部分。
为了便于处理,可以将语音活动检测得到的歌手发声部分根据制定的时间段进行切分,得到程序能够处理的音频段(也就是分帧)。由于信号处理方法都要求信号是连续的,也就是信号从开始到结束,中间不能有断开。在采用上述方法进行切分时,需要在各个音频段之间保留重叠部分(也就是帧移),以满足信号连续的要求。
例如,可以对待识别音频进行语音活动检测,按照25ms(毫秒)一帧进行切分,帧移为10ms(毫秒)。
本发明实施例提供的声纹识别方法,通过语音活动检测算法对待识别音频进行检测,能够得到待识别音频中歌手发声部分,提高了说话人身份的效率,同时将其切分为多个音频段,细化了每个音频段中信息的单一性,使得每一音频段只含有一类信息,提高了信息的集中程度,提高了说话人身份的准确率。
基于上述任一实施例,步骤110之前包括:
对待识别音频进行降噪。
具体地,待识别音频的获取过程中可能混入大量的噪声,例如,若待识别音频是通过手机等设备采集的,则可能混入与歌曲本身无关的声音信息。可以在对待识别音频进行切分前,进行音频降噪处理。降噪的方法包括无监督降噪算法和有监督降噪算法。
无监督降噪算法包括谱减法、基于统计模型的方法和基于子空间的方法等。谱减法是通过音频中的静音段(噪声段)估计音频中的噪声成分,然后将含噪声音频减去估计的噪声就得到了纯净的音频。基于统计模型的方法包括维纳滤波、最小均方误差(MMSE)方法和最大后验(MAP)法等。基于子空间的方法是通过假设干净的音频信号子空间和噪声子空间是正交的来去除混入音频信号中的噪声。
有监督降噪算法主要是通过深度神经网络类算法,通过构造足够多的混响数据和对应干净数据进行训练后得到音频降噪模型。有监督类算法对于非平稳噪声往往能得到更好的降噪效果。
本发明实施例提供的声纹识别方法,通过对待识别音频进行降噪,提高了说话人身份的准确率。
基于上述任一实施例,步骤140包括:
基于目标类别中各人声音频段属于目标类别的置信度,从目标类别包括的多个人声音频段中确定至少一个目标人声音频段;
基于至少一个目标人声音频段,确定待识别音频对应的说话人身份信息。
具体地,对多个人声音频段进行聚类时,不仅可以得到目标类别,还可以得到目标类别中各个人声音频段的置信度。置信度用于表示人声音频段落在目标类别的置信区间的可信程度。
对于目标类别中每一人声音频段,虽然都属于目标类别,但每一人声音频段所在的置信区间不同,相应的置信度也是不同的。置信度越高,表明人声音频段属于该类的概率越高。因此,可以按照预设置信度,确定目标类别中相应的置信区间,然后在该置信区间上选择至少一个人声音频段作为目标人声音频段。预设置信度可以根据需要进行选取,例如预设置信度可以选择为95%等。
基于上述任一实施例,基于目标类别中各人声音频段属于目标类别的置信度,从目标类别包括的多个人声音频段中确定至少一个目标人声音频段,包括:
基于目标类别中各人声音频段与目标类别的聚类中心之间的聚类距离,确定目标类别中各人声音频段满足的距离分布;
根据距离分布确定对应的置信区间,将聚类距离落在置信区间中的人声音频段确定为目标人声音频段。
具体地,可以计算目标类别中各人声音频段与目标类别的聚类中心之间的聚类距离,进一步计算这些聚类距离对应的均值和方差,从而确定目标类别中各人声音频段满足的距离分布。距离分布一般满足高斯分布。
可以在距离分布中,选择置信度为95%所对应的置信区间,将聚类距离落在置信区间中的人声音频段确定为目标人声音频段。
若聚类距离落在置信区间中的人声音频段较多,可以选择满足预设数量比例的人声音频段作为目标人声音频段。
此处,预设数量比例为目标人声音频段的数量占目标类别中人声音频段的数量的比例,可以根据需要进行选择,例如60%。合理地选择预设数量比例可以在保证样本质量的前提下减少样本数量,提高说话人身份的效率。
基于上述任一实施例,基于至少一个目标人声音频段,确定待识别音频对应的说话人身份信息,包括:
对至少一个目标人声音频段的声纹特征进行均值归一化,基于均值归一化结果确定目标类别的声纹特征;
将目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定待识别音频对应的说话人身份信息。
具体地,均值归一化(Mean normalization)是一种特征缩放方法,是为了减小样本数据的波动使得梯度下降能够更快速的寻找到全局最小值。
可以对每一目标人声音频段提取声纹特征,然后确定目标类别的声纹特征。例如,目标类别的声纹特征可以为目标人声音频段的声纹特征的平均值。对至少一个目标人声音频段的声纹特征进行均值归一化,将均值归一化后得到的声纹特征确定为目标类别的声纹特征。
目标类别的声纹特征是根据多个目标人声音频段的声纹特征得到的,能够从整体上代表目标类别中说话人的声纹特征。将其与预设声纹库中各声纹数据的声纹特征进行比对,从而根据比对结果确定待识别音频对应的说话人身份信息。
本发明实施例提供的声纹识别方法,通过将得到的目标人声音频段的声纹特征进行均值归一化,能够减小各个目标人声音频段的声纹特征之间的差距,提高说话人身份的效率。
基于上述任一实施例,将目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定待识别音频对应的说话人身份信息,包括:
基于各声纹数据的声纹特征与目标类别的声纹特征之间的特征距离,确定各声纹数据的声纹特征与目标类别的声纹特征的声纹相似度;
确定预设声纹库中与目标类别的声纹相似度最高的目标声纹数据,将目标声纹数据对应的身份信息作为待识别音频对应的说话人身份信息。
具体地,将目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,从而确定待识别音频对应的说话人身份信息。
可以计算各声纹数据的声纹特征与目标类别的声纹特征之间的特征距离,将特征距离作为各声纹数据的声纹特征与目标类别的声纹特征的声纹相似度。声纹特征之间的声纹相似度用于表示声纹特征之间的相似程度。
声纹相似度越高,声纹数据对应的说话人身份信息成为待识别音频对应的说话人身份信息的概率就越高。将声纹相似度最高的声纹特征对应的身份信息作为待识别音频对应的说话人身份信息。
基于上述任一实施例,预设声纹库基于如下步骤确定:
获取多个声纹数据,以及各声纹数据对应的身份信息;
对各声纹数据进行声纹特征提取,确定各声纹数据的声纹特征;
基于各声纹数据的声纹特征,以及各声纹数据对应的身份信息,建立预设声纹库。
具体地,预设声纹库包括多个说话人的声纹数据,以及每一声纹数据对应的说话人的身份信息。
预设声纹库可以预先建立。例如,可以通过收集大量说话人的声纹数据,对每一说话人的声纹数据进行声纹特征的提取,同时标注提取到的声纹特征对应的说话人的身份信息,从而建立预设声纹库。
基于上述任一实施例,步骤120包括:
确定各音频段的语音特征;
基于各音频段的语音特征,对各音频段进行说话人声音检测,确定各音频段的语音特征为说话人声纹特征的概率;
将说话人声纹特征的概率大于预设概率阈值的音频段确定为人声音频段。
具体地,每一音频段可以采用x-vector模型、i-vector模型等进行特征提取,得到相应的语音特征。x-vector模型不会对每一音频段进行简单的取平均,而是对每一音频段的声音信号的输出特征计算平均值和方差,进行连接后得到语音特征。相比于i-vector模型,x-vector模型具有更强的特征提取能力。
通用背景模型(UBM,Universal Background Model)为以高斯分布为基础的说话人识别***。通过通用背景模型,可以对各音频段进行说话人声音检测,确定各音频段的语音特征为说话人声纹特征的概率。
可以设置预设概率阈值,将说话人声纹特征的概率大于预设概率阈值的音频段确定为人声音频段。对于说话人声纹特征的概率小于等于预设概率阈值的音频段,将其确定为非人声音频段。
本发明实施例提供的声纹识别方法,通过通用背景模型对每一音频段的语音特征进行人声识别,得到更为准确的人声音频段,提高了说话人身份的准确率。
基于上述任一实施例,图2为本发明提供的声纹识别方法的流程示意图之二,如图2所示,该方法包括:
步骤一、提取线下收集大量歌手的唱歌声音,提取声纹特征,进行注册,得到预设声纹库。
步骤二、通过手机等拾音设备收录歌曲,获取待识别音频。
步骤三、在通过音频降噪(Noise Suppression,NS)、语音活动检测(VoiceActivity Detection,VAD)等信号处理后,对待识别音频进行切分,一帧时长为25ms,帧移为10ms。
步骤四、提取音频段声纹特征(x-vector),通过通用背景模型(UBM)对音频段是否为人声进行阈值过滤,尽量过滤掉乐器或者背景音乐等非人声。
步骤五、对剩余音频段(人声音频段)进行聚类。本次聚类的假设是剩余音频段有很大一部分是歌手的声音,但是还是有一些是类人声或者音频段中有音乐或者乐器声音,所以通过聚类尽量让歌手声音更加纯粹。可以通过谱聚类方法进行聚类,可根据需要安排类别。
步骤六、选择其中数量最多的类别(目标类别),根据百分比(例如采用60%)截取置信度最高的音频段,计算均值归一化的声纹信息,用声纹信息与预设声纹库进行比对,选择相似度最高的作为待识别音频对应的说话人身份信息。
本发明实施例提供的声纹识别方法,采用音频切分的方式细化每个音频段中含有信息的单一性(即尽量每个音频段只含有一类信息),通过对人声这类音频段做聚类,从而减少了乐器、背景歌曲等的干扰,直接得到歌手的信息,搜索目标就会缩小,同时不太需要音乐的先验知识(比如背景音乐、分析出来的乐器等),可以不做准备就对歌手进行识别,更新方便快捷,提高了识别准确率。
基于上述任一实施例,图3为本发明提供的声纹识别装置的结构示意图,如图3所示,该装置包括:
切分单元310,用于对待识别音频进行切分,得到多个音频段;
过滤单元320,用于对多个音频段进行说话人声音检测,得到多个人声音频段;
聚类单元330,用于对多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;
识别单元340,用于对目标类别中的人声音频段进行声纹识别,确定待识别音频对应的说话人身份信息。
具体地,切分单元用于对待识别音频进行切分,就是将一个完整的待识别音频文件切分成多个音频段。每一音频段为待识别音频文件中的一部分。切分待识别音频时,可以采用按照时间切分的方法,例如按照设定的时长对待识别音频进行切分,得到多个等时长的音频段。也可以采用按照歌曲内容进行切分,例如按照歌手是否进行演唱对待识别音频进行切分,得到多个包含歌手演唱的音频段和多个不包含歌手演唱的音频段。
过滤单元用于对多个音频段进行说话人声音检测,也就是将多个音频段中的非人声音频段去除,保留人声音频段,用于说话人身份。
聚类单元用于对多个人声音频段进行聚类,让声音特征相似的人声音频段归于一类。由于歌曲中歌手的演唱占据绝大部分,因此,聚类后得到的包含人声音频段数量最多的类就是需要进行识别的目标类别。对目标类别中的人声音频段进行识别时,能够得到更纯粹的说话人声音,提高说话人身份的准确率。
识别单元用于对目标类别中的人声音频段进行声纹特征提取,将提取到的声纹特征与已有声纹数据的声纹特征进行对比,确定待识别音频对应的说话人身份信息。
本发明实施例提供的声纹识别装置,对待识别音频进行切分,得到多个音频段,对多个音频段进行说话人声音检测,得到多个人声音频段,对多个人声音频段进行聚类确定出包含人声音频段数量最多的目标类别,根据目标类别确定待识别音频对应的说话人身份信息,通过对切分后的音频段进行说话人声音检测,去除了非人声的干扰并提取了有利于识别说话人的有用信息,通过对人声音频段进行聚类,进一步地减少了类人声或者其他人声的干扰,提高了说话人识别的准确率,相比于现有技术中需要借助对背景音乐的识别来得到歌曲信息从而辅助识别说话人身份信息,不需要对待识别音频中背景音乐进行识别,提高了说话人识别的效率。
基于上述任一实施例,识别单元包括:
第一确定子单元,用于基于目标类别中各人声音频段属于目标类别的置信度,从目标类别包括的多个人声音频段中确定至少一个目标人声音频段;
第二确定子单元,用于基于至少一个目标人声音频段,确定待识别音频对应的说话人身份信息。
基于上述任一实施例,第一确定子单元具体用于:
基于目标类别中各人声音频段与目标类别的聚类中心之间的聚类距离,确定目标类别中各人声音频段满足的距离分布;
根据距离分布确定对应的置信区间,将聚类距离落在置信区间中的人声音频段确定为目标人声音频段。
基于上述任一实施例,第二确定子单元具体包括:
归一化模块,用于对至少一个目标人声音频段的声纹特征进行均值归一化,基于均值归一化结果确定目标类别的声纹特征;
比对模块,用于将目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定待识别音频对应的说话人身份信息。
基于上述任一实施例,比对模块具体用于:
基于各声纹数据的声纹特征与目标类别的声纹特征之间的特征距离,确定各声纹数据的声纹特征与目标类别的声纹特征的声纹相似度;
确定预设声纹库中与目标类别的声纹相似度最高的目标声纹数据,将目标声纹数据对应的身份信息作为待识别音频对应的说话人身份信息。
基于上述任一实施例,还包括:
预设声纹库确定单元,用于获取多个声纹数据,以及各声纹数据对应的身份信息;对各声纹数据进行声纹特征提取,确定各声纹数据的声纹特征;基于各声纹数据的声纹特征,以及各声纹数据对应的身份信息,建立预设声纹库。
基于上述任一实施例,过滤单元具体用于:
确定各音频段的语音特征;
基于各音频段的语音特征,对各音频段进行说话人声音检测,确定各音频段的语音特征为说话人声纹特征的概率;
将说话人声纹特征的概率大于预设概率阈值的音频段确定为人声音频段。
基于上述任一实施例,图4为本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)410、通信接口(Communications Interface)420、存储器(Memory)430和通信总线(Communications Bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令,以执行如下方法:
对待识别音频进行切分,得到多个音频段;对多个音频段进行说话人声音检测,得到多个人声音频段;对多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;对目标类别中的人声音频段进行声纹识别,确定待识别音频对应的说话人身份信息。
此外,上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
对待识别音频进行切分,得到多个音频段;对多个音频段进行说话人声音检测,得到多个人声音频段;对多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;对目标类别中的人声音频段进行声纹识别,确定待识别音频对应的说话人身份信息。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种声纹识别方法,其特征在于,包括:
对待识别音频进行切分,得到多个音频段;
对所述多个音频段进行说话人声音检测,得到多个人声音频段;
对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;
对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息,包括:
基于所述目标类别中各人声音频段属于所述目标类别的置信度,从所述目标类别包括的多个人声音频段中确定至少一个目标人声音频段;
基于所述至少一个目标人声音频段,确定所述待识别音频对应的说话人身份信息。
3.根据权利要求2所述的声纹识别方法,其特征在于,所述基于所述目标类别中各人声音频段属于所述目标类别的置信度,从所述目标类别包括的多个人声音频段中确定至少一个目标人声音频段,包括:
基于所述目标类别中各人声音频段与所述目标类别的聚类中心之间的聚类距离,确定所述目标类别中各人声音频段满足的距离分布;
根据所述距离分布确定对应的置信区间,将聚类距离落在所述置信区间中的人声音频段确定为目标人声音频段。
4.根据权利要求2或3所述的声纹识别方法,其特征在于,所述基于所述至少一个目标人声音频段,确定所述待识别音频对应的说话人身份信息,包括:
对所述至少一个目标人声音频段的声纹特征进行均值归一化,基于均值归一化结果确定所述目标类别的声纹特征;
将所述目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定所述待识别音频对应的说话人身份信息。
5.根据权利要求4所述的声纹识别方法,其特征在于,所述将所述目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定所述待识别音频对应的说话人身份信息,包括:
基于各声纹数据的声纹特征与所述目标类别的声纹特征之间的特征距离,确定各声纹数据的声纹特征与所述目标类别的声纹特征的声纹相似度;
确定所述预设声纹库中与所述目标类别的声纹相似度最高的目标声纹数据,将所述目标声纹数据对应的身份信息作为所述待识别音频对应的说话人身份信息。
6.根据权利要求4所述的声纹识别方法,其特征在于,所述预设声纹库基于如下步骤确定:
获取多个声纹数据,以及各声纹数据对应的身份信息;
对各声纹数据进行声纹特征提取,确定各声纹数据的声纹特征;
基于各声纹数据的声纹特征,以及各声纹数据对应的身份信息,建立所述预设声纹库。
7.根据权利要求1至6任一项所述的声纹识别方法,其特征在于,所述对所述多个音频段进行说话人声音检测,得到多个人声音频段,包括:
确定各音频段的语音特征;
基于各音频段的语音特征,对各音频段进行说话人声音检测,确定各音频段的语音特征为说话人声纹特征的概率;
将所述说话人声纹特征的概率大于预设概率阈值的音频段确定为所述人声音频段。
8.一种声纹识别装置,其特征在于,包括:
切分单元,用于对待识别音频进行切分,得到多个音频段;
过滤单元,用于对所述多个音频段进行说话人声音检测,得到多个人声音频段;
聚类单元,用于对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;
识别单元,用于对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述声纹识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述声纹识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422132.XA CN114141252A (zh) | 2021-11-26 | 2021-11-26 | 声纹识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422132.XA CN114141252A (zh) | 2021-11-26 | 2021-11-26 | 声纹识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114141252A true CN114141252A (zh) | 2022-03-04 |
Family
ID=80388336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111422132.XA Pending CN114141252A (zh) | 2021-11-26 | 2021-11-26 | 声纹识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114141252A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064176A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 一种声纹筛***及方法 |
CN115065482A (zh) * | 2022-06-16 | 2022-09-16 | 平安银行股份有限公司 | 一种声音识别方法、装置、终端设备及存储介质 |
CN116030417A (zh) * | 2023-02-13 | 2023-04-28 | 四川弘和通讯集团有限公司 | 一种员工识别方法、装置、设备、介质及产品 |
CN117153185A (zh) * | 2023-10-31 | 2023-12-01 | 建信金融科技有限责任公司 | 通话处理方法、装置、计算机设备和存储介质 |
CN117392986A (zh) * | 2023-12-11 | 2024-01-12 | 杭州网易云音乐科技有限公司 | 声纹处理方法、装置、设备、存储介质和程序产品 |
CN118248150A (zh) * | 2024-05-24 | 2024-06-25 | 莱芜职业技术学院 | 一种基于人工智能的音乐教学*** |
-
2021
- 2021-11-26 CN CN202111422132.XA patent/CN114141252A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065482A (zh) * | 2022-06-16 | 2022-09-16 | 平安银行股份有限公司 | 一种声音识别方法、装置、终端设备及存储介质 |
CN115065482B (zh) * | 2022-06-16 | 2024-05-17 | 平安银行股份有限公司 | 一种声音识别方法、装置、终端设备及存储介质 |
CN115064176A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 一种声纹筛***及方法 |
CN116030417A (zh) * | 2023-02-13 | 2023-04-28 | 四川弘和通讯集团有限公司 | 一种员工识别方法、装置、设备、介质及产品 |
CN117153185A (zh) * | 2023-10-31 | 2023-12-01 | 建信金融科技有限责任公司 | 通话处理方法、装置、计算机设备和存储介质 |
CN117153185B (zh) * | 2023-10-31 | 2024-01-30 | 建信金融科技有限责任公司 | 通话处理方法、装置、计算机设备和存储介质 |
CN117392986A (zh) * | 2023-12-11 | 2024-01-12 | 杭州网易云音乐科技有限公司 | 声纹处理方法、装置、设备、存储介质和程序产品 |
CN117392986B (zh) * | 2023-12-11 | 2024-05-14 | 杭州网易云音乐科技有限公司 | 声纹处理方法、装置、设备、存储介质和程序产品 |
CN118248150A (zh) * | 2024-05-24 | 2024-06-25 | 莱芜职业技术学院 | 一种基于人工智能的音乐教学*** |
CN118248150B (zh) * | 2024-05-24 | 2024-07-23 | 莱芜职业技术学院 | 一种基于人工智能的音乐教学*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114141252A (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
EP3158561B1 (en) | Robust end-pointing of speech signals using speaker recognition | |
JP4220449B2 (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN108899033B (zh) | 一种确定说话人特征的方法及装置 | |
WO2023088448A1 (zh) | 语音处理方法、设备及存储介质 | |
KR20160013592A (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
CN114255754A (zh) | 语音识别方法、电子设备、程序产品和存储介质 | |
CN113593597A (zh) | 语音噪声过滤方法、装置、电子设备和介质 | |
JP5997813B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
CN112735432B (zh) | 音频识别的方法、装置、电子设备及存储介质 | |
JP2011191542A (ja) | 音声分類装置、音声分類方法、及び音声分類用プログラム | |
CN118355436A (zh) | 用于基于语言识别执行说话人日志的方法及设备 | |
CN114049898A (zh) | 一种音频提取方法、装置、设备和存储介质 | |
CN114038487A (zh) | 一种音频提取方法、装置、设备和可读存储介质 | |
JPWO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 | |
JP2022086961A (ja) | 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
CN113314123A (zh) | 语音处理方法、电子设备及存储装置 | |
CN115954007A (zh) | 一种声纹检测方法、装置、电子设备及存储介质 | |
CN118116387A (zh) | 多人交叉场景的单通道语音识别方法、***、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |