CN110400565A - 说话人识别方法、***及计算机可读存储介质 - Google Patents
说话人识别方法、***及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110400565A CN110400565A CN201910771202.9A CN201910771202A CN110400565A CN 110400565 A CN110400565 A CN 110400565A CN 201910771202 A CN201910771202 A CN 201910771202A CN 110400565 A CN110400565 A CN 110400565A
- Authority
- CN
- China
- Prior art keywords
- identified
- speaker
- training
- trained
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 123
- 239000000284 extract Substances 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种说话人识别方法,该方法包括:采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。本发明还公开了一种***和一种计算机可读存储介质。本发明能够提高说话人的识别正确率,满足说话人识别的使用需求,满足在不同信道环境下对说话人进行识别。
Description
技术领域
本发明涉及语音信号识别技术领域,尤其涉及说话人识别方法、***及计算机可读存储介质。
背景技术
现有的说话人识别可以从说话人发出的声音中提取其个性特征,从而识别出当前说话人的身份。与其他生物识别技术相比,说话人识别具有一些特别的优点,比如声音获取的成本较低,用户心理上容易接受,算法负责度低,适合远程操作等。但是,人的发音容易受外部环境的影响,每种说话人采集工具所得到的信号有差异,因此每个人的声学特征的采集只具有相对稳定性,不是恒定不变的,这就给声纹识别带来不利影响,容易降低说话人的识别正确率。
发明内容
本发明的主要目的在于提出一种说话人识别方法、***及计算机可读存储介质,旨在提高说话人的识别正确率,满足说话人识别的使用需求。
为实现上述目的,本发明提供一种说话人识别方法,所述说话人识别方法包括如下步骤:
采集待识别说话人的待识别声音信号;
提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;
根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;
根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。
可选地,所述采集待识别说话人的待识别声音信号的步骤之前,包括:
采集不同信道下训练说话人的训练声音信号;
提取所述训练声音信号中的训练梅尔倒谱系数和所述训练基音周期;
利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的所述合并高斯混合模型。
可选地,所述利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的合并高斯混合模型的步骤,包括:
对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型;
对得到的对应不同所述信道的所述高斯混合模型进行合并,生成对应所述训练说话人的所述合并高斯混合模型。
可选地,所述对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型的步骤包括:
对每个所述信道采集到的所有的所述训练梅尔倒谱系数通过最大似然概率估计法得到声学均值、协方差矩阵和加权系数;
对所述声学均值、所述协方差矩阵和所述加权系数训练得到对应所述信道的高斯混合模型。
可选地,所述根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果的步骤,包括:
将所述待识别梅尔倒谱系数与所述训练模型进行比对得到第一似然度;
将所述待识别梅尔倒谱系数与所述合并高斯混合模型进行比对得到第二似然度;
计算所述第一似然度与所述第二似然度的比值是否大于预设似然度阈值;
若所述第一似然度与所述第二似然度的比值大于预设似然度阈值,则所述待识别说话人为目标说话人。
可选地,所述根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板的步骤,包括:
将所述待识别基音周期与不同信道下提取的所有的所述训练基音周期进行匹配识别,筛选满足预设规则的所述训练基音周期生成训练模板。
可选地,所述采集不同信道下训练说话人的训练声音信号的步骤,包括:
利用选定的多个不同的麦克风分别采集所述训练说话人的所述训练声音语音信号。
可选地,所述采集待识别说话人的待识别声音信号的步骤之后,包括:
将采集到的所述待识别说话人的所述待识别声音信号进行去噪处理。
此外,为实现上述目的,本发明还提供一种***,所述***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的说话人识别程序,所述说话人识别程序被所述处理器执行时实现如上所述的说话人识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有说话人识别程序,所述说话人识别程序被处理器执行时实现如上所述的说话人识别方法的步骤。
本发明提供了一种说话人识别方法、***及计算机可读存储介质,采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。通过上述方式,本发明能够提高说话人的识别正确率,满足说话人识别的使用需求,满足了在不同信道环境下对说话人进行识别。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明方法第一实施例的流程示意图;
图3为本发明方法第二实施例的流程示意图;
图4为本发明方法第三实施例的流程示意图;
图5为本发明方法第四实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。
现有的说话人识别可以从说话人发出的声音中提取其个性特征,从而识别出当前说话人的身份。与其他生物识别技术相比,说话人识别具有一些特别的优点,比如声音获取的成本较低,用户心理上容易接受,算法负责度低,适合远程操作等。但是,人的发音容易受外部环境的影响,每种说话人采集工具所得到的信号有差异,因此每个人的声学特征的采集只具有相对稳定性,不是恒定不变的,这就给声纹识别带来不利影响,容易降低说话人的识别正确率。
本发明旨在提高说话人的识别正确率,满足说话人识别的使用需求。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
优选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及IT运维管理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的IT运维管理程序,并执行以下操作:
采集待识别说话人的待识别声音信号;
提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;
根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;
根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
采集不同信道下训练说话人的训练声音信号;
提取所述训练声音信号中的训练梅尔倒谱系数和所述训练基音周期;
利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的所述合并高斯混合模型。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型;
对得到的对应不同所述信道的所述高斯混合模型进行合并,生成对应所述训练说话人的所述合并高斯混合模型。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
对每个所述信道采集到的所有的所述训练梅尔倒谱系数通过最大似然概率估计法得到声学均值、协方差矩阵和加权系数;
对所述声学均值、所述协方差矩阵和所述加权系数训练得到对应所述信道的高斯混合模型。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
将所述待识别梅尔倒谱系数与所述训练模型进行比对得到第一似然度;
将所述待识别梅尔倒谱系数与所述合并高斯混合模型进行比对得到第二似然度;
计算所述第一似然度与所述第二似然度的比值是否大于预设似然度阈值;
若所述第一似然度与所述第二似然度的比值大于预设似然度阈值,则所述待识别说话人为目标说话人。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
将所述待识别基音周期与不同信道下提取的所有的所述训练基音周期进行匹配识别,筛选满足预设规则的所述训练基音周期生成训练模板。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
利用选定的多个不同的麦克风分别采集所述训练说话人的所述训练声音语音信号。
进一步地,处理器1001可以调用存储器1005中存储的IT运维管理程序,还执行以下操作:
将采集到的所述待识别说话人的所述待识别声音信号进行去噪处理。
基于上述硬件结构,提出本发明方法实施例。
参照图2,图2为本发明说话人识别方法第一实施例的流程示意图,所述方法包括:
步骤S10,采集待识别说话人的待识别声音信号;
在本实施例中,说话人识别***可以采集待识别说话人的待识别声音信号,其中,待识别声音信号可以是待识别说话人通过不同类型的采集设备传入说话人识别***中的。
步骤S10采集待识别说话人的待识别声音信号之后,可以包括:
步骤a,将采集到的所述待识别说话人的所述待识别声音信号进行去噪处理。
在本实施例中,说话人识别***计算待识别声音信号的优化参数,所述优化参数包括:指向性参数和白噪声增益,指向性参数是指期望信号相对于全向噪声的输入信噪比和麦克风的输入信噪比的比值,白噪声增益是指所述多个麦克风输出信噪比与输入性噪比的比值;根据优化参数对待识别声音信号进行优化,得到去噪后的语音信号。
在实际应用中,考虑到待识别声音信号为宽带信号,对于不同频点需要分别处理,所以需要将麦克风收集到的待识别声音信号转化为待识别频域信号。终端计算待识别频域信号的优化参数,优化参数包括:指向性参数和白噪声增益,指向性参数是指期望信号相对于全向噪声的输入信噪比和麦克风的输入信噪比的比值,白噪声增益是指多个麦克风输出信噪比与输入性噪比的比值;根据优化参数对待识别声音频域信号进行优化,得到去噪后的待识别声音信号。
步骤S20,提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;
在本实施例中,说话人识别***提取待声音信号中的待识别梅尔倒谱系数和待识别基音周期。其中,待识别梅尔倒谱系数是经过快速傅里叶变换,将三角带通滤波器处理得到的待识别声音信号进行对数运算,再经过离散余弦变换得到的。待识别基音周期是经过对待识别声音信号进行轻音和浊音的识别判断,提取出浊音段,经过将提取到的浊音段信号进行中心削波处理,在将进行过中心削波处理的待识别声音信号进行自相关计算(计算峰值与原点之间的距离)得到的。
步骤S30,根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;
在本实施例中,说话人识别***根据动态时间规整法将训练基因周期和待识别基音周期进行匹配生成训练模块。
步骤S30根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板,可以包括:
步骤b,将所述待识别基音周期与不同信道下提取的所有的所述训练基音周期进行匹配识别,筛选满足预设规则的所述训练基音周期生成训练模板。
在本实施例中,说话人识别***将所述待识别基音周期与不同信道下提取的所有的训练基音周期进行匹配识别,筛选出满足预设规则的训练记忆周期生成训练模块。例如说话人识别***以从待识别语音中提取出的基音周期作为x轴、训练语音的基音周期作为y轴,将规整函数局限在一个平行四边形内,将平行四边形其中一条边的斜率设定为2、另一条边的斜率被设定为0.5,分别将训练语音和待识别语音的头部相对齐、尾部相对齐,以点(1,1)为起点开始行进,所经历的路线必须为0或1或2,最终到达终点(终点为N),计算得出行进距离,将行进距离数据进行从小到大排序,筛选出位于前30%的训练语音作为训练模板。
步骤S40,根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。
在本实施例中,说话人识别***根据动态时间规整法和合并高斯混合模型匹配识别待识别梅尔倒谱系数和待识别基音周期得到声音识别结果。
本实施例通过上述方案,采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。由此,提高了说话人的识别正确率,满足说话人识别的使用需求,满足了在不同信道环境下对说话人进行识别。
进一步地,参照图3,图3为本发明说话人识别方法第二实施例的流程示意图。基于上述图2所示的实施例,步骤S10采集待识别说话人的待识别声音信号之前,可以包括:
步骤S50,采集不同信道下训练说话人的训练声音信号;
在本实施例中,说话人识别***可以通过不同类型的采集设备来模拟不同的声音信道,以得到不通信道下训练说话人的训练声音信号;采集设备在采集到训练声音信号之后,将训练声音信号传输到说话人识别***中,以供说话人识别***对采集到的训练声音信号进行训练。其中,训练声音信号是训练说话人在采集设备上说话时,被采集设备采集到的声音信号;例如,可通过多个麦克风采集说话人的每句训练声音信号。
步骤S50采集不同信道下训练说话人的训练声音信号,可以包括:
步骤c,利用选定的多个不同的麦克风分别采集所述训练说话人的所述训练声音语音信号。
在本实例中,说话人识别***利用选定的多个不同的麦克风分别采集训练声音语音信号。可以将不同麦克风和不同的声音采集设备置于音箱的同一波束面上;通过音箱播放用户录音;利用各麦克风和不同的声音采集设备对训练说话人的训练声音信号进行同步采集。麦克风可以选择动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风。不同的声音采集设备可以是手机、录音笔等。
步骤S50采集不同信道下训练说话人的训练声音信号之后,可以包括:
步骤d,将采集到的所述训练说话人的所述训练声音信号进行去噪处理。
在本实施例中,说话人识别***计算训练声音信号的优化参数,所述优化参数包括:指向性参数和白噪声增益,指向性参数是指期望信号相对于全向噪声的输入信噪比和麦克风的输入信噪比的比值,白噪声增益是指所述多个麦克风输出信噪比与输入性噪比的比值;根据优化参数对待识别声音信号进行优化,得到去噪后的语音信号。
在实际应用中,考虑到待训练声音信号为宽带信号,对于不同频点需要分别处理,所以需要将麦克风收集到的训练声音信号转化为待识别频域信号。终端计算待识别频域信号的优化参数,优化参数包括:指向性参数和白噪声增益,指向性参数是指期望信号相对于全向噪声的输入信噪比和麦克风的输入信噪比的比值,白噪声增益是指多个麦克风输出信噪比与输入性噪比的比值;根据优化参数对待识别声音频域信号进行优化,得到去噪后的训练声音信号。
步骤S60,提取所述训练声音信号中的训练梅尔倒谱系数和所述训练基音周期;
在本实施例中,说话人识别***提取训练声音信号中的训练梅尔倒谱系数和训练基音周期。其中,训练梅尔倒谱系数是经过快速傅里叶变换,将三角带通滤波器处理得到的训练声音信号进行对数运算,再经过离散余弦变换得到的。训练基音周期是经过对训练声音信号进行轻音和浊音的识别判断,提取出浊音段,经过将提取到的浊音段信号进行中心削波处理,在将进行过中心削波处理的训练声音信号进行自相关计算(计算峰值与原点之间的距离)得到的。
步骤S70,利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的所述合并高斯混合模型。
在本实施例中,说话人识别***利用训练梅尔倒谱系数训练生成对应训练说人的合并高斯混合模型。
本实施例通过上述方案,采集不同信道下训练说话人的训练声音信号;提取所述训练声音信号中的训练梅尔倒谱系数和所述训练基音周期;利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的所述合并高斯混合模型;采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。由此,提高了说话人的识别正确率,满足说话人识别的使用需求,满足了在不同信道环境下对说话人进行识别。
进一步地,参照图4,图4为本发明说话人识别方法第三实施例的流程示意图。基于上述图3所示的实施例,步骤S60利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的合并高斯混合模型,可以包括:
步骤S61,对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型;
在本实施例中,每一个特定的信道都对应了一组训练梅尔倒谱系数,因此可以首先对每个信道下的训练梅尔倒谱系数分别训练,得到对应的高斯混合模型。
步骤S61对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型的步骤包括:
步骤e,对每个所述信道采集到的所有的所述训练梅尔倒谱系数通过最大似然概率估计法得到声学均值、协方差矩阵和加权系数;
在本实施例中,从每个信道采集的所有的旋律梅尔倒谱系数,将训练酶二到怕系数通过最大似然改了估计法得到声学均值、协方差举证和加权系数。
步骤f,对所述声学均值、所述协方差矩阵和所述加权系数训练得到对应所述信道的高斯混合模型。
在本实施例中,说话人识别***记录声学均值、协方差矩阵和加权系数,说话人识别***训练声学均值、协方差矩阵和加权系数得到对应所述信道的高斯混合模型,并在说话人识别***中保存高斯混合模型。
步骤S62,对得到的对应不同所述信道的所述高斯混合模型进行合并,生成对应所述训练说话人的所述合并高斯混合模型。
在本实施例中,说话人识别***对多个高斯混合模型进行合并,比如加权平均,生成对应所述训练说话人的合并高斯混合模型。
本实施例通过上述方案,采集不同信道下训练说话人的训练声音信号;提取所述训练声音信号中的训练梅尔倒谱系数和训练基音周期;对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型;对得到的对应不同所述信道的所述高斯混合模型进行合并,生成对应所述训练说话人的合并高斯混合模型;采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将所述训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和所述合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。由此,提高了说话人的识别正确率,满足说话人识别的使用需求,满足了在不同信道环境下对说话人进行识别。
进一步地,参照图5,图5为本发明说话人识别方法第四实施例的流程示意图。基于上述图3所示的实施例,步骤S40根据所述训练模板和所述合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果,可以包括:
步骤S41,将所述待识别梅尔倒谱系数与所述训练模型进行比对得到第一似然度;
在本实施例中,说话人识别***将待识别梅尔倒谱系数与训练模型进行比对得到第一似然度。
步骤S42,将所述待识别梅尔倒谱系数与所述合并高斯混合模型进行比对得到第二似然度;
在本实施例中,说话人识别***将待识别梅尔倒谱系数与合并高斯混合模型进行比对得到第二似然度。
步骤S43,计算所述第一似然度与所述第二似然度的比值是否大于预设似然度阈值;
在本实施例中,说话人识别***在得到第一似然度和第二似然度之后,计算第一似然度与第二似然度之间的比值是否大于预设似然度阈值。其中,预设似然度阈值可以是由管理人员具体设置的。
步骤S43计算所述第一似然度与所述第二似然度的比值是否大于预设似然度阈值之后,包括:
步骤g,若所述第一似然度与所述第二似然度的比值小于或等于预设似然度阈值,则待识别说话人不为目标说话人。
在本实施例中,当第一似然度与第二似然度的比值小于或等于预设似然度阈值,则待识别说话人不为目标说话人,说话人识别不通过,提醒待识别说话人重新识别。
步骤S44,若所述第一似然度与所述第二似然度的比值大于预设似然度阈值,则所述待识别说话人为目标说话人。
在本实施例中,当第一似然度与第二似然度的比值大于预设似然度阈值,则所述待识别说话人为目标说话人,说话人识别通过。
本实施例通过上述方案,采集不同信道下训练说话人的训练声音信号;提取所述训练声音信号中的训练梅尔倒谱系数和训练基音周期;利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的合并高斯混合模型;采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将所述训练基音周期和所述待识别基音周期进行匹配生成训练模板;将所述待识别梅尔倒谱系数与所述训练模型进行比对得到第一似然度;将所述待识别梅尔倒谱系数与所述合并高斯混合模型进行比对得到第二似然度;计算所述第一似然度与所述第二似然度的比值是否大于预设似然度阈值;若所述第一似然度与所述第二似然度的比值大于预设似然度阈值,则所述待识别说话人为目标说话人。由此,提高了说话人的识别正确率,满足说话人识别的使用需求,满足了在不同信道环境下对说话人进行识别。
本发明还提供一种说话人识别***。
本发明说话人识别***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的说话人识别程序,所述说话人识别程序被所述处理器执行时实现如上所述的说话人识别方法的步骤。
其中,在所述处理器上运行的说话人识别程序被执行时所实现的方法可参照本发明说话人识别方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有说话人识别程序,所述说话人识别程序被处理器执行时实现如上所述的说话人识别方法的步骤。
其中,在所述处理器上运行的说话人识别程序被执行时所实现的方法可参照本发明说话人识别方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种说话人识别方法,其特征在于,所述说话人识别方法包括如下步骤:
采集待识别说话人的待识别声音信号;
提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;
根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板;
根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。
2.如权利要求1所述的说话人识别方法,其特征在于,所述采集待识别说话人的待识别声音信号的步骤之前,包括:
采集不同信道下训练说话人的训练声音信号;
提取所述训练声音信号中的训练梅尔倒谱系数和所述训练基音周期;
利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的所述合并高斯混合模型。
3.如权利要求2所述的说话人识别方法,其特征在于,所述利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的合并高斯混合模型的步骤,包括:
对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型;
对得到的对应不同所述信道的所述高斯混合模型进行合并,生成对应所述训练说话人的所述合并高斯混合模型。
4.如权利要求3所述的说话人识别方法,其特征在于,所述对每个所述信道采集到的所有的所述训练梅尔倒谱系数,训练得到对应所述信道的高斯混合模型的步骤包括:
对每个所述信道采集到的所有的所述训练梅尔倒谱系数通过最大似然概率估计法得到声学均值、协方差矩阵和加权系数;
对所述声学均值、所述协方差矩阵和所述加权系数训练得到对应所述信道的高斯混合模型。
5.如权利要求2至4中任一项所述的说话人识别方法,其特征在于,所述根据所述训练模板和合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果的步骤,包括:
将所述待识别梅尔倒谱系数与所述训练模型进行比对得到第一似然度;
将所述待识别梅尔倒谱系数与所述合并高斯混合模型进行比对得到第二似然度;
计算所述第一似然度与所述第二似然度的比值是否大于预设似然度阈值;
若所述第一似然度与所述第二似然度的比值大于预设似然度阈值,则所述待识别说话人为目标说话人。
6.如权利要求2至4中任一项所述的说话人识别方法,其特征在于,所述根据动态时间规整法将训练基音周期和所述待识别基音周期进行匹配生成训练模板的步骤,包括:
将所述待识别基音周期与不同信道下提取的所有的所述训练基音周期进行匹配识别,筛选满足预设规则的所述训练基音周期生成训练模板。
7.如权利要求2至4中任一项所述的说话人识别方法,其特征在于,所述采集不同信道下训练说话人的训练声音信号的步骤,包括:
利用选定的多个不同的麦克风分别采集所述训练说话人的所述训练声音语音信号。
8.如权利要求1至4中任一项所述的说话人识别方法,其特征在于,所述采集待识别说话人的待识别声音信号的步骤之后,包括:
将采集到的所述待识别说话人的所述待识别声音信号进行去噪处理。
9.一种***,其特征在于,所述***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的说话人识别程序,所述说话人识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的说话人识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有说话人识别程序,所述说话人识别程序被处理器执行时实现如权利要求1至8中任一项所述的说话人识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910771202.9A CN110400565A (zh) | 2019-08-20 | 2019-08-20 | 说话人识别方法、***及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910771202.9A CN110400565A (zh) | 2019-08-20 | 2019-08-20 | 说话人识别方法、***及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110400565A true CN110400565A (zh) | 2019-11-01 |
Family
ID=68328751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910771202.9A Pending CN110400565A (zh) | 2019-08-20 | 2019-08-20 | 说话人识别方法、***及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110400565A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827834A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 声纹注册方法、***及计算机可读存储介质 |
CN111489763A (zh) * | 2020-04-13 | 2020-08-04 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN112529708A (zh) * | 2020-12-25 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 一种客户识别方法及装置、电子设备 |
CN112822186A (zh) * | 2020-12-31 | 2021-05-18 | 国网江苏省电力有限公司信息通信分公司 | 基于语音认证的电力***ip调度台通知广播方法及*** |
CN113113052A (zh) * | 2021-04-08 | 2021-07-13 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及*** |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN108922541A (zh) * | 2018-05-25 | 2018-11-30 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
-
2019
- 2019-08-20 CN CN201910771202.9A patent/CN110400565A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及*** |
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
CN108922541A (zh) * | 2018-05-25 | 2018-11-30 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827834A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 声纹注册方法、***及计算机可读存储介质 |
CN110827834B (zh) * | 2019-11-11 | 2022-07-12 | 广州国音智能科技有限公司 | 声纹注册方法、***及计算机可读存储介质 |
CN111489763A (zh) * | 2020-04-13 | 2020-08-04 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN111489763B (zh) * | 2020-04-13 | 2023-06-20 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN112529708A (zh) * | 2020-12-25 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 一种客户识别方法及装置、电子设备 |
CN112529708B (zh) * | 2020-12-25 | 2024-06-04 | 深圳前海微众银行股份有限公司 | 一种客户识别方法及装置、电子设备 |
CN112822186A (zh) * | 2020-12-31 | 2021-05-18 | 国网江苏省电力有限公司信息通信分公司 | 基于语音认证的电力***ip调度台通知广播方法及*** |
CN113113052A (zh) * | 2021-04-08 | 2021-07-13 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN113113052B (zh) * | 2021-04-08 | 2024-04-05 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
CN110400565A (zh) | 说话人识别方法、***及计算机可读存储介质 | |
WO2020006935A1 (zh) | 动物声纹特征提取方法、装置及计算机可读存储介质 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US9769296B2 (en) | Techniques for voice controlling bluetooth headset | |
US11854550B2 (en) | Determining input for speech processing engine | |
US20210256971A1 (en) | Detection of replay attack | |
US8595005B2 (en) | System and method for recognizing emotional state from a speech signal | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
CN109841218B (zh) | 一种针对远场环境的声纹注册方法及装置 | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
US20230045064A1 (en) | Voice recognition using accelerometers for sensing bone conduction | |
CN111149172B (zh) | 情绪管理方法、设备及计算机可读存储介质 | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
CN114067782A (zh) | 音频识别方法及其装置、介质和芯片*** | |
CN112017639A (zh) | 语音信号的检测方法、终端设备及存储介质 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN113921026A (zh) | 语音增强方法和装置 | |
CN110827834B (zh) | 声纹注册方法、***及计算机可读存储介质 | |
US20240119930A1 (en) | Artificial intelligence device and operating method thereof | |
CN111508503B (zh) | 一种识别同一说话人的方法和装置 | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191101 |
|
RJ01 | Rejection of invention patent application after publication |