CN114999459A - 一种基于多尺度递归量化分析的语音识别方法及*** - Google Patents

一种基于多尺度递归量化分析的语音识别方法及*** Download PDF

Info

Publication number
CN114999459A
CN114999459A CN202210481126.XA CN202210481126A CN114999459A CN 114999459 A CN114999459 A CN 114999459A CN 202210481126 A CN202210481126 A CN 202210481126A CN 114999459 A CN114999459 A CN 114999459A
Authority
CN
China
Prior art keywords
recursion
recursive
scale
speech recognition
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210481126.XA
Other languages
English (en)
Inventor
张晓俊
朱欣程
赵登煌
陶智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210481126.XA priority Critical patent/CN114999459A/zh
Publication of CN114999459A publication Critical patent/CN114999459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/36Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using chaos theory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于多尺度递归量化分析的语音识别方法及***,所述方法包括以下步骤:提取语音信号的声门波信号;利用Gammatone滤波器对声门波信号多频带划分,得到若干个频率通道的声门波信号;通过时间延迟和嵌入维数重建各频率通道的声门波信号的多尺度相空间,并根据相空间中两两相点之间的距离构建递归图;根据递归图量化声门波信号在各频率通道中的非线性动态递归特性,得到各频率通道的声门波信号的若干特征参数;将语音信号分为训练集与测试集,利用训练集的特征参数训练识别模型;利用训练好的识别模型对测试集的特征参数进行预测分类。本发明能够准确量化语音信号中的非线性特征,提高语音识别准确率。

Description

一种基于多尺度递归量化分析的语音识别方法及***
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于多尺度递归量化分析的语音识别方法及***。
背景技术
随着人工智能的快速发展,语音识别技术取得显著的进步,逐步进入家电、医疗、汽车电子等各个领域。语音的识别过程主要包括特征提取以及利用分类器进行识别。提取的语音的特征主要影响语音识别的准确率。常用的特征参数主要有扰动类特征,如基频抖动Jitter、振幅微扰Shimmer;频谱及倒谱类特征,如线性预测系数LPCC、梅尔倒谱系数MFCC、伽马倒谱系数GFCC;复杂测度,如最大李雅普诺夫指数,关联维和熵值特征等。
扰动特征的计算取决于选择合适的窗长和准确估计基频,而对于非周期性、不规律的语音信号,提取其基音周期显然比较困难的。且语音的产生不是一个确定性的线性过程,也不是一个随机过程,而是一个非线性过程,因此,频谱及倒谱类特征并不能表征语音信号中的非线性特点。最大李雅普诺夫指数、关联维以及熵值特征仅能表征语音信号的低维混沌特性。递归量化测度在语音识别方面准确率并不理想,较难应用到实际场景。
发明内容
本发明的目的是提供一种基于多尺度递归量化分析的语音识别方法及***,能够准确量化语音信号中的非线性特征,提高语音识别准确率。
为了解决上述技术问题,本发明提供了一种基于多尺度递归量化分析的语音识别方法,包括以下步骤:
S1、提取语音信号的声门波信号;
S2、利用Gammatone滤波器对声门波信号多频带划分,得到若干个频率通道的声门波信号;
S3、通过时间延迟和嵌入维数重建各频率通道的声门波信号的多尺度相空间,并根据相空间中两两相点之间的距离构建递归图;
S4、根据递归图量化声门波信号在各频率通道中的非线性动态递归特性,得到各频率通道的声门波信号的若干特征参数;
S5、将语音信号分为训练集与测试集,利用训练集的特征参数训练识别模型;
S6、利用训练好的识别模型对测试集的特征参数进行预测分类。
作为本发明的进一步改进,所述Gammatone滤波器的时域冲击响应为:
gi(t)=Bkt(k-1)e-2πbt cos(2πfi+φ)u(t)
其中,滤波器阶数k设置为4,滤波器初始相位Ф设置为0;fi为第i通道滤波器的中心频率;B是与等效矩形带宽有关的参数;u(t)为阶跃函数。
作为本发明的进一步改进,所述中心频率为:
Figure BDA0003627897560000021
其中,C与品质因子和带宽有关,fl和fh是滤波器的最低和最高频率;滤波器的个数K为24;B是与等效矩形带宽ERB有关的参数:
B=1.019·ERB(fi)
等效矩形带宽ERB与滤波器中心频率关系如下:
ERB(fi)=24.7+0.108fi
作为本发明的进一步改进,设置长度为N的时间序列{x(1),x(2),...,x(N)},通过Takens嵌入定理重建相空间:
Figure BDA0003627897560000031
其中,τ是时间延迟,m是嵌入维数,重构相空间中由向量表示的点总数为n=N-(m-1)τ。
作为本发明的进一步改进,当相空间中两两相点之间的距离小于阈值,则代表这两个点之间的距离是递归的,得到的递归值为:
Rij=θ(ε-||Xi-Xj||)
i,j=1,2…n
其中,ε为阈值,θ为赫维赛德函数,||·||表示范数。
作为本发明的进一步改进,根据递归图,基于对重复点、对角线、垂直线或水平线的密度的分析,得到一系列关于递归值的特征参数。
作为本发明的进一步改进,所述特征参数包括:递归率、确定性、最大对角线长度、对角线长度的熵、平均对角线长度、层状度、捕获时间、最大垂直线长度、第一递归时间、第二递归时间、递归时间熵、聚类系数和传递性。
作为本发明的进一步改进,所述递归率为递归图中递归点的百分比;
所述确定性表示形成出现在递归图中的对角线段的递归点与总递归点的比率;
所述最大对角线长度为递归图结构中最长对角线的长度;
所述对角线长度的熵为递归图上对角线结构长度分布的香农熵,衡量递归图结构中包含的信息量;
所述平均对角线长度与动态***的平均预测时间和***的散度高度相关;
所述层状度为形成垂直结构的递归点与递归图中所有递归点的比值,反映动态***的复杂程度;
所述捕获时间表示递归图结构中垂直线的平均长度;测量***处于非常缓慢变化状态的平均时间;
所述最大垂直线长度表示递归图结构中垂直线的最大长度;
第一递归时间T1(i)和第二递归时间T2(i):
T1(i)=ti+1-ti,t=1,2,K
T2(i)=ti+1-ti,t=1,2,K
所述递归时间熵指示时间序列重复相同序列的程度;
所述聚类系数表示递归图结构中任意状态的两个邻居点也聚集在一起的概率;
所述传递量化相空间轨迹的几何性质。
一种基于多尺度递归量化分析的语音识别***,采用如上所述的一种基于多尺度递归量化分析的语音识别方法进行语音识别。
作为本发明的进一步改进,所述识别模型分类器采用贝叶斯网络分类器。
本发明的有益效果:本发明方法提出的特征参数多尺度递归量化测度不依赖于语音基音周期提取,同时能度量语音信号高维混沌特性,有利于语音识别准确率的提高;递归量化测度有效地捕捉声带振动变化,从声带振动机理出发,提取声门信号作为源信号,信号在伽玛尺度上重构高维相空间,并结合人类听觉感知的特点绘制递归图,最后从递归中量化语音信号在各频率信道中的非线性动态递归特性,利用非线性分析方法的语音识别率超过传统的线性分析方法。
附图说明
图1是本发明多尺度递归量化测度提取流程示意图;
图2是本发明语音识别***示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如背景技术所述,关于常用的特征参数:
1.扰动特征:描述了语音信号中由嗓音疾病引起的声带不规则振动所产生的噪声,如基频抖动和振幅微扰。基频抖动表示基频的短期扰动,振幅微扰表示振幅上的短期扰动。
2.频谱及倒谱类特征:MFCC和GFCC是精确符合人耳听觉感知特性的特征参数,MFCC和GFCC是语音识别常用的特征。其基本原理是把线性频谱映射到基于人耳听觉感知特性的梅尔或者伽马非线性频谱中,然后再映射到倒谱上。
3.复杂测度:最大李雅普诺夫指数(LLE)、关联维(CD)及递归量化测度(RQMs)特征。最大李雅普诺夫指数表示相空间相邻轨迹的平均指数发散率的数值特征,最大李雅普诺夫指数、关联维以及递归量化测度都是基于相空间重构的非线性特征,表示语音信号的混沌程度。
由于语音信号具有复杂的非线性特征,传统的非线性分析方法被应用于语音识别。然而,由于语音信号的非平稳特性,其非线性特征无法准确量化,因此识别效果不如线性分析方法。本发明提供一种基于多尺度递归量化分析的语音识别方法。该方法提出的特征参数多尺度递归量化测度不依赖于语音基音周期提取,同时能度量语音信号高维混沌特性。递归量化测度有效地捕捉声带振动变化。信号在伽玛尺度上重构高维相空间,并结合人类听觉感知的特点绘制递归图。最后从递归中量化语音信号在各频率信道中的非线性动态递归特性。
参考图1,本发明提供了一种基于多尺度递归量化分析的语音识别方法,包括以下步骤:
S1、提取语音信号的声门波信号;
S2、利用Gammatone滤波器对声门波信号多频带划分,得到若干个频率通道的声门波信号;
S3、通过时间延迟和嵌入维数重建各频率通道的声门波信号的多尺度相空间,并根据相空间中两两相点之间的距离构建递归图;
S4、根据递归图量化声门波信号在各频率通道中的非线性动态递归特性,得到各频率通道的声门波信号的若干特征参数;
S5、将语音信号分为训练集与测试集,利用训练集的特征参数训练识别模型;
S6、利用训练好的识别模型对测试集的特征参数进行预测分类。
本发明提出的多尺度递归量化测度从声带振动机理出发,提取声门信号作为源信号。该特征能通过多尺度分析将非平稳、非线性的复杂序列分解为一组频率子序列特征。本发明结合人耳听觉感知特性,通过计算时间延迟和嵌入维数来重建声门信号的多尺度相空间,然后对非线性、非平稳的递归结构进行量化,得到语音信号中的非线性特征,然后通过人工智能方法来识别语音。本发明提出的多尺度递归量化测度特征参数无需提取语音的基音周期,能够准确量化语音信号中的非线性特征,有利于语音识别准确率的提高,超过传统的线性分析方法。
具体的,本发明从声门波的角度出发,主要针对特征提取进行研究。在特征提取方面,利用Gammatone滤波器组对声门波信号多频带划分,使其更细致表现嗓音特性,同时具有听觉感知特性。
本发明中的语音识别***具体设计主要包括:
1.声门波信号提取,使用声门逆滤波算法提取原始语音信号的声门波信号;
2.gammatone分频处理:
设计Gammatone听觉仿生滤波器对声门波信号多频带划分,得到24个频率通道的声门波信号:
Gammatone滤波器组的时域表达形式为:gi(t)=Bkt(k-1)e-2πbtcos(2πfi+φ)u(t),滤波器阶数k设置为4时,可以很好模拟人耳基底膜的滤波特性;滤波器初始相位Ф设置为0;fi为第i通道滤波器的中心频率。中心频率为:
Figure BDA0003627897560000071
其中,C与品质因子和带宽有关,fl和fh是滤波器的最低和最高频率,滤波器的个数K为24。
B是与等效矩形带宽有关的参数:
B=1.019·ERB(fi)
等效矩形带宽ERB与滤波器中心频率关系如下:
ERB(fi)=24.7+0.108fi
3.非线性动力学分析:
使用非线性动力学理论分析信号的第一步是重构相空间:假设长度为N的时间序列{x(1),x(2),...,x(N)}可以通过Takens嵌入定理重建相空间:
Figure BDA0003627897560000072
其中,τ是时间延迟,m是嵌入维数。重构相空间{X1,X2,X3...,Xn}中由向量表示的点总数为n=N-(m-1)τ。
A、构建递归图:
递归图是分析二维空间图中信号递归现象的工具。当两个相点之间的距离小于阈值,则代表这两个点之间的距离是递归的,用一个黑点表示,否则这一点就是不递归的,用一个白点或者空格表示。
Rij=θ(ε-||Xi-Xj||)
i,j=1,2…n
B、递归量化测度:
时间序列的递推特性取决于递归图的几何特性。递归量化分析是一种基于递归图量化***动态的方法。基于对重复点、对角线、垂直线或水平线的密度的分析,可以得到一系列统计参数。这项工作使用了13个递归量化测度,例如平均对角线长度、最大对角线长度、聚类系数和传递性。
递归率(RR):指递归图中递归点的百分比:
Figure BDA0003627897560000081
确定性(DET)表示形成出现在RP中的对角线段的递归点与总递归点的比率:
Figure BDA0003627897560000082
其中,l是对角线段的长度,lmin是它的最小值;对角线长度l的频率分布由Pε(l)表示;Pε(l)={li;i=1...nl},nl是对角线的绝对数量。
最大对角线长度(Lmax):递归图结构中最长对角线的长度:
Lmax=max({li;i=1...nl})
对角线长度的熵(ENTR)是指递归图上对角线结构长度分布的香农熵,它衡量递归图结构中包含的信息量:
Figure BDA0003627897560000083
Figure BDA0003627897560000084
平均对角线长度(<L>)与动态***的平均预测时间和***的散度高度相关:
Figure BDA0003627897560000091
层状度(LAM)是指形成垂直结构的递归点与递归图中所有递归点的比值,可以反映动态***的复杂程度:
Figure BDA0003627897560000092
其中,v是垂直线段的长度,Pε(v)={li;i=1...nv};
捕获时间(TT)表示递归图结构中垂直线的平均长度。它测量***处于非常缓慢变化状态的平均时间:
Figure BDA0003627897560000093
最大垂直线长度(Vmax)表示递归图结构中垂直线的最大长度:
Vmax=max({vi;i=1...nv})
第一递归时间(T1)和第二递归时间(T2):
T1(i)=ti+1-ti,t=1,2,K
T2(i)=ti+1-ti,t=1,2,K
递归时间熵(RPDE)已成功应用于生物医学测试。它在检测生物时间序列的细微变化方面具有优势,可以指示时间序列重复相同序列的程度:
Figure BDA0003627897560000094
时间序列{x(1),x(2),...,x(N)}的每个点都被绘制为阈值回报期间的直方图。P(t)是直方图的归一化结果。其中Tmax是最大重复周期,t是返回之间的时间。
聚类系数(Clust)在复杂网络理论中表示递归图结构中任意状态的两个邻居也聚集在一起的概率:
Figure BDA0003627897560000101
Figure BDA0003627897560000102
RRi表示局部递归率。
传递性(Trans)量化了相空间轨迹的几何性质:
Figure BDA0003627897560000103
3、将语音分为训练集与测试集,利用训练集语音的特征参数训练识别模型;
4、利用训练好的模型对测试集的特征参数进行预测分类。
实施例
本实施例通过对比特征提取方法的语音识别结果验证本发明方法的效果:
1、特征参数MFCC提取步骤:
(1)将信号S(n)预加重后采用汉明窗进行加窗分帧,得到每帧信号xn(m),然后通过短时傅里叶变换得到其频谱Xn(k),随后求取频谱的平方,即能量谱Pn(k)。
Pn(k)=|Xn(k)|2
(2)用M个Mel带通滤波器对Pn(k)进行滤波,由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加。
Figure BDA0003627897560000111
其中,Hm(k)为Mel滤波器频域形式,Sn(m)是每个滤波器频带输出。
(3)将每个滤波器输出取对数功率谱并进行反离散余弦变换,得到L个MFCC系数。
Figure BDA0003627897560000112
(4)将得到的MFCC系数作为第n帧的特征参数,反映了语音信号的静态特征,如果加上人耳更为敏感的一阶差分系数,将得到更好的效果。一阶差分的计算公式如下:
Figure BDA0003627897560000113
L一般取2,表示当前帧前后各2帧的线性组合,反映了语音的动态特征。
2、最大李雅普诺夫指数和关联维(LLE&D2):
(1)对于给定的语音信号,先选定较小的嵌入维数m0,重构相空间;
Figure BDA0003627897560000114
(2)计算关联维C(r)
Figure BDA0003627897560000115
其中,
Figure BDA0003627897560000116
表示两相点之间的距离,θ(u)是Heaviside函数,
Figure BDA0003627897560000117
C(r)是一个累积分的函数,表示相空间中吸引子上两点之间距离小于r的概率。
(3)以初始相点x0为基点,在点集中选取一个与x0最近的点x1作为端点,构成初始向量,x0,x1间欧氏距离可记为L(t0)。时间步长或演化时间k,初始向量沿轨线向前演化得到一新向量,其相应点与端点间欧氏距离可记为L(t1),在相应时段内***线度指数增长率记为:
Figure BDA0003627897560000121
(4)如此继续,直至所有相点,然后取各指数增长率的平均值为最大李雅普诺夫指数估计值:
Figure BDA0003627897560000122
本实施例使用贝叶斯网络分类器,分别用递归量化测度(RQMs)、最大李雅普诺夫指数和关联维(LLE&D2)、梅尔倒谱系数(MFCC)、多尺度递归量化测度,对语音进行分类识别,实验结果见下表:
Figure BDA0003627897560000123
从上表可以看出,多尺度递归量化测度优于传统的特征参数梅尔倒谱系数,非线性特征最大李雅普诺夫指数和关联维和递归量化测度。
在贝叶斯网络分类器中多尺度递归量化测度特征参数识别的准确率均达到了100%,其他各项评估指标均达到了最优值,优于传统的方法。由此可知,本发明提出的特征提高了***的识别率和可靠性。
如图2所示,本发明还提供一种基于多尺度递归量化分析的语音识别***,采用如上所述的一种基于多尺度递归量化分析的语音识别方法(包括但不限于贝叶斯网络)来识别语音。其解决问题的原理与所述一种基于多尺度递归量化分析的语音识别方法类似,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种基于多尺度递归量化分析的语音识别方法,其特征在于:包括以下步骤:
S1、提取语音信号的声门波信号;
S2、利用Gammatone滤波器对声门波信号多频带划分,得到若干个频率通道的声门波信号;
S3、通过时间延迟和嵌入维数重建各频率通道的声门波信号的多尺度相空间,并根据相空间中两两相点之间的距离构建递归图;
S4、根据递归图量化声门波信号在各频率通道中的非线性动态递归特性,得到各频率通道的声门波信号的若干特征参数;
S5、将语音信号分为训练集与测试集,利用训练集的特征参数训练识别模型;
S6、利用训练好的识别模型对测试集的特征参数进行预测分类。
2.如权利要求1所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:所述Gammatone滤波器的时域冲击响应为:
gi(t)=Bkt(k-1)e-2πbtcos(2πfi+φ)u(t)
其中,滤波器阶数k设置为4,滤波器初始相位Ф设置为0;fi为第i通道滤波器的中心频率;B是与等效矩形带宽有关的参数;u(t)为阶跃函数。
3.如权利要求2所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:所述中心频率为:
Figure FDA0003627897550000011
其中,C与品质因子和带宽有关,fl和fh是滤波器的最低和最高频率;滤波器的个数K为24;B是与等效矩形带宽ERB有关的参数:
B=1.019·ERB(fi)
等效矩形带宽ERB与滤波器中心频率关系如下:
ERB(fi)=24.7+0.108fi
4.如权利要求1所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:设置长度为N的时间序列{x(1),x(2),...,x(N)},通过Takens嵌入定理重建相空间:
Figure FDA0003627897550000021
其中,τ是时间延迟,m是嵌入维数,重构相空间中由向量表示的点总数为n=N-(m-1)τ。
5.如权利要求4所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:当相空间中两两相点之间的距离小于阈值,则代表这两个点之间的距离是递归的,得到的递归值为:
Rij=θ(ε-||Xi-Xj||)
i,j=1,2…n
其中,ε为阈值,θ为赫维赛德函数,||·||表示范数。
6.如权利要求5所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:根据递归图,基于对重复点、对角线、垂直线或水平线的密度的分析,得到一系列关于递归值的特征参数。
7.如权利要求6所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:所述特征参数包括:递归率、确定性、最大对角线长度、对角线长度的熵、平均对角线长度、层状度、捕获时间、最大垂直线长度、第一递归时间、第二递归时间、递归时间熵、聚类系数和传递性。
8.如权利要求7所述的一种基于多尺度递归量化分析的语音识别方法,其特征在于:所述递归率为递归图中递归点的百分比;
所述确定性表示形成出现在递归图中的对角线段的递归点与总递归点的比率;
所述最大对角线长度为递归图结构中最长对角线的长度;
所述对角线长度的熵为递归图上对角线结构长度分布的香农熵,衡量递归图结构中包含的信息量;
所述平均对角线长度与动态***的平均预测时间和***的散度高度相关;
所述层状度为形成垂直结构的递归点与递归图中所有递归点的比值,反映动态***的复杂程度;
所述捕获时间表示递归图结构中垂直线的平均长度;测量***处于非常缓慢变化状态的平均时间;
所述最大垂直线长度表示递归图结构中垂直线的最大长度;
第一递归时间T1(i)和第二递归时间T2(i):
T1(i)=ti+1-ti,t=1,2,K
T2(i)=ti+1-ti,t=1,2,K
所述递归时间熵指示时间序列重复相同序列的程度;
所述聚类系数表示递归图结构中任意状态的两个邻居点也聚集在一起的概率;
所述递归量化相空间轨迹的几何性质。
9.一种基于多尺度递归量化分析的语音识别***,其特征在于:采用如权利要求1-8中任一项所述的一种基于多尺度递归量化分析的语音识别方法进行语音识别。
10.如权利要求9所述的一种基于多尺度递归量化分析的语音识别***,其特征在于:所述识别模型分类器采用贝叶斯网络分类器。
CN202210481126.XA 2022-05-05 2022-05-05 一种基于多尺度递归量化分析的语音识别方法及*** Pending CN114999459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210481126.XA CN114999459A (zh) 2022-05-05 2022-05-05 一种基于多尺度递归量化分析的语音识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210481126.XA CN114999459A (zh) 2022-05-05 2022-05-05 一种基于多尺度递归量化分析的语音识别方法及***

Publications (1)

Publication Number Publication Date
CN114999459A true CN114999459A (zh) 2022-09-02

Family

ID=83024479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210481126.XA Pending CN114999459A (zh) 2022-05-05 2022-05-05 一种基于多尺度递归量化分析的语音识别方法及***

Country Status (1)

Country Link
CN (1) CN114999459A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN112863517A (zh) * 2021-01-19 2021-05-28 苏州大学 基于感知谱收敛率的语音识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN112863517A (zh) * 2021-01-19 2021-05-28 苏州大学 基于感知谱收敛率的语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛隆基: "病理嗓音的递归量化分析及分类研究" *

Similar Documents

Publication Publication Date Title
US8140331B2 (en) Feature extraction for identification and classification of audio signals
CN109599120B (zh) 一种基于大规模养殖场厂哺乳动物异常声音监测方法
CN104887263B (zh) 一种基于心音多维特征提取的身份识别算法及其***
Mesgarani et al. Speech discrimination based on multiscale spectro-temporal modulations
Gómez-García et al. On the design of automatic voice condition analysis systems. Part III: Review of acoustic modelling strategies
López-Pabón et al. Cepstral analysis and Hilbert-Huang transform for automatic detection of Parkinson’s disease
CN110647656A (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
Hsu et al. Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition
Wisniewski et al. Application of tonal index to pulmonary wheezes detection in asthma monitoring
Yarga et al. Efficient spike encoding algorithms for neuromorphic speech recognition
CN112863517A (zh) 基于感知谱收敛率的语音识别方法
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析***
Manikandan et al. Quality-driven wavelet based PCG signal coding for wireless cardiac patient monitoring
Wiśniewski et al. Automatic detection of prolonged fricative phonemes with the hidden Markov models approach
CN114999459A (zh) 一种基于多尺度递归量化分析的语音识别方法及***
Neili et al. Gammatonegram based pulmonary pathologies classification using convolutional neural networks
ABAKARIM et al. Amazigh isolated word speech recognition system using the adaptive orthogonal transform method
CN112233693A (zh) 一种音质评估方法、装置和设备
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
CN109215633A (zh) 基于递归图分析的腭裂语音鼻漏气的识别方法
Karam Various speech processing techniques for speech compression and recognition
Sisman et al. A new speech coding algorithm using zero cross and phoneme based SYMPES
CN118248152A (zh) 一种基于语音的身份识别方法及相关设备
CN118173102B (zh) 一种复杂场景下鸟类声纹识别方法
Feng et al. Underwater acoustic feature extraction based on restricted Boltzmann machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220902

RJ01 Rejection of invention patent application after publication