CN106024010A - 一种基于共振峰曲线的语音信号动态特征提取方法 - Google Patents
一种基于共振峰曲线的语音信号动态特征提取方法 Download PDFInfo
- Publication number
- CN106024010A CN106024010A CN201610340935.3A CN201610340935A CN106024010A CN 106024010 A CN106024010 A CN 106024010A CN 201610340935 A CN201610340935 A CN 201610340935A CN 106024010 A CN106024010 A CN 106024010A
- Authority
- CN
- China
- Prior art keywords
- formant
- curve
- voice signal
- frame
- formant curve
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 238000009432 framing Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 8
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 2
- 235000008434 ginseng Nutrition 0.000 claims 2
- 230000002123 temporal effect Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 239000000843 powder Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出一种基于共振峰曲线的语音信号动态特征提取方法,属于汉语音信号动态特征提取技术领域。步骤为:采集语音信号;对语音信号进行预处理;提取语音信号共振峰频率特征;按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第一共振峰频率特征值进行组合获得第一共振峰曲线,依此类推,获得第二共振峰曲线、第三共振峰曲线及第四共振峰曲线;对获得的每条共振峰曲线进行快速傅里叶变换获得线性频谱;根据线性频谱获得能量谱;根据能量谱获得对数能量;对对数能量进行离散余弦变换。与现有方法相比,本发明提取的是语音信号动态特征,它具有时间相关性,揭示了语音信号前后以及相邻之间存在的密切关联,提高了语音识别的性能。
Description
技术领域
本发明属于汉语音信号动态特征提取技术领域,具体涉及一种基于共振峰曲线的语音信号动态特征提取方法。
背景技术
我国语音识别研究工作起步于50年代,但直到70年代才开始迅速发展。中国科学院、清华大学、北京大学等多家研究单位在从事汉语语音识别***的开发,目前对大词汇量连续语音识别***的研究已经接近国外最高水平;在我国的“八五”计划和“863”计划中,汉语语音识别的研究得到了大力支持,国家863《智能计算机主题》专家组专门为语音识别研究立项,同时由于中国在国际上地位与日俱增,以及在经济和市场方面所处的重要地位,汉语语音识别也越来越被国外研究机构和公司重视,IBM、Microsoft、APPLE、Motorola、Intel、L&H等公司都在国内设立研究机构,相继投入到汉语语音识别***的开发中,强有力地推动了汉语语音识别研究的发展;
尽管如此,距离真正的人机自由交流的境界还很遥远;现在已有的商用***都存在着一些问题,比如对于噪声环境下的语音识别率和稳健性等都不尽如人意;
语音识别最基础最重要的开发环节是语音信号特征参数的提取;早在上世纪40年代,R.K.Potter等人提出了“Visible Speech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征。到了50年代,人们发现要对语音信号进行识别就必须从语音波形中提取能够反映语音特性的某些参数,这样不仅可以减小模板数目、运算量及存储量,而且可以滤除语音信号中无用的冗余信息,于是就出现了幅度、短时帧平均能量、短时帧过零率、短时自相关系数等。随着识别技术的发展,人们发现时域中的特征参数其稳定性和区分能力都不是很好,于是开始利用频域参数作为语音信号的特征,比如基音周期、共振峰频率、线性预测系数(LPC)、线谱对(LSP)、倒谱系数等,目前使用最为广泛的特征参数是基于人耳听觉模型的美尔倒谱系数(MFCC);但是这些参数一旦应用于噪声环境时,其性能会急剧下降;
而且上面所提出的特征参数都反映语音的静态特征,语音信号的动态特性是指从连续几帧语音中提取的特征参数,比如可以通过静态特征的差分参数和加速度参数来获取,但差分参数和加速度参数并不能将动态信息挖掘得很充分,所以它们尚不能很好地反映语音信号的动态特性。
发明内容
针对现有技术的不足,本发明提出一种基于共振峰曲线的语音信号动态特征提取方法,以达到扩大应用领域、提高语音识别的性能、实现快速有效地掌握信号的动态特征和实现在强噪声环境下应用语音识别技术的目的。
一种基于共振峰曲线的语音信号动态特征提取方法,包括以下步骤:
步骤1、采集语音信号;
步骤2、对语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤3、采用基于Hibert-Huang变换的方法,对预处理后语音信号的共振峰频率特征进行估算,获得每帧语音信号的第一共振峰特征值、第二共振峰特征值、第三共振峰特征值和第四共振峰特征值;
步骤4、构成共振峰曲线,具体为:
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第一共振峰特征值进行组合获得第一共振峰曲线;
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第二共振峰特征值进行组合获得第二共振峰曲线;
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第三共振峰特征值进行组合获得第三共振峰曲线;
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第四共振峰特征值进行组合获得第四共振峰曲线;
步骤5、对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换,获得每条共振峰曲线的线性频谱;
步骤6、根据线性频谱获得每条共振峰曲线的能量谱;
步骤7、根据能量谱获得每条共振峰曲线的对数能量;
步骤8、对上述对数能量进行离散余弦变换获得倒频谱域,即获得语音信号动态特征参数。
步骤2所述的对语音信号进行预处理,包括预加重、分帧加窗和端点检测,其中,
所述的预加重:通过一阶数字预加重滤波器实现,预加重滤波器的系数取值范围为0.93~0.97;
所述的分帧加窗:以帧长256点进行分帧,并对分帧后的语音信号加汉明窗;
所述的端点检测:采用短时能零积法进行检测。
步骤5所述的对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换,获得每条共振峰曲线的线性频谱;
具体公式如下:
其中,Xi(k)表示第i个共振峰曲线进行快速傅里叶变换后得到的线性频谱;i=1,2,3,4;k=0,1,2,…,N-1,N为语音信号的帧数;xi(n)表示第i个共振峰曲线;j是虚数单位,e为常数。
步骤8所述的对上述对数能量进行离散余弦变换获得倒频谱域,即获得语音信号动态特征参数;
具体公示如下:
其中,Ci(t)表示第i个共振峰曲线的动态特征参数;i=1,2,3,4;t=1,2,…,T,T表示设定的倒谱系数个数,取值范围为12~16;Li(k)表示第i个共振峰曲线的对数能量;k=0,1,2,…,N-1,N为语音信号的帧数。
本发明优点:
1、本发明获得的语音信号动态特征参数主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务***,另外还可应用在小型化、便携式的语音产品中,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面;
2、本发明提取的是语音信号动态特征,它具有时间相关性,揭示了语音信号前后以及相邻之间存在的密切关联,相比于传统的MFCC方法,大大提高了语音识别的性能;
3、本发明采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征,其中用经验模态分解法(EMD)将信号分解成一组含有不同尺度的固有模态函数(IMF)分量,经分解得到的每一个IMF分量都代表了一个频率成分,这些频率成分可以有效突出信号的局部特性和细节变化,这将有助于快速有效地掌握信号的动态特征;
4、本发明构成的共振峰曲线具有时间相关性,揭示了语音信号前后以及相邻之间存在着的密切关联;这一特性,使得在强噪声环境下应用语音识别技术成为了可能。
附图说明
图1为本发明一种实施例的基于共振峰曲线的语音信号动态特征提取方法流程图;
图2为本发明一种实施例的白噪声情况下参数识别性能曲线比较图;
图3为本发明一种实施例的粉噪声情况下参数识别性能曲线比较图;
图4为本发明一种实施例的街道噪声情况下参数识别性能曲线比较图;
图5为本发明一种实施例的坦克噪声情况下参数识别性能曲线比较图。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
一种基于共振峰曲线的语音信号动态特征提取方法,方法流程图如图1所示,包括以下步骤:
步骤1、采集语音信号;
本发明实施例中,利用麦克风输入语音数据,并由计算机、单片机或DSP芯片等处理单元以11.025KHz的采样频率、16bit的量化精度进行采样量化,获得相应的语音信号;本发明实施例中采用计算机作为处理单元;
步骤2、对语音信号进行预处理,包括预加重、分帧加窗和端点检测;
本发明实施例中,所述的预加重:通过一阶数字预加重滤波器实现,预加重滤波器的系数取值范围为0.93~0.97,本发明实施例中,取值为0.9375;所述的分帧加窗:以帧长256点进行分帧,并对分帧后的语音信号加汉明窗;所述的端点检测:采用短时能零积法进行检测;
步骤3、采用基于Hibert-Huang变换的方法,对预处理后语音信号的共振峰频率特征进行估算,获得每帧语音信号的第一共振峰特征值F1、第二共振峰特征值F2、第三共振峰特征值F3和第四共振峰特征值F4;
本发明实施例中,由快速傅里叶变换(FFT)初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数,并用该参数对语音信号作滤波处理,对滤波后的信号进行经验模态分解(EMD)得到一族固有模态函数(IMF),按能量最大原则确定出含有共振峰频率的IMF,计算出该IMF的瞬时频率和Hilbert谱即得到语音信号的共振峰频率参数;
步骤4、构成共振峰曲线,具体为:
本发明实施例中,按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第一共振峰频率特征值F1进行组合获得第一共振峰曲线x1(n),n=0,1,2,…,N-1,N为语音信号的帧数;按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第二共振峰频率特征值F2进行组合获得第二共振峰曲线x2(n);按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第三共振峰频率特征值F3进行组合获得第三共振峰曲线x3(n);按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第四共振峰频率特征值F4进行组合获得第四共振峰曲线x4(n);
步骤5、对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换,获得每条共振峰曲线的线性频谱;
本发明实施例中,具体公式如下:
其中,Xi(k)表示第i个共振峰曲线进行快速傅里叶变换后得到的线性频谱;i=1,2,3,4;k=0,1,2,…,N-1,N为语音信号的帧数;xi(n)表示第i个共振峰曲线;j是虚数单位,e为常数,近似值为2.7;
步骤6、根据线性频谱获得每条共振峰曲线的能量谱;
本发明实施例中,取上述线性频谱Xi(k)模的平方来获得相应的能量谱Si(k),公式如下:
Si(k)=|Xi(k)|2 (3)
其中,Si(k)表示第i个共振峰曲线的能量谱;
步骤7、根据能量谱获得每条共振峰曲线的对数能量;
本发明实施例中,为了使结果对噪声有更好的鲁棒性,将上述获得的能量谱Si(k)取对数,即可获得对数能量Li(k),公式如下:
Li(k)=Log(Si(k)) (4)
其中,Li(k)是第i个共振峰曲线的对数能量;
步骤8、对上述对数能量进行离散余弦变换获得倒频谱域,即获得语音信号动态特征参数。
具体公示如下:
其中,Ci(t)表示第i个共振峰曲线的动态特征参数;i=1,2,3,4;t=1,2,…,T,T表示设定的倒谱系数个数,取值范围为12~16,本发明实施例取T=12;
本发明实施例中,采用50个典型的汉语词汇来进行实验;由于考虑识别***容易受环境噪声、信道变化和说话人变化等因素的影响,因此,本发明实施例的训练集采用安静环境下的语音数据,而测试集采用含有噪声的数据;
为了验证该特征参数对不同说话人变化的鲁棒性,训练集数据由前后两次录成,共50人,每人每词发音一遍,共获得5000个数据,测试集数据也是分两次录成,共30人,每人每词发音一遍,共3000个数据;为了验证该特征参数对不同信道变化的鲁棒性,每次使用不同的麦克风来录音;为了验证该特征参数对不同环境噪声变化的鲁棒性,本发明实施例在测试集的每个语音中手工加入了四种噪声,包括:白噪声、粉噪声、街道噪声、坦克噪声,构成信噪比为15dB,10dB,5dB,0dB,-5dB的含噪语音信号。
本发明实施例中采用基于遗传算法改进的小波神经网络来作为分类器,网络输入层有48个神经元,输出层有50个神经元,隐含层结点个数通过遗传算法确定;
本发明实施例中,图2、图3、图4和图5为采用与本发明实施例相同条件的MFCC方法和本发明实施例方法分别在白噪声、粉噪声、街道噪声和坦克噪声干扰下的***识别性能曲线;从图中可以看出,在信噪比较低的时候,本发明实施例方法与MFCC方法相比识别率提高了很多。
Claims (4)
1.一种基于共振峰曲线的语音信号动态特征提取方法,其特征在于,包括以下步骤:
步骤1、采集语音信号;
步骤2、对语音信号进行预处理,包括预加重、分帧加窗和端点检测;
步骤3、采用基于Hibert-Huang变换的方法,对预处理后语音信号的共振峰频率特征进行估算,获得每帧语音信号的第一共振峰特征值、第二共振峰特征值、第三共振峰特征值和第四共振峰特征值;
步骤4、构成共振峰曲线,具体为:
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第一共振峰特征值进行组合获得第一共振峰曲线;
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第二共振峰特征值进行组合获得第二共振峰曲线;
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第三共振峰特征值进行组合获得第三共振峰曲线;
按照从第一帧到最后一帧的帧序,将预处理后的每帧语音信号的第四共振峰特征值进行组合获得第四共振峰曲线;
步骤5、对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换,获得每条共振峰曲线的线性频谱;
步骤6、根据线性频谱获得每条共振峰曲线的能量谱;
步骤7、根据能量谱获得每条共振峰曲线的对数能量;
步骤8、对上述对数能量进行离散余弦变换获得倒频谱域,即获得语音信号动态特征参数。
2.根据权利要求1所述的基于共振峰曲线的语音信号动态特征提取方法,其特征在于,步骤2所述的对语音信号进行预处理,包括预加重、分帧加窗和端点检测,其中,
所述的预加重:通过一阶数字预加重滤波器实现,预加重滤波器的系数取值范围为0.93~0.97;
所述的分帧加窗:以帧长256点进行分帧,并对分帧后的语音信号加汉明窗;
所述的端点检测:采用短时能零积法进行检测。
3.根据权利要求1所述的基于共振峰曲线的语音信号动态特征提取方法,其特征在于,步骤5所述的对获得的第一共振峰曲线、第二共振峰曲线、第三共振峰曲线和第四共振峰曲线进行快速傅里叶变换,获得每条共振峰曲线的线性频谱;
具体公式如下:
其中,Xi(k)表示第i个共振峰曲线进行快速傅里叶变换后得到的线性频谱;i=1,2,3,4;k=0,1,2,…,N-1,N为语音信号的帧数;xi(n)表示第i个共振峰曲线,n=0,1,2,…,N-1;j是虚数单位,e为常数。
4.根据权利要求1所述的基于共振峰曲线的语音信号动态特征提取方法,其特征在于,步骤8所述的对上述对数能量进行离散余弦变换获得倒频谱域,即获得语音信号动态特征参数;
具体公示如下:
其中,Ci(t)表示第i个共振峰曲线的动态特征参数;i=1,2,3,4;t=1,2,…,T,T表示设定的倒谱系数个数,取值范围为12~16;Li(k)表示第i个共振峰曲线的对数能量;k=0,1,2,…,N-1,N为语音信号的帧数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610340935.3A CN106024010B (zh) | 2016-05-19 | 2016-05-19 | 一种基于共振峰曲线的语音信号动态特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610340935.3A CN106024010B (zh) | 2016-05-19 | 2016-05-19 | 一种基于共振峰曲线的语音信号动态特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106024010A true CN106024010A (zh) | 2016-10-12 |
CN106024010B CN106024010B (zh) | 2019-08-20 |
Family
ID=57095695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610340935.3A Expired - Fee Related CN106024010B (zh) | 2016-05-19 | 2016-05-19 | 一种基于共振峰曲线的语音信号动态特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106024010B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106596002A (zh) * | 2016-12-14 | 2017-04-26 | 东南大学 | 高速铁路钢桁拱桥车‑桥共振性能曲线测定方法 |
CN108053842A (zh) * | 2017-12-13 | 2018-05-18 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
CN109410971A (zh) * | 2018-11-13 | 2019-03-01 | 无锡冰河计算机科技发展有限公司 | 一种美化声音的方法和装置 |
CN110135291A (zh) * | 2019-04-29 | 2019-08-16 | 西北工业大学 | 一种低信噪比信号的参数估计方法 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
CN111726728A (zh) * | 2020-06-30 | 2020-09-29 | 联想(北京)有限公司 | 一种共振抑制方法和装置 |
CN111899724A (zh) * | 2020-08-06 | 2020-11-06 | 中国人民解放军空军预警学院 | 基于希尔伯特黄变换的语音特征系数提取方法及相关设备 |
CN112966528A (zh) * | 2021-03-01 | 2021-06-15 | 郑州铁路职业技术学院 | 一种英语语音的翻译模糊匹配*** |
CN114598565A (zh) * | 2022-05-10 | 2022-06-07 | 深圳市发掘科技有限公司 | 一种厨电设备远程控制***、方法及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067929A (zh) * | 2007-06-05 | 2007-11-07 | 南京大学 | 使用共振峰增强提取话音共振峰轨迹的方法 |
CN102231281A (zh) * | 2011-07-18 | 2011-11-02 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN102820037A (zh) * | 2012-07-21 | 2012-12-12 | 渤海大学 | 基于组合特征的汉语声韵母可视化方法 |
CN102855408A (zh) * | 2012-09-18 | 2013-01-02 | 福州大学 | 基于ica的改进emd过程中imf判定方法 |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
-
2016
- 2016-05-19 CN CN201610340935.3A patent/CN106024010B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067929A (zh) * | 2007-06-05 | 2007-11-07 | 南京大学 | 使用共振峰增强提取话音共振峰轨迹的方法 |
CN102231281A (zh) * | 2011-07-18 | 2011-11-02 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN102820037A (zh) * | 2012-07-21 | 2012-12-12 | 渤海大学 | 基于组合特征的汉语声韵母可视化方法 |
CN102855408A (zh) * | 2012-09-18 | 2013-01-02 | 福州大学 | 基于ica的改进emd过程中imf判定方法 |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
Non-Patent Citations (4)
Title |
---|
乐莎莎: "基于HHT的咳嗽音识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王洪海: "基于声学特征的自动语言辨识研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
莫家玲: "基于不变集多小波的语音特征参数提取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
顾亚强: "非特定人语音识别关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106596002A (zh) * | 2016-12-14 | 2017-04-26 | 东南大学 | 高速铁路钢桁拱桥车‑桥共振性能曲线测定方法 |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
CN108053842A (zh) * | 2017-12-13 | 2018-05-18 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
CN108053842B (zh) * | 2017-12-13 | 2021-09-14 | 电子科技大学 | 基于图像识别的短波语音端点检测方法 |
CN109410971B (zh) * | 2018-11-13 | 2021-08-31 | 无锡冰河计算机科技发展有限公司 | 一种美化声音的方法和装置 |
CN109410971A (zh) * | 2018-11-13 | 2019-03-01 | 无锡冰河计算机科技发展有限公司 | 一种美化声音的方法和装置 |
CN110135291A (zh) * | 2019-04-29 | 2019-08-16 | 西北工业大学 | 一种低信噪比信号的参数估计方法 |
CN110135291B (zh) * | 2019-04-29 | 2023-03-24 | 西北工业大学 | 一种低信噪比信号的参数估计方法 |
CN111726728A (zh) * | 2020-06-30 | 2020-09-29 | 联想(北京)有限公司 | 一种共振抑制方法和装置 |
CN111899724A (zh) * | 2020-08-06 | 2020-11-06 | 中国人民解放军空军预警学院 | 基于希尔伯特黄变换的语音特征系数提取方法及相关设备 |
CN112966528A (zh) * | 2021-03-01 | 2021-06-15 | 郑州铁路职业技术学院 | 一种英语语音的翻译模糊匹配*** |
CN112966528B (zh) * | 2021-03-01 | 2023-09-19 | 郑州铁路职业技术学院 | 一种英语语音的翻译模糊匹配*** |
CN114598565A (zh) * | 2022-05-10 | 2022-06-07 | 深圳市发掘科技有限公司 | 一种厨电设备远程控制***、方法及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106024010B (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106024010B (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN103236260B (zh) | 语音识别*** | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及*** | |
CN103531205B (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别*** | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN104183245A (zh) | 一种演唱者音色相似的歌星推荐方法与装置 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议*** | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN109036458A (zh) | 一种基于音频特征参数的多语种场景分析方法 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN106531174A (zh) | 基于小波包分解和声谱图特征的动物声音识别方法 | |
CN105679312A (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译***及其语言识别方法 | |
CN100543840C (zh) | 基于情感迁移规则及语音修正的说话人识别方法 | |
CN109192196A (zh) | 一种抗噪的svm分类器的音频特征选择方法 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN108364641A (zh) | 一种基于长时帧背景噪声估计的语音情感特征提取方法 | |
CN110728991A (zh) | 一种改进的录音设备识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190820 Termination date: 20200519 |
|
CF01 | Termination of patent right due to non-payment of annual fee |