CN113611288A - 一种音频特征提取方法、装置及*** - Google Patents
一种音频特征提取方法、装置及*** Download PDFInfo
- Publication number
- CN113611288A CN113611288A CN202110901109.2A CN202110901109A CN113611288A CN 113611288 A CN113611288 A CN 113611288A CN 202110901109 A CN202110901109 A CN 202110901109A CN 113611288 A CN113611288 A CN 113611288A
- Authority
- CN
- China
- Prior art keywords
- mel
- audio information
- frequency
- audio
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000001914 filtration Methods 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 33
- 230000002708 enhancing effect Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 51
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种音频特征提取方法、装置及***,获取音频信息,对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后,通过梅尔滤波器组进行滤波处理,梅尔滤波器组是基于音频信息的语种信息设置的频率,从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的,与其语种特征相关联,从而确定的音频特征向量更符合该音频信息对应的语种信息的特征,提高了音频识别的精度。
Description
技术领域
本申请涉及语音识别领域,尤其涉及一种音频特征提取方法、装置及***。
背景技术
在语音识别领域,提取梅尔频谱倒谱系数(Mel-scaleFrequency CepstralCoeffkckents,MFCC)是目前最常用的特征提取方法。
然而,进行MFCC特征提取时,通常采用等分的M个三角滤波器组进行滤波处理,但是,对于不同的语种,发音频响侧重点会有不同,若采用等分的三角滤波器组进行滤波,对于某些特殊的语种,就会出现语音识别精度降低的问题。
发明内容
有鉴于此,本申请提供一种音频特征提取方法、装置及***,其具体方案如下:
一种音频特征提取方法,包括:
获取音频信息;
对所述音频信息执行加强语音信号性能的预处理,得到经过所述预处理后的音频信息;
通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域;
将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量。
进一步的,所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
基于所述音频信息确定所述音频信息对应的语种信息;
确定与所述语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率;
将频率域的所述音频信息经过所述基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
进一步的,确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率,包括:
基于所述音频信息对应的语种信息确定第一方式及第二方式;
梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器,第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定;第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定;
第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定;第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定;
其中,k为小于预设数量与1的和的一半的正整数;k+1为大于或等于预设数量与1的和的一半的正整数;每个梅尔滤波器的特定终止梅尔频率为所述梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
进一步的,确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率,包括:
基于所述音频信息对应的语种信息确定第一方式及第二方式;
若预设数量为M,待确定的频率点的数量为M+1个;
当i小于M与1的和的一半时,第i个频率点及其之前的频率点采用第一方式确定;
当i大于等于M与1的和的一半时,第i个频率点及其之后的频率点采用第二方式确定;
将M+1个所述频率点按照顺序确定为预设数量的梅尔滤波器的特定起始梅尔频率或特定终止梅尔频率。
进一步的,所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量,包括:
将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,得到与所述梅尔滤波器组中梅尔滤波器数量匹配的特征向量;
将所述与梅尔滤波器数量匹配的特征向量进行反余弦变换,生成所述音频信息的音频特征向量。
进一步的,所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
基于预设关系将所述音频信息由频率域的频率标度转换为梅尔频谱标度,并将转换为所述梅尔频谱标度的音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
进一步的,所述对所述音频信息执行加强语音信号性能的预处理,得到经过所述预处理后的音频信息,包括:
对所述音频信息进行分帧处理,得到每一帧音频数据;
对所述每一帧音频数据进行预加重处理后,将每一帧进行预加重处理后的音频数据经过窗函数处理,得到预处理后的音频信息。
一种音频特征提取***,包括:
获取单元,用于获取音频信息;
预处理单元,用于对所述音频信息执行加强语音信息性能的预处理,得到经过所述预处理后的音频信息;
转换单元,用于通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域;
滤波单元,用于将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量。
一种音频特征提取装置,包括:
处理器,用于获取音频信息;对所述音频信息执行加强语音信号性能的预处理,得到经过所述预处理后的音频信息;通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域;将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量;
存储器,用于存储所述处理器执行上述处理过程的程序。
一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行,实现如上述的音频特征提取方法的各步骤。
从上述技术方案可以看出,本申请公开的音频特征提取方法、装置及***,获取音频信息,对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后,通过梅尔滤波器组进行滤波处理,其中,梅尔滤波器组是基于音频信息的语种信息设置的频率,从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的,与其语种特征相关联,从而确定的音频特征向量更符合该音频信息对应的语种信息的特征,提高了音频识别的精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种音频特征提取方法的流程图;
图2为本申请实施例公开的一种音频特征提取方法的流程图;
图3为现有方案与本申请实施例所公开的方案的滤波器频率划分示意图;
图4为本申请实施例公开的一种音频特征提取***的结构示意图;
图5为本申请实施例公开的一种音频特征提取装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开了一种音频特征提取方法,其流程图如图1所示,包括:
步骤S11、获取音频信息;
步骤S12、对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息;
步骤S13、通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域;
步骤S14、将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。
MFCC(Mel-scaleFrequency Cepstral Coeffkckents,梅尔频谱倒谱系数)是在梅尔标度频率域提取出来的倒谱参数,梅尔标度描述了人耳频率的非线性特性。在语音识别和话者识别技术中,经常用到MFCC特征提取,通过对MFCC特征的提取,有助于有效识别音频信息。
目前,在对MFCC特征提取时,通常采用等分的M个三角滤波器组进行滤波处理,即对于一段音频数据,将该音频数据中的频率进行等分,等分后的每一个频段通过一个三角滤波器的滤波处理,但是这样的处理并未考虑到对于不同语种有不同的发音频响侧重点,就会导致对于某些语种来说,采用这样的方式,音频识别的精度较低。
为了解决这一问题,本方案中,在获取音频信息后,对音频信息进行预处理,以达到加强语音信号性能的目的,之后对音频信息进行快速傅里叶变换,以使音频信息由时间域转换为频率域,并将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,从而得到音频信息的音频特征向量。
在获取音频信息后,进行音频信息的预处理的同时,还会对音频信息的语种进行分析,从而确定音频信息对应的语种信息,即当前音频信息是通过哪一种语种输出的,是英语还是汉语,或者日语等。
在获取语种信息后,由于不同的语种信息,其音频的发音频响侧重点不同,因此,在获取语种信息后,需要基于语种信息的特点设置梅尔滤波器组中每个梅尔滤波器的初始频率及终止频率,以使得当前音频信息在经过基于语种信息的特点进行频率设置的梅尔滤波器组后,能够将音频信息的语种特点突出,以达到基于语种信息的特点对音频信息的音频特征向量经过获取,从而达到对音频信息精确识别的目的。
另外,对音频信息进行预处理,可以具体为:对音频信息进行分帧处理,得到每一帧音频数据,对每一帧音频数据进行预加重处理后,将每一帧进行预加重处理后的音频数据经过窗函数处理,得到预处理后的音频信息。
具体的,分帧即将音频信息分为多帧,每一帧的时长大概为20-30ms,其中一帧中可包括N个采样点,为了避免相邻两帧的变化过大,相邻两帧之间会有重叠区域,该重叠区域包含了M个采样点,通常M的值约为N的值的1/2或1/3。例如:每一帧为25毫秒,每次帧移10毫秒,即相邻的两帧之间有15毫秒的重叠区域。
另外,由于处理和传输音频的过程会引入噪声,从而使输出音频的信噪比相对于输入信噪比有所降低,而且大多数过程是对高频不利的,即音频频率越高噪声越大,而人声或音乐的频谱中通常是频率越高的成分幅度越小,这就造成输出端音频越接近高端,其信噪比降低会越严重。为了提高高频成分的传输质量,就要在音频输入端预先处理,将高频成分的幅度加大,以改善解调输出端的高频信噪比,这就是预加重。
音频的预加重公式可以为:
Yt+1=Xt+1-α*Xt
其中,Xt表示t时刻采样点的数值,Y表示预加重后的采样点的值,α为预加重系数,其范围为0.95-1之间,音频第一个采样点不变。
在预加重之后,进行窗函数的处理,即添加汉明窗,其是为了防止傅里叶变换后出现震荡的现象,将每一帧乘以窗函数,以增加帧左端和右端的连续性,其公式可以为:
Zn=Yn*hn
另外,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
基于预设关系将音频信息由频率域的频率标度转换为梅尔频谱标度,并将转换为梅尔频谱标度的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
通过上述预设关系,可以将音频信息的线性频率转换为梅尔频率,从而便于获取MFCC的音频特征向量。
在将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理之后,得到与梅尔滤波器组中梅尔滤波器数量匹配的特征向量,会通过将与梅尔滤波器数量匹配的特征向量进行反余弦变换,生成音频信息的音频特征向量。
若梅尔滤波器组中共用M个梅尔滤波器,则得到的特征向量为M维特征向量,将该M维特征向量做反余弦变换,可以得到13维特征向量,该13维特征向量即为MFCC特征向量。
本实施例公开的音频特征提取方法,获取音频信息,对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后,通过梅尔滤波器组进行滤波处理,其中,梅尔滤波器组是基于音频信息的语种信息设置的频率,从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的,与其语种特征相关联,从而确定的音频特征向量更符合该音频信息对应的语种信息的特征,提高了音频识别的精度。
本实施例公开了一种音频特征提取方法,其流程图如图2所示,包括:
步骤S21、获取音频信息;
步骤S22、对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息;
步骤S23、通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域;
步骤S24、基于音频信息确定音频信息对应的语种信息;
步骤S25、确定与语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率;
步骤S26、将频率域的音频信息经过基于特定梅尔频率设置的每个梅尔滤波器的滤波处理,确定音频信息的音频特征向量。
在基于语种信息对梅尔滤波器中每个梅尔滤波器进行设置时,其设置的是每个梅尔滤波器的频率,是每个梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率,即基于语种信息设置的实际是每个梅尔滤波器的工作频段。
基于上述公式为每个三角滤波器所分的频段长度是相同的,因此,是将频率等分为M段之后,分别分配给M个三角滤波器,每相邻两个三角滤波器中前一个三角滤波器的终止频率是后一个三角滤波器的中心频率,而前一个三角滤波器的中心频率是后一个三角滤波器的起始频率,依此类推。
而本方案中,基于语种的不同,将音频信息分成两部分,这两部分音频信息采用不同的方式确定频率范围,具体的:
基于音频信息对应的语种信息确定第一方式及第二方式,梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器,第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定,第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定;第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定,第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定;其中,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数,每个梅尔滤波器的特定终止梅尔频率为该梅尔滤波器的下一个梅尔滤波器的中心频率,每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
采用本方案的方式可以为每个梅尔滤波器分别设置与语种匹配的音频的频段,使得每个梅尔滤波器的频段并非是将梅尔频谱等分,而是对应特定的频段。
具体的,若梅尔滤波器组中梅尔滤波器为M个,即预设数量为M,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数,即:(M+1)/2-1≤k﹤(M+1)/2。
其中,F为转换为梅尔频谱后的最大频率,i=1,......,M,当确定某个梅尔滤波器的中心频率时,公式中的fi即表示第i个梅尔滤波器的中心频率;当确定某个梅尔滤波器的特定初始梅尔频率时,公式中的fi-1表示第i个梅尔滤波器的特定初始梅尔频率;当确定某个梅尔滤波器的特定终止梅尔频率时,通过fi+1表示第i个梅尔滤波器的特定终止梅尔频率;例如:确定第k个梅尔滤波器的中心频率时,公式中的i与k相等,当确定第k个梅尔滤波器的特定终止梅尔频率时,公式中的i与k-1相等。
其中,(M+1)/2是将原先的(M+1)划分为上下两部分,而为i或(i-M-1)设置平方是为了改变fi的数值分布,改变数值分布后,提取到的信号特征会对低频部分的响应更加灵敏,从而达到提高识别率的目的。
k为小于(M+1)/2的正整数,即第k个及设置在第k个梅尔滤波器之前的梅尔滤波器,其特定起始梅尔频率均采用第一方式确定,而第k+1个滤波器及设置在第k+1个梅尔滤波器之后的梅尔滤波器,其特定起始梅尔频率均采用第二方式确定;
在计算特定终止频率时,在第k-1个梅尔滤波器及设置在第k-1个梅尔滤波器之前的梅尔滤波器,其特定终止梅尔频率采用第一方式确定,第k个梅尔滤波器及设置在第k个梅尔滤波器之后的梅尔滤波器,其特定终止梅尔频率采用第二方式确定。
由于每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率,因此,在确定了某一个梅尔滤波器的中心频率后,设置在该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率也就确定了。因此,可采用按照梅尔频率点的顺序确定,而无需考虑第几个梅尔滤波器,只要确定出所有梅尔频率点的频率,再按照顺序设置M个梅尔滤波器即可,如下所示:
其中,i用于表示第几个频率点,当梅尔频谱上共需要设置M个梅尔滤波器时,相邻设置的两个梅尔滤波器的频率之间是有重叠的,由于相邻设置的梅尔滤波器的前一个滤波器的中心频率为后一个滤波器的起始频率,因此,设置频率点时,只需要确定M+2个频率点即可。在确定完M+2个频率点后,在每相邻三个频率点之间设置一个梅尔滤波器,而相邻的这三个频率点即为该梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率;
其中,fi表示第i个梅尔滤波器的中心频率,fi-1表示第i个梅尔滤波器的特定起始频率,fi+1表示第i个梅尔滤波器的特定终止频率,则两个相邻的梅尔滤波器中前一个梅尔滤波器的中心频率至特定终止频率所在的频段与后一个梅尔滤波器的特定起始频率至中心频率所在的频段是重叠的。
如图3所示,其中,直线31为现有方案中确定的梅尔滤波器的频率划分,而弧线32为采用本方案确定的梅尔滤波器的频率划分,其中,M=71,F=6539。
本实施例公开的音频特征提取方法,获取音频信息,对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后,通过梅尔滤波器组进行滤波处理,其中,梅尔滤波器组是基于音频信息的语种信息设置的频率,从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的,与其语种特征相关联,从而确定的音频特征向量更符合该音频信息对应的语种信息的特征,提高了音频识别的精度。
本实施例公开了一种音频特征提取***,其结构示意图如图4所示,包括:
获取单元41,预处理单元42,转换单元43及滤波单元44。
其中,获取单元41用于获取音频信息;
预处理单元42用于对音频信息执行加强语音信息性能的预处理,得到经过预处理后的音频信息;
转换单元43用于通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域;
滤波单元44用于将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。
MFCC(Mel-scaleFrequency Cepstral Coeffkckents,梅尔频谱倒谱系数)是在梅尔标度频率域提取出来的倒谱参数,梅尔标度描述了人耳频率的非线性特性。在语音识别和话者识别技术中,经常用到MFCC特征提取,通过对MFCC特征的提取,有助于有效识别音频信息。
目前,在对MFCC特征提取时,通常采用等分的M个三角滤波器组进行滤波处理,即对于一段音频数据,将该音频数据中的频率进行等分,等分后的每一个频段通过一个三角滤波器的滤波处理,但是这样的处理并未考虑到对于不同语种有不同的发音频响侧重点,就会导致对于某些语种来说,采用这样的方式,音频识别的精度较低。
为了解决这一问题,本方案中,在获取音频信息后,对音频信息进行预处理,以达到加强语音信号性能的目的,之后对音频信息进行快速傅里叶变换,以使音频信息由时间域转换为频率域,并将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,从而得到音频信息的音频特征向量。
在获取音频信息后,进行音频信息的预处理的同时,还会对音频信息的语种进行分析,从而确定音频信息对应的语种信息,即当前音频信息是通过哪一种语种输出的,是英语还是汉语,或者日语等。
在获取语种信息后,由于不同的语种信息,其音频的发音频响侧重点不同,因此,在获取语种信息后,需要基于语种信息的特点设置梅尔滤波器组中每个梅尔滤波器的初始频率及终止频率,以使得当前音频信息在经过基于语种信息的特点进行频率设置的梅尔滤波器组后,能够将音频信息的语种特点突出,以达到基于语种信息的特点对音频信息的音频特征向量经过获取,从而达到对音频信息精确识别的目的。
另外,对音频信息进行预处理,可以具体为:对音频信息进行分帧处理,得到每一帧音频数据,对每一帧音频数据进行预加重处理后,将每一帧进行预加重处理后的音频数据经过窗函数处理,得到预处理后的音频信息。
具体的,分帧即将音频信息分为多帧,每一帧的时长大概为20-30ms,其中一帧中可包括N个采样点,为了避免相邻两帧的变化过大,相邻两帧之间会有重叠区域,该重叠区域包含了M个采样点,通常M的值约为N的值的1/2或1/3。例如:每一帧为25毫秒,每次帧移10毫秒,即相邻的两帧之间有15毫秒的重叠区域。
另外,由于处理和传输音频的过程会引入噪声,从而使输出音频的信噪比相对于输入信噪比有所降低,而且大多数过程是对高频不利的,即音频频率越高噪声越大,而人声或音乐的频谱中通常是频率越高的成分幅度越小,这就造成输出端音频越接近高端,其信噪比降低会越严重。为了提高高频成分的传输质量,就要在音频输入端预先处理,将高频成分的幅度加大,以改善解调输出端的高频信噪比,这就是预加重。
音频的预加重公式可以为:
Yt+1=Xt+1-α*Xt
其中,Xt表示t时刻采样点的数值,Y表示预加重后的采样点的值,α为预加重系数,其范围为0.95-1之间,音频第一个采样点不变。
在预加重之后,进行窗函数的处理,即添加汉明窗,其是为了防止傅里叶变换后出现震荡的现象,将每一帧乘以窗函数,以增加帧左端和右端的连续性,其公式可以为:
Zn=Yn*hn
另外,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
基于预设关系将音频信息由频率域的频率标度转换为梅尔频谱标度,并将转换为梅尔频谱标度的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
通过上述预设关系,可以将音频信息的线性频率转换为梅尔频率,从而便于获取MFCC的音频特征向量。
在将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理之后,得到与梅尔滤波器组中梅尔滤波器数量匹配的特征向量,会通过将与梅尔滤波器数量匹配的特征向量进行反余弦变换,生成音频信息的音频特征向量。
若梅尔滤波器组中共用M个梅尔滤波器,则得到的特征向量为M维特征向量,将该M维特征向量做反余弦变换,可以得到13维特征向量,该13维特征向量即为MFCC特征向量。
进一步的,滤波单元44用于:基于音频信息确定音频信息对应的语种信息;确定与语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率;将频率域的音频信息经过基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
在基于语种信息对梅尔滤波器中每个梅尔滤波器进行设置时,其设置的是每个梅尔滤波器的频率,是每个梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率,即基于语种信息设置的实际是每个梅尔滤波器的工作频段。
基于上述公式为每个三角滤波器所分的频段长度是相同的,因此,是将频率等分为M段之后,分别分配给M个三角滤波器,每相邻两个三角滤波器中前一个三角滤波器的终止频率是后一个三角滤波器的中心频率,而前一个三角滤波器的中心频率是后一个三角滤波器的起始频率,依此类推。
而本方案中,基于语种的不同,将音频信息分成两部分,这两部分音频信息采用不同的方式确定频率范围,具体的:
基于音频信息对应的语种信息确定第一方式及第二方式,梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器,第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定,第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定;第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定,第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定;其中,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数,每个梅尔滤波器的特定终止梅尔频率为该梅尔滤波器的下一个梅尔滤波器的中心频率,每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
采用本方案的方式可以为每个梅尔滤波器分别设置与语种匹配的音频的频段,使得每个梅尔滤波器的频段并非是将梅尔频谱等分,而是对应特定的频段。
具体的,若梅尔滤波器组中梅尔滤波器为M个,即预设数量为M,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数,即:(M+1)/2-1≤k﹤(M+1)/2。
其中,F为转换为梅尔频谱后的最大频率,i=1,……,M,当确定某个梅尔滤波器的中心频率时,公式中的fi即表示第i个梅尔滤波器的中心频率;当确定某个梅尔滤波器的特定初始梅尔频率时,公式中的fi-1表示第i个梅尔滤波器的特定初始梅尔频率;当确定某个梅尔滤波器的特定终止梅尔频率时,通过fi+1表示第i个梅尔滤波器的特定终止梅尔频率;例如:确定第k个梅尔滤波器的中心频率时,公式中的i与k相等,当确定第k个梅尔滤波器的特定终止梅尔频率时,公式中的i与k-1相等。
其中,(M+1)/2是将原先的(M+1)划分为上下两部分,而为i或(i-M-1)设置平方是为了改变fi的数值分布,改变数值分布后,提取到的信号特征会对低频部分的响应更加灵敏,从而达到提高识别率的目的。
k为小于(M+1)/2的正整数,即第k个及设置在第k个梅尔滤波器之前的梅尔滤波器,其特定起始梅尔频率均采用第一方式确定,而第k+1个滤波器及设置在第k+1个梅尔滤波器之后的梅尔滤波器,其特定起始梅尔频率均采用第二方式确定;
在计算特定终止频率时,在第k-1个梅尔滤波器及设置在第k-1个梅尔滤波器之前的梅尔滤波器,其特定终止梅尔频率采用第一方式确定,第k个梅尔滤波器及设置在第k个梅尔滤波器之后的梅尔滤波器,其特定终止梅尔频率采用第二方式确定。
由于每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率,因此,在确定了某一个梅尔滤波器的中心频率后,设置在该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率也就确定了。因此,可采用按照梅尔频率点的顺序确定,而无需考虑第几个梅尔滤波器,只要确定出所有梅尔频率点的频率,再按照顺序设置M个梅尔滤波器即可,如下所示:
其中,i用于表示第几个频率点,当梅尔频谱上共需要设置M个梅尔滤波器时,相邻设置的两个梅尔滤波器的频率之间是有重叠的,由于相邻设置的梅尔滤波器的前一个滤波器的中心频率为后一个滤波器的起始频率,因此,设置频率点时,只需要确定M+2个频率点即可。在确定完M+2个频率点后,在每相邻三个频率点之间设置一个梅尔滤波器,而相邻的这三个频率点即为该梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率;
其中,fi表示第i个梅尔滤波器的中心频率,fi-1表示第i个梅尔滤波器的特定起始频率,fi+1表示第i个梅尔滤波器的特定终止频率,则两个相邻的梅尔滤波器中前一个梅尔滤波器的中心频率至特定终止频率所在的频段与后一个梅尔滤波器的特定起始频率至中心频率所在的频段是重叠的。
如图3所示,其中,直线31为现有方案中确定的梅尔滤波器的频率划分,而弧线32为采用本方案确定的梅尔滤波器的频率划分,其中,M=71,F=6539。
本实施例公开的音频特征提取***,获取音频信息,对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后,通过梅尔滤波器组进行滤波处理,其中,梅尔滤波器组是基于音频信息的语种信息设置的频率,从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的,与其语种特征相关联,从而确定的音频特征向量更符合该音频信息对应的语种信息的特征,提高了音频识别的精度。
本实施例公开了一种音频特征提取装置,其结构示意图如图5所示,包括:
处理器51及存储器52。
处理器51用于获取音频信息;对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息;通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域;将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量;
存储器52用于存储处理器执行上述处理过程的程序。
进一步的,处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
处理器基于音频信息确定音频信息对应的语种信息;确定与语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率;将频率域的音频信息经过基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
进一步的,处理器确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率,包括:
处理器基于音频信息对应的语种信息确定第一方式及第二方式;梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器,第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定;第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定;第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定;第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定;其中,k为小于预设数量与1的和的一半的正整数;k+1为大于或等于预设数量与1的和的一半的正整数;每个梅尔滤波器的特定终止梅尔频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
进一步的,处理器确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率,包括:
处理器基于音频信息对应的语种信息确定第一方式及第二方式;若预设数量为M,待确定的频率点的数量为M+1个;当i小于M与1的和的一半时,第i个频率点及其之前的频率点采用第一方式确定;当i大于等于M与1的和的一半时,第i个频率点及其之后的频率点采用第二方式确定;将M+1个频率点按照顺序确定为预设数量的梅尔滤波器的特定起始梅尔频率或特定终止梅尔频率。
进一步的,处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量,包括:
处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,得到与梅尔滤波器组中梅尔滤波器数量匹配的特征向量;将与梅尔滤波器数量匹配的特征向量进行反余弦变换,生成音频信息的音频特征向量。
进一步的,处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
处理器基于预设关系将音频信息由频率域的频率标度转换为梅尔频谱标度,并将转换为梅尔频谱标度的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
进一步的,处理器对所述音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,包括:
处理器对音频信息进行分帧处理,得到每一帧音频数据;对每一帧音频数据进行预加重处理后,将每一帧进行预加重处理后的音频数据经过窗函数处理,得到预处理后的音频信息。
本实施例所公开的音频特征提取装置是基于上述实施例公开的音频特征提取方法实现的,在此不再赘述。
本实施例公开的音频特征提取装置,获取音频信息,对音频信息执行加强语音信号性能的预处理,得到经过预处理后的音频信息,通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域,将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后,通过梅尔滤波器组进行滤波处理,其中,梅尔滤波器组是基于音频信息的语种信息设置的频率,从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的,与其语种特征相关联,从而确定的音频特征向量更符合该音频信息对应的语种信息的特征,提高了音频识别的精度。
本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器加载并执行,实现上述音频特征提取方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
本申请还提出了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述音频特征提取方法方面的各种可选实现方式中所提供方法,具体实现过程可以参照上述相应实施例的描述,不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种音频特征提取方法,其特征在于,包括:
获取音频信息;
对所述音频信息执行加强语音信号性能的预处理,得到经过所述预处理后的音频信息;
通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域;
将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量。
2.根据权利要求1所述的方法,其特征在于,所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
基于所述音频信息确定所述音频信息对应的语种信息;
确定与所述语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率;
将频率域的所述音频信息经过所述基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
3.根据权利要求2所述的方法,其特征在于,确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率,包括:
基于所述音频信息对应的语种信息确定第一方式及第二方式;
梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器,第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定;第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定;
第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定;第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定;
其中,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数;每个梅尔滤波器的特定终止梅尔频率为所述梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
4.根据权利要求2所述的方法,其特征在于,确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率,包括:
基于所述音频信息对应的语种信息确定第一方式及第二方式;
若预设数量为M,待确定的频率点的数量为M+1个;
当i小于M与1的和的一半时,第i个频率点及其之前的频率点采用第一方式确定;
当i大于等于M与1的和的一半时,第i个频率点及其之后的频率点采用第二方式确定;
将M+1个所述频率点按照顺序确定为预设数量的梅尔滤波器的特定起始梅尔频率或特定终止梅尔频率。
5.根据权利要求1所述的方法,其特征在于,所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量,包括:
将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,得到与所述梅尔滤波器组中梅尔滤波器数量匹配的特征向量;
将所述与梅尔滤波器数量匹配的特征向量进行反余弦变换,生成所述音频信息的音频特征向量。
6.根据权利要求1所述的方法,其特征在于,所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,包括:
基于预设关系将所述音频信息由频率域的频率标度转换为梅尔频谱标度,并将转换为所述梅尔频谱标度的音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
7.根据权利要求1所述的方法,其特征在于,所述对所述音频信息执行加强语音信号性能的预处理,得到经过所述预处理后的音频信息,包括:
对所述音频信息进行分帧处理,得到每一帧音频数据;
对所述每一帧音频数据进行预加重处理后,将每一帧进行预加重处理后的音频数据经过窗函数处理,得到预处理后的音频信息。
8.一种音频特征提取***,其特征在于,包括:
获取单元,用于获取音频信息;
预处理单元,用于对所述音频信息执行加强语音信息性能的预处理,得到经过所述预处理后的音频信息;
转换单元,用于通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域;
滤波单元,用于将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量。
9.一种音频特征提取装置,其特征在于,包括:
处理器,用于获取音频信息;对所述音频信息执行加强语音信号性能的预处理,得到经过所述预处理后的音频信息;通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域;将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,确定所述音频信息的音频特征向量;
存储器,用于存储所述处理器执行上述处理过程的程序。
10.一种可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行,实现如上述的音频特征提取方法的各步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110901109.2A CN113611288A (zh) | 2021-08-06 | 2021-08-06 | 一种音频特征提取方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110901109.2A CN113611288A (zh) | 2021-08-06 | 2021-08-06 | 一种音频特征提取方法、装置及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113611288A true CN113611288A (zh) | 2021-11-05 |
Family
ID=78307416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110901109.2A Pending CN113611288A (zh) | 2021-08-06 | 2021-08-06 | 一种音频特征提取方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611288A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090080777A (ko) * | 2008-01-22 | 2009-07-27 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN109147818A (zh) * | 2018-10-30 | 2019-01-04 | Oppo广东移动通信有限公司 | 声学特征提取方法、装置、存储介质及终端设备 |
CN109978034A (zh) * | 2019-03-18 | 2019-07-05 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
-
2021
- 2021-08-06 CN CN202110901109.2A patent/CN113611288A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090080777A (ko) * | 2008-01-22 | 2009-07-27 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN109147818A (zh) * | 2018-10-30 | 2019-01-04 | Oppo广东移动通信有限公司 | 声学特征提取方法、装置、存储介质及终端设备 |
CN109978034A (zh) * | 2019-03-18 | 2019-07-05 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100930060B1 (ko) | 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
EP1093112B1 (en) | A method for generating speech feature signals and an apparatus for carrying through this method | |
CN111128213A (zh) | 一种分频段进行处理的噪声抑制方法及其*** | |
CN108682432B (zh) | 语音情感识别装置 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
JP3493033B2 (ja) | 音声認識用回路装置 | |
CN110942766A (zh) | 音频事件检测方法、***、移动终端及存储介质 | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
CN111599372B (zh) | 一种稳定的在线多通道语音去混响方法及*** | |
US8000959B2 (en) | Formants extracting method combining spectral peak picking and roots extraction | |
CN114996489A (zh) | 新闻数据的违规检测方法、装置、设备及存储介质 | |
CN110379438B (zh) | 一种语音信号基频检测与提取方法及*** | |
US5812966A (en) | Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
CN113611288A (zh) | 一种音频特征提取方法、装置及*** | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
CN112397087B (zh) | 共振峰包络估计、语音处理方法及装置、存储介质、终端 | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
CN113643689B (zh) | 一种数据滤波方法和相关设备 | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
CN110189765B (zh) | 基于频谱形状的语音特征估计方法 | |
CN116543751A (zh) | 语音特征提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |