CN106205638A - 一种面向音频事件检测的双层基音特征提取方法 - Google Patents

一种面向音频事件检测的双层基音特征提取方法 Download PDF

Info

Publication number
CN106205638A
CN106205638A CN201610430195.2A CN201610430195A CN106205638A CN 106205638 A CN106205638 A CN 106205638A CN 201610430195 A CN201610430195 A CN 201610430195A CN 106205638 A CN106205638 A CN 106205638A
Authority
CN
China
Prior art keywords
pitch
frequency
signal
cycle
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610430195.2A
Other languages
English (en)
Other versions
CN106205638B (zh
Inventor
王健飞
张卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610430195.2A priority Critical patent/CN106205638B/zh
Publication of CN106205638A publication Critical patent/CN106205638A/zh
Application granted granted Critical
Publication of CN106205638B publication Critical patent/CN106205638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。

Description

一种面向音频事件检测的双层基音特征提取方法
技术领域
本发明属于音频事件检测技术领域,特别涉及一种面向音频事件检测的双层基音特征提取方法。
背景技术
当前对于长时域特征的音频事件,运用在网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术的研究工作开始兴起。长时域特征是相对于短时域特征提出的,短时域特征主要针对在短时变化较大的音频事件,长时域特征则忽略短时内次要的特征,重点关注长时间主要特征的变化规律。对于可以进行长时域特征提取的音频事件往往在短时和长时都具有明显的连贯性。为处理在短时域和长时域都体现出较为明显的周期性的音频信号检测问题,提出了一种新型特征的提取方法。这种新型特征可以运用在尖叫声、警笛声、心跳声等长时域周期特征的音频事件检测。该技术可以运用到网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术中。
发明内容
本发明的目的是提供一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:
步骤A1,通过网络搜集音视频文件、麦克风收集公共场所声音信息等途径获得音频信号,将音频信号格式标准化:
将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;
步骤A2,声音信号预处理;
步骤A3,双层基音(double-deck-pitch,DDP)特征提取;包括
A31零均值化,对每帧信号减去均值;
A32对每帧信号进行离散傅里叶变换(DFT),转化为频域信号,
X ( ω k ) = Σ n = 0 N d - 1 x ( n ) e - j 2 π N d n k
其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;
A33对每帧音频提取候选基频,计算候选基频出现概率;
A34计算帧间候选基频转移概率;
A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为 P a t h C o s t = Σ cos t ( C i n , C j n + 1 ) ,
其中,
ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;
A36进行平滑滤波处理得到该信号的PITCH(基音)特征;
步骤A4,PITCH特征后处理:
A41对PITCH特征进行周期延拓;
A42计算PITCH的自相关函数
其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;
A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数;
A44对以上特征进行整合得到完整的DDP特征。
所述步骤A2,声音信号预处理,包括步骤:
A21,静音处理:
A211计算信号的能量E,以及能量的均值M和方差V;
A212对能量E进行标准化,
A213保留能量大于静音阈值0.1的信号;
A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;
A23进行分帧加窗处理,
每段帧长根据音频基频先验知识决定,其中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗,
W ( n ) = 0.54 + 0.46 * c o s ( 2 π n N h - 1 ) , 0 ≤ n ≤ N h - 1
;其中Nh为汉明窗总点数,n为样点序号。
所述A33对每帧音频提取候选基频,计算候选基频出现概率,包括:
A331对每帧频域信号提取所有峰值频率;
A332滤除峰值频率中较低频率;
A333对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;
A334对候选基频序列进行方差归一化;
A335并根据候选基频谱能量计算其所占概率:
Pa j n = E j n Σ j E j n
其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。
所述A34计算帧间候选基频转移概率的步骤:,
A341计算帧间候选基频的距离,进行方差归一化;
D i j n = Δ ( 1 | C j n + 1 - C i n | + K )
其中,表示第n层的第i个候选基频的频率,表示第n层的第i个频点和第n+1层第j个频点之间的距离;Δ表示归一化,常数K设置为0.01;
A342并根据候选基频间距离计算其所占概率:
所述A43根据自相关函数得到单周期特征具体包括:
A431分析R(t)的谷值,判断音频信号的PITCH特征是否具有周期性分为三种情况讨论:
1)R没有谷值≥PITCH没有周期性,周期长度PITCH周期长度为音频PITCH原长度;进入A434
2)R有且只有1个谷值≥PITCH有周期性,且时间长度范围内只有一个周期,进入A433;
3)R有且有大于1个谷值≥PITCH有周期性,且时间长度范围内有多个周期,进入A432;
A432周期有效性检测,
a计算多个周期的差值,并取平均;
b差值平均乘以周期数,判断是否小于原PITCH长度的1/k;k=3;
若是,该多周期无效,取第一个谷值点的值作为周期长度;进入A433;
若否,取原PITCH特征第二个周期的起点作为周期起点,取第一个谷值点的值作为周期长度;进入A433;
A433周期微调,获得最为合适的周期长度:
a以得到的周期为中值,上下各取1/4作为待选周期的上下限。若无法取到,则以最接近1/4的值作为上下限;
b计算每个周的末尾值与起始值得欧式距离,选取距离最小的值所代表的周期作为该信号最终的周期;
A434提取单周期长度的信号,得到统一维度的单周期PITCH:
a按照已经选定的起始点,和已经得到的周期值,截取一段单周期PITCH;
b对该段PITCH进行缩放,得到长度为Lt(Lt=1000)的单周期PITCH;
c去均值化。单周期PITCH减去均值。并提取住均值作为单周期PITCH中心频率;
d对单周期PITCH的大小进行缩放,其中P_old为缩放前的单周期PITCH,max-min为PITCH的频带宽度,P_new为缩放后的PITCH;
A435得到最后对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前12个有效频域值。
本发明方法有效提升了对长时域周期性音频事件检测的准确率。
附图说明
图1为面向音频事件检测的双层基音特征提取流程图。
具体实施方式
本发明提供一种面向音频事件检测的双层基音特征提取方法,下面结合附图予以说明。
图1所示为面向音频事件检测的双层基音特征提取流程图。该双层基音特征提取流程包括如下步骤:
步骤A1,通过网络搜集音视频文件、麦克风收集公共场所声音信息等途径获得音频信号,将音频信号格式标准化:
将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;
步骤A2,声音信号预处理,包括步骤:
A21,静音处理,
A211计算信号的能量E,以及能量的均值M和方差V;
A212对能量E进行标准化,
E ~ = E - M V
A213保留能量大于静音阈值(0.1)的信号;
A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;
A23进行分帧加窗处理,
每段帧长根据音频基频先验知识决定,本***中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗,汉明窗的标准公式为其中α取0.46。
其中Nh为汉明窗总点数,n为样点序号。
步骤A3,双层基音(double-deck-pitch,DDP)特征提取;
A31零均值化,对每帧信号减去均值;
A32对每帧信号进行离散傅里叶变换(DFT),转化为频域信号,
X ( ω k ) = Σ n = 0 N d - 1 x ( n ) e - j 2 π N d n k
其中,ωk代表频率,k代表频率标号,Nd是DEF变换点数,这里Nd=4000,每点的分辨率为2Hz;
A33对每帧音频提取候选基频,计算候选基频出现概率;
A331对每帧频域信号提取所有峰值频率;
A332滤除峰值频率中较低频率;
A333对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;
A334对候选基频序列进行方差归一化;
A335并根据候选基频谱能量计算其所占概率:
Pa j n = E j n Σ j E j n
其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。
A34计算帧间候选基频转移概率
A341计算帧间候选基频的距离,进行方差归一化;
D i j n = Δ ( 1 | C j n + 1 - C i n | + K )
其中,表示第n层的第i个候选基频的频率,表示第n层的第i个频点和第n+1层第j个频点之间的距离;Δ表示归一化,常数K设置为0.01;
A342并根据候选基频间距离计算其所占概率:
Pb i j n = D i j n Σ j D i j n
A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为
P a t h C o s t = Σ cos t ( C i n , C j n + 1 )
其中,
ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;
A36进行平滑滤波处理得到该信号的PITCH(基音)特征;
步骤A4,PITCH特征后处理
A41对PITCH特征进行周期延拓
A42计算PITCH的自相关函数
其中Np为PITCH特征的长度标号,P(n)表示第n个PITCH特征点的频率,t表示平移距离。
A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数。
A431分析R(t)的谷值,判断音频信号的PITCH特征是否具有周期性分为三种情况讨论:
1)R没有谷值≥PITCH没有周期性,周期长度PITCH周期长度为音频PITCH原长度;进入A434
2)R有且只有1个谷值≥PITCH有周期性,且时间长度范围内只有一个周期,进入A433;
3)R有且有大于1个谷值≥PITCH有周期性,且时间长度范围内有多个周期,进入A432;
A432周期有效性检测,
a计算多个周期的差值,并取平均;
b差值平均乘以周期数,判断是否小于原PITCH长度的1/k;k=3;
若是,该多周期无效,取第一个谷值点的值作为周期长度;进入A433;
若否,取原PITCH特征第二个周期的起点作为周期起点,取第一个谷值点的值作为周期长度;进入A433;
A433周期微调,获得最为合适的周期长度:
a以得到的周期为中值,上下各取1/4作为待选周期的上下限。若无法取到,则以最接近1/4的值作为上下限;
b计算每个周的末尾值与起始值得欧式距离,选取距离最小的值所代表的周期作为该信号最终的周期;
A434提取单周期长度的信号,得到统一维度的单周期PITCH:
a按照已经选定的起始点,和已经得到的周期值,截取一段单周期PITCH;
b对该段PITCH进行缩放,得到长度为Lt(Lt=1000)的单周期PITCH;
c去均值化。单周期PITCH减去均值。并提取住均值作为单周期PITCH中心频率;
d对单周期PITCH的大小进行缩放,其中P_old为缩放前的单周期PITCH,max-min为PITCH的频带宽度,P_new为缩放后的PITCH;
A435得到最后对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前12个有效频域值;
A44对以上特征进行整合得到完整的DDP特征。
该技术可以运用到网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术中。

Claims (5)

1.一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:
步骤A1,通过网络下载或麦克风设备采集获得音频信号,将音频信号格式标准化:将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;
步骤A2,声音信号预处理;
步骤A3,双层基音DDP特征提取;包括
A31零均值化,对每帧信号减去均值;
A32对每帧信号进行离散傅里叶变换DFT,转化为频域信号,
X ( ω k ) = Σ n = 0 N d - 1 x ( n ) e - j 2 π N d n k
其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;
A33对每帧音频提取候选基频,计算候选基频出现概率;
A34计算帧间候选基频转移概率;
A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为
P a t h C o s t = Σ cos t ( C i n , C i n + 1 ) ,
其中,
ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;
A36进行平滑滤波处理得到该信号的基音PITCH特征;
步骤A4,PITCH特征后处理:
A41对PITCH特征进行周期延拓;
A42计算PITCH的自相关函数
其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;
A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数;
A44对以上特征进行整合得到完整的DDP特征。
2.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述步骤A2,声音信号预处理,包括步骤:
A21静音处理:
A211计算信号的能量E,以及能量的均值M和方差V;
A212对能量E进行标准化,
A213保留能量大于静音阈值(0.1)的信号;
A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;
A23进行分帧加窗处理,
每段帧长根据音频基频先验知识决定,其中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗,
W ( n ) = 0.54 + 0.46 * c o s ( 2 π n N h - 1 ) , 0 ≤ n ≤ N h - 1 ;
其中取Nh为汉明窗总点数,n为样点序号。
3.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述A33对每帧音频提取候选基频,计算候选基频出现概率,包括:
A331对每帧频域信号提取所有峰值频率;
A332滤除峰值频率中较低频率;
A333对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;
A334对候选基频序列进行方差归一化;
A335并根据候选基频谱能量计算其所占概率:
其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。
4.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述A34计算帧间候选基频转移概率的步骤:
A341计算帧间候选基频的距离,进行方差归一化;
D i j n = Δ ( 1 | C j n + 1 - C i n | + K )
其中,表示第n层的第i个候选基频的频率,表示第n层的第i个频点和第n+1层第j个频点之间的距离;Δ表示归一化,常数K设置为0.01;
A342并根据候选基频间距离计算其所占概率:
5.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述A43根据自相关函数得到单周期特征具体包括:
A431分析R(t)的谷值,判断音频信号的PITCH特征是否具有周期性分为三种情况讨论:
1)R没有谷值=>PITCH没有周期性,周期长度PITCH周期长度为音频PITCH原长度;进入A434;
2)R有且只有1个谷值≥PITCH有周期性,且时间长度范围内只有一个周期,进入A433;
3)R有且有大于1个谷值≥PITCH有周期性,且时间长度范围内有多个周期,进入A432;
A432周期有效性检测,
a计算多个周期的差值,并取平均;
b差值平均乘以周期数,判断是否小于原PITCH长度的1/k;k=3;
若是,该多周期无效,取第一个谷值点的值作为周期长度;进入A433;
若否,取原PITCH特征第二个周期的起点作为周期起点,取第一个谷值点的值作为周期长度;进入A433;
A433周期微调,获得最为合适的周期长度:
a以得到的周期为中值,上下各取1/4作为待选周期的上下限,若无法取到,则以最接近1/4的值作为上下限;
b计算每个周的末尾值与起始值得欧式距离,选取距离最小的值所代表的周期作为该信号最终的周期;
A434提取单周期长度的信号,得到统一维度的单周期PITCH:
a按照已经选定的起始点,和已经得到的周期值,截取一段单周期PITCH;
b对该段PITCH进行缩放,得到长度为Lt(Lt=1000)的单周期PITCH;
c去均值化,单周期PITCH减去均值,并提取住均值作为单周期PITCH中心频率;
d对单周期PITCH的大小进行缩放,其中P_old为缩放前的单周期PITCH,max-min为PITCH的频带宽度,P_new为缩放后的PITCH;
A435最后对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前12个有效频域值。
CN201610430195.2A 2016-06-16 2016-06-16 一种面向音频事件检测的双层基音特征提取方法 Active CN106205638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610430195.2A CN106205638B (zh) 2016-06-16 2016-06-16 一种面向音频事件检测的双层基音特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610430195.2A CN106205638B (zh) 2016-06-16 2016-06-16 一种面向音频事件检测的双层基音特征提取方法

Publications (2)

Publication Number Publication Date
CN106205638A true CN106205638A (zh) 2016-12-07
CN106205638B CN106205638B (zh) 2019-11-08

Family

ID=57460696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610430195.2A Active CN106205638B (zh) 2016-06-16 2016-06-16 一种面向音频事件检测的双层基音特征提取方法

Country Status (1)

Country Link
CN (1) CN106205638B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301858A (zh) * 2017-05-31 2017-10-27 华南理工大学 基于音频特征空间分层描述的音频分类方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
JP2009237589A (ja) * 2003-12-25 2009-10-15 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
CN102737645A (zh) * 2012-06-15 2012-10-17 武汉天喻信息产业股份有限公司 一种语音信号的基音周期估计算法
CN103474074A (zh) * 2013-09-09 2013-12-25 深圳广晟信源技术有限公司 语音基音周期估计方法和装置
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN103824555A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN104599682A (zh) * 2015-01-13 2015-05-06 清华大学 电话线质量语音的基音周期提取方法
CN105469807A (zh) * 2015-12-30 2016-04-06 中国科学院自动化研究所 一种多基频提取方法及装置
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
JP2009237589A (ja) * 2003-12-25 2009-10-15 Casio Comput Co Ltd 音声分析合成装置、及びプログラム
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN102737645A (zh) * 2012-06-15 2012-10-17 武汉天喻信息产业股份有限公司 一种语音信号的基音周期估计算法
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN103824555A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN103474074A (zh) * 2013-09-09 2013-12-25 深圳广晟信源技术有限公司 语音基音周期估计方法和装置
CN104599682A (zh) * 2015-01-13 2015-05-06 清华大学 电话线质量语音的基音周期提取方法
CN105469807A (zh) * 2015-12-30 2016-04-06 中国科学院自动化研究所 一种多基频提取方法及装置
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HEBA ET AL.: "BaNa: A Hybrid Approach for Noise Resilient Pitch Detection", 《IEEE STATISTICAL SIGNAL PROCESSING WORKSHOP》 *
何姣: "带噪音语音信号基音检测技术研究", 《中国优秀硕士学位论文数据库 信息科技辑》 *
罗钧: "G.729与AMR级联语音可懂度提高技术研究", 《中国优秀硕士学位论文数据库 信息科技辑》 *
赵祎等: "一种改进的基音周期提取算法", 《数据采集与处理》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301858A (zh) * 2017-05-31 2017-10-27 华南理工大学 基于音频特征空间分层描述的音频分类方法
CN107301858B (zh) * 2017-05-31 2020-09-22 华南理工大学 基于音频特征空间分层描述的音频分类方法

Also Published As

Publication number Publication date
CN106205638B (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
US10418051B2 (en) Indexing based on time-variant transforms of an audio signal's spectrogram
Das et al. Exploring different attributes of source information for speaker verification with limited test data
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
Amin et al. Speech recognition using dynamic time warping
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
CN107316653B (zh) 一种基于改进的经验小波变换的基频检测方法
CN104200804A (zh) 一种面向人机交互的多类信息耦合的情感识别方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN105469807B (zh) 一种多基频提取方法及装置
CN102129456A (zh) 去相关稀疏映射音乐流派有监督自动分类方法
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
Luo et al. Wireless sensor networks for noise measurement and acoustic event recognitions in urban environments
WO2022052246A1 (zh) 语音信号的检测方法、终端设备及存储介质
CN107564543A (zh) 一种高情感区分度的语音特征提取方法
Staudacher et al. Fast fundamental frequency determination via adaptive autocorrelation
Mesgarani et al. Toward optimizing stream fusion in multistream recognition of speech
Ganapathy et al. Modulation frequency features for phoneme recognition in noisy speech
CN106205638B (zh) 一种面向音频事件检测的双层基音特征提取方法
CN102496366A (zh) 一种与文本无关的说话人识别方法
Saudi et al. Computer aided recognition of vocal folds disorders by means of RASTA-PLP
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
Zhang et al. Abnormal acoustic event detection based on orthogonal matching pursuit in security surveillance system
Kajita et al. Speech analysis and speech recognition using subbandautocorrelation analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant