CN106205638A

CN106205638A - 一种面向音频事件检测的双层基音特征提取方法

Info

Publication number: CN106205638A
Application number: CN201610430195.2A
Authority: CN
Inventors: 王健飞; 张卫强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2016-12-07
Anticipated expiration: 2036-06-16
Also published as: CN106205638B

Abstract

本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号，将音频信号格式标准化：声音信号预处理和PITCH特征后处理，对只保留形状特征的PITCH，进行离散傅里叶变换DFT，得到长时域信号PITCH特征的频域特征，并取前面数个有效频域值；目前，通过对该双层基音特征的处理，可以有效提升对长时域周期性音频事件的检测。

Description

一种面向音频事件检测的双层基音特征提取方法

技术领域

本发明属于音频事件检测技术领域，特别涉及一种面向音频事件检测的双层基音特征提取方法。

背景技术

当前对于长时域特征的音频事件,运用在网络危险音视频检测，公共区域事故检测、医疗器械心率检测等技术的研究工作开始兴起。长时域特征是相对于短时域特征提出的，短时域特征主要针对在短时变化较大的音频事件，长时域特征则忽略短时内次要的特征，重点关注长时间主要特征的变化规律。对于可以进行长时域特征提取的音频事件往往在短时和长时都具有明显的连贯性。为处理在短时域和长时域都体现出较为明显的周期性的音频信号检测问题，提出了一种新型特征的提取方法。这种新型特征可以运用在尖叫声、警笛声、心跳声等长时域周期特征的音频事件检测。该技术可以运用到网络危险音视频检测，公共区域事故检测、医疗器械心率检测等技术中。

发明内容

本发明的目的是提供一种面向音频事件检测的双层基音特征提取方法，其特征在于，包括如下步骤：

步骤A1，通过网络搜集音视频文件、麦克风收集公共场所声音信息等途径获得音频信号，将音频信号格式标准化：

将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位；

步骤A2，声音信号预处理；

步骤A3，双层基音(double-deck-pitch，DDP)特征提取；包括

A31零均值化，对每帧信号减去均值；

A32对每帧信号进行离散傅里叶变换(DFT)，转化为频域信号，

X (ω_{k}) = Σ_{n = 0}^{N_{d} - 1} x (n) e^{- j \frac{2 π}{N_{d}} n k}

其中，ω_k代表频率，k代表频率标号，N_d是DFT变换点数，这里N_d＝4000，每点的分辨率为2Hz；

A33对每帧音频提取候选基频，计算候选基频出现概率；

A34计算帧间候选基频转移概率；

A35利用Viterbi算法计算出最优路径，其中每一条路径的损失函数记为

P a t h C o s t = Σ \cos t (C_{i}^{n}, C_{j}^{n + 1}),

其中，

ε为调节因子，权衡帧内候选基频的度量与帧间距离之间的权重；

A36进行平滑滤波处理得到该信号的PITCH(基音)特征；

步骤A4，PITCH特征后处理：

A41对PITCH特征进行周期延拓；

A42计算PITCH的自相关函数

其中N_p为PITCH特征的长度标号；P(n)表示第n个PITCH特征点的频率；t表示平移距离；

A43根据自相关函数得到单周期特征，包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数；

A44对以上特征进行整合得到完整的DDP特征。

所述步骤A2，声音信号预处理，包括步骤：

A21，静音处理：

A211计算信号的能量E，以及能量的均值M和方差V；

A212对能量E进行标准化，

A213保留能量大于静音阈值0.1的信号；

A22零均值化和方差归一化，零均值化即对整段音频减去其均值，方差归一化即对整段音频除以标准差；

A23进行分帧加窗处理，

每段帧长根据音频基频先验知识决定，其中采用10-25ms，即80-200点，帧移系数采用0.3，即24-60点，窗型采用汉明窗，

W (n) = 0.54 + 0.46 * c o s (\frac{2 π n}{N_{h} - 1}), 0 \leq n \leq N_{h} - 1

；其中N_h为汉明窗总点数，n为样点序号。

所述A33对每帧音频提取候选基频，计算候选基频出现概率，包括：

A331对每帧频域信号提取所有峰值频率；

A332滤除峰值频率中较低频率；

A333对峰值频率按照能量从大到小排序，得到每帧中能量最大的20个点作为候选基频；

A334对候选基频序列进行方差归一化；

A335并根据候选基频谱能量计算其所占概率:

{Pa}_{j}^{n} = \frac{E_{j}^{n}}{Σ_{j} E_{j}^{n}}

其中，为第n帧的第j个候选基频概率，为第n帧的第j个候选基频能量。

所述A34计算帧间候选基频转移概率的步骤：，

A341计算帧间候选基频的距离，进行方差归一化；

D_{i j}^{n} = Δ (\frac{1}{| C_{j}^{n + 1} - C_{i}^{n} | + K})

其中，表示第n层的第i个候选基频的频率，表示第n层的第i个频点和第n+1层第j个频点之间的距离；Δ表示归一化，常数K设置为0.01；

A342并根据候选基频间距离计算其所占概率:

所述A43根据自相关函数得到单周期特征具体包括：

A431分析R(t)的谷值，判断音频信号的PITCH特征是否具有周期性分为三种情况讨论：

1)R没有谷值≥PITCH没有周期性，周期长度PITCH周期长度为音频PITCH原长度；进入A434

2)R有且只有1个谷值≥PITCH有周期性，且时间长度范围内只有一个周期，进入A433；

3)R有且有大于1个谷值≥PITCH有周期性，且时间长度范围内有多个周期，进入A432；

A432周期有效性检测，

a计算多个周期的差值，并取平均；

b差值平均乘以周期数，判断是否小于原PITCH长度的1/k；k＝3；

若是，该多周期无效，取第一个谷值点的值作为周期长度；进入A433；

若否，取原PITCH特征第二个周期的起点作为周期起点，取第一个谷值点的值作为周期长度；进入A433；

A433周期微调，获得最为合适的周期长度：

a以得到的周期为中值，上下各取1/4作为待选周期的上下限。若无法取到，则以最接近1/4的值作为上下限；

b计算每个周的末尾值与起始值得欧式距离，选取距离最小的值所代表的周期作为该信号最终的周期；

A434提取单周期长度的信号，得到统一维度的单周期PITCH：

a按照已经选定的起始点，和已经得到的周期值，截取一段单周期PITCH；

b对该段PITCH进行缩放，得到长度为L_t(L_t＝1000)的单周期PITCH；

c去均值化。单周期PITCH减去均值。并提取住均值作为单周期PITCH中心频率；

d对单周期PITCH的大小进行缩放，其中P_old为缩放前的单周期PITCH，max-min为PITCH的频带宽度，P_new为缩放后的PITCH；

A435得到最后对只保留形状特征的PITCH，进行离散傅里叶变换DFT，得到长时域信号PITCH特征的频域特征，并取前12个有效频域值。

本发明方法有效提升了对长时域周期性音频事件检测的准确率。

附图说明

图1为面向音频事件检测的双层基音特征提取流程图。

具体实施方式

本发明提供一种面向音频事件检测的双层基音特征提取方法，下面结合附图予以说明。

图1所示为面向音频事件检测的双层基音特征提取流程图。该双层基音特征提取流程包括如下步骤：

步骤A2，声音信号预处理，包括步骤：

A21，静音处理，

A211计算信号的能量E，以及能量的均值M和方差V；

A212对能量E进行标准化，

\tilde{E} = \frac{E - M}{\sqrt{V}}

A213保留能量大于静音阈值(0.1)的信号；

A23进行分帧加窗处理，

每段帧长根据音频基频先验知识决定，本***中采用10-25ms，即80-200点，帧移系数采用0.3，即24-60点，窗型采用汉明窗，汉明窗的标准公式为其中α取0.46。

其中N_h为汉明窗总点数，n为样点序号。

步骤A3，双层基音(double-deck-pitch，DDP)特征提取；

A31零均值化，对每帧信号减去均值；

A32对每帧信号进行离散傅里叶变换(DFT)，转化为频域信号，

X (ω_{k}) = Σ_{n = 0}^{N_{d} - 1} x (n) e^{- j \frac{2 π}{N_{d}} n k}

其中，ω_k代表频率，k代表频率标号，N_d是DEF变换点数，这里N_d＝4000，每点的分辨率为2Hz；

A33对每帧音频提取候选基频，计算候选基频出现概率；

A331对每帧频域信号提取所有峰值频率；

A332滤除峰值频率中较低频率；

A334对候选基频序列进行方差归一化；

A335并根据候选基频谱能量计算其所占概率:

{Pa}_{j}^{n} = \frac{E_{j}^{n}}{Σ_{j} E_{j}^{n}}

A34计算帧间候选基频转移概率

A341计算帧间候选基频的距离，进行方差归一化；

D_{i j}^{n} = Δ (\frac{1}{| C_{j}^{n + 1} - C_{i}^{n} | + K})

A342并根据候选基频间距离计算其所占概率:

{Pb}_{i j}^{n} = \frac{D_{i j}^{n}}{Σ_{j} D_{i j}^{n}}

P a t h C o s t = Σ \cos t (C_{i}^{n}, C_{j}^{n + 1})

其中，

A36进行平滑滤波处理得到该信号的PITCH(基音)特征；

步骤A4，PITCH特征后处理

A41对PITCH特征进行周期延拓

A42计算PITCH的自相关函数

其中N_p为PITCH特征的长度标号，P(n)表示第n个PITCH特征点的频率，t表示平移距离。

A43根据自相关函数得到单周期特征，包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数。

A432周期有效性检测，

a计算多个周期的差值，并取平均；

A433周期微调，获得最为合适的周期长度：

A434提取单周期长度的信号，得到统一维度的单周期PITCH：

A435得到最后对只保留形状特征的PITCH，进行离散傅里叶变换DFT，得到长时域信号PITCH特征的频域特征，并取前12个有效频域值；

A44对以上特征进行整合得到完整的DDP特征。

该技术可以运用到网络危险音视频检测，公共区域事故检测、医疗器械心率检测等技术中。

Claims

1.一种面向音频事件检测的双层基音特征提取方法，其特征在于，包括如下步骤：

步骤A1，通过网络下载或麦克风设备采集获得音频信号，将音频信号格式标准化：将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位；

步骤A2，声音信号预处理；

步骤A3，双层基音DDP特征提取；包括

A31零均值化，对每帧信号减去均值；

A32对每帧信号进行离散傅里叶变换DFT，转化为频域信号，

X (ω_{k}) = Σ_{n = 0}^{N_{d} - 1} x (n) e^{- j \frac{2 π}{N_{d}} n k}

A33对每帧音频提取候选基频，计算候选基频出现概率；

A34计算帧间候选基频转移概率；

P a t h C o s t = Σ \cos t (C_{i}^{n}, C_{i}^{n + 1}),

其中，

A36进行平滑滤波处理得到该信号的基音PITCH特征；

步骤A4，PITCH特征后处理：

A41对PITCH特征进行周期延拓；

A42计算PITCH的自相关函数

A44对以上特征进行整合得到完整的DDP特征。

2.根据权利要求1所述面向音频事件检测的双层基音特征提取方法，其特征在于，所述步骤A2，声音信号预处理，包括步骤：

A21静音处理：

A211计算信号的能量E，以及能量的均值M和方差V；

A212对能量E进行标准化，

A213保留能量大于静音阈值(0.1)的信号；

A23进行分帧加窗处理，

W (n) = 0.54 + 0.46 * c o s (\frac{2 π n}{N_{h} - 1}), 0 \leq n \leq N_{h} - 1;

其中取N_h为汉明窗总点数，n为样点序号。

3.根据权利要求1所述面向音频事件检测的双层基音特征提取方法，其特征在于，所述A33对每帧音频提取候选基频，计算候选基频出现概率，包括：

A331对每帧频域信号提取所有峰值频率；

A332滤除峰值频率中较低频率；

A334对候选基频序列进行方差归一化；

A335并根据候选基频谱能量计算其所占概率:

4.根据权利要求1所述面向音频事件检测的双层基音特征提取方法，其特征在于，所述A34计算帧间候选基频转移概率的步骤：

A341计算帧间候选基频的距离，进行方差归一化；

D_{i j}^{n} = Δ (\frac{1}{| C_{j}^{n + 1} - C_{i}^{n} | + K})

A342并根据候选基频间距离计算其所占概率:

5.根据权利要求1所述面向音频事件检测的双层基音特征提取方法，其特征在于，所述A43根据自相关函数得到单周期特征具体包括：

1)R没有谷值＝>PITCH没有周期性，周期长度PITCH周期长度为音频PITCH原长度；进入A434；

A432周期有效性检测，

a计算多个周期的差值，并取平均；

A433周期微调，获得最为合适的周期长度：

a以得到的周期为中值，上下各取1/4作为待选周期的上下限，若无法取到，则以最接近1/4的值作为上下限；

A434提取单周期长度的信号，得到统一维度的单周期PITCH：

c去均值化，单周期PITCH减去均值，并提取住均值作为单周期PITCH中心频率；

A435最后对只保留形状特征的PITCH，进行离散傅里叶变换DFT，得到长时域信号PITCH特征的频域特征，并取前12个有效频域值。