CN110838302B

CN110838302B - 基于信号能量尖峰识别的音频分割方法

Info

Publication number: CN110838302B
Application number: CN201911121998.XA
Authority: CN
Inventors: 王旻轩; 鲍亭文; 金超
Original assignee: Beijing Cyberinsight Technology Co ltd
Current assignee: Beijing Cyberinsight Technology Co ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2022-02-11
Anticipated expiration: 2039-11-15
Also published as: CN110838302A

Abstract

本申请涉及一种基于信号能量尖峰识别的音频分割方法，包括：将输入的音频信号进行短时傅里叶变换，转换为功率谱矩阵；提取基于功率谱的中频能量特征；对提取的中频能量特征进行尖峰识别；对进行尖峰识别后的信号进行错分修正；输出音频信号的分割点时间坐标。本申请的音频分割方法无需设置门限阈值，无需提前训练，能够实时、快速、准确地基于音频信号做出分析，可以部署在边缘端，无需接入其他运行参数，基本实现无参数动态分割。

Description

基于信号能量尖峰识别的音频分割方法

技术领域

本申请涉及一种基于信号能量尖峰识别的音频分割方法，适用于音频信号处理的技术领域。

背景技术

对于单纯的音频分割算法主要的实现方案有：

1.基于端点检测的分割方法，如申请号为CN200510061358.6的中国专利。利用说话人在讲话间隙出现停顿的特点，检测所有的静音点作为说话人可能发生变化的潜在点。由于在不同的信噪比环境下，静音点很难检测，因而这类方法并不准确。

2.基于模型的分割方法，如申请号为CN201710512310.5、CN201811581291.2的中国专利。首先为不同类型音频段建立相应模型，然后在滑动窗内对输入音频流进行模型最大似然选择，音频分割点被认为是音频类别发生转变的位置。为了建立一般化模型，各类基于模型的分割方法先后被提出并加以实现。如UBM用于区分语音段和非语音段，而UGM则用于区分男、女说话人，然而这些“先验知识”一般不可得。因此该方法对于未知的声学特征没有检测能力。

3.基于距离的分割方法，计算音频流中每个样本点左右窗数据“差异”，由距离尺度表示。当“差异”达到一定程度，也即距离尺度超过某个给定阈值或者取得局部最大值时，则视其为音频分割点。尽管此类方法决策不需要先验知识并且具有较高的分割准确率，然而阈值选择很大程度上依赖于音频特性，因此该方法缺少稳定性和鲁棒性，并且计算量较大。

以风机叶片场景为例，其音频分割的主要实现方案为接入风机叶片的实时转速，运算后得到每支叶片间分割点的大致位置。这种方案简单高效，但是突出问题为：

1.对分割点的定位并不准确，实际的转动过程中是持续变速的，如果按照某一分辨率的时间范围内的平均转速对每支叶片的转动时间进行计算划分，只能大致得到均匀的长度，而实际的转动过程每支叶片所用时间并不一定是等长的。因此这一方法只适用于参考，不适用于作为其他分析算法的准确输入；

2.接入风机叶片实时转速对传感器安装要求较高，高精度转速的获取需要采集设备额外增加传感器硬件，工程实施难度大，成本高，不利于维护，且由于主轴转速采集是在风机的机舱部位，而采集器又布置在塔基，过长的信号传输线路将导致采集信号存在干扰，数据质量差，严重影响分割判读。

发明内容

本申请提供一种基于信号能量尖峰识别的音频分割方法，可以无需设置门限阈值，无需提前训练，能够实时、快速、准确地基于音频信号做出分析，可以部署在边缘端，无需接入其他运行参数，基本实现无参数动态分割。

根据本申请的基于信号能量尖峰识别的音频分割方法，包括以下步骤：

(1)将输入的音频信号进行短时傅里叶变换，转换为功率谱矩阵；

(2)提取基于功率谱的中频能量特征；

(3)对提取的中频能量特征进行尖峰识别；

(4)对进行尖峰识别后的信号进行错分修正；

(5)输出音频信号的分割点时间坐标。

其中，提取能量特征的方法包括以下步骤：

(1)将原始音频信号进行短时傅里叶变换，转换为时频域矩阵M₀；

(2)将时频域矩阵M₀转为以分贝表示的谱图矩阵M₁；

(3)确定音频信号为主元的频率范围，对谱图矩阵M₁做带通滤波，过滤掉低频的环境杂声和高频的异常声音；

(4)对谱图矩阵M₁按照频率轴进行切割，保留以音频信号为主的子功率谱矩阵M₂；

(5)将M₂的列向求和，得到每个时域功率谱向量之和。

其中，对提取的中频能量特征进行尖峰识别的方法包括以下步骤：

(1)明确风机叶片转动的额定转速rs和输入音频的时长t；

(2)通过时长t和能量特征Energy的长度k，计算得到特征索引和时间索引的转换关系prop；

(3)根据额定转速rs和prop得到特征索引的额定分割步长distance；

(4)使用二分搜索的方法对特征向量进行搜索，直至搜寻不到尖峰为止。

其中，对进行尖峰识别后的信号进行错分修正的方法包括以下步骤：

(1)设置错分判定阈值；

(2)将取值大于错分判定阈值的分割点去掉，得到最终的分割点坐标m′；

(3)根据转换关系prop将坐标m′转换回时间索引。

其中带通滤波的方法为选定截至频率上限在矩阵M₁纵轴的坐标索引和选定截止频率下限在矩阵M₁纵轴的纵轴索引，由以下公式确定：

其中，UpperBound代表着选定截至频率上限在矩阵M₁纵轴的坐标索引，LowerBound代表选定截止频率下限在矩阵M₁纵轴的纵轴索引，sr为音频的采样频率，Freq_low，Freq_up为音频信号为主元的频率范围。

本方法针对例如风机叶片扫风声音分割的特定场景，结合了语音分析的算法成果，提出了对风机叶片扫风声音特定的，泛化性、鲁棒性强的能量特征提取方法；基于能量特征的无参数、低运算量、准确实现变速切割的音频分割方法，并加入了错分后处理机制，进一步提升分割的准确性。本方法同时提出了一种部分基于先验知识，针对例如风电机组叶片扫风声音的能量特征提取方式，作为分割的预处理和输入，具有较强的鲁棒性。具体地，本申请的基于信号能量尖峰识别的音频分割方法具有以下技术优势：

(1)对风电机组叶片扫风声音能量特征的提取方式，对功率谱矩阵做带通滤波，取特定频率段的能量矩阵过滤掉低频和高频环境杂声，并以每个时域片段的频域能量加和作为叶片扫风声音的中频能量特征。这一特征能够有效过滤因采样点过多、环境声音带来的噪声点干扰，能够从杂乱的原始音频信号中提取能够稳健表示风机叶片扫风规律性特征的信息；

(2)对提取特征利用尖峰识别的方法寻找能量波谷，提出了一种无参数方法，不需要接入风机的实时转速，分割时无需设置阈值，对音频的先验知识没有要求，同时可以进行实时分割无需提前训练。在分割后加入了修正机制，进一步调整分割的准确度；这一方法迅速、稳定、准确；

(3)对部署条件的要求较低，无需在风机搭建时加装传感器，仅需在设备***安装音频采集设备即可，不仅节省了工程部署成本，也避免了因信号干扰造成的误差；在运行时由于无需实时转速信息，可以做到在空转/未发电/停机时的运行不受影响。

附图说明

图1显示了实施算例中音频A的原始音频信号图。

图2显示了纵向求和后得到音频A的中频能量特征图。

图3显示了使用尖峰识别算法寻找图2中所有波谷位置的示意图。

图4显示了将音频A的分割点展示在原始波形图中的效果图。

图5显示了将音频A的分割点展示在功率谱图中的效果图。

图6显示了实施算例中音频B的原始音频信号图。

图7显示了纵向求和后得到音频B的中频能量特征图。

图8显示了使用尖峰识别算法寻找图7中所有波谷位置的示意图。

图9显示了将音频B的分割点展示在原始波形图中的效果图。

图10显示了将音频B的分割点展示在功率谱图中的效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

(2)提取基于功率谱的中频能量特征；

(3)对提取的中频能量特征进行尖峰识别；

(4)对进行尖峰识别后的信号进行错分修正；

(5)输出音频信号的分割点时间坐标。

下面对本申请的音频分割方法中使用的具体技术应用于风电机组中叶片扫风所获得的音频信号为例进行解释和说明，需要说明的是，本申请的方法可适用于任何类周期性音频信号的分割，而不限于叶片扫风领域。其中，可以在风电机组的叶片***，例如塔筒上安装音频传感器，以获取叶片扫风产生的音频信号。

能量特征提取方法

(1)将原始音频信号进行短时傅里叶变换(STFT)，转换为时频域矩阵M₀，矩阵的维度取决于短时傅里叶变换的参数设置，通常设置窗长与FFT点数n_fft相同，范围一般在1024-8192之间，参数n_fft决定了M₀的频率维度(行数)；窗之间的交叠长度n_overlap一般取值为FFT点数的一半，和音频时长共同决定了M₀的时间维度(列数)；在信号上面加窗的窗函数一般是hamming窗。

对于特定的输入信号x_n和窗ω_n，短时傅里叶变换定义为

STFTs通常使用对数谱(log-spectra)进行可视化，对M₀转为以分贝表示的谱图矩阵M₁，矩阵内元素转变为分贝形式表示，则M₁谱图可以使用热力图形式展示；M₁的维度和M₀保持一致，具体的维度由n_fft和n_overlap共同决定。

将STFTs到分贝的转换定义为

20log₁₀(|X_n|).。

(2)传感器接收风机叶片扫风声音信号为近似周期性信号，每支叶片从远离传感器到靠近传感器再远离的过程，音频的声音为由小及大再变小的过程，上一支叶片的淡出伴随着下一支叶片的淡入。但是由于杂音的影响，原始音频本身的信号波形并不一定明显表现出这一特征，也不一定存在有周期性；其次，原始音频由于采样率较高，在高分辨率下噪声点较多，容易对后续的分割产生干扰。这就要求能够在一定的滤波或者降采样的前提下提取更能明显表征叶片扫风变化趋势和周期性趋势的特征——基于功率谱的中频能量，具体操作如下：

(1)明确输入音频的采样频率sr，一般在12800-51200Hz之间；

(2)通过实验确定叶片扫风声音为主元的频率范围Freq_low，Freq_up，对谱图矩阵M₁(而非原始音频信号)做带通滤波，过滤掉低频的环境杂声(主要为风声、雷声、说话声、汽车声等)和高频的异常声音(如鸟叫声、叶片损坏造成的“哨声”等)。一般扫风的主要频率范围在100-1000Hz之间，具体的滤波方法为：

其中，UpperBound代表着选定截至频率上限在矩阵M₁纵轴的坐标索引，LowerBound代表选定截止频率下限在矩阵M₁纵轴的纵轴索引，round是公知的函数，表示按照指定的小数位数进行四舍五入运算的结果，length表示矩阵长度的函数。因为是基于经过短时傅里叶变换的矩阵进行处理，在时域上降低了样本点的数量，降低了噪声点的影响；在频域上因为纵轴h表示着频率信息，因此对M₁按照频率轴进行切割，保留以扫风声音为主的子功率谱矩阵M₂：

M₂＝M₁[LowerBound：UpperBound，；]

(3)将M₂的列向求和，得到每个时域功率谱向量之和Energy：

Energy＝sum(M′₂)

所得到的中频能量特征向量Energy可以充分表征扫风声音信号的周期性和渐变性特征，观察特征图形，若得到较为规律明显的波峰波谷交替出现的波形，代表该特征已捕捉到叶片扫风声音。每一段波峰为一支叶片扫风声音，波谷为两支叶片扫风交替位置，对叶片声音分割即定位音频段中所有的波谷位置。

对能量特征的尖峰识别方法

Energy为一维信号，分割点处于每一个波谷位置，尖峰识别方法通过比较临近点的大小定位所有的局部最小值。尖峰识别方法中，对信号尖峰A[m]定义为信号中的任一样本点，其直接的临近点取值均高于该点，而在数组的开头和结尾处都近似无穷大，不存在分割点：

A[m-1]≥A[m]，A[m+1]≥A[m]

尖峰识别的具体方法为：

(1)明确风机叶片转动的额定转速rs(单位为RPM)和输入音频的时长t；；

(4)使用二分搜索的方法对特征向量进行搜索，首先查看数组中间的元素，如果它是一个尖峰则直接返回，否则如果其左边的元素大，则递归处理左半数组，如果右边元素较大，则处理右半数组，直至搜寻不到尖峰为止。额外地，当设置额定分割步长distance时，即确定了相邻尖峰之间的最小水平距离，先移除较小的尖峰，直到所有剩余尖峰的条件都满足为止。

错分修正方法

由于设置的额定分割步长distance基于风机叶片的额定转速，一般叶片转动时很难达到较高水平的额定转速，因此实际的真实分割点数量往往少于上一步骤中输出的分割点数量，因此加入错分后处理机制。出现错分即对应的分割点在特征向量中的取值并不是波谷位置；错分点的取值要大于整体的分割点的取值。因此利用这一特征，设置错分判定阈值：

threshold＝mean(Energy[m])+std(Energy[m])，式中mean表示平均值，std表示标准差；

将取值大于错分判定阈值的分割点去掉，得到最终的分割点坐标m′。最后根据转换关系prop将坐标m′转换回时间索引。

实施算例

数据采集自某风场空转风机，使用两组音频信号A和B进行实验。实验条件下风机的叶尖额定转速为8.5RPM(转/分钟)，音频采样频率为51.2kHz。为了验证分割效果，对两台风机进行了人工音频标注，确定了准确的分割点位置。

音频信号A的原始音频信号图像如图1所示。音频A的时长为65.53125秒，原始音频中不能观察到明显有规律的扫风形态；使用短时傅里叶变换后得到了A的时频谱矩阵，按照方案中使用的转换方法转换得到分贝(dB)单位的功率谱矩阵，在实验参数(n_fft＝8192，n_overlap＝1024)下，功率谱矩阵的维度为(4097×3277)；则根据音频时长和功率谱矩阵时域维度，得到转换关系prop＝0.019997329874885564，根据额定转速和转换关系计算得到的额定分割步长distance＝117.66276753906142。

根据采样频率51.2kHz和滤波上下限800Hz/100Hz，计算得到功率谱矩阵纵轴的上下限坐标为(256，32)。纵向求和后得到A的中频能量特征如图2所示。图2中可以清晰看到每一段波峰代表着风机一支叶片周期性的扫风声音。使用尖峰识别算法，根据计算得到的额定分割步长，寻找图2中的所有波谷位置如图3所示。其中虚线为对错分修正的阈值线，若有分割点的取值在阈值线上方则去除，对A的分割未出现阈值线上方的错分点。“x”型图标即为定位的所有分割点m。

将m通过转换关系prop转换至时间索引(单位为秒)m′，A的算法分割点坐标为：

[1.3198237717424472，4.95933780897162，8.538859856576137，11.158510070186145，15.277960024412572，18.677506103143116，21.31715364662801，25.2166329722307，28.03625648458956，30.935869316447967，34.55538602380226，37.5349881751602，40.634574305767465，44.114109703997556，46.87374122673177，49.993324687213914，52.952929508696975，55.93253166005493，58.67216585291425，61.35180805614891，64.31141287763198]；

A的人工准确分割点坐标为：

[1.03，4.65，8.26，11.72，15.22，18.21，21.6，25.08，28.07，30.94，34.42，37.39，40.58，43.72，46.77，49.83，52.88，55.73，58.43，61.18，64.24]；

总体的平均误差在0.1s以内。将分割点展示在原始波形图和功率谱图中的效果如图4和5所示。

类似地，音频B的原始音频信号图像如图6所示。音频B的时长为112.53125秒，原始音频中不能观察到明显有规律的扫风形态；使用短时傅里叶变换后得到了B的时频谱矩阵，按照方案中使用的转换方法转换得到分贝(dB)单位的功率谱矩阵，在实验参数(n_fft＝8192，n_overlap＝1024)下，功率谱矩阵的维度为(4097×5627)；则根据音频时长和功率谱矩阵时域维度，得到转换关系prop=0.019998444997334282，根据额定转速和转换关系计算得到的额定分割步长distance＝117.6562066092752。

根据采样频率51.2kHz和滤波上下限800Hz/100Hz，计算得到功率谱矩阵纵轴的上下限坐标为(256，32)。纵向求和后得到B的中频能量特征如图7所示。图7中可以清晰看到每一段波峰代表着风机一支叶片周期性的扫风声音。使用尖峰识别算法，根据计算得到的额定分割步长，寻找图7中的所有波谷位置如图8所示。其中虚线为对错分修正的阈值线，若有分割点的取值在阈值线上方则去除，对B的分割同样未出现阈值线上方的错分点。“x”型图标即为定位的所有分割点m。

将m通过转换关系prop转换至时间索引(单位为秒)m′，B的算法分割点坐标为：

[1.3198973698240626，4.179675004442865，6.659482184112316，9.33927381375511，12.039063888395237，14.598864848054026，17.378648702683492，20.098437222320953，22.578244401990403，25.158043806646525，28.01782144126533，30.39763639594811，33.19741869557491，36.077194775191046，38.65699417984717，41.05680757952728，44.03657588413009，46.61637528878621，49.33616380842367，51.79597254309579，54.45576572774125，56.855579127421365，59.7353552070375，62.5951328416563，65.11493691132043，67.77473009596588，70.45452172560867，73.17431024524613，75.8940987648836，78.61388728452106，81.27368046916652，83.87347831881998，86.3332870534921，89.21306313310824，91.73286720277235，94.51265105740181，97.23243957703927，99.95222809667673，102.6120212813222，105.13182535098632，108.05159832059712，110.47141016527458]；

B的人工准确分割点坐标为：

[1.3，3.84，6.44，9.34，12.04，14.6，17.22，19.99，22.34，25.13，27.71，30.45，33.14，35.84，38.38，41.14，43.72，46.3，49.09，51.67，54.39，57.04，59.8，62.34，65.1，67.68，70.37，73.09，75.72，78.32，81.06，83.74，86.21，89.21，91.65，94.42，97.11，99.74，102.34，105.1，107.87，110.3]；

总体的平均误差同样在0.1s左右。将分割点展示在原始波形图和功率谱图中的效果如图9和10所示

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。