CN112562717B

CN112562717B - 啸叫检测方法、装置、存储介质、计算机设备

Info

Publication number: CN112562717B
Application number: CN202011383684.XA
Authority: CN
Inventors: 易安希; 许慎愉
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2023-08-18
Anticipated expiration: 2040-12-01
Also published as: CN112562717A

Abstract

本发明提供的一种啸叫检测方法、装置、存储介质、计算机设备，包括：获取近端语音信号，在进行啸叫检测之前，将获取到的近端语音信号从时域变换到频域后得到频域信号，这样能够更加准确地提取特征，且通过频域信号可以计算其低频能量和高频能量，以及进行子频带的划分，并确定子频带对应的中低频能量比值、中高频能量比值和频率稳定度，利用三者提取帧特征，并结合线性分类器与概率映射，得到啸叫发生概率值，通过概率大小与稳定性分析，给出可靠的输出，极大地提高了啸叫检测准确度。

Description

啸叫检测方法、装置、存储介质、计算机设备

技术领域

本发明涉及数字信号处理技术领域，尤其涉及一种啸叫检测方法、装置、存储介质、计算机设备。

背景技术

拾音器(俗称麦克风)和扬声器，是我们在日常生活中经常接触到的设备，其中，拾音器可以对环境中的音频信号进行采集，而扬声器可以将拾音器采集到的音频信号播放至环境中。在语音通信***中，如果扬声器与拾音器之间存在网络回路与空气回路，当扬声器将拾音器采集到的音频信号播放出去后，该音频信号又会被输入到该拾音器中，形成反馈回路。当反馈满足一定条件时，信号回路当中的某些频点便会出现能量越来越大的情况，直至饱和，此时便会出现啸叫现象。

例如，在多方会议***中，当同一房间出现多个设备接入，会形成声学回路，此时***需要检测是否出现啸叫现象，并在检测到啸叫时提醒用户关闭麦克风，以消除回路及啸叫，提高通话质量。从频域看，啸叫发生时，某些频点能量高于其他频点，饱和后，频点能量会稳定一段时间，直至声场发生变化。并且，由于其他信号模块的存在，采集啸叫会出现断续现象，并表现出一定的周期性，若采用传统的基于单一特征或没有分析采集啸叫特点进行啸叫检测，会使得啸叫检测准确率较低，在实际***中效果不佳。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中采用传统的基于单一特征或没有分析采集啸叫特点进行啸叫检测，会使得啸叫检测准确率较低，在实际***中效果不佳的技术缺陷。

本发明提供了一种啸叫检测方法，所述方法包括：

获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并计算所述频域信号的低频能量和高频能量；

将所述频域信号划分为多个子频带，并计算各个子频带能量，根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值；

将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的。

可选地，对所述近端语音信号进行预处理后得到当前帧的步骤，包括：

对所述近端语音信号进行重采样，并将重采样后的近端语音信号缓存成帧数据，得到当前帧；

其中，所述重采样后的近端语音信号的采样率与所述线性分类器进行特征训练时所用的采样语音对应的采样率一致。

可选地，将所述当前帧从时域变换到频域，得到对应的频域信号的步骤，包括：

获取所述当前帧的前一帧对应的多个采样频点，以及所述当前帧对应的多个采样频点；

将所述前一帧的多个采样频点与所述当前帧的多个采样频点拼接后进行加窗处理，并做傅里叶变换，得到对应的频域信号。

可选地，计算所述频域信号的低频能量和高频能量的步骤，包括：

根据所述频域信号的频谱分布确定低频区间和高频区间；

利用所述低频区间内各个采样频点对应的能量计算低频能量，利用所述高频区间内各个采样频点对应的能量计算高频能量。

可选地，根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值的步骤，包括：

根据各个子频带的子频带能量和所述低频能量的比值确定各个子频带的中低频能量比值；

根据各个子频带的子频带能量和所述高频能量的比值确定各个子频带的中高频能量比值；

根据所述子频带能量以及所述子频带能量对应的起始频点确定各个子频带的频率稳定度；

分别选取各个子频带的中低频能量比值最大值、中高频能量比值最大值、频率稳定度最大值作为所述当前帧的特征值。

可选地，根据所述子频带能量以及所述子频带能量对应的起始频点确定各个子频带的频率稳定度的方法为：

M＝max(X(b1:b2)|)

M^-1＝max(|X^-1(b1:b2)|)

其中，FS(i)为第i个子频带的频率稳定度，G(i)为第i个子频带的子频带能量，b1,b2为第i个子频带的起始频点，M为当前帧起始频点为b1,b2的子频带的最大值，M^-1为前一帧起始频点为b1,b2的子频带的最大值。

可选地，将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值的步骤，包括：

将所述当前帧的特征值输入到预先训练好的线性分类器中，计算所述特征值与所述线性分类器的超平面距离；

将所述超平面距离映射到啸叫发生概率值对应的取值范围内，得到与所述当前帧对应的啸叫发生概率值。

可选地，根据所述啸叫发生概率值确定是否发生啸叫的步骤，包括：

将所述啸叫发生概率值与第一预设概率阈值进行比对，若所述啸叫发生概率值大于所述第一预设概率阈值，则统计所述当前帧之前第一预定数目的帧中啸叫发生概率值大于所述第一预设概率阈值的帧数；

根据所述帧数与所述第一预定数目之间的比值确定对应的第一占空比，当所述第一占空比大于第一预设比值时，则判断发生啸叫。

可选地，根据所述帧数与所述第一预定数目之间的比值确定对应的第一占空比，当所述第一占空比大于第一预设比值时，则判断发生啸叫的步骤之后，还包括：

将所述啸叫发生概率值与第二预设概率阈值进行比对，若所述啸叫发生概率值大于所述第二预设概率阈值，则统计所述当前帧之前第二预定数目的帧中啸叫发生概率值大于所述第二预设概率阈值的帧数；

根据所述帧数与所述第二预定数目之间的比值确定对应的第二占空比，并根据预设检测周期内所述第二占空比出现的次数判断是否发生啸叫。

可选地，根据所述帧数与所述第二预定数目之间的比值确定对应的占空比，并根据预设检测周期内所述占空比出现的次数判断是否发生啸叫的步骤之后，还包括：

根据所述第一预设比值和所述第二预设概率阈值确定第二预设比值；

统计所述当前帧之前第三预定数目的帧中所述第二占空比等于所述第二预设比值的帧数；

根据所述帧数与所述第三预定数目之间的比值确定对应的第三占空比，并根据所述预设检测周期内所述第三占空比出现的次数判断是否发生啸叫。

本发明还提供了一种啸叫检测装置，包括：

第一处理模块，用于获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并计算所述频域信号的低频能量和高频能量；

第二处理模块，用于将所述频域信号划分为多个子频带，并计算各个子频带能量，根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值；

啸叫检测模块，用于将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的。

本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述啸叫检测方法的步骤。

本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述啸叫检测方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明提供的一种啸叫检测方法、装置、存储介质、计算机设备，包括：获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并计算所述频域信号的低频能量和高频能量；将所述频域信号划分为多个子频带，并计算各个子频带能量，根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值；将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的。

本发明中，在进行啸叫检测之前，将获取到的近端语音信号从时域变换到频域后得到频域信号，这样能够更加准确地提取特征，且通过频域信号可以计算其低频能量和高频能量，以及进行子频带的划分，并确定子频带对应的中低频能量比值、中高频能量比值和频率稳定度，利用三者提取帧特征，并结合线性分类器与概率映射，得到啸叫发生概率值，通过概率大小与稳定性分析，给出可靠的输出，极大地提高了啸叫检测准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的应用环境示意图；

图2为本发明实施例提供的一种啸叫检测方法的流程示意图；

图3为本发明实施例提供的根据所述啸叫发生概率值确定是否发生啸叫的流程示意图；

图4为本发明实施例提供的一种啸叫检测装置的结构示意图；

图5为本发明实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像本申请实施例中一样被特定定义，否则不会用理想化或过于正式的含义来解释。

参考图1所示，图1是本发明实施例提供的应用环境示意图；本申请的技术方案可以基于信号处理***103上实现，如图1中，信号处理***103采集麦克风101与扬声器102之间的近端语音信号，并对该近端语音信号进行相应的处理，以实现相关功能；在本申请实施例中，信号处理***103根据采集到的近端语音信号得到对应的频域信号，然后利用频域信号计算高低频特征和频率稳定度，并从中提取特征值，将特征值输入到线性分类器中，以通过线性分类器输出啸叫发生概率值，从而实现啸叫检测功能。

需要说明的是，这里的信号处理***103可运行于任何支持C++运行环境的计算硬件之上，如一些远程音视频会议平台。

在一个实施例中，如图2所示，图2为本发明实施例提供的一种啸叫检测方法的流程示意图，本发明提供了一种啸叫检测方法，具体包括如下：

S110：获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并计算所述频域信号的低频能量和高频能量。

本申请中，为了避免当前环境中产生啸叫，并影响会议等的正常进行，因此，需要实时检测啸叫是否发生，并在啸叫发生时及时应对，提高语音通信质量。

可以理解的是，由于语音通信在麦克风101与扬声器102收发两个方向形成了闭合环路，并且环路总的增益大于1，导致该信号在环路上不断放大，并在某些由设备决定的特定频点上集中，从而形成较大的单音信号，即啸叫。

本步骤中，在检测啸叫时，需要实时获取近端语音信号，并对近端语音信号进行一定的预处理操作后得到当前帧，然后将当前帧从时域变换到频域，得到对应的频域信号，并计算该频域信号的低频能量和高频能量。

需要说明的是，这里的近端语音信号可以是用户在使用本端上的语音通信应用程序与对端上安装的语音通信应用程序进行语音时，本端采集的声音信号；这里的当前帧是将该近端语音信号进行预处理后得到的、当前时刻正在接收的近端语音信号中的帧信号。

进一步地，对近端语音信号进行预处理操作可以包括对近端语音信号的采样率进行调整并缓存成当前帧，以便后续对当前帧进行相应的处理。例如，若使用线性分类器对当前帧的啸叫发生概率值进行预测的话，由于线性分类器在预先训练的过程中，是通过采样语音进行模型训练的，若此时的采样语音的采样率为16K，那么，后续为了使用训练好的线性分类器对当前帧的啸叫发生概率值进行预测，则需要预先对获取的近端语音信号进行预处理，以便该近端语音信号的采样率与线性分类器进行特征训练时的采样语音对应的采样率一致。

更进一步地，为了能够更准确地获取当前帧的每个采样频点所对应的能量，可对当前帧中的多个采样频点从时域变换为频域。例如，通过快速傅里叶变换，将当前帧中的多个采样频点从时域变换到频域，从而得到对应的频域信号。

并且，由于每个采样频点是否发生啸叫，其对应的能量是不同的。举例来说，如果该采样频点发生了啸叫，则该采样频点对应的信号强度就会相对较高，甚至刺耳，其对应的能量自然会高一些；如果该采样频点没有发生啸叫，其对应的能量自然会低一些。因而，可根据频域信号的频谱分布，将能量划分为低频能量和高频能量，全面地搜索出该当前帧中的所有可能的啸叫采样频点。

S120：将所述频域信号划分为多个子频带，并计算各个子频带能量，根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值。

本步骤中，通过步骤S110得到与近端语音信号对应的频域信号，并计算得到该频域信号的低频能量和高频能量后，可将该频域信号划分为多个子频带，并计算各个子频带能量，根据子频带能量、低频能量和高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值。

具体地，由于频点的对称性，且每帧信号的频谱中包含有多个子频带，每个子频带中包含有多个连续频点。因此，可取一半的频域来划分子频带，减少计算量。

举例来说，对于16k采样率的频谱只需取8k频域，并利用该8k的频域划分子频带，并且，由于低频信号对听觉影响大，若划分12个子频带，低频部分频带小，分辨率高，子频带的起始频点可以划分为[2，5]、[3，7]、[5，11]、[7，15]、[11，23]、[15，31]、[23，47]、[31，63]、[47，95]、[63，127]、[95，191]、[127，255]。

由上述对子频带的划分可见，低频段浊音较多，因而低频段的频点密度较高，而高频段清音较多，因而高频段的频点密度较低。

当划分好子频带后，可根据各个子频带的起始频点以及各个频点对应的能量来计算子频带能量。计算好子频带能量后，可结合之前计算的频域信号的低频能量和高频能量来确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度。

可以理解的是，由于子频带能量包括低频段、中频段和高频段，而计算的频域信号包括低频能量和高频能量，因此，依据子频带能量、低频能量和高频能量计算后，得到的结果为中低频能量比值和中高频能量比值。并且，为了获取当前帧的多个特征数据，得到可靠的输出，可利用子频带能量来计算各个子频带的频率稳定度。

当计算好各个子频带的中低频能量比值、中高频能量比值和频率稳定度后，可选取子频带中中低频能量比值最大值、中高频能量比值最大值以及频率稳定度最大值作为特征值，该特征值表征当前帧的帧特征。

S130：将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的。

本步骤中，为了更好地检测啸叫，可利用线性分类器来对特征值进行评分，并确定啸叫发生概率值，利用该啸叫发生概率值来判断是否发生啸叫。

可以理解的是，线性分类器是通过特征的线性组合来做出分类决定；例如，对于一个二元分类问题，可以设想成是将一个线性分类利用超平面划分高维空间的情况，计算特征点与线性分类器之间的超平面距离，在超平面一侧的所有点都被分类成"是"，另一侧则分成"否"，再结合概率映射，将距离值映射为概率值，最终得到与输入的特征值对应的啸叫发生概率值。

另外，对于本申请中使用的线性分类器来说，其在训练的过程中，主要利用采样语音来进行特征训练，如基于16K的采样语音对线性分类器进行特征训练，使得线性分类器中的各项参数进行优化调整，最终输出与实际情况相符合的啸叫发生概率值。

上述实施例中，在进行啸叫检测之前，将获取到的近端语音信号从时域变换到频域后得到频域信号，这样能够更加准确地提取特征，且通过频域信号可以计算其低频能量和高频能量，以及进行子频带的划分，并确定子频带对应的中低频能量比值、中高频能量比值和频率稳定度，利用三者提取帧特征，并结合线性分类器与概率映射，得到啸叫发生概率值，通过概率大小与稳定性分析，给出可靠的输出，极大地提高了啸叫检测准确度。

在一个实施例中，步骤S110中对所述近端语音信号进行预处理后得到当前帧的步骤，可以包括：

S111：对所述近端语音信号进行重采样，并将重采样后的近端语音信号缓存成帧数据，得到当前帧；

S112：其中，所述重采样后的近端语音信号的采样率与所述线性分类器进行特征训练时所用的采样语音对应的采样率一致。

本实施例中，由于本申请的近端语音信号进行预处理后，需要进行时域频域的转换，并从转换的频域信号中选取较为合适的特征值作为当前帧的帧特征，然后将特征值输入到线性分类器中，通过线性分类器对特征值进行分类，以得到对应的啸叫发生概率值。

因此，对于实时获取的近端语音信号，需要先对其进行重采样，以便重采样后的采样率与线性分类器进行特征训练时所用的采样语音的采样率相对应，这样最终通过线性分类器进行分类后的结果更为准确。

在对近端语音信号进行重采样后，可将重采样后的近端语音信号缓存成帧数据，以便通过帧数据进行后续的处理操作。

在一个实施例中，步骤S110中将所述当前帧从时域变换到频域，得到对应的频域信号的步骤，可以包括：

S113：获取所述当前帧的前一帧对应的多个采样频点，以及所述当前帧对应的多个采样频点；

S114：将所述前一帧的多个采样频点与所述当前帧的多个采样频点拼接后进行加窗处理，并做傅里叶变换，得到对应的频域信号。

本实施例中，为了确保当前帧中的N个采样频点中的每个采样频点的精度和每个采样频点所对应的能量的精度，在进行傅里叶变换，如FFT变换时，需要先确定该当前帧的前一帧中的N个采样频点，进而根据该当前帧的N个采样频点以及前一帧的N个采样频点进行快速傅氏变换，以准确地获取到当前帧中的N个采样频点中的每个采样频点所对应的能量。

并且，由于傅里叶变换是研究整个时间域和频率域的关系，当运用于计算机工程实现信号处理时，不可能对无限长的信号进行运算，而是取其有限的片段进行分析，加窗处理的过程就是截取信号片段的过程，不同的窗函数对信号频谱的影响是不一样的，主要是因为不同的窗函数，产生泄露的大小不一样。

具体地，可以通过窗函数对所述当前帧进行加窗处理，例如，本实施例中，通过汉宁窗对当前帧进行加窗处理，窗长为512，并对加窗处理之后得到的语音信号做傅里叶变换，得到对应的频域信号。

在一个实施例中，步骤S110中计算所述频域信号的低频能量和高频能量的步骤，可以包括：

S115：根据所述频域信号的频谱分布确定低频区间和高频区间；

S116：利用所述低频区间内各个采样频点对应的能量计算低频能量，利用所述高频区间内各个采样频点对应的能量计算高频能量。

本实施例中，在对频域信号中的低频能量和高频能量进行计算时，可先根据该频域信号的频谱分布情况来确定对应的低频区间和高频区间，然后再利用低频区间内各个采样频点对应的能量计算低频能量，利用高频区间内各个采样频点对应的能量计算高频能量。

具体地，由于频域信号的对称性，可将采样频点划分为同等的两部分，取其一部分进行计算，即可得到代表整个频域信号的低频能量和高频能量。例如，频域信号中的采样频点为512个，可取其中0到255的采样频点对应的能量进行划分，确定对应的低频区间和高频区间，如低频区间为[3，11]，高频区间为[95，255]，根据该低频区间内各个采样频点对应的能量来计算低频能量，同理，根据该高频区间内各个采样频点对应的能量来计算高频能量。

示意性地，各个采样频点所对应的能量可表示为X(k)，其中，k为采样频点，其对应的取值范围为k∈[0:255]，低频区间为[3，11]，高频区间为[95，255]，计算当前帧的低频能量为高频能量为/>

在一个实施例中，步骤S120中根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值的步骤，可以包括：

S121：根据各个子频带的子频带能量和所述低频能量的比值确定各个子频带的中低频能量比值；

S122：根据各个子频带的子频带能量和所述高频能量的比值确定各个子频带的中高频能量比值；

S123：根据所述子频带能量以及所述子频带能量对应的起始频点确定各个子频带的频率稳定度；

S124：分别选取各个子频带的中低频能量比值最大值、中高频能量比值最大值、频率稳定度最大值作为所述当前帧的特征值。

本实施例中，当划分好多个子频带，并确定各个子频带对应的起始频点后，可计算各个子频带的子频带能量，计算公式如下：

其中，G(i)为第i个子频带的子频带能量，b1,b2为第i个子频带的起始频点，X(k)为第i个子频带中各个采样频点所对应的能量。

当计算好各个子频带对应的子频带能量后，可根据各个子频带的子频带能量和频域信号的低频能量的比值确定各个子频带的中低频能量比值，计算公式如下：

其中，i为子频带序号，i∈[1:12]，FML(i)为第i个子频带的中低频比值，Gl为当前帧的低频能量。

当计算好各个子频带对应的子频带能量后，可根据各个子频带的子频带能量和频域信号的高频能量的比值确定各个子频带的中高频能量比值，计算公式如下：

其中，i为子频带序号，i∈[1:12]，FMH(i)为第i个子频带的中高频比值，Gh为当前帧的高频能量。

另外，还可根据子频带能量以及子频带能量对应的起始频点确定各个子频带的频率稳定度，以保证可靠输出。

当分别计算好各个子频带对应的中低频比值、中高频比值以及频率稳定度后，可分别选取各个子频带的中低频能量比值最大值、中高频能量比值最大值、频率稳定度最大值作为所述当前帧的特征值，以便得到更为准确的输出。

具体地，在选取各个子频带的中低频能量比值最大值、中高频能量比值最大值时，由于序号靠前的子频带，其能量较低，检测为啸叫的可能性几乎为0，因此，在实际应用中，可取子频带序号[3:12]的子频带，并分别取子频带[3:12]中的中低频能量比值最大值、中高频能量比值最大值作为当前帧的特征值；对于频率稳定度的特征值选取，可选择所有子频带中频率稳定度最大值作为特征值。

在一个实施例中，步骤S123中根据所述子频带能量以及所述子频带能量对应的起始频点确定各个子频带的频率稳定度的方法为：

M＝max(|X(b1:b2)|)

M^-1＝max(|X^-1(b1:b2)|)

在一个实施例中，步骤S130中将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值的步骤，可以包括：

S131：将所述当前帧的特征值输入到预先训练好的线性分类器中，计算所述特征值与所述线性分类器的超平面距离；

S132：将所述超平面距离映射到啸叫发生概率值对应的取值范围内，得到与所述当前帧对应的啸叫发生概率值。

本实施例中，利用线性分类器对当前帧的特征值进行分类时，可计算所有的特征值与线性分类器之间的超平面距离，并将超平面距离映射到啸叫发生概率值对应的取值范围内，得到与当前帧对应的啸叫发生概率值。

具体的计算过程如下所示：

fx＝b0*FML+b1*FMH+b2*FS+Bias

得到fx后，可通过sigmoid函数将超平面距离值映射到啸叫发生的概率值范围(0:1)内，如下所示：

score＝1/(1+exp^sA*fx+sB)

其中，b0,b1,b2,Bais,sA,sB均为常量，且均通过线性分类器训练得到的。

在一个实施例中，如图3所示，图3为本发明实施例提供的根据所述啸叫发生概率值确定是否发生啸叫的流程示意图；步骤S130中根据所述啸叫发生概率值确定是否发生啸叫的步骤，可以包括：

S133：将所述啸叫发生概率值与第一预设概率阈值进行比对，判断所述啸叫发生概率值是否大于所述第一预设概率阈值，若所述啸叫发生概率值大于所述第一预设概率阈值，则统计所述当前帧之前第一预定数目的帧中啸叫发生概率值大于所述第一预设概率阈值的帧数；

S134：根据所述帧数与所述第一预定数目之间的比值确定对应的第一占空比，判断所述第一占空比是否大于第一预设比值，当所述第一占空比大于第一预设比值时，则判断发生啸叫，否则没有发生啸叫。

本实施例中，通过线性分类器输出当前帧的特征值对应的啸叫发生概率值后，可将其与第一预设概率阈值进行比对，若啸叫发生概率值大于第一预设概率阈值，则统计当前帧之前第一预定数目的帧中啸叫发生概率值大于第一预设概率阈值的帧数，以便利用当前帧以及当前帧之前第一预定数目的帧进行稳定性分析，进一步提高检测准确度。

具体地，若当前帧的啸叫发生概率值大于第一预设概率阈值，为了避免误报，可统计当前帧之前第一预定数目的帧中啸叫发生概率值大于第一预设概率阈值的帧数，并根据该帧数与第一预定数目之间的比值确定对应的第一占空比，当第一占空比大于第一预设比值时，则判断发生啸叫。

举例来说，设置第一预设概率阈值TH∈[0:1]，第一预设比值r∈[0:1]，取第一预设概率阈值范围内的任一值作为第一预设概率阈值，取第一预设比值范围内的任一值作为第一预设比值，然后统计当前帧之前第一预定数目的帧W中score＞TH的帧数为n，第一占空比为n/W，当第一占空比n/W＞r时，即可判断发生啸叫。

在一个实施例中，步骤S134中根据所述帧数与所述第一预定数目之间的比值确定对应的第一占空比，当所述第一占空比大于第一预设比值时，则判断发生啸叫的步骤之后，还可以包括：

S135：将所述啸叫发生概率值与第二预设概率阈值进行比对，若所述啸叫发生概率值大于所述第二预设概率阈值，则统计所述当前帧之前第二预定数目的帧中啸叫发生概率值大于所述第二预设概率阈值的帧数；

S136：根据所述帧数与所述第二预定数目之间的比值确定对应的第二占空比，并根据预设检测周期内所述第二占空比出现的次数判断是否发生啸叫。

本申请中，从啸叫产生的原因可知，要想很好地抑制啸叫，就需准确地查找到啸叫的产生频率。但是，在实际的设备中，啸叫音往往是不连续的，而是周期性间断性的出现，且不同的设备，由于其麦克和扬声器之间的位置和结构都是不同的，因而，啸叫的频率也是不一样的，甚至同一部设备，在不同的初始激励条件下，其产生的啸叫频率也是不一样的，这就进一步增大了啸叫频率的确定难度。

而本实施例中，为了检测某些发生啸叫概率值输出比较低、易与干扰语音混淆，且呈周期性特征的啸叫，可设置第二预设概率阈值，并将将啸叫发生概率值与第二预设概率阈值进行比对，若当前帧的啸叫发生概率值大于第二预设概率阈值，则统计当前帧之前第二预定数目的帧中啸叫发生概率值大于第二预设概率阈值的帧数，并根据该帧数与第二预定数目之间的比值确定对应的第二占空比，然后在预设检测周期内检测第二占空比出现的次数，若在预设检测周期内，该第二占空比对应的值出现的次数超过某一阈值，即可判断发生啸叫。

例如，设置当前帧之前第二预定数目的帧为W1，第二预设概率阈值TH1∈[0:1]，W1中score＞TH1的帧数为n1，第二占空比为n1/W1，当第二占空比n1/W1＝r1在预设检测周期内出现的次数超过某一阈值时，即可判断发生啸叫。

在一个实施例中，步骤S136中根据所述帧数与所述第二预定数目之间的比值确定对应的占空比，并根据预设检测周期内所述占空比出现的次数判断是否发生啸叫的步骤之后，还可以包括：

S137：根据所述第一预设比值和所述第二预设概率阈值确定第二预设比值；

S138：统计所述当前帧之前第三预定数目的帧中所述第二占空比等于所述第二预设比值的帧数；

S139：根据所述帧数与所述第三预定数目之间的比值确定对应的第三占空比，并根据所述预设检测周期内所述第三占空比出现的次数判断是否发生啸叫。

本步骤中，为了更进一步地检测某些发生啸叫概率值输出比较低、易与干扰语音混淆，且呈周期性特征的啸叫，可根据第一预设比值和第二预设概率阈值确定第二预设比值，并统计当前帧之前第三预定数目的帧中第二占空比等于第二预设比值的帧数。

当统计好对应的帧数后，可根据该帧数与第三预定数目之间的比值确定对应的第三占空比，并在预设检测周期内检测该第三占空比出现的次数，若在预设检测周期内，该第三占空比对应的值出现的次数超过某一阈值，即可判断发生啸叫。

例如，设置第二预设比值为rTH1，当前帧之前第三预定数目的帧为W2，W2中r1＝rTH1的帧数为n2，当n2/W2＞0.9时，可在预设检测周期内检测该第三占空比出现的次数，当出现的次数超过某一阈值，即可判断发生啸叫。

在一个实施例中，如图4所示，图4为本发明实施例提供的一种啸叫检测装置的结构示意图；本发明还提供了一种啸叫检测装置，包括第一处理模块210、第二处理模块220、啸叫检测模块230，具体包括如下：

第一处理模块210，用于获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并计算所述频域信号的低频能量和高频能量；

第二处理模块220，用于将所述频域信号划分为多个子频带，并计算各个子频带能量，根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值；

啸叫检测模块230，用于将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的。

关于啸叫检测装置的具体限定可以参见上文中对于啸叫检测方法的限定，在此不再赘述。上述啸叫检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述啸叫检测方法的步骤。

在一个实施例中，本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述啸叫检测方法的步骤。

示意性地，如图5所示，图5为本发明实施例提供的一种计算机设备的内部结构示意图，该计算机设备300可以被提供为一服务器。参照图5，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的啸叫检测方法。

计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线网络接口304被配置为将计算机设备300连接到网络，和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作***，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种啸叫检测方法，其特征在于，所述方法包括：

获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并根据所述频域信号的频谱分布确定低频区间和高频区间；利用所述低频区间内各个采样频点对应的能量计算低频能量，利用所述高频区间内各个采样频点对应的能量计算高频能量；

将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的；

所述根据所述子频带能量、所述低频能量和所述高频能量确定各个子频带的中低频能量比值、中高频能量比值和频率稳定度，并选取对应的特征值的步骤，包括：

根据所述子频带能量以及所述子频带能量对应的起始频点确定各个子频带的频率稳定度；其中，各个子频带的频率稳定度的计算公式为：

M＝max(|X(b1:b2)|)

M^-1＝max(|X^-1(b1:b2)|)

其中，FS(i)为第i个子频带的频率稳定度，G(i)为第i个子频带的子频带能量，b1,b2为第i个子频带的起始频点，M为当前帧起始频点为b1,b2的子频带的最大值，M^-1为前一帧起始频点为b1,b2的子频带的最大值；

2.根据权利要求1所述的啸叫检测方法，其特征在于，对所述近端语音信号进行预处理后得到当前帧的步骤，包括：

3.根据权利要求1所述的啸叫检测方法，其特征在于，将所述当前帧从时域变换到频域，得到对应的频域信号的步骤，包括：

4.根据权利要求1所述的啸叫检测方法，其特征在于，将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值的步骤，包括：

5.根据权利要求1所述的啸叫检测方法，其特征在于，根据所述啸叫发生概率值确定是否发生啸叫的步骤，包括：

6.根据权利要求5所述的啸叫检测方法，其特征在于，根据所述帧数与所述第一预定数目之间的比值确定对应的第一占空比，当所述第一占空比大于第一预设比值时，则判断发生啸叫的步骤之后，还包括：

7.根据权利要求6所述的啸叫检测方法，其特征在于，根据所述帧数与所述第二预定数目之间的比值确定对应的占空比，并根据预设检测周期内所述占空比出现的次数判断是否发生啸叫的步骤之后，还包括：

8.一种啸叫检测装置，其特征在于，包括：

第一处理模块，用于获取近端语音信号，并对所述近端语音信号进行预处理后得到当前帧，将所述当前帧从时域变换到频域，得到对应的频域信号，并根据所述频域信号的频谱分布确定低频区间和高频区间；利用所述低频区间内各个采样频点对应的能量计算低频能量，利用所述高频区间内各个采样频点对应的能量计算高频能量；

啸叫检测模块，用于将所述特征值输入到预先训练好的线性分类器中，输出与所述当前帧对应的啸叫发生概率值，根据所述啸叫发生概率值确定是否发生啸叫；其中，所述线性分类器为基于采样语音进行特征训练得到的；

所述第二处理模块，包括：

M＝max(|X(b1:b2)|)

M^-1＝max(|X^-1(b1:b2)|)

其中，FS(i)为第i个子频带的频率稳定度，G(i)为第i个子频带的子频带能量，b1,b2为第i个子频带的起始频点，M为当前帧起始频点为b1，b2的子频带的最大值，M^-1为前一帧起始频点为b1,b2的子频带的最大值；

9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述啸叫检测方法的步骤。

10.一种计算机设备，其特征在于：所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述啸叫检测方法的步骤。