CN107898432A

CN107898432A - 鼾声检测方法、装置、设备及介质

Info

Publication number: CN107898432A
Application number: CN201710977496.1A
Authority: CN
Inventors: 冯澍婷; 刘洪涛; 孟亚彬
Original assignee: Shenzhen H&T Intelligent Control Co Ltd
Current assignee: Shenzhen H&T Intelligent Control Co Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2018-04-13
Anticipated expiration: 2037-10-17
Also published as: CN107898432B

Abstract

本发明实施例公开了一种鼾声检测方法、装置、设备及介质。该鼾声检测方法包括：获取与目标音频数据对应的目标特征向量，并将所述目标特征向量输入支持向量数据描述算法SVDD模型中，获得判别结果；所述目标特征向量为对所述目标音频数据的梅尔频率倒频系数MFCC经过特征提取后获得的特征向量；在所述目标音频数据的周期满足预设周期，且所述判别结果符合预设结果的情况下，确定所述目标音频数据为鼾声。采用本发明实施例，可用于更加简单，准确地实现鼾声检测，提高装置的效率。

Description

鼾声检测方法、装置、设备及介质

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种鼾声检测方法及装置。

背景技术

打鼾是人们在日常生活中经常会遇到的一种睡眠障碍，患者熟睡后鼾声响度增大超过60dB以上，妨碍正常呼吸时的气体交换，称鼾症，5％的鼾症患者兼有睡眠期间不同程度憋气现象，称阻塞性睡眠呼吸暂停综合征(obstructive sleep apnea-hypopneasyndrome，OSAHS)。打鼾者的气道通常比正常人狭窄，白天清醒时咽喉部肌肉代偿性收缩使气道保持开放，不发生堵塞；但夜间睡眠时神经兴奋性下降，肌肉松弛，咽部组织堵塞，使上气道塌陷，当气流通过狭窄部位时，产生涡流并引起振动，从而出现鼾声。大多数人认为打鼾不会对健康造成影响，然而长期打鼾或是打鼾严重的人往往都伴有睡眠呼吸暂停综合征：在睡眠的全过程中出现呼吸暂停，血中氧气减少，形成一个短时间的缺氧状态。打鼾者血液和大脑长期供氧不足时，可能会诱发一些慢性疾病例如：高血压、心肌梗死、心绞痛及脑血管意外等，严重时如果夜间呼吸暂停时间超过120秒可能会导致猝死。

目前诊断和评估鼾声主要是使用多导睡眠仪(Polysomnography,PSG)，通过记录睡眠过程中的脑波、肌电图、心电图、口鼻腔气流、胸部腹部呼吸运动、声音等多种信号，综合分析被测者的睡眠状况和鼾症的严重程度。但是它要求在专业场所由专业人员进行操作，监控过程采取捆扎等方式附着于监控对象面部、鼻腔及胸腹部，对监控对象干扰大，且监控成本高。另一种适用于家庭治疗的装置，利用鼾声的周期性和呼吸运动的关系，但是对于复杂环境下的时有时无的鼾声判断准确度低下。

因此，如何使得鼾声检测变得方便简单，且准确性高变得尤其重要。

发明内容

本发明实施例所要解决的技术问题在于，提供一种鼾声检测方法、装置、设备及介质；用于更加简单，准确地实现鼾声检测，提高装置的效率。

第一方面，本发明实施例提供了一种鼾声检测方法，包括：

获取与目标音频数据对应的目标特征向量，并将所述目标特征向量输入支持向量数据描述算法SVDD模型中，获得判别结果；所述目标特征向量为对所述目标音频数据的梅尔频率倒频系数MFCC经过特征提取后获得的特征向量；

在所述目标音频数据的周期满足预设周期，且所述判别结果符合预设结果的情况下，确定所述目标音频数据为鼾声。

在一个可选的实现方式中，所述获取与目标音频数据对应的目标特征向量之前，所述方法还包括：

获取原始音频数据后，确定所述目标音频数据，所述目标音频数据为与所述原始音频数据对应的有效音频数据。

在一个可选的实现方式中，所述确定所述目标音频数据包括：

利用语音端点检测方法VAD检测所述原始音频数据中的有效音频数据，得到所述目标音频数据。

在一个可选的实现方式中，所述在所述目标音频数据的周期满足预设周期，且所述判别结果符合预设结果的情况下，所述方法还包括：

保存所述原始音频数据。

在一个可选的实现方式中，所述获取与目标音频数据对应的目标特征向量包括：

计算所述目标音频数据的MFCC，得到X*Y系数矩阵，其中，X为目标音频数据的帧数，Y为MFCC系数长度；

利用奇异值分解SVD方法分解所述X*Y系数矩阵，获得第一目标矩阵；

对所述第一目标矩阵进行降维处理后，得到所述目标特征向量，所述目标特征向量中包含所述目标音频数据的整体趋势特征。

在一个可选的实现方式中，所述目标音频数据的周期满足预设周期包括：

所述目标音频数据的时域周期满足预设时域周期，和/或，所述目标音频数据的频域周期满足预设频域周期。

在一个可选的实现方式中，所述目标音频数据的持续时间大于预设时间。

在一个可选的实现方式中，所述将所述目标音频数据输入支持向量数据描述算法SVDD模型之前，所述方法还包括：

获取所述SVDD模型。

在一个可选的实现方式中，所述获取所述SVDD模型包括：

获取音频数据样本并计算所述音频数据样本的MFCC，得到N*L系数矩阵，其中，N为所述音频数据样本的帧数，L为MFCC系数长度；

利用奇异值分解SVD方法分解所述N*L系数矩阵，获得第二目标矩阵；

对所述第二目标矩阵进行降维处理后，获得预设数目的特征向量，利用SVDD算法训练所述预设数目的特征向量，得到所述SVDD模型，所述预设数目的特征向量中包含所述音频数据样本的整体趋势特征。

第二方面，本发明实施例提供了鼾声检测装置，包括：

第一获取单元，用于获取与目标音频数据对应的目标特征向量；

输入获得单元，用于将所述目标特征向量输入支持向量数据描述算法SVDD模型中，获得判别结果，所述目标特征向量为对所述目标音频数据的梅尔频率倒频系数MFCC经过特征提取后获得的特征向量；

确定单元，用于在所述目标音频数据的周期满足预设周期，且所述判别结果符合预设结果的情况下，确定所述目标音频数据为鼾声。

在一个可选的实现方式中，所述第一获取单元，还用于获取原始音频数据；

所述确定单元，还用于确定所述目标音频数据，所述目标音频数据为与所述原始音频数据对应的有效音频数据。

在一个可选的实现方式中，所述确定单元，具体用于利用语音端点检测方法VAD检测所述原始音频数据中的有效音频数据，得到所述目标音频数据。

在一个可选的实现方式中，所述第一获取单元包括：

第一计算子单元，用于计算所述目标音频数据的MFCC，得到X*Y系数矩阵，其中，X为目标音频数据的帧数，Y为MFCC系数长度；

第一分解子单元，用于利用奇异值分解SVD方法分解所述X*Y系数矩阵，获得第一目标矩阵；

第一降维处理子单元，用于对所述第一目标矩阵进行降维处理后，得到所述目标特征向量，所述目标特征向量中包含所述目标音频数据的整体趋势特征。

在一个可选的实现方式中，所述装置还包括：

第二获取单元，用于获取所述SVDD模型。

在一个可选的实现方式中，所述第二获取单元包括：

第二计算子单元，用于计算所述音频数据样本的MFCC，得到N*L系数矩阵，其中，N为所述音频数据样本的帧数，L为MFCC系数长度；

第二分解子单元，用于利用奇异值分解SVD方法分解所述N*L系数矩阵，获得第二目标矩阵；

第二降维处理子单元，用于对所述第二目标矩阵进行降维处理后，获得预设数目的特征向量，所述预设数目的特征向量中包含所述音频数据样本的整体趋势特征；

训练子单元，用于利用SVDD算法训练所述预设数目的特征向量，得到所述SVDD模型。

第三方面，本发明实施例提供了一种鼾声检测设备，包括处理器、输入设备、输出设备和存储器，其中：所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面或第一方面的任意一种可能实现方式所描述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被鼾声检测装置的处理器执行时，使所述处理器执行上述第一方面或者第一方面的任意一种可能实现方式所描述的方法。

第五方面，本发明实施例提供一种包含程序指令的计算机程序产品，当其在计算机上运行时，使所述计算机执行上述第一方面或任意一种可能的实现方式所描述的方法。

实施本发明实施例，将获取的与目标音频数据对应的目标特征向量输入至支持向量数据描述算法(Support Vector Data Description，SVDD)模型中，获得判别结果，从而在该目标音频数据的周期满足预设周期，且该判别结果符合预设结果时，确定该目标音频数据为鼾声，方便快捷地、准确地实现鼾声检测，提高鼾声检测装置的效率。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种鼾声检测方法的流程示意图；

图2是本发明实施例提供的一种f(m)与m的关系示意图；

图3是本发明实施例提供的一种鼾声信号周期性示意图；

图4是本发明实施例提供的一种时域鼾声信号示意图；

图5是本发明实施例提供的一种鼾声信号功率谱示意图；

图6是本发明实施例提供的一种1min鼾声信号能量曲线示意图；

图7是本发明实施例提供的另一种鼾声检测方法的流程示意图；

图8是本发明实施例提供的一种SVDD分类案例示意图；

图9是本发明实施例提供的一种鼾声检测装置的结构示意图；

图10是本发明实施例提供的一种第一获取单元的结构示意图；

图11是本发明实施例提供的另一种鼾声检测装置的结构示意图；

图12是本发明实施例提供的一种第二获取单元的结构示意图；

图13是本发明实施例提供的又一种鼾声检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。需要说明的是，结合附图所阐述的详细描述旨在作为对各种配置的描述，而不旨在表示其中可以实践本文所描述的概念的唯一配置。本文中所记载的装置实施例和方法实施例将在下面的详细描述中进行描述，并在附图中通过各种框、模块、单元、组件、电路、步骤、过程、算法等等(统称为“要素”)来予以示出。这些要素可以使用电子硬件、计算机软件或者其任意组合来实现。至于这些要素是实现为硬件还是软件，取决于特定应用和施加在整体***上的设计约束。本发明的说明书和权利要求书以及说明书附图中的术语如果使用“第一”、“第二”等描述，该种描述是用于区别不同对象，而不是用于描述特定顺序。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

需要说明的是，在没有明示的特别说明的情况下，本发明各实施例中的各项技术特征可视为能够进行相互组合或者结合，只要该种组合或者结合不是因为技术的原因而无法实施。为了较为充分的说明本发明，一些示例性的，可选的，或者优选的特征在本发明各实施例中与其他技术特征结合在一起进行描述，但这种结合不是必须的，而应该理解该示例性的，可选的，或者优选的特征与其他的技术特征都是彼此可分离的或者独立的，只要该种可分离或者独立不是因为技术的原因而无法实施。方法实施例中的技术特征的一些功能性描述可以理解为执行该功能、方法或者步骤，装置实施例中的技术特征的一些功能性描述可以理解为使用该种装置来执行该功能、方法或者步骤。

请参见图1，图1是本发明实施例提供的一种鼾声检测方法的流程示意图，该鼾声检测方法可应用于鼾声检测装置，该鼾声检测装置可以包括：移动手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动互联网设备(Mobile Internet Device，MID)、智能穿戴设备(如智能手表、智能手环)等各种装置，也可以为专业的声音检测设备，本发明实施例不作限定。如图1所示，该鼾声检测方法可包括：

101、获取与目标音频数据对应的目标特征向量，并将上述目标特征向量输入支持向量数据描述算法SVDD模型中，获得判别结果；

上述目标特征向量为对上述目标音频数据的梅尔频率倒频系数(Mel-frequencycepstral coefficients，MFCC)经过特征提取后获得的特征向量。

上述SVDD模型是指预先配置或训练好的可基于目标特征向量对鼾声信号进行识别的模型。

具体地，本发明实施例还提供了一种获取目标特征向量的方法，上述获取与上述目标音频数据对应的目标特征向量包括：

计算上述目标音频数据的MFCC，得到X*Y系数矩阵，其中，X为目标音频数据的帧数，Y为MFCC系数长度；

利用奇异值分解(Singular value decomposition，SVD)方法分解上述X*Y系数矩阵，获得第一目标矩阵；

对上述第一目标矩阵进行降维处理后，得到上述目标特征向量。

其中，梅尔频率是基于人耳听觉特性提出来的，它与频率Hz成非线性对应关系。MFCC则是利用它们之间的这种关系，计算得到的Hz频谱特征，用于语音数据特征提取和降低运算维度。例如：对于一帧有512维(采样点)数据，经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了降维的目的。步骤可包括：

1)预加重

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音***所抑制的高频部分，也为了突出高频的共振峰。其实现方法通常是将经采样后的语音信号s(n)通过一个一阶有限长单位冲激响应(Finite ImpulseResponse，FIR)高通数字滤波器来进行预加重。其传递函数为：

H(z)＝1-a·z^-1

其中，z表示输入信号，时域表示即为鼾声样本信号s(n)，a表示预加重系数，一般取0.9～1.0中的常数。

2)分帧

将鼾声样本信号s(n)中每N个采样点集合成一个观测单位，称为帧。N的值可以取256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度N为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

3)加窗

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，那么乘上汉明窗后:S′(n)＝S(n)×W(n),其中

其中，L表示窗长。

4)快速傅里叶变换(Fast Fourier Transformation，FFT)

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

5)三角带通滤波器

将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M。M通常取22-26。各(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，如图2所示。

其中，三角滤波器的频率响应定义为：

其中，

6)离散余弦变换(Discrete Cosine Transform，DCT)

计算每个滤波器组输出的对数能量为：

对对数能量s(m)经DCT得到MFCC系数：

经过上述步骤可得到MFCC，从而可得到X*Y的系数矩阵，其中，X为目标音频数据的帧数，Y为MFCC系数长度。

由于MFCC系数矩阵维度较高，且鼾声信号长度不一致导致矩阵行数X不同，因此MFCC矩阵无法作为SVDD模型的直接输入，所以需要对MFCC矩阵进行进一步处理以输入SVDD模型，本发明实施例通过分析鼾声信号的特点，从目标音频数据的MFCC中提取出能表征鼾声信号的特点的特征向量，以将该特征向量输入SVDD模型后能实现对目标音频数据的有效识别。

参见图3，图3是本发明实施例提供的一种鼾声信号周期示意图，其中，横线代表时间(s)，纵轴代表信号幅度，从图3可以看出，大部分鼾声信号(约90％)变化趋势基本一致，并且具有如下特点：每次鼾声发生的时间间隔大体相等，振幅基本一致，与人体呼吸节奏密切相关；其次表现为鼾声的信号脉冲宽度较语音信号更有规律性，呈现周期性；另外，鼾声信号的短时能量明显高于普通话语语音信号的短时能量，且鼾声在整个睡眠过程中的能量分布也是均匀的，所以，为了对鼾声信号进行识别，可从MFCC矩阵中提取出能表征上述特点的整体趋势特征，并将该整体趋势特征作为输入，建立SVDD模型对目标音频数据进行识别。其中，整体趋势特征是指能反映信号变换趋势的特征。

为了从MFCC矩阵中提出整体趋势特征，可以通过对MFCC矩阵进行降维得到，例如可以采用动态时间归整(Dynamic Time Warping，DTW)，主成分分析(principal componentanalysis，PCA)等方法降低MFCC矩阵维度后，训练鼾声信号的SVDD模型，但实际发现该此时SVDD模型对鼾声与噪声区分度很小，例如采用PCA降维后训练的SVDD模型鼾声识别率约85％，噪声误识别率35％。

由上述可知，MFCC矩阵降维方法选择不当可能会损失鼾声信号有效特征，因此需根据鼾声时域与频域特性选择合适的方法提取整体趋势特征。进一步参见图4和图5，图4是本发明实施例提供的一种时域鼾声信号示意图，图5是本发明实施例提供的一种鼾声信号功率谱示意图，由图4可以看出，鼾声信号在时域具有周期性，以及一定的能量分布特点，由图5可以看出，鼾声信号频域上主要分布在低频段，且具有特定的频率宽度和共振峰等特征，为了尽可能地保留鼾声信号在时域和频域上的特征，以提高信号识别率，在对MFCC矩阵进行降维之前因此首先采用奇异值分解(Singular Value Decomposition，SVD)方法来得到MFCC系数矩阵的主要部分即第一目标矩阵，该第一目标矩阵中包括目标音频数据的时域有效特征和频域有效特征，然后再对该第一目标矩阵进行降维处理，得到目标特征向量，其中，该目标特征向量中包括目标音频数据的整体趋势特征。

在本发明实施例中，可以采用PCA对第一目标矩阵进行降维处理。

更进一步具体地，由于在一个周期中，鼾声信号的特征主要体现在第一目标矩阵的前几个特征值中，所以在得到第一目标矩阵后，可提取第一目标矩阵中前几个特征值，然后对第一目标矩阵的前几个特征值进行降维处理。举例说明，如对1000例鼾声信号求MFCC特征矩阵，并采用SVD分解得特征值与特征向量，由于95％的信号特征集中体现在前25个特征向量上，因此，PCA算法仅需对前25个特征向量降维即可，最终，可得到25维的鼾声整体特征向量。

可以理解，通过该方法可使得第一目标矩阵的长度一致(如使得该第一目标矩阵的行数相同)，以及提取出该目标音频数据的整体趋势特征，同时可以避免损失鼾声信号，以及提高鼾声识别的准确率，提高鼾声检测装置的效率。

可选地，本发明实施例还提供了一种获取目标音频数据的方法，如下所示：

获取原始音频数据后，确定上述目标音频数据，上述目标音频数据为与上述原始音频数据对应的有效音频数据；

本实施例中，原始音频数据可为鼾声或其它声音。其中，鼾声检测装置中可以包括传声器，从而利用该传声器获取原始音频数据。本实施例还可以通过外接传声器的方式，来获取原始音频数据等。还可以通过外接的音频采集设备来获取原始音频数据。可以理解的是，本发明实施例对于获取该原始音频数据的方法不作限定。

本实施例中，确定目标音频数据，可以通过相关检测方法提取原始音频数据中的有效音频数据，也就是说，通过相关检测方法提取原始音频数据中的有效信号。

可选地，本实施例提供了一种确定目标音频数据的方法，所述确定目标音频数据包括：

利用语音端点检测方法VAD检测上述原始音频数据中的有效音频数据，得到上述目标音频数据。

语音端点检测(Voice Activity Detection，VAD)又称语音活动检测，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理***中，起到降低语音编码速率、节省通信带宽、减少装置能耗、提高识别率等作用。

如可以利用双门限检测法、基于自相关极大值的检测法或者基于小波变换的检测法等等来提取有效音频数据，可以理解的是，本实施例对于具体的实现方式不作限定。

实施本实施例，可以提取出有效音频数据，提高鼾声检测装置检测鼾声的效率，避免其他信号的干扰。

102、在上述目标音频数据的周期满足预设周期，且上述判别结果符合预设结果的情况下，确定上述目标音频数据为鼾声。

本实施例中，如目标音频数据与SVDD模型能够匹配成功，则可认为判别结果符合预设结果，可以理解的是，判别结果可依据SVDD模型的设置而定，如获得的判别结果可为“是”，又或者为其他提示信息等等，本实施例对于判别结果的具体实现方式不作限定。

可选地，上述在上述目标音频数据的周期满足预设周期，且上述判别结果符合预设结果的情况下，上述方法还包括：

保存上述原始音频数据和/或保存上述目标音频数据。

实施本实施例，通过保存原始音频数据和/或目标音频数据，还可以方便统计用户的鼾声记录，如用户每小时打鼾次数又或者鼾声分贝等信息，以便于为用户的身体健康状况提供对比依据。

具体地，上述目标音频数据的持续时间大于预设时间。

针对某一种鼾声来说，每次鼾声发生的时间间隔大体相等，振幅基本一致，与人体呼吸节奏密切相关，因此鼾声周期基本与呼吸率保持一致，也就是说，当1min的音频信号中出现周期在10～60次/分范围内的声音时，可初步判定为鼾声信号，如图6所示，图6是本发明实施例提供的一种1min鼾声信号能量曲线示意图，其中，横轴代表时间(s)，纵轴代表能量曲线幅度。因此，本实施例中，预设时间可为1分钟。可以理解的是，上述音频信号可理解为本实施例中所指的目标音频数据。

具体地，上述目标音频数据的周期满足预设周期包括：

上述目标音频数据的时域周期满足预设时域周期，和/或，上述目标音频数据的频域周期满足预设频域周期。

具体地，可通过如下步骤来确定目标音频数据的周期是否满足预设周期。

1)求出1min音频信号(即鼾声)的能量曲线：如对音频信号求绝对值，求每0.05s音频信号的能量和，得到采样率为20Hz音频能量曲线，并采用平滑滤波器滤除能量曲线中的毛刺等局部噪声。

2)时域方法求音频信号的时域周期：在1)中求得的音频能量曲线上搜索信号波峰，设置波峰间距阈值与幅度阈值，排除部分不满足条件的波峰，计算波峰间距，该波峰间距即为时域周期，当1min内的波峰间距有一定周期性时，判断该时域周期是否在在鼾声周期范围内；当1min内波峰间距没有周期性时，认为此段音频信号为噪声。

3)频域方法求音频信号的频域周期：对音频能量曲线做傅里叶变换，求得其频谱，根据共振峰信息和基频信息，并在共振峰信息和基频信息满足鼾声信号的特征时确定该音频信号为鼾声；否则，确定此段音频信号为噪声。

可以理解的是，上述步骤2)和步骤3)在具体实现中，可以同时执行，提高鼾声检测装置检测鼾声的准确率；也可以单独执行，降低算法运算量，减少鼾声检测装置的运行内存。

本实施例中，SVDD模型结合周期检测识别鼾声的方法可以显著提高鼾声识别准确率，通过简单的鼾声检测装置就可检测睡眠，降低产品制造成本，提高用户体验。同时，也能尽可能地排除其他噪声信号干扰，实现鼾声检测的正确性。

实施本发明实施例，可方便快捷地、准确地实现鼾声检测，提高鼾声检测装置的效率。

可以理解的是，在图1所描述的方法的基础上，在将目标音频数据输入支持向量数据描述算法SVDD模型之前，还可以获取上述SVDD模型。该SVDD模型可以为经过训练的SVDD模型，该SVDD模型可以预先存储于鼾声检测装置中，又或者是在实施图1所描述的方法之前经过该鼾声检测装置训练的等等。其中，训练SVDD模型的方法可以如图7所描述的方法，也可以为其他方法等等，本发明实施例不作唯一性限定。更进一步地，若由于场景变换或其它原因导致该基于SVDD模型用于识别鼾声时准确率不合格，可重新配置或训练该SVDD模型。请参见图7，图7是本发明实施例提供的另一种鼾声检测方法的流程示意图，该鼾声检测方法可应用于鼾声检测装置，如图7所示，该鼾声检测方法可包括：

701、获取音频数据样本；

本实施例中，一般地，音频数据样本可以为不同性别的人的鼾声样本，也可以为不同年龄的人的鼾声样本等等，可以理解的是，本发明实施例对于音频数据样本的数量不作限定。

702、对上述音频数据样本进行训练，得到SVDD模型；

具体地，本发明实施例还提供了一种训练SVDD模型的方法，上述对上述音频数据样本进行训练，得到上述SVDD模型包括：

计算上述音频数据样本的MFCC，得到N*L系数矩阵，其中，N为上述音频数据样本的帧数，L为MFCC系数长度；

利用奇异值分解SVD方法分解上述N*L系数矩阵，获得第二目标矩阵；

对上述第二目标矩阵进行降维处理后，获得预设数目的特征向量，利用SVDD算法训练上述预设数目的特征向量，得到上述SVDD模型，上述预设数目的特征向量中包含上述音频数据样本的整体趋势特征。

可以理解的是，在获取到音频数据样本后，还可以先通过VAD检测方法检测该音频数据样本中的有效音频样本，从而再计算该音频数据样本的MFCC。

本实施例中计算音频数据样本的MFCC的方法可以参考前述实施例中的方法，如通过预加重、分帧、加窗、FFT、三角带通滤波器和DCT步骤来获取音频数据样本的MFCC系数以及得到N*L系数矩阵，其中，具体步骤可以参考前述实施例，这里不再赘述。音频数据样本如鼾声信号MFCC系数计算完毕后，得到一个N*L的系数矩阵，其中N为鼾声信号帧数，L为MFCC系数长度。由于MFCC系数矩阵维度较高，且鼾声信号长度不一致导致矩阵行数N不同，因此为了进一步提取出鼾声信号有效特征，还可以采用PCA对第二目标矩阵进行降维处理，更进一步具体地，由于在一个周期中，鼾声信号的特征主要体现在第二目标矩阵的前几个特征值中，所以在得到第二目标矩阵后，可提取第二目标矩阵中前几个特征值，然后对第二目标矩阵的前几个特征值进行降维处理。举例说明，如对1000例鼾声信号求MFCC特征矩阵，并采用SVD分解得特征值与特征向量，由于95％的信号特征集中体现在前25个特征向量上，因此，PCA算法仅需对前25个特征向量降维即可，最终，可得到25维的鼾声整体特征向量。通过该方法可以使得第二目标矩阵的长度一致，以及提取出该音频数据样本的整体趋势特征，从而提高训练的有效性。可以理解的是，本实施例中，N*L系数矩阵可以与上述X*Y系数矩阵相同，也可以不同，在具体实现中，依据具体情况而定，本实施例不作唯一性限定。

支持向量机(Support Vector Machine，SVM)是Vapnik等人根据统计学理论提出的一种新的通用学习方法，它建立在结构风险最小化原理基础上，对非线性、高维数的小样本问题有非常好的分类效果和学习推广能力。SVDD算法与SVM其原理相似，SVDD不仅具有标准SVM的优点，更具有其独特的优点，更适用于特定声音的识别应用。

SVDD基本原理是为输入样本计算一个球状的决策边界，将整个空间划分为两部分，一部分是边界内的空间，看作可接受的部分；另一部分则是边界外的空间，看作是拒绝的部分。这就使SVDD具有一类样本的分类特征。在训练的过程中，通过控制超球的大小和范围使超球面包含住尽可能多的样本点，另一方面我们又要求它的半径达到最小，使其达到最优化的分类效果。因此，超球面的作用不仅仅是分开两类，而且还有把球里面的样本尽量包“牢”和包“纯”，拒绝其它类样本的进入。

用SVDD识别鼾声信号的基本思路是：根据鼾声信号提取出的整体特征训练SVDD模型，可训练出一个25维的超球面(超球面是指3维以上的空间中的球面，对应的2维空间中就是曲线，3维空间中就是球面，3维以上的称为超球面)，理想情况下，超球面内可以包含所有鼾声信号，而非鼾声被排除在超球面外；但实际情况下，为提高鼾声检测准确率并降低误识别率，只能在选择鼾声样本时尽可能考虑全面，在超球面已经包含所有鼾声训练信号的前提下，尽可能缩小其边界，使得它的半径达到最小。

SVDD模型用于识别新的音频信号时，如果信号整体特征落在超球面内，则初步判断为鼾声信号，否则不是鼾声信号。图8显示了SVDD对2维数据分类的结果，椭圆形边界内包含了大部分样本(SVDD维数由选取特征而定，提取的特征多，维数就高，为方便展示，举2维的例子，实际应用中，特征维度可能较高)。

下面将详细介绍SVDD模型的具体训练过程：

SVDD的优化目标就是，求一个中心为a，半径为R的最小球面：

其中，C和ξ表示模型控制参数，C表示公式(1)中输入向量γ范围，ξ表示惩罚因子。

使得这个球面满足:

(x_i-a)^T(x_i-a)≤R²+ξ_i

满足这个条件就是说要把训练数据集中的数据点都包在球面里(对于3维以上的数据x_i，该球面即为超球面。其中，超球面是指3维以上的空间中的球面，对应的2维空间中就是曲线，3维空间中就是球面)。

现在有了要求解的目标，又有了约束，接下来用拉格朗日乘子法:

其中，α_i≥0,γ_i≥0，分别对参数R,a,ξ_i求偏导并令导数等于0得到：

将上面(2)、(3)、(4)代入式(1)中，便可得到其对偶问题：

其中，

上面的向量内积也可以像SVM一样通过核函数解决:

求得SVDD模型中心a和半径R后，训练过程完成，可以使用模型识别鼾声信号：首先提取出鼾声信号的整体特征，接下来计算该整体特征到SVDD模型中心a的距离D，当D<R时，初步判定样本为鼾声。

703、获取原始音频数据后，确定目标音频数据，上述目标音频数据为与上述原始音频数据对应的有效音频数据；

704、获取与上述目标音频数据对应的目标特征向量，并将上述目标特征向量输入上述SVDD模型中，获得判别结果；

本发明实施例中，上述目标特征向量为对上述目标音频数据的梅尔频率倒频系数MFCC经过特征提取后获得的特征向量；

705、在上述目标音频数据的周期满足预设周期，且上述判别结果符合预设结果的情况下，确定上述目标音频数据为鼾声。

可以理解的是，步骤703-步骤705的具体实现方式可以参考图1所描述的方法，这里不一一赘述。

本发明用SVDD模型结合周期检测用于鼾声的识别。目前，检测鼾声的家用设备大多是基于简单的语音参数，比如过零率、能量谱、功率谱等。部分医用设备采用了复杂模型。相比较而言，基于简单参数的算法准确度低，难以满足需求；而复杂模型复杂度高，运算量大、成本较高，难以在家用设备上实现。因此，通过实施本发明实施例，将SVDD模型结合周期检测应用到鼾声检测装置中如家居或便携设备，不仅方便快捷，而且可以更准确地实现鼾声检测，为用户的疾病诊断提供有益信息。

上述详细阐述了本发明实施例的方法，下面提供了本发明实施例的装置。

请参见图9，图9是本发明实施例提供的一种鼾声检测装置的结构示意图，该鼾声检测装置可用于执行本发明实施例提供的鼾声检测方法，如图9所示，该鼾声检测装置可包括：

第一获取单元901，用于获取与目标音频数据对应的目标特征向量；

输入获得单元902，用于将上述目标特征向量输入支持向量数据描述算法SVDD模型中，获得判别结果，上述目标特征向量为对上述目标音频数据的梅尔频率倒频系数MFCC经过特征提取后获得的特征向量；

确定单元903，用于在上述目标音频数据的周期满足预设周期，且上述判别结果符合预设结果的情况下，确定上述目标音频数据为鼾声。

可选地，上述第一获取单元901，还用于获取原始音频数据；

上述确定单元903，还用于确定目标音频数据，上述目标音频数据为与上述原始音频数据对应的有效音频数据；

具体地，上述确定单元903，具体用于利用语音端点检测方法VAD检测上述原始音频数据中的有效音频数据，得到上述目标音频数据。

实施本实施例，可以提高鼾声识别率，排除其他干扰。

可选地，上述鼾声检测装置还可以包括：

保存单元，用于保存上述原始音频数据和/或上述目标音频数据。

具体地，如图10所示，上述第一获取单元901包括：

第一计算子单元9011，用于计算上述目标音频数据的MFCC，得到X*Y系数矩阵，其中，X为目标音频数据的帧数，Y为MFCC系数长度；

第一分解子单元9012，用于利用奇异值分解SVD方法分解上述X*Y系数矩阵，获得第一目标矩阵；

第一降维处理子单元9013，用于对上述第一目标矩阵进行降维处理后，得到上述目标特征向量，上述目标特征向量中包含上述目标音频数据的整体趋势特征。

实施本实施例，不仅可以避免损失鼾声信号，而且还可以提高鼾声识别的准确率，提高鼾声检测装置的效率。

具体地，上述目标音频数据的周期满足预设周期包括：

具体地，上述目标音频数据的持续时间大于预设时间。

具体地，如图11所示，上述装置还包括：

第二获取单元904，用于获取上述SVDD模型。

具体地，如图12所示，上述第二获取单元904包括：

第二计算子单元9041，用于计算上述音频数据样本的MFCC，得到N*L系数矩阵，其中，N为上述音频数据样本的帧数，L为MFCC系数长度；

第二分解子单元9042，用于利用奇异值分解SVD方法分解上述N*L系数矩阵，获得第二目标矩阵；

第二降维处理子单元9043，用于对上述第二目标矩阵进行降维处理后，获得预设数目的特征向量，上述预设数目的特征向量中包含上述音频数据样本的整体趋势特征；

训练子单元9044，用于利用SVDD算法训练上述预设数目的特征向量，得到上述SVDD模型。

实施本实施例，将SVDD模型结合周期检测应用到鼾声检测装置中如家居或便携设备，不仅方便快捷，而且可以更准确地实现鼾声检测，为用户的疾病诊断提供有益信息。

需要说明的是，各个单元的实现还可以对应参照图1和图7所示的方法实施例的相应描述。

参见图13，图13是本发明另一实施例提供的一种鼾声检测设备的结构示意图。如图13所示的本实施例中的鼾声检测设备可以包括：一个或多个处理器1301；一个或多个输入设备1302，一个或多个输出设备1303和存储器1304。上述处理器1301、输入设备1302、输出设备1303和存储器1304通过总线1305连接。存储器1302用于存储指令，处理器1301用于执行存储器1302存储的指令。其中，处理器1301用于：

获取与目标音频数据对应的目标特征向量，并将上述目标特征向量输入支持向量数据描述算法SVDD模型中，获得判别结果；上述目标特征向量为对上述目标音频数据的梅尔频率倒频系数MFCC经过特征提取后获得的特征向量；

在上述目标音频数据的周期满足预设周期，且上述判别结果符合预设结果的情况下，确定上述目标音频数据为鼾声。

应当理解，在本发明实施例中，所称处理器1301可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备1302可以包括触控板、麦克风等，如可通过该输入设备获取原始音频数据等。

输出设备1303可以包括显示器(LCD等)、扬声器等，如可通过该输出设备输出判别结果等等。

该存储器1304可以包括只读存储器和随机存取存储器，并向处理器1301提供指令和数据。存储器1304的一部分还可以包括非易失性随机存取存储器。例如，存储器1304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器1301、输入设备1302、输出设备1303可执行本发明实施例提供的鼾声检测方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例所描述的鼾声检测装置的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现：

上述计算机可读存储介质可以是前述任一实施例上述的鼾声检测设备的内部存储单元，例如鼾声检测设备的硬盘或内存。上述计算机可读存储介质也可以是上述鼾声检测设备的外部存储设备，例如上述鼾声检测设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述计算机可读存储介质还可以既包括上述鼾声检测设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述鼾声检测设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种鼾声检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取与目标音频数据对应的目标特征向量包括：

对所述第一目标矩阵进行降维处理后，得到所述目标特征向量，所述目标特征向量包括所述目标音频数据的整体趋势特征。

3.根据权利要求1或2所述的方法，其特征在于，所述目标音频数据的周期满足预设周期包括：

所述目标音频数据的时域周期满足预设时域周期以及所述目标音频数据的频域周期满足预设频域周期中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标音频数据输入支持向量数据描述算法SVDD模型之前，所述方法还包括：

获取所述SVDD模型。

5.根据权利要求4所述的方法，其特征在于，所述获取所述SVDD模型包括：

6.一种鼾声检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一获取单元包括：

8.根据权利要求6或7所述的装置，其特征在于，所述目标音频数据的周期满足预设周期包括：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取所述SVDD模型。

10.根据权利要求9所述的装置，其特征在于，所述第二获取单元包括：

11.一种鼾声检测设备，其特征在于，包括处理器、输入设备、输出设备和存储器，其中：

所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1至5任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，使所述处理器执行如权利要求1至5任意一项所述的方法。