CN112017639B

CN112017639B - 语音信号的检测方法、终端设备及存储介质

Info

Publication number: CN112017639B
Application number: CN202010953527.1A
Authority: CN
Inventors: 陈国明
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2023-11-07
Anticipated expiration: 2040-09-10
Also published as: CN112017639A; WO2022052246A1; US20230360666A1

Abstract

本发明公开了一种语音信号的检测方法、终端设备及存储介质，包括：接收终端设备中的骨传导传感器检测到的时域信号，并获取时域信号中的时域特征；将时域信号转换为频域信号，并获取频域信号中的频域特征；在时域特征满足第一预设条件且频域特征满足第二预设条件时，判定骨传导传感器检测到语音信号。本发明根据骨传导传感器检测到的时域信号之间进行语音检测，并不用结合麦克风检测到的信号，使得语音检测更加简单，同时由于仅结合骨传导传感器进行语音识别，成本更低。

Description

语音信号的检测方法、终端设备及存储介质

技术领域

本发明涉及通信领域，尤其涉及一种语音信号的检测方法、终端设备及存储介质。

背景技术

近年来语音控制由于其便捷性受到广大用户的欢迎，而由于麦克风往往能够检测到语音以及噪音，在终端设备根据语音进行控制时会出现错误，往往通过麦克风以及骨传导传感器检测到的信号来同时识别接收到的信号是否为语音信号，该识别过程过于复杂。

发明内容

本发明的主要目的在于提供一种语音信号的检测方法、终端设备及存储介质，旨在简化语音的识别。

为实现上述目的，本发明提供一种语音信号的检测方法，所述语音信号的检测方法应用于终端设备，所述语音信号的检测方法包括：

接收终端设备中的骨传导传感器检测到的时域信号，并获取所述时域信号中的时域特征；

将所述时域信号转换为频域信号，并获取所述频域信号中的频域特征；

在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时，判定所述骨传导传感器检测到语音信号。

可选地，所述获取所述时域信号中的时域特征的步骤包括：

获取所述时域信号的短时过零率；

获取所述时域信号的基因周期，所述时域特征包括短时过零率和基因周期，所述第一预设条件包括所述短时过零率大于预设短时过零率，且所述基因周期大于第一预设基音周期小于第二预设基音周期；

所述获取所述频域信号中的频域特征的步骤包括：

获取所述频域信号的频谱重心，所述频域特征包括所述频谱重心，所述第二预设条件包括所述频谱重心大于预设频谱重心。

可选地，所述获取所述时域信号的短时过零率的步骤包括：

获取所述时域信号中各个相邻采样点的符号函数的差值，所述符号函数的参数为采样点的采样信号；

对各个所述差值求和得到所述短时过零率。

可选地，所述获取所述时域信号的基音周期的步骤包括：

按照预设周期在所述时域信号中进行采样得到采样信号，并获取采样信号预设时间间隔后的参考信号；

获取所述采样信号与所述参考信号的相似度，根据所述相似度确定所述基音周期。

可选地，所述获取所述频域信号的频谱重心的步骤包括：

获取所述频域信号中各个采样点的频率以及频谱能量，并获取每个所述采样的所述频率以及频谱能量的乘积；

对各个所述采样点对应的所述乘积求和以得到第一和值，并对各个所述采样点的频谱能量求和得到第二和值；

获取所述第一和值和所述第二和值的比值以得到所述频谱重心。

可选地，所述获取所述频域信号中的频域特征的步骤还包括：

获取所述频域信号的对数频谱能量；

获取所述频域信号的频谱能量比，所述频域特征还包括所述频域信号的对数频谱能量和频谱能量比，所述第二预设条件还包括所述对数频谱能量小于预设对数频谱能量且所述频谱能量比小于预设频谱能量比。

可选地，所述获取所述频域信号的频谱能量比的步骤还包括：

获取所述频域麦克信号在第一预设频段中各个子带的子频域麦克信号的幅值，根据所述幅值确定所述第一频谱能量；

获取所述频域麦克信号在第二预设频段中各个子带的子频域麦克信号的幅值，根据所述幅值确定所述第二频谱能量，所述第一预设频段中的最高频率小于所述第二预设频段中的最低频率；

获取所述第一频谱能量与所述第二频谱能量的比值，根据所述比值得到所述频谱能量比。

可选地，所述获取所述频域信号的对数频谱能量的步骤包括：

获取所述频域麦克信号在第三预设频段中各个子带的子频域麦克信号的幅值，根据所述幅值确定所述第三频谱能量；

对所述第三频谱能量取对数得到所述对数频谱能量。

此外，为实现上述目的，本发明还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号的检测程序，所述语音信号的检测程序被所述处理器执行如以上所述的语音信号的检测方法。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音信号的检测程序，所述语音信号的检测程序被处理器执行时实现如以上所述的语音信号的检测方法的步骤。

本发明提出的语音信号的检测方法、终端设备及存储介质，接收到终端设备中的骨传导传感器检测到的时域信号，并获取时域信号中的时域特征，将时域信号转换为频域信号，并获取频域信号中的频域特征，并在时域特征满足第一预设条件且频域特征满足第二预设条件时，判定骨传导传感器检测到语音信号，使得可以根据骨传导传感器检测到的时域信号之间进行语音检测，并不用结合麦克风检测到的信号，使得语音检测更加简单，同时由于仅结合骨传导传感器进行语音识别，成本更低。

附图说明

图1为本发明语音信号的检测方法涉及的终端设备的硬件架构示意图；

图2为本发明语音信号的检测方法的示例性一实施例的流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明语音信号的检测方法涉及的终端设备的硬件架构示意图。

如图1所示，本实施例涉及的终端设备，可为戴在头部的可穿戴设备，如耳机、眼镜以及VR设备等，本实施例中的终端设备包括存储器110、处理器130以及骨传导传感器120，存储器110可语音信号的检测程序。

本实施例中的终端设备为耳机时，终端设备还可包括麦克风，麦克风与处理器130连接。

存储器110中的语音信号的检测程序被处理器130执行时实现以下步骤：

参照图2，图2为本发明语音信号的检测方法的示例性一实施例的流程示意图，在本实施例中，所述语音信号的检测方法包括：

步骤S10，接收终端设备中的骨传导传感器检测到的时域信号，并获取所述时域信号中的时域特征；

骨传导是一种声音传导方式，即将声音转化为不同频率的机械振动，通过人的颅骨、骨迷路、内耳淋巴液、螺旋器、听觉中枢来传递声波。相对于通过振膜产生声波的经典声音传导方式，骨传导省去了许多声波传递的步骤，能在嘈杂的环境中实现清晰的声音还原，而且声波也不会因为在空气中扩散而影响到他人。

音频信号包括清音和浊音，通过分辨清音和浊音可分辨信号属于语音还是噪音，在本实施例中的，时域特征可包括短时过零率和基音周期，短时过零率为每秒钟信号通过零值的次数，如果过零率高，语音信号就是清音，如果过零率第，语音信号属于浊音；而基音是发浊音时声带震动所引起的周期性，而基音周期是指声带震动频率的倒数。

对应地，在时域特征包括短时过零率和基音周期时，获取所述时域信号中的时域特征的步骤包括：获取所述时域信号的短时过零率；获取所述时域信号的基音周期，所述时域特征包括短时过零率和基音周期。

对应的获取所述时域信号的短时过零率的步骤包括：

对各个所述差值的绝对值求和得到所述短时过零率。

短时过零率的计算公式可为：其中sgn为符号函数，sgn的取值可参考该公式/>其中，x(m)为采样得到的采样信号，Zn为短时过零率。

对应的获取所述时域信号的基音周期的步骤包括：

获取所述采样信号与所述参考信号的相似度，根据所述相似度确定所述基音周期。可以理解的是，可将相似度中的最大相似度作为基音周期。

相似度的计算公式可为：Rm为相似度，基音周期的公式为：Pitch＝max{Rm}，Pitch为基音周期。

步骤S20，将所述时域信号转换为频域信号，并获取所述频域信号中的频域特征；

可通过快速傅里叶变换将时域信号转换为频域信号，时域信号的波形为时间与振幅的关系，频域信号为频率与振幅的关系。本实施例中的频域特征可包括频谱重心，对应地，获取所述频域信号的频谱重心的步骤包括：

本实施例中的，频谱重心的计算公式为：

其中brightness为频谱重心，其中N为采样点的个数，N＝128，f(k)为采样点的频率，E(k)为频谱能量，频谱能量的计算公式为E(k)＝|Y(k)|²，Y(k)为频域信号的幅度。

步骤S30，在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时，判定所述骨传导传感器检测到语音信号。

在所述时域特征包括短时过零率和基音周期时，所述第一预设条件包括所述短时过零率大于预设短时过零率，且所述基音周期大于第一预设基音周期或者小于第二预设基音周期，该预设短时过零率可为0.6，第一预设基音周期可为94，所述第二预设基音周期可为8；对应地，在所述频域特征包括频谱重心时，第二预设条件包括所述频谱重心大于预设频谱重心，预设频谱重心可为3。

可以理解的是，频域特征还可包括对数频谱能量以及频谱能量比中的至少一个，对应地，获取所述频域信号中的频域特征的步骤还包括：

获取所述频域信号的对数频谱能量；

及/或，获取所述频域信号的频谱能量比，所述频域特征还包括所述频域信号的对数频谱能量和频谱能量比，所述第二预设条件还包括所述对数频谱能量小于预设对数频谱能量以及所述频谱能量比小于预设频谱能量比中的至少一个。

对应地，获取所述频域信号的频谱能量比的步骤包括：

将频域信号的128KHZ带宽分为128个子带，在128个子带中取第一预设频段为1～24，取第二预设频段为97～128，第一预设频段对应的第一频谱能量的计算公式可为：其中E_L为第一频谱能量，第二预设频段对应的第二频谱能量的计算公式可为：/>其中E_H为第二频谱能量，Y(k)为频域信号的幅度，频谱能量比的计算公式为/>为频谱能量比。

获取所述频域信号的对数频谱能量的步骤包括：

对所述第三频谱能量取对数得到所述对数频谱能量。

将频域信号的128KHZ带宽分为128个子带，在128个子带中取第三预设频段为1～24，对应的对数频谱能量的计算公式为：

其中Y(k)为频域信号的幅度，Eg为对数频谱能量。

可以理解的是，在骨传导传感器检测到语音信号，可开启所述终端设备中的麦克风。也可在检测到语音信号时，执行其他预设的动作，该预设的动作可根据需求进行设定。

在本实施例中任一时域特征不满足第一预设条件或者任一所述频域特征不满足第二预设条件时，判定所述骨传导传感器未检测到语音信号。

本实施例中可设置检测标识，在通过骨传导麦克风检测到语音是将检测标识设为1，在通过骨传导麦克风未检测到语音时，将检测标识设置为0，根据检测标识可确定是否开启麦克风，在检测标识为1时，说明用户在说话，此时开启麦克风能耗较低，避免麦克风一直开启；同时由于检测到用户说话才开启麦克风使得通过麦克风采集的语音触发的动作更加准确。

本实施例公开的语音信号的检测方法，接收到终端设备中的骨传导传感器检测到的时域信号，并获取时域信号中的时域特征，将时域信号转换为频域信号，并获取频域信号中的频域特征，并在时域特征满足第一预设条件且频域特征满足第二预设条件时，判定骨传导传感器检测到语音信号，使得可以根据骨传导传感器检测到的时域信号之间进行语音检测，并不用结合麦克风检测到的信号，使得语音检测更加简单，同时由于仅结合骨传导传感器进行语音识别，成本更低。

本发明还提出一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号的检测程序，所述语音信号的检测程序被所述处理器执行如以上实施例所述的语音信号的检测方法。

本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音信号的检测程序，所述语音信号的检测程序被处理器执行时实现如以上实施例所述的语音信号的检测方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音信号的检测方法，其特征在于，所述语音信号的检测方法应用于终端设备，所述语音信号的检测方法包括：

在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时，判定所述骨传导传感器检测到语音信号；

其中，所述获取所述频域信号中的频域特征的步骤还包括：

获取所述频域信号的对数频谱能量；

2.如权利要求1所述的语音信号的检测方法，其特征在于，所述获取所述时域信号中的时域特征的步骤包括：

获取所述时域信号的短时过零率；

获取所述时域信号的基音周期，所述时域特征包括短时过零率和基音周期，所述第一预设条件包括所述短时过零率大于预设短时过零率，且所述基音周期大于第一预设基音周期或者小于第二预设基音周期；

所述获取所述频域信号中的频域特征的步骤包括：

3.如权利要求2所述的语音信号的检测方法，其特征在于，所述获取所述时域信号的短时过零率的步骤包括：

对各个所述差值的绝对值求和得到所述短时过零率。

4.如权利要求2所述的语音信号的检测方法，其特征在于，所述获取所述时域信号的基音周期的步骤包括：

5.如权利要求2所述的语音信号的检测方法，其特征在于，所述获取所述频域信号的频谱重心的步骤包括：

6.如权利要求1所述的语音信号的检测方法，其特征在于，所述获取所述频域信号的频谱能量比的步骤包括：

获取频域麦克信号在第一预设频段中各个子带的子频域麦克信号的幅值，根据所述幅值确定所述第一频谱能量；

7.如权利要求1所述的语音信号的检测方法，其特征在于，所述获取所述频域信号的对数频谱能量的步骤包括：

获取频域麦克信号在第三预设频段中各个子带的子频域麦克信号的幅值，根据所述幅值确定第三频谱能量；

对所述第三频谱能量取对数得到所述对数频谱能量。

8.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号的检测程序，所述语音信号的检测程序被所述处理器执行如权利要求1-7中任一项所述的语音信号的检测方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音信号的检测程序，所述语音信号的检测程序被处理器执行时实现如权利要求1至7中任一项所述的语音信号的检测方法的步骤。