CN110349566A

CN110349566A - 语音唤醒方法、电子设备及存储介质

Info

Publication number: CN110349566A
Application number: CN201910624198.3A
Authority: CN
Inventors: 聂镭; 沙露露; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-18
Anticipated expiration: 2039-07-11
Also published as: CN110349566B

Abstract

本发明公开了一种语音唤醒方法，包括以下步骤：S1、获取用户当前语音，截取单位时长的语音；S2、根据所述单位时长的语音，判断所述单位时长的语音中包络的数量；S3、计算每个所述包络的时长；S4、根据所述单位时长的语音中所述包络数量和每个所述包络的时长，判断是否对所述的单位时长的语音进行语音唤醒识别。本发明无需进行负样本的收集，从而节约了数据收集的人工成本，同时误唤醒率的大幅度降低，大大提升了用户体验。

Description

语音唤醒方法、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音唤醒方法、电子设备及存储介质。

背景技术

语音唤醒技术是语音识别技术中重要分支。语音唤醒的应用领域比较广泛，例如机器人、手机、可穿戴设备、智能家居、车载等。设备从休眠到唤醒的过程一般为：设备开启加载好资源处于休眠状态，当用户说出特定的唤醒词时，设备就会被唤醒，切换到工作状态等待用户接下来的指令。这一过程中用户不需要用手接触，直接可以用语音进行操作，同时利用语音唤醒的机制，设备不用实时地处于工作的状态，从而节省能耗。

现有语音唤醒技术中，通常是使用独立的语音识别硬件***和独立的语音识别软件***。发明人在实现本发明的过程中，发现现有语音唤醒技术方案至少存在以下缺陷：

在语音唤醒模型识别命令词（也可以称为唤醒词）的过程当中，训练语音唤醒模型的负样本不足时，可能会导致频繁的语音唤醒模型的误唤醒情况。此问题的解决办法一般是针对该特定唤醒环境下对误唤醒的命令词进行收集，利用收集的负样本对语音唤醒模型进行重新训练，来降低在该种环境下的误唤醒率。然而，实际上，我们很难做到收集齐全所有的负样本，通过此方法虽然在一定程度上降低了语音唤醒模型的误唤醒率，但是，其语音唤醒的效果依然未能达到客户的要求，误唤醒率高，体验差。

发明内容

有鉴于此，本发明的目的在于提供一种语音唤醒方法、电子设备及存储介质，以改善相关技术中的语音唤醒的误唤醒率高，用户体验差的问题。

根据本发明的一个实施例，提供了一种语音唤醒方法，包括以下步骤：S1、获取用户当前语音，截取单位时长的语音；S2、根据所述单位时长的语音，判断所述单位时长的语音中包络的数量；S3、计算每个所述包络的时长；S4、根据所述单位时长的语音中所述包络数量和每个所述包络的时长，判断是否对所述的单位时长的语音进行语音唤醒识别。

根据本发明的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

本发明通过获取用户当前语音，截取单位时长的语音；根据所述单位时长的语音，判断所述单位时长的语音中包络的数量；计算每个所述包络的时长；根据所述单位时长的语音中所述包络数量和每个所述包络的时长，判断是否对所述的单位时长的语音进行语音唤醒识别。可见，本发明提出的语音唤醒方法通过计算包络数量及包络时长来预先过滤可能导致误唤醒的语音，实现了大幅度地降低误唤醒率的效果，相比现有技术中收集负样本数据并重新训练模型的方法，无需进行负样本的收集，从而节约了数据收集的人工成本，同时误唤醒率的大幅度降低，大大提升了用户体验。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点更为清楚，在附图中：

图1是本发明实施例的语音唤醒方法的终端的硬件结构框图；

图2是根据本发明实施例的语音唤醒方法的流程图；

图3是根据本发明实施例的语音唤醒词的语音包络示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下方对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书的“包括”、“包含”等类似词语应当解释为包含的含义而还是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明中的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，用于区别类似的对象，而不能理解为指示或暗示相对重要性，也不能理解为用于描述特定的顺序或先后次序。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音唤醒方法的终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音唤醒方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

如图2所示，在本实施例中提供了一种语音唤醒方法，包括以下步骤：

S1、获取用户当前语音，截取单位时长的语音；

S2、根据所述单位时长的语音，判断所述单位时长的语音中包络的数量；

S3、计算每个所述包络的时长；

S4、根据所述单位时长的语音中所述包络数量和每个所述包络的时长，判断是否对所述的单位时长的语音进行语音唤醒识别。

本发明通过获取用户当前语音，截取单位时长的语音；根据所述单位时长的语音，判断所述单位时长的语音中包络的数量；计算每个所述包络的时长；根据所述单位时长的语音中所述包络数量和每个所述包络的时长，判断是否对所述的单位时长的语音进行语音唤醒识别。可见，本发明提出的语音唤醒方法通过计算包络数量及包络时长来预先过滤可能导致误唤醒的语音，实现了大幅度地降低误唤醒率的效果，相比现有技术中收集负样本数据并重新训练模型的方法，本发明无需进行负样本的收集，从而节约了数据收集的人工成本，同时误唤醒率的大幅度降低，大大提升了用户体验。

下面将结合具体的实施方式对各个步骤进行详细的说明。

、获取用户当前语音，截取单位时长的语音。

通过音频采集设备（如上述输入输出设备108中的麦克风）对用户当前语音进行采集，获取用户当前的语音。对原始语音进行重采样到8KHz。采样频率一般有8KHz、16KHz和48KHz，为了方便统一处理，在本发明中，将语音数据重采样到8kHz。

按上述方式获取用户当前的语音后，按单位时长进行截取。需要说明的是，单位时长可以根据需要自定义设置，在本发明中，单位时长的时间长度设置的依据是该时间长度对应于本发明方案中语音唤醒模型语音片段的时间长度，也就是说单位时长的语音为本发明方案中语音唤醒模型进行每次唤醒识别的基本单元，也即语音唤醒模型输入语音片段的时间长度为一个单位的时间长度。本发明中使用的语音唤醒模型为现有技术，其不是本申请的发明点所在，故此处不作详述。

、根据所述单位时长的语音，判断所述单位时长的语音中包络的数量。

根据所截取的单位时长的语音，判断该单位时长的语音中包络的数量。语音的包络，即语音波形的包络特征，其能够整体上反映语音波形的特点。

对于特定的唤醒词（命令词），唤醒词一旦设置后，其具体内容都是固定的，因此唤醒词对应的语音波形的包络的数量也是固定的。一般情况下，在语音波形图中，一个字对应一个包络。以“小度小度”为例，标准情况下，应该会出现4个语音包络，如图3-a所示。对唤醒词的语音信号的包络进行提取，提取包络的目的是根据包络的数量来判断获得的语音信号中字词的数量，即语音信号中包络的数量在一定程度反映出唤醒词中字的数量，因此，通过判断语音信号中包络的数量来对语音唤醒模型的输入语音进行预处理，可以将一些由于环境噪音或者是乱说话导致的误唤醒情况降低。

在一些实施例中，判断语音包络的数量，可以先绘制语音的波形图，然后从该语音的波形图中直接判断包络的数量。例如，图3-a中的语音波形图中包含4个包络，图3-b中的语音波形图中包含3个包络，图3-c中的语音波形图中包含2个包络。

在本申请的一些实施中，步骤S2包括以下步骤：

S21、对所述单位时长的语音进行语音信号变换，得到语音信号序列。

通过对步骤S1中所截取的单位时长的语音进行数字化处理，经过语音信号变换，可以得到该单位时长的语音对应的语音信号序列。例如，signal=[0.01,0.005,0.02,0.01,0.001,0.02,0.03,0.02,0.001,0.02,0.001,0.02,0.02,0.0105]为所截取的某一段单位时长的语音经过语音信号变换得到的语音信号序列。

S22、根据所述语音信号序列，判断所述包络的数量。

在本申请的一些实施例中，在所述步骤S21之后在所述步骤S22之前，还包括：

S211、对所述语音信号序列中的特征值进行特征二值化处理，得到与所述语音信号序列相对应的第一语音信号标记序列，其中，特征二值化的第一阈值为所述语音信号序列中的特征值的均值，所述特征值大于或等于所述第一阈值则标记为1，所述特征值小于所述第一阈值则标记为0；

S212、对所述语音信号序列中的特征值进行二次特征二值化处理，得到与所述语音信号序列相对应的第二语音信号标记序列，其中，二次特征二值化的第二阈值为所述语音信号序列中被标记为1的特征值的均值，所述特征值大于或等于所述第二阈值则标记为1，所述特征值小于所述第二阈值则标记为0。

在本实施例中，通过上述步骤S211和步骤S212处理，可以将语音信号序列中环境噪音的部分进行过滤，即通过两次的特征二值化处理，将语音信号序列中只包含噪音的包络值变为0，只保留音频中语音部分的值。通过采用两次的特征二值化的双重判断，能够有效的提取语音信号的包络并且能够自适应的过滤环境中的噪音。本发明实施例中采用的特征二值化处理的噪音过滤方法，相对于传统的降噪方法（如滤波器法、相关特征法、非线性处理法、减谱法等），其只需很小的计算量，而且降噪效果好，不会造成信号的失真和引入额外噪声，同时，其对硬件要求低，容易在各种主流的硬件上实现，通用性好。下面举例具体说明：

对于上述的语音信号序列signal，首先，计算一次特征二值化的第一阈值，即第一阈值为signal中的特征值的均值mean1，计算出的均值mean1=0.0135，将大于或等于均值的位置标记为1，小于均值的位置标记为0，标记结果记为第一语音信号标记序列sign1，则经过特征二值化处理后，得到sign1=[1,1,0,1,1,0,0,0,1,0,1,0,0,1]。然后，对语音信号序列signal进行二次特征二值化处理。先计算二次特征二值化的第二阈值，即所述语音信号序列中被标记为1的特征值的均值或者所述均值乘以阈值系数（经验值），在本实施例中，第二阈值取上述均值乘以阈值系数，阈值系数取值为5，计算signal中标记为1的点的特征值的均值mean2，则第二阈值为5*mean2 =5*sum (signal*sign1)/sum (sign1)，计算第二阈值的结果为0.0275，此时将大于或等于均值mean2的位置标记为1，否则标记为0，得到与所述语音信号序列相对应的第二语音信号标记序列sign2，则sign2=[0,0,0,0,0,0,1,0,0,0,0,0,0,0]。

经过上述步骤S211和步骤S212两次的特征二值化的处理，解决了现有技术中一次二值化过滤噪音时将少量的背景噪音当成信号保留或者将少量信号当成噪音去除的问题，能够有效的提取语音信号的包络并且能够自适应的过滤环境中的噪音，自适应的将背景噪音置零，且不对所需信号造成失真或引入额外的噪声。

在本实施例中，所述步骤S22为：根据所述第二语音信号标记序列，判断所述包络的数量，其包括以下步骤：

S221、设置步长值Step及合并阈值Value；

S222、将所述第二语音信号标记序列根据步长值Step进行分段处理；

S223、逐一对所述第二语音信号标记序列中各个分段中的标记值进行求和Sum_i，其中i表示第i分段；

S224、将Sum_i与所述合并阈值Value进行比较，若Sum_i≥Value，则将分段中的标记值标记为1，若Sum_i＜Value，则将Sum_i对应分段中的标记值标记为0，得到语音信号标记合并序列。

需要说明的是，经过上述步骤S211和步骤S212计算得到的第二语音信号标记序列sign2，有效提取了语音信号的包络，因此，在本实施例中步骤S221至步骤S224中判断包络的数量，并不是对信号本身进行分析，而是等效成对第二语音信号标记序列sign2的判断。

在本发明的一些实施例中，在判断包络之前，需要对第二语音信号标记序进行合并处理，以解决了个别采样点的语音数据采样异常的问题，保证采样点的语音数据的一致性。合并处理具体过程如下：

首先，设置步长值Step，合并阈值Value，步长值和合并阈值可以根据实际的需要设置，在本实施命名，令Step =5，Value=3。

然后，将第二语音信号标记序列根据步长值Step进行分段处理。对于某个单位时长的语音经过上述步骤的语音处理后，得到的第二语音信号标记序列sign2’=[0,0,1,0,0,0,1,1,1,1,0,0,1,0,0]，sign2’长度为15，根据步长值Step=5，则sign2’共分为3段。

接着，逐一对所述第二语音信号标记序列中各个分段中的标记值进行求和Sum_i，其中i表示第i分段。第一段为[0,0,1,0,0]、第二段为[0,1,1,1,1]和第三段为[0,0,1,0,0]求和的计算结果为：Sum₁=1，Sum₂=4，Sum₃=1。

最后，将Sum_i与所述合并阈值Value进行比较，若Sum_i≥Value，则将分段中的标记值标记为1，若Sum_i＜Value，则将Sum_i对应分段中的标记值标记为0，得到语音信号标记合并序列。第一段为[0,0,1,0,0]，Value=3，第一段的和Sum₁为1，小于合并阈值Value，故第一段合并处理之后变成[0,0,0,0,0]，第二段为[0,1,1,1,1]，第二段的和Sum₂为4，大于合并阈值Value，故第二段合并处理之后变成[1,1,1,1,1]，第三段的和Sum₃为1，小于合并阈值Value，故第三段合并处理之后变成[0,0,0,0,0]。因此，sign2’经过合并处理之后得到语音信号标记合并序列为[0,0,0,0,0,1,1,1,1,1,0,0,0,0,0]。

在本发明的一些实施中，计算所述语音信号标记合并序列中标记值标为1的连续片段的数量M，并将所述数量M作为所述单位时长的语音的包络数量。在要本实施例中，上述语音信号标记合并序列 [0,0,0,0,0,1,1,1,1,1,0,0,0,0,0]中标记值标为1的连续片段的数量M为1。

、计算每个所述包络的时长。

在本发明的一些实施中，步骤S3中计算每个所述包络的时长，包括：

计算所述语音信号标记合并序列中标记值标为1的连续片段中采样点的数量N，则包络的时长计算方法为：

T＝1000*N/fs

其中，N表示采样点的数量，fs表示采样频率，包络的时长的单位为ms。

例如，上述语音信号标记合并序列 [0,0,0,0,0,1,1,1,1,1,0,0,0,0,0]中标记值标为1的连续片段中采样点的数量N为5，则包络时长为T=1000*5/8000=0.625ms。

、根据所述单位时长的语音中所述包络数量和每个所述包络的时长，判断是否对所述的单位时长的语音进行语音唤醒识别。

在本发明的一些实施例中，判断所述单位时长的语音中包络的数量和每个所述包络的时长是否符合预设要求，如果符合，则对所述单位时长的语音进行语音唤醒识别，如果不符合，则对所述单位时长的语音进行丢弃处理。通过对包络数量和包络的时长的判断，决定是否进行语音唤醒识别，一方面，通过实验表明，可以大幅度地降低语音唤醒识别的误唤醒率，另一方面，由于将不符合判断要求的语音进行丢弃而不作语音唤醒识别，因此可以减少语音唤醒识别的次数，从而降低硬件的计算量，从而节约硬件的功耗。下面具体举例说明：

例如当唤醒词为“小度小度”时，标准情况下，应该会出现4个语音包络，但是在实际情况中，也要可能出现3个语音包络，或者是2个语音包络的情况。这就需要根据上述步骤中得到的包络数量和包络时长，根据不同的情况，判断是否对所述的单位时长的语音进行语音唤醒识别。另外，一般情况下，中文单字的发音时间应该在0.2-0.4s（经验值），因此每个包络的时长应该在0.2-0.4s，但是在不同的包络数量的情况下，其包络的时长也会不一样。下面以唤醒词为“小度小度”为例子，其具体的判断过程说明如下：

若检测出的包络数量为4，则分别计算每个包络的时间长度，若每个包络的时间长度都在0.2-0.4s范围内，则返回1，否则返回0。

若检测出的包络数量为3，则分别计算每个包络的时间长度，若有两个包络的时间长度在0.2-0.4内，一个包络的时间长度在0.4-0.6s（经验值）内，则返回1，否则返回0。

若检测出的包络数量为2，则分别计算每个包络的时间长度，若每个包络的时间长度在0.3-0.6s（经验值）内，则返回值为1，否则，返回值为0。

其他情况下的包络数量，即当计算出的包络数量不为2、3、4时，直接返回值为0。

若收到的返回值为1时，则需要进行语音唤醒识别，否则将该语音片段丢弃。

本发明提出的语音唤醒方法通过计算包络数量及包络时长来预先过滤可能导致误唤醒的语音，实现了大幅度地降低误唤醒率的效果，相比现有技术中收集负样本数据并重新训练模型的方法，本发明无需进行负样本的收集，从而节约了数据收集的人工成本，同时误唤醒率的大幅度降低，大大提升了用户体验。通过对包络数量和包络的时长的判断，决定是否进行语音唤醒识别，一方面，通过实验表明，可以大幅度地降低语音唤醒识别的误唤醒率，另一方面，由于将不符合判断要求的语音进行丢弃而不作语音唤醒识别，因此可以减少语音唤醒识别的次数，从而降低硬件的计算量，从而节约硬件的功耗。

本发明的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1、获取用户当前语音，截取单位时长的语音；

S3、计算每个所述包络的时长；

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1、获取用户当前语音，截取单位时长的语音；

S3、计算每个所述包络的时长；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的程序代码，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音唤醒方法，其特征在于，所述方法包括以下步骤：

S1、获取用户当前语音，截取单位时长的语音；

S3、计算每个所述包络的时长；

2.根据权利要求1所述的方法，其特征在于，所述步骤2包括：

S21、对所述单位时长的语音进行语音信号变换，得到语音信号序列；

S22、根据所述语音信号序列，判断所述包络的数量。

3.根据权利要求2所述的方法，其特征在于，在所述步骤S21之后在所述步骤S22之前，还包括：

S212、对所述语音信号序列中的特征值进行二次特征二值化处理，得到与所述语音信号序列相对应的第二语音信号标记序列，其中，二次特征二值化的第二阈值为所述语音信号序列中被标记为1的特征值的均值或者所述均值乘以阈值系数，所述特征值大于或等于所述第二阈值则标记为1，所述特征值小于所述第二阈值则标记为0，所述阈值系数为经验值。

4.根据权利要求3所述的方法，其特征在于，所述步骤S22为：

根据所述第二语音信号标记序列，判断所述包络的数量。

5.根据权利要求4所述的方法，其特征在于，所述步骤S22包括以下步骤：

S221、设置步长值Step及合并阈值Value；

6.根据权利要求5所述的方法，其特征在于，所述步骤S2中“判断所述包络的数量”包括：

计算所述语音信号标记合并序列中标记值标为1的连续片段的数量M，并将所述数量M作为所述单位时长的语音的包络数量。

7.根据权利要求5或6所述的方法，其特征在于，所述步骤S3包括：

T＝1000*N/fs

8.根据权利要求1-7任一所述的方法，其特征在于，所述步骤S4包括：

判断中所述包络数量和每个所述包络的时长是否符合预设要求，如果符合，则对所述单位时长的语音进行语音唤醒识别，如果不符合，则对所述单位时长的语音进行丢弃处理。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。