CN110021307B

CN110021307B - 音频校验方法、装置、存储介质及电子设备

Info

Publication number: CN110021307B
Application number: CN201910273077.9A
Authority: CN
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2022-02-01
Anticipated expiration: 2039-04-04
Also published as: CN110021307A

Abstract

本申请实施例公开了一种音频校验方法、装置、存储介质及电子设备，其中，电子设备包括电子设备包括处理器、专用语音识别芯片和两个麦克风，且专用语音识别芯片的功耗小于处理器的功耗，在处理器处于休眠状态时，利用低功耗的专用语音识别芯片对外部的音频信号进行校验，若校验通过则唤醒处理器，由处理器对外部的两个音频信号降噪得到降噪音频信号，再由处理器校验该降噪音频信号，得到对应的校验结果。由此，能够排除外部噪声的干扰，从而更准确的对音频信号进行校验。

Description

音频校验方法、装置、存储介质及电子设备

技术领域

本申请涉及语音处理技术领域，具体涉及一种音频校验方法、装置、存储介质及电子设备。

背景技术

目前，通过音频校验，用户可以在不方便直接操控电子设备的情况下说出语音指令来控制电子设备。然而，在实际使用环境中，往往存在各种噪声，使得电子设备难以准确的校验输入的音频信号。

发明内容

本申请实施例提供了一种音频校验方法、装置、存储介质及电子设备，能够提高电子设备校验音频信号的准确度。

第一方面，本申请实施例提供了一种音频校验方法，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和两个麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验方法包括：

在所述处理器处于休眠状态时，通过任一麦克风获取外部的音频信号，并将所述音频信号提供给所述专用语音芯片；

通过所述专用语音芯片校验所述音频信号，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后控制所述专用语音芯片休眠；

通过两个麦克风获取外部的两个音频信号，并将所述两个音频信号提供给所述处理器；

通过所述处理器降噪所述两个音频信号得到降噪音频信号，并校验所述降噪音频信号，得到校验结果。

第二方面，本申请实施例提供了一种音频校验装置，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和两个麦克风，所述音频校验装置包括：

第一采集模块，用于在所述处理器处于休眠状态时，通过任一麦克风获取外部的音频信号，并将所述音频信号提供给所述专用语音芯片；

第一校验模块，用于通过所述专用语音芯片校验所述音频信号，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后控制所述专用语音芯片休眠；

第二采集模块，用于通过两个麦克风获取外部的两个音频信号，并将所述两个音频信号提供给所述处理器；

第二校验模块，用于通过所述处理器降噪所述两个音频信号得到降噪音频信号，并校验所述降噪音频信号，得到校验结果。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在包括处理器、专用语音识别芯片和两个麦克风的电子设备运行时，使得所述电子设备执行本申请实施例提供的音频校验方法中的步骤。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括音频采集单元、处理器、专用语音识别芯片和两个麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述电子设备包括音频采集单元、处理器、专用语音识别芯片和屏幕，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述音频采集单元用于在所述处理器处于休眠状态时，通过任一麦克风获取外部的音频信号，并将所述音频信号提供给所述专用语音芯片；

所述专用语音识别芯片用于校验所述音频信号，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后休眠；

所述音频采集单元用于在唤醒所述处理器后，通过两个麦克风获取外部的两个音频信号，并将所述两个音频信号提供给所述处理器；

所述处理器用于降噪所述两个音频信号得到降噪音频信号，并校验所述降噪音频信号，得到校验结果。

本申请实施例中，电子设备包括处理器、专用语音识别芯片和两个麦克风，且专用语音识别芯片的功耗小于处理器的功耗，在处理器处于休眠状态时，利用低功耗的专用语音识别芯片对外部的音频信号进行校验，若校验通过则唤醒处理器，由处理器对外部的两个音频信号降噪得到降噪音频信号，再由处理器校验该降噪音频信号，得到对应的校验结果。由此，能够排除外部噪声的干扰，从而更准确的对音频信号进行校验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频校验方法的一流程示意图。

图2是本申请实施例中两个麦克风的设置位置示意图。

图3是本申请实施例中根据两个麦克风采集的两个音频信号进行噪声抑制的示意图。

图4是本申请实施例中训练声纹特征提取模型的流程示意图。

图5是本申请实施例中提取的语谱图的示意图。

图6是本申请实施例提供的音频校验方法的另一流程示意图。

图7是本申请实施例提供的音频校验装置的结构示意图。

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例首先提供一种音频校验方法，该音频校验方法的执行主体可以是本申请实施例提供的电子设备，该电子设备包括处理器、专用语音识别芯片和两个麦克风，且专用语音识别芯片的功耗小于处理器的功耗，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的音频校验方法的流程示意图。该音频校验方法应用于本申请提供的电子设备，该电子设备包括处理器、专用语音识别芯片和两个麦克风，如图1所示，本申请实施例提供的音频校验方法的流程可以如下：

在101中，在处理器处于休眠状态时，通过任一麦克风获取外部的音频信号，并将音频信号提供给专用语音芯片。

应当说明的是，本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。其中，专用语音识别芯片、处理器以及音频采集单元任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

本申请实施例中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外，电子设备所包括的两个麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)。

其中，在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态)，电子设备通过任一麦克风对外部的声音进行采集，假设麦克风为模拟麦克风，那么将采集到模拟的音频信号，此时需要将模拟的音频信号进行模数转换，得到数字化的音频信号，用于后续处理。比如，电子设备可以在通过麦克风采集到外部的模拟音频信号后，以16KHz的采样频率对该模拟音频信号进行采样，得到数字音频信号。

本领域普通技术人员可以理解的是，若电子设备所包括的麦克风为数字麦克风，则将直接采集到数字化的音频信号，无需再进行模数转换。

在采集到外部的音频信号之后，电子设备将采集到的音频信号提供给专用语音识别芯片。

在102中，通过专用语音芯片校验音频信号，并在校验通过时唤醒处理器，以及在唤醒处理器后控制专用语音芯片休眠。

本申请实施例中，在将采集到外部的音频信号提供给专用语音芯片之后，电子设备进一步通过专用语音芯片上运行的第一校验算法校验该音频信号，得到校验结果。其中，包括但不限于校验前述音频信号的文本特征和/或声纹特征。

通俗的说，校验音频信号的文本特征也即是校验音频信号中是否包括预设唤醒词，只要音频信号包括预设唤醒词，即校验音频信号的文本特征通过，而不论该预设唤醒词由谁说出。比如，音频信号包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设唤醒词，但是该预设唤醒词由用户A说出，而不是预设用户，专用语音识别芯片在基于第一校验算法校验音频信号的文本特征时，将校验通过。

而校验音频信号的文本特征以及声纹特征也即是校验音频信号中是否包括预设用户说出的预设唤醒词，若音频信号中包括预设用户说出的预设唤醒词，则音频信号的文本特征以及声纹特征校验通过，否则校验不通过。比如，音频信号包括了预设用户设置的预设唤醒词，且该预设唤醒词由预设用户说出，则该音频信号的文本特征以及声纹特征校验通过；又比如，音频信号包括了预设用户之外的其他用户说出的预设唤醒词，或者音频信号不包括任何用户说出的预设唤醒词时，则该音频信号的文本特征以及声纹特征将校验失败(或者说未校验通过)。

本申请实施例中，电子设备在通过专用语音识别芯片校验前述音频信号通过时，通过专用语音识别芯片与处理器之间的通信连接发送预设的中断信号至处理器，以唤醒处理器。在唤醒处理器之后，电子设备休眠专用语音识别芯片，同时，屏幕由芯片状态切换至亮屏状态。

应当说明的是，若前述音频信号未校验通过，则电子设备继续将通过任一麦克风获取到的外部的音频信号提供给专用语音识别芯片进行校验，直至校验通过。

在103中，通过两个麦克风获取外部的两个音频信号，并将两个音频信号提供给处理器。

电子设备在唤醒处理器之后，通过设置的两个麦克风同步获取外部的两个相同时长的音频信号，并将获取到的两个音频信号提供给处理器。

根据以上相关描述，本领域普通技术人员应当理解的是，此处提供给处理器的两个音频信号同样为数字化的音频信号。

在104中，通过处理器降噪两个音频信号得到降噪音频信号，并校验降噪音频信号，得到校验结果。

本申请实施例中，电子设备在将获取到的两个音频信号提供给处理器之后，通过处理器运行的双麦降噪算法降噪两个音频信号得到降噪音频信号。其中，对于选取何种双麦降噪算法，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行选取，包括但不限于双麦波束形成降噪算法、双麦盲源分离降噪算法等，

电子设备在通过处理器降噪两个音频信号得到降噪音频信号后，进一步通过处理器运行的第二校验算法校验该降噪音频信号，得到校验结果，其中，包括但不限于校验前述降噪音频信号的文本特征和/或声纹特征。在校验降噪音频信号通过时，电子设备即可进一步执行对应该降噪音频信号的操作，包括但不限于解锁屏幕、启动语音助手等。

应当说明的是，专用语音识别芯片运行的第一校验算法与处理器运行的第二校验算法可以相同，也可以不同，本申请实施例对此不做具体限制。

由上可知，本申请实施例中，电子设备在处理器处于休眠状态时，利用低功耗的专用语音识别芯片对外部的音频信号进行校验，若校验通过则唤醒处理器，由处理器对外部的两个音频信号降噪得到降噪音频信号，再由处理器校验该降噪音频信号，得到对应的校验结果。由此，能够排除外部噪声的干扰，从而更准确的对音频信号进行校验。

在一实施例中，“通过处理器降噪两个音频信号得到降噪音频信号”，包括：

(1)通过处理器向量化表征两个音频信号，得到音频向量；

(2)通过处理器盲源分离音频向量得到语音信号，将语音信号设为降噪音频信号。

本申请实施例中，电子设备可以通过处理器以盲源分离的方式降噪两个音频信号得到降噪音频信号。

其中，电子设备首先通过处理器向量化表征两个音频信号，得到音频向量。比如，假设获取到的两个音频信号分别为x₁和x₂，则通过处理器向量化表征两个音频信号得到音频向量

假设音频向量x中的语音分量为s1，噪声分量为s2，则语音分量、噪声分量与音频向量之间的关系可以表示为：

其中，w表示用于盲源分离的分离系数。

在通过处理器盲源分离音频向量得到噪声信号和语音信号时，电子设备首先获取到用于盲源分离音频向量的分离系数，再基于获取到的分离系数，通过处理器盲源分离音频向量得到噪声信号(即音频向量中的噪声分量)和语音信号(即音频向量中的语音分量)，将分量出的语音信号设为降噪音频信号。

应当说明的是，通过处理器盲源分离音频向量将得到两个音频信号，由于盲源分离输出信号的不确定性，电子设备可以通过处理器运行的端点检测算法识别分离出的两个音频信号中的语音信号以及噪声信号。

在一实施例中，“通过处理器盲源分离音频向量得到语音信号”，包括：

(1)通过处理器分帧音频向量得到多个音频帧；

(2)通过处理器获取用于盲源分离各音频帧的分离系数；

(3)基于各分离系数，通过处理器盲源分离对应的音频帧得到子语音信号；

(4)通过处理器合并各音频帧的子语音信号得到前述语音信号。

本申请实施例中，电子设备在通过处理器盲源分离音频向量得到噪声信号和语音信号时，首先通过处理器分帧音频向量得到多个音频帧，其中，分帧得到的各音频帧的长度相同。

比如，电子设备在通过处理器分帧音频向量得到多个音频帧时，按照帧长20毫秒将音频向量分帧得到多个音频帧，表示为

m表示帧数。

在分帧音频向量得到多个音频帧后，对于各音频帧，电子设备分别通过处理器获取用于盲源分离各音频帧的分离系数，则x^m对于的分离系数可以表示为w^m。

在获取到用于盲源分离各音频帧的分离系数之后，电子设备进一步基于各分离系数，通过处理器盲源分离对应的音频帧得到子噪声信号以及子语音信号，表示为：

其中，

表示第m个音频帧，w^m表示第m个音频帧对应的分离系数，

表示从第m个音频帧中分离出的子语音信号，

表示从第m个音频帧中分离出的子噪声信号。

在完成对各音频帧的盲源分离之后，电子设备按照各音频帧在时序上的先后顺序，通过处理器合并各音频帧的子语音信号得到前述语音信号，以及通过处理器合并各音频帧的子噪声信号得到前述噪声信号。

应当说明的是，通过处理器盲源分离任一音频帧将得到两个子音频信号，由于盲源分离输出信号的不确定性，电子设备可以通过处理器运行的端点检测算法识别分离出的两个子音频信号中的子语音信号以及子噪声信号。

在一实施例中，“通过处理器获取用于盲源分离各音频帧的分离系数”，包括：

(1)通过处理器白化处理当前音频帧；

(2)将前一音频帧对应的分离系数设为当前音频帧的初始分离系数，基于白化处理后的当前音频帧以及初始分离系数，通过处理器迭代出用于盲源分离音频帧的分离系数。

应当说明的是，在本申请实施例中，对于分帧得到的各音频帧，电子设备逐帧通过处理器获取用于盲源分离各音频帧的分离系数。其中，上述当前音频帧并非特指某一音频帧，而是代指当前正在获取对应分离系数的音频帧，其可以为任一音频帧。比如，电子设备当前正在获取第一帧音频帧的分离系数，则该第一帧音频帧即为当前音频帧。

其中，在通过处理器获取用于盲源分离各音频帧的分离系数时，电子设备可以通过处理器白化处理当前音频帧，使得当前音频帧不同分量之间的相关性降低。假设当前音频帧为第m帧音频帧，则对当前音频帧白化处理可以表示为

其中，

表示白化处理后的第m帧音频帧，V表示第m帧音频帧对应的协方差矩阵，D^-1/2表示协方差矩阵V的逆平方根矩阵，T表示矩阵的转置，x^m表示第m帧音频帧。

在完成对当前音频帧的白化处理后，电子设备将前一音频帧对应的分离系数设为当前音频帧的初始分离系数，并基于白化处理后的当前音频帧以及初始分离系数，通过处理器迭代出用于盲源分离当前音频帧的分离系数。

其中，在一次迭代过程中，可以表示为：

其中，n代表第n次迭代，取值为[1，N]，其中N表示总迭代次数，可由本领域普通技术人员根据实际需要取经验值，比如，本申请实施例中将N设为10，即迭代10次；w^m,n-1表示第m帧音频帧第n-1次迭代后的分离系数(在n为1时，即为初始分离系数，也即是前一音频帧通过迭代N次，收敛得到的分离系数，比如，在第m帧音频帧为第二帧音频帧时，其初始分离系数即为第一帧音频帧的初始分离系数经过N次迭代后所收敛得到的分离系数)，E代表取平均值，g(u)＝-exp(-au²/2)是一个高斯分布函数，a取经验值，

g’(u)代表一阶求导数，w^m，n表示第m帧音频帧第n次迭代后的分离系数。

如上所述，在完成对初始分离系数的N次迭代之后，即收敛得到用于盲源分离第m帧音频帧的分离系数。

应当说明的是，在第m帧音频帧为第一帧音频帧时，由于其不存在前一帧，将其初始分离系数w^1,0设置为

(1)通过处理器将两个音频信号各自的当前音频帧从时域变换到频域，并在频域提取两个当前音频帧中来自各自期望方向的子音频信号，得到两个子音频信号，其中，两个当前音频帧对应的期望方向相反；

(2)通过处理器对两个子音频信号进行频带划分，并在划分得到的多个子频带根据对应的波束形成滤波器系数做波束形成，得到多个波束形成信号；

(3)在多个子频带分别根据对应的波束形成滤波器系数以及两个子音频信号各自的自相关系数，通过处理器获取分别用于对多个波束形成信号进行噪声抑制的多个增益因子；

(4)通过处理器根据多个增益因子分别对多个波束形成信号进行噪声抑制，并将噪声抑制后的多个波束形成信号进行频带拼接后转换至时域，得到噪声抑制后的当前音频帧；

(5)通过处理器根据噪声抑制后的当前音频帧得到降噪音频信号。

应当说明的是，在本申请实施例中，两个麦克风背靠背设置，两个麦克风背靠背设置是指这两个麦克风的拾音孔朝向相反。比如，请参照图2，电子设备包括两个麦克风，分别为设置在电子设备下侧边的麦克风1和设置在电子设备上侧边的麦克风2，其中，麦克风1的拾音孔朝下，麦克风2的拾音孔朝上。此外，电子设备所设置的两个麦克风可以为无指向性麦克风(或者说，全指向性麦克风)。

应当说明的是，电子设备在通过两个麦克风采集得到相同时长的两个音频信号之后，通过处理器对两个音频信号分别进行分帧处理，将两个音频信号划分为相同个数的多个音频帧，从而逐帧进行噪声抑制。

比如，请参照图3，将采集得到的两个音频信号分别记为音频信号1和音频信号2，电子设备可以将音频信号1分帧为长度为20毫秒的n个音频帧，同样将音频信号2分帧为长度为20毫秒的n个音频帧，从而根据来自音频信号1的第一个音频帧以及来自音频信号2的第一个音频帧进行噪声抑制，得到第一个噪声抑制后的音频帧，根据来自音频信号1的第二个音频帧以及来自音频信号2的第二个音频帧进行噪声抑制，得到第二个噪声抑制后的音频帧，以及根据来自音频信号1的第n个音频帧以及来自音频信号2的第n个音频帧进行噪声抑制，得到第n个噪声抑制后的音频帧，等等。这样，根据这些噪声抑制后的音频帧即可得到一个噪声抑制后的完整音频信号，即降噪音频信号。

需要说明的是，当前音频帧并不用于特指某一音频帧，而是用于代指当前时刻用于进行噪声抑制的音频帧，比如，若在当前时刻根据两个音频信号的第五个音频帧进行噪声抑制，则两个音频信号的第五个音频帧即为当前音频帧，若在当前时刻根据两个音频信号的第六个音频帧进行噪声抑制，则两个音频信号的第六个音频帧即为当前音频帧，等等。

本申请实施例中，电子设备通过处理器将前述两个音频信号各自的当前音频帧从时域变换到频域，并在频域提取两个当前音频帧中来自各自期望方向(麦克风的期望方向)的子音频信号，得到两个子音频信号。其中，两个麦克风的期望方向相反，其中，距离目标声源较近的麦克风的期望方向为朝向目标声源的方向，而距离目标声源较远的麦克风的期望方向为远离目标声源的方向。

比如，电子设备在机主通话时进行声音采集，则机主为目标声源，将电子设备的两个麦克风记为麦克风1和麦克风2，若麦克风1距离机主较近，则麦克风1的期望方向为朝向机主的方向，麦克风2的期望方向为远离机主的方向。

根据以上描述，本领域普通技术人员可以的是，对于电子设备从两个当前音频帧中提取出的两个子音频信号，其中一个子音频信号携带较多的“目标声音”，而另一个子音频信号携带较多的“噪声”。

电子设备在从两个当前音频帧中提取出两个子音频信号之后，按照相同的频带划分方式对两个子音频信号进行频带划分，得到多个子频带。之后，对于每一子频带，根据该子频带对应的波束形成滤波器系数做波束形成，得到该子频带的波束形成信号，这样，对于划分得到多个子频带，电子设备将对应得到多个波束形成信号。

比如，电子设备按照相同的频带划分方式对两个子音频信号进行频带划分，得到i个子频带，并分别在i个子频带根据对应的波束形成滤波器系数做波束形成，得到i个波束形成信号。

电子设备在得到多个波束形成信号之后，通过处理器在各子频带分别对两个子音频信号做自相关计算，得到两个子音频信号各自在各子频带的自相关系数。之后，对于每一子频带，根据该子频带对应的波束形成滤波器系数、以及两个子音频信号各自在该子频带的自相关系数，获取用于该子频带的波束形成信号进行噪声抑制的增益因子。这样，对于波束形成的多个波束形成信号，电子设备将对应得到分别用于对这多个波束形成信号进行噪声抑制的增益因子。

电子设备在获取得到分别用于对多个波束形成信号进行噪声抑制的多个增益因子之后，即可通过处理器根据这多个增益因子分别对多个波束形成信号进行噪声抑制，得到噪声抑制后的多个波束形成信号。之后，电子设备通过处理器将噪声抑制后的多个波束形成信号进行频带拼接后转换至时域，得到噪声抑制后的当前音频帧。

至此，对于来自两个音频信号各音频帧，电子设备均降噪得到了对应的音频帧，电子设备进一步拼接降噪得到的各音频帧即得到前述降噪音频信号。

在一实施例中，“校验降噪音频信号”，包括：

(1)通过处理器对降噪音频信号进行端点检测，并根据端点检测结果将降噪音频信号划分为多个子降噪音频信号；

(2)通过处理器调用与预设文本相关的声纹特征提取模型提取各子降噪音频信号的声纹特征向量；

(3)通过处理器获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

(4)根据各子降噪音频信号对应的相似度，通过处理器校验降噪音频信号的文本特征以及声纹特征。

本申请实施例中，考虑到降噪音频信号通常是连续的语音，需要对降噪音频信号进行分割。其中，处理器首先采用预设端点检测算法对降噪音频信号进行端点检测，然后根据端点检测结果将降噪音频信号划分为多个子音频信号，记为子降噪音频信号。应当说明的是，对于处理器采用的端点检测算法，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要选取，比如，本申请实施例中，处理器采用VAD(Voice ActivityDetection，语音端点检测)算法对降噪音频信号进行端点检测。另外，在根据端点检测结果将降噪音频信号划分多个子降噪音频信号时，处理器根据端点检测结果将时间间隔小于前述预设时长(比如设置为200毫秒)的相邻端点所对应的音频数据划分为一个子降噪音频信号。

应当说明的是，本申请实施例中还预先训练有与预设文本(比如预设唤醒词)相关的声纹特征提取模型。比如，本申请实施例中训练基于卷积神经网络的声纹特征提取模型，请参照图4，可以预先采集多人(比如200人)说出预设唤醒词的音频信号，然后对这些音频信号进行端点检测，分割出其中的预设唤醒词部分，然后对分割出的音频信号进行预处理和加窗，再进行傅里叶变换(比如短时傅里叶变换)，对于傅里叶变换后的音频信号，计算其能量密度，生成灰度的语谱图(如图5所示，其中横轴表示时间，纵轴表示频率，灰度值表示能量值)，最后，利用卷积神经网络对生成的语谱图进行训练，生成与预设文本相关的声纹特征提取模型。另外，本申请实施例中还提取预设用户说出预设唤醒词(即预设文本)的音频信号的语谱图，并输入到之前训练的声纹特征提取模型中，经过声纹特征提取模型的多个卷积层、池化层以及全连接层后，将输出对应的一组特征向量，将其记为目标声纹特征向量。

相应的，处理器在将降噪音频信号划分为多个子降噪音频信号之后，分别提取多个子降噪音频信号的语谱图。其中，对于如何提取语谱图，此处不再赘述，具体可参照以上相关描述。在提取到前述多个子降噪音频信号的语谱图之后，处理器分别将前述多个子降噪音频信号的语谱图输入到之前训练的声纹特征提取模型，从而得到各子降噪音频信号的声纹特征向量。

在提取得到各子降噪音频信号的声纹特征向量之后，处理器分别获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度，然后，根据各子降噪音频信号对应的相似度来校验降噪音频信号的文本特征以及声纹特征。比如，处理器可以判断是否存在声纹特征向量与目标声纹特征向量之间的相似度达到预设相似度(可由本领域普通技术人员根据实际需要取经验值，比如可以设置为75％)的子降噪音频信号，若存在，则判定降噪音频信号的文本特征以及声纹特征校验通过。

在一实施例中，“根据各子降噪音频信号对应的相似度，通过处理器校验降噪音频信号的文本特征以及声纹特征”，包括：

根据各子降噪音频信号对应的相似度以及预设的识别函数，通过处理器校验降噪音频信号的文本特征以及声纹特征；

其中，识别函数为γ_n＝γ_n-1+f(l_n)，γ_n表示第n个子降噪音频信号对应的识别函数状态值，γ_n-1表示第n-1个子降噪音频信号对应的识别函数状态值，

a为识别函数的修正值，b为预设相似度，l_n为第n个子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度；

处理器在存在大于预设识别函数状态值的γ_n时，判定降噪音频信号的文本特征以及声纹特征校验通过。

应当说明的是，识别函数中a的取值可由本领域普通技术人员根据实际需要取经验值，比如，可以将a取值为1。

另外，识别函数中b的取值与声纹特征提取模型的识别率正相关，根据实际训练得到的声纹特征提取模型的识别率确定b的取值。

另外，预设识别函数状态值也可由本领域普通技术人员根据实际需要取经验值，其取值越大，对第一音频信号校验的准确度也就也大。

由此，通过该识别函数，即使当第一音频信号包括预设唤醒词之外的其它信息(比如，预设唤醒词为“小欧小欧”，而第一音频信号对应的文本为“小欧小欧今天天气怎么样”)，也能够准确的对其进行识别。

在一实施例中，“通过处理器获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度”，包括：

通过处理器按照动态时间规整算法计算各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度；

或者，通过处理器计算各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

本申请实施例中，在获取各子降噪音频信号的声纹特征向量与目标声纹特征训练之间的相似度时，可以通过处理器按照动态时间规整算法计算各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度。

或者，可以处理器计算各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度，其中，对于采用何种特征距离来衡量两个向量之间的相似度，本申请实施例中不做具体限制，比如，可以采用欧几里得距离来衡量子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度。

图6为本申请实施例提供的音频校验方法的另一流程示意图。该音频校验方法应用于本申请提供的电子设备，该电子设备包括处理器、专用语音识别芯片和两个麦克风，如图6所示，本申请实施例提供的音频校验方法的流程可以如下：

在201中，电子设备在处理器处于休眠状态时，通过任一麦克风获取外部的音频信号，并将音频信号提供给专用语音芯片。

在202中，电子设备通过专用语音芯片校验音频信号，并在校验通过时唤醒处理器，以及在唤醒处理器后控制专用语音芯片休眠。

在203中，电子设备通过两个麦克风获取外部的两个音频信号，并将两个音频信号提供给处理器。

在204中，电子设备通过处理器向量化表征两个音频信号，得到音频向量。

在205中，电子设备通过处理器分帧音频向量得到多个音频帧，并通过处理器获取用于盲源分离各音频帧的分离系数。

电子设备通过处理器分帧音频向量得到多个音频帧，其中，分帧得到的各音频帧的长度相同。

m表示帧数。

在206中，电子设备基于各分离系数，通过处理器盲源分离对应的音频帧得到子语音信号。

其中，

表示第m个音频帧，w^m表示第m个音频帧对应的分离系数，

表示从第m个音频帧中分离出的子语音信号，

表示从第m个音频帧中分离出的子噪声信号。

在207中，电子设备通过处理器合并各音频帧的子语音信号得到降噪音频信号。

在完成对各音频帧的盲源分离之后，电子设备按照各音频帧在时序上的先后顺序，通过处理器合并各音频帧的子语音信号得到降噪音频信号，以及通过处理器合并各音频帧的子噪声信号得到前述噪声信号。

在208中，电子设备通过处理器校验降噪音频信号，得到校验结果。

请参照图7，图7为本申请实施例提供的音频校验装置的结构示意图。该音频校验装置可以应用于电子设备，该电子设备包括处理器、专用语音识别芯片和两个麦克风。音频校验装置可以包括第一采集模块401、第一校验模块402、第二采集模块403以及第二校验模块404，其中，

第一采集模块401，用于在处理器处于休眠状态时，通过任一麦克风获取外部的音频信号，并将音频信号提供给专用语音芯片；

第一校验模块402，用于通过专用语音芯片校验音频信号，并在校验通过时唤醒处理器，以及在唤醒处理器后控制专用语音芯片休眠；

第二采集模块403，用于通过两个麦克风获取外部的两个音频信号，并将两个音频信号提供给处理器；

第二校验模块404，用于通过处理器降噪两个音频信号得到降噪音频信号，并校验降噪音频信号，得到校验结果。

在一实施例中，在通过处理器降噪两个音频信号得到降噪音频信号时，第二校验模块404可以用于：

通过处理器向量化表征两个音频信号，得到音频向量；

通过处理器盲源分离音频向量得到语音信号，将语音信号设为降噪音频信号。

在一实施例中，在通过处理器盲源分离音频向量得到语音信号时，第二校验模块404可以用于：

通过处理器分帧音频向量得到多个音频帧；

通过处理器获取用于盲源分离各音频帧的分离系数；

基于各分离系数，通过处理器盲源分离对应的音频帧得到子语音信号；

通过处理器合并各音频帧的子语音信号得到前述语音信号。

在一实施例中，在通过处理器获取用于盲源分离各音频帧的分离系数时，第二校验模块404可以用于：

通过处理器白化处理当前音频帧；

将前一音频帧对应的分离系数设为当前音频帧的初始分离系数，基于白化处理后的当前音频帧以及初始分离系数，通过处理器迭代出用于盲源分离音频帧的分离系数。

通过处理器将两个音频信号各自的当前音频帧从时域变换到频域，并在频域提取两个当前音频帧中来自各自期望方向的子音频信号，得到两个子音频信号，其中，两个当前音频帧对应的期望方向相反；

通过处理器对两个子音频信号进行频带划分，并在划分得到的多个子频带根据对应的波束形成滤波器系数做波束形成，得到多个波束形成信号；

在多个子频带分别根据对应的波束形成滤波器系数以及两个子音频信号各自的自相关系数，通过处理器获取分别用于对多个波束形成信号进行噪声抑制的多个增益因子；

通过处理器根据多个增益因子分别对多个波束形成信号进行噪声抑制，并将噪声抑制后的多个波束形成信号进行频带拼接后转换至时域，得到噪声抑制后的当前音频帧；

通过处理器根据噪声抑制后的当前音频帧得到降噪音频信号。

在一实施例中，在校验降噪音频信号时，第二校验模块404可以用于：

通过处理器对降噪音频信号进行端点检测，并根据端点检测结果将降噪音频信号划分为多个子降噪音频信号；

通过处理器调用与预设文本相关的声纹特征提取模型提取各子降噪音频信号的声纹特征向量；

通过处理器获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

根据各子降噪音频信号对应的相似度，通过处理器校验降噪音频信号的文本特征以及声纹特征。

在一实施例中，在根据各子降噪音频信号对应的相似度，通过处理器校验降噪音频信号的文本特征以及声纹特征时，第二校验模块404可以用于：

在一实施例中，在通过处理器获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度时，第二校验模块404可以用于：

本申请实施例提供一种存储介质，其上存储有音频校验程序，当其存储的音频校验程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的音频校验方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read OnlyMemory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图8，电子设备包括音频采集单元101、处理器102、专用语音识别芯片103、两个麦克风104和存储器105，且专用语音识别芯片103的功耗小于处理器102的功耗，其中，专用语音识别芯片103、处理器102以及音频采集单元101任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

应当说明的是，本申请实施例中的专用语音识别芯片103是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用处理器，具有更低的功耗。

本申请实施例中的处理器是通用处理器，比如ARM架构的处理器。

存储器105中存储有音频校验程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器105还可以包括存储器控制器，以提供处理器102和专用语音识别芯片103对存储器105的访问。

在本申请实施例中，音频采集单元101用于在处理器102处于休眠状态时，通过任一麦克风104获取外部的音频信号，并将音频信号提供给专用语音芯片；

专用语音识别芯片103用于校验音频信号，并在校验通过时唤醒处理器102，以及在唤醒处理器102后休眠；

音频采集单元用于在唤醒处理器102后，通过两个麦克风104获取外部的两个音频信号，并将两个音频信号提供给处理器102；

处理器102用于降噪两个音频信号得到降噪音频信号，并校验降噪音频信号，得到校验结果。

在一实施例中，在降噪两个音频信号得到降噪音频信号时，处理器102可以用于：

向量化表征前述两个音频信号，得到音频向量；

盲源分离音频向量得到语音信号，将语音信号设为降噪音频信号。

在一实施例中，在盲源分离音频向量得到语音信号时，处理器102可以用于：

分帧前述音频向量得到多个音频帧；

获取用于盲源分离各音频帧的分离系数；

基于各分离系数盲源分离对应的音频帧得到子语音信号；

合并各音频帧的子语音信号得到前述语音信号。

在一实施例中，在获取用于盲源分离各音频帧的分离系数时，处理器102可以用于：

白化处理当前音频帧；

将前一音频帧对应的分离系数设为当前音频帧的初始分离系数，基于白化处理后的当前音频帧以及初始分离系数，迭代出用于盲源分离当前音频帧的分离系数。

通过处理器102将两个音频信号各自的当前音频帧从时域变换到频域，并在频域提取两个当前音频帧中来自各自期望方向的子音频信号，得到两个子音频信号，其中，两个当前音频帧对应的期望方向相反；

对两个子音频信号进行频带划分，并在划分得到的多个子频带根据对应的波束形成滤波器系数做波束形成，得到多个波束形成信号；

在多个子频带分别根据对应的波束形成滤波器系数以及两个子音频信号各自的自相关系数，获取分别用于对多个波束形成信号进行噪声抑制的多个增益因子；

根据多个增益因子分别对多个波束形成信号进行噪声抑制，并将噪声抑制后的多个波束形成信号进行频带拼接后转换至时域，得到噪声抑制后的当前音频帧；

根据噪声抑制后的当前音频帧得到降噪音频信号。

在一实施例中，在校验降噪音频信号时，处理器102可以用于：

对前述降噪音频信号进行端点检测，并根据端点检测结果将前述降噪音频信号划分为多个子降噪音频信号；

调用与预设文本相关的声纹特征提取模型提取各子降噪音频信号的声纹特征向量；

获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设用户说出预设文本的音频信号的声纹特征向量；

根据各子降噪音频信号对应的相似度，校验前述降噪音频信号的文本特征以及声纹特征。

在一实施例中，根据各子降噪音频信号对应的相似度，校验前述降噪音频信号的文本特征以及声纹特征时，处理器102可以用于：

根据各子降噪音频信号对应的相似度以及预设的识别函数，校验前述降噪音频信号的文本特征以及声纹特征；

处理器102在存在大于预设识别函数状态值的γ_n时，判定前述降噪音频信号的文本特征以及声纹特征校验通过。

在一实施例中，在获取各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度时，处理器102可以用于：

按照动态时间规整算法计算各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度；

或者，计算各子降噪音频信号的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的音频校验方法属于同一构思，在电子设备上可以运行音频校验方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的音频校验方法而言，本领域普通测试人员可以理解实现本申请实施例的音频校验方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如音频校验方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种音频校验方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频校验方法，应用于电子设备，其特征在于，所述电子设备包括处理器、专用语音识别芯片和两个麦克风，所述两个麦克风的拾音孔朝向相反，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述音频校验方法包括：

通过所述专用语音芯片校验所述音频信号，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后控制所述专用语音芯片休眠，屏幕由熄屏状态切换至亮屏状态；

通过两个麦克风分别获取外部的两个相同时长的音频信号，并将所述两个相同时长的音频信号提供给所述处理器；

通过所述处理器对所述两个相同时长的音频信号分别进行分帧处理，将所述两个相同时长的音频信号分别划分为相同个数的多个音频帧；

从所述两个音频信号的多个音频帧中确定出所述两个音频信号的第n个音频帧，在频域提取两个音频信号的第n个音频帧中来自各自期望方向的子音频信号，其中，所述两个第n个音频帧对应的期望方向相反，所述期望方向为对应的麦克风的拾音方向，所述两个第n个音频帧中一个携带的目标声音更多，一个携带的噪声更多；

按照相同的划分方式对两个子音频信号进行频带划分，得到每个子音频信号的多个子频带；

对所述两个子音频信号的多个子频带的波束形成信号进行噪声抑制；对噪声抑制后的多个子频带进行拼接后转换至时域，得到噪声抑制后的两个第n个音频帧；

根据噪声抑制后的各音频帧得到降噪音频信号，并校验所述降噪音频信号，得到校验结果；

在所述处理器校验通过时，执行对应所述降噪音频信号的操作。

2.根据权利要求1所述的音频校验方法，其特征在于，所述通过所述处理器降噪所述两个音频信号得到降噪音频信号，包括：

通过所述处理器向量化表征所述两个音频信号，得到音频向量；

通过所述处理器盲源分离所述音频向量得到语音信号，将所述语音信号设为所述降噪音频信号。

3.根据权利要求2所述的音频校验方法，其特征在于，所述通过所述处理器盲源分离所述音频向量得到语音信号，包括：

通过所述处理器分帧所述音频向量得到多个音频帧；

通过所述处理器获取用于盲源分离各所述音频帧的分离系数；

基于各所述分离系数，通过所述处理器盲源分离对应的音频帧得到子语音信号；

通过所述处理器合并各所述音频帧的子语音信号得到所述语音信号。

4.根据权利要求3所述的音频校验方法，其特征在于，所述通过所述处理器获取用于盲源分离各所述音频帧的分离系数，包括：

通过所述处理器白化处理当前音频帧；

将前一音频帧对应的分离系数设为当前音频帧的初始分离系数，基于白化处理后的当前音频帧以及所述初始分离系数，通过所述处理器迭代出用于盲源分离所述当前音频帧的分离系数。

5.根据权利要求1-4任一项所述的音频校验方法，其特征在于，所述校验所述降噪音频信号，包括：

通过所述处理器对所述降噪音频信号进行端点检测，并根据端点检测结果将所述降噪音频信号划分为多个子降噪音频信号；

通过所述处理器调用与预设文本相关的声纹特征提取模型提取各所述子降噪音频信号的声纹特征向量；

通过所述处理器获取各所述子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度，所述目标声纹特征向量为预设用户说出所述预设文本的音频信号的声纹特征向量；

根据各所述子降噪音频信号对应的相似度，通过所述处理器校验所述降噪音频信号的文本特征以及声纹特征。

6.根据权利要求5所述的音频校验方法，其特征在于，所述处理器根据各所述子降噪音频信号对应的相似度校验所述降噪音频信号的文本特征以及声纹特征，包括：

根据各所述子降噪音频信号对应的相似度以及预设的识别函数，通过所述处理器校验所述降噪音频信号的文本特征以及声纹特征；

其中，所述识别函数为γ_n＝γ_n-1+f(l_n)，γ_n表示第n个子降噪音频信号对应的识别函数状态值，γ_n-1表示第n-1个子降噪音频信号对应的识别函数状态值，

a为所述识别函数的修正值，b为预设相似度，l_n为第n个子降噪音频信号的声纹特征向量与所述目标声纹特征向量之间的相似度；

所述处理器在存在大于预设识别函数状态值的γ_n时，判定所述降噪音频信号的文本特征以及声纹特征校验通过。

7.根据权利要求5所述的音频校验方法，其特征在于，所述通过所述处理器获取各所述子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度，包括：

通过所述处理器按照动态时间规整算法计算各所述子降噪音频信号的声纹特征向量与目标声纹特征向量之间的相似度；

或者，通过所述处理器计算各所述子降噪音频信号的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

8.一种音频校验装置，应用于电子设备，其特征在于，所述电子设备包括处理器、专用语音识别芯片和两个麦克风，所述两个麦克风的拾音孔朝向相反，所述音频校验装置包括：

第一校验模块，用于通过所述专用语音芯片校验所述音频信号，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后控制所述专用语音芯片休眠，屏幕由熄屏状态切换至亮屏状态；

第二采集模块，用于通过两个麦克风分别获取外部的两个相同时长的音频信号，并将所述两个相同时长的音频信号提供给所述处理器；

第二校验模块，用于通过所述处理器对所述两个相同时长的音频信号分别进行分帧处理，将所述两个相同时长的音频信号分别划分为相同个数的多个音频帧，从所述两个音频信号的多个音频帧中确定出所述两个音频信号的第n个音频帧，在频域提取两个音频信号的第n个音频帧中来自各自期望方向的子音频信号，其中，所述两个第n个音频帧对应的期望方向相反，所述期望方向为对应的麦克风的拾音方向，所述两个第n个音频帧中一个携带的目标声音更多，一个携带的噪声更多，按照相同的划分方式对两个子音频信号进行频带划分，得到每个子音频信号的多个子频带，对所述两个子音频信号的多个子频带的波束形成信号进行噪声抑制，对噪声抑制后的多个子频带进行拼接后转换至时域，得到噪声抑制后的两个第n个音频帧，根据噪声抑制后的各音频帧得到降噪音频信号，并校验所述降噪音频信号，得到校验结果，在所述处理器校验通过时，执行对应所述降噪音频信号的操作。

9.一种电子设备，其特征在于，所述电子设备包括音频采集单元、处理器、专用语音识别芯片和两个麦克风，所述两个麦克风的拾音孔朝向相反，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述专用语音识别芯片用于校验所述音频信号，并在校验通过时唤醒所述处理器，以及在唤醒所述处理器后休眠，屏幕由熄屏状态切换至亮屏状态；

所述音频采集单元用于在唤醒所述处理器后，通过两个麦克风分别获取外部的两个相同时长的音频信号，并将所述两个相同时长的音频信号提供给所述处理器；

所述处理器用于对所述两个相同时长的音频信号分别进行分帧处理，将所述两个相同时长的音频信号分别划分为相同个数的多个音频帧，从所述两个音频信号的多个音频帧中确定出所述两个音频信号的第n个音频帧，在频域提取两个音频信号的第n个音频帧中来自各自期望方向的子音频信号，其中，所述两个第n个音频帧对应的期望方向相反，所述期望方向为对应的麦克风的拾音方向，所述两个第n个音频帧中一个携带的目标声音更多，一个携带的噪声更多，按照相同的划分方式对两个子音频信号进行频带划分，得到每个子音频信号的多个子频带，对所述两个子音频信号的多个子频带的波束形成信号进行噪声抑制，对噪声抑制后的多个子频带进行拼接后转换至时域，得到噪声抑制后的两个第n个音频帧，根据噪声抑制后的各音频帧得到降噪音频信号，并校验所述降噪音频信号，得到校验结果，在所述处理器校验通过时，执行对应所述降噪音频信号的操作。

10.一种存储介质，其特征在于，当所述存储介质中存储的计算机程序在包括处理器、专用语音识别芯片和两个麦克风的电子设备运行时，使得所述电子设备执行如权利要求1至7任一项所述的音频校验方法中的步骤。