CN110931007B

CN110931007B - 语音识别方法及***

Info

Publication number: CN110931007B
Application number: CN201911225468.XA
Authority: CN
Inventors: 周晨
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-07-12
Anticipated expiration: 2039-12-04
Also published as: CN110931007A

Abstract

本发明实施例提供一种语音识别方法。该方法包括：语音识别设备实时采集的第一带噪语音音频，同步接收至少一个噪声采集麦克风发送的第一噪声音频；对第一带噪语音音频和第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频和第二噪声音频；实时估计第二带噪语音音频的噪声功率谱密度，按照噪声功率谱密度和第二噪声音频，对第二带噪语音音频进行周边噪声降噪，生成降噪后的干净语音；对干净语音进行语音识别。本发明实施例还提供一种语音识别***。本发明实施例为智能语音设备降噪提供了最有效的噪声源。实现消除语音麦克风采集信号内的噪声设备自噪声。无需大量计算，延时低，适用设备更加广泛，保证了语音识别的准确率、唤醒成功率。

Description

语音识别方法及***

技术领域

本发明涉及智能语音领域，尤其涉及一种语音识别方法及***。

背景技术

随着智能语音的发展，智能语音设备逐步融入用户的家庭。让用户在家中随时随地说句话就可以让智能语音设备执行相应的操作。例如，智能电视，用户只需说出想看的节目或想看的频道即可跳转到对应的视频。又如智能音响，用户说出播放某某歌曲，或者明天的天气如何，智能音响进行语音识别后，即可执行相应的操作。

在家庭环境中总有着其他设备发出噪声，例如智能电视机发出的声音对于智能语音设备的识别来说，就相当于噪声，影响着语音识别。对于这种情况，智能电视机内的扬声器通过硬件回路/软件回路获取到自身发出的自噪声，智能电视机通过电视机的自噪声对接收到的声音进行主动降噪，从而，避免这些室内的外在噪声对语音识别的影响。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

然而，在家庭环境中总有着其他设备发出噪声，例如洗衣机、冰箱、烤箱、吸油烟机在使用时，会发出噪声，而这些噪声也会影响语音识别的效果。这些设备的自噪声源难以获取，无法进行主动降噪，影响了智能语音设备的唤醒成功率、识别准确率。

发明内容

为了至少解决现有技术中家庭环境中的噪声源对智能语音设备的干扰，影响了智能语音设备的唤醒成功率、识别准确率的问题。

第一方面，本发明实施例提供一种用于噪声设备的噪声自采集方法，应用于设置在所述噪声设备的噪声源处的噪声采集麦克风，所述方法包括：

所述噪声采集麦克风接收模拟增益配置信息，根据所述模拟增益配置信息配置信号采集模式；

通过所述信号采集模式进行多通道信号采集，将所采集的噪声音频发送至语音识别设备。

第二方面，本发明实施例提供一种语音识别方法，应用于与所述噪声采集麦克风建立连接的语音识别设备，所述方法包括：

所述语音识别设备实时采集的第一带噪语音音频，同步接收至少一个所述噪声采集麦克风发送的第一噪声音频；

分别对所述第一带噪语音音频以及第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频以及第二噪声音频；

实时估计所述第二带噪语音音频的噪声功率谱密度，按照所述噪声功率谱密度以及所述第二噪声音频，对所述第二带噪语音音频进行周边噪声降噪，生成降噪后的干净语音；

对所述干净语音进行语音识别，确定所述干净语音对应的信息。

第三方面，本发明实施例提供一种用于噪声设备的噪声自采集***，应用于设置在所述噪声设备的噪声源处的噪声采集麦克风，所述***包括：

模拟增益配置程序模块，用于所述噪声采集麦克风接收模拟增益配置信息，根据所述模拟增益配置信息配置信号采集模式；

噪声采集程序模块，用于通过所述信号采集模式进行多通道信号采集，将所采集的噪声音频发送至语音识别设备。

第四方面，本发明实施例提供一种语音识别***，应用于与所述噪声采集麦克风建立连接的语音识别设备，所述***包括：

音频获取程序模块，用于所述语音识别设备实时采集的第一带噪语音音频，同步接收至少一个所述噪声采集麦克风发送的第一噪声音频；

回声消除程序模块，用于分别对所述第一带噪语音音频以及第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频以及第二噪声音频；

降噪程序模块，用于实时估计所述第二带噪语音音频的噪声功率谱密度，按照所述噪声功率谱密度以及所述第二噪声音频，对所述第二带噪语音音频进行周边噪声降噪，生成降噪后的干净语音；

识别程序模块，用于对所述干净语音进行语音识别，确定所述干净语音对应的信息。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于噪声设备的噪声自采集方法以及语音识别方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于噪声设备的噪声自采集方法以及语音识别方法的步骤。

本发明实施例的有益效果在于：在自噪声源配置噪声采集麦克风，用于专门采集设备自发噪声的基础上，与智能语音设备建立，将噪声有效的传递给智能语音设备，为智能语音设备降噪提供了最有效的噪声源。同步获取带噪语音以及噪声音频输入至回声消除模块，实现消除语音麦克风采集信号内的设备自噪声。在信号级别上进行降噪处理，无需大量计算，对智能语音设备的要求不高，适用更加广泛。延时低，提高用户的体验，同时也保证了语音识别的准确率、唤醒成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于噪声设备的噪声自采集方法的流程图；

图2是本发明一实施例提供的一种语音识别方法的流程图；

图3是本发明一实施例提供的一种用于噪声设备的噪声自采集***的结构示意图；

图4是本发明一实施例提供的一种语音识别***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于噪声设备的噪声自采集方法的流程图，包括如下步骤：

S11：所述噪声采集麦克风接收模拟增益配置信息，根据所述模拟增益配置信息配置信号采集模式；

S12：通过所述信号采集模式进行多通道信号采集，将所采集的噪声音频发送至语音识别设备。

在本实施方式中，一些设备工作时的自噪声能量很大，例如扫地机、吸尘器、油烟机、洗衣机、打汁机、烤箱等，这些强自噪声会被智能语音设备的麦克风采集到，从而严重影响智能设备与用户的语音交互性能，比如唤醒成功率、识别准确率等。

首先需要确定设备自噪声源有哪些。以扫地机为例，自噪声源有主刷电机、副刷电机、鼓风电机、激光位移传感器电机、刷子与地面摩擦声等等，然后在这些自噪声源附近分别布置噪声麦克风。噪声麦克风通常选取-38dBV/Pa左右灵敏度的模拟麦克风。噪声麦克风的位置可以选取在几个自噪声源的中间，这样既可以同时采集到多个自噪声源，又可以减少噪声麦克风的个数，进而降低硬件成本和回声消除模块的计算量。通常的，扫地机产品虽然自噪声源较多，但内部结构紧凑，2个噪声麦克风即可达到不错的效果；吸尘器/油烟机自噪声源比较单一，1个噪声麦克风即可。这些设备的制造商在生产的时候即选定并预留空间，将噪声麦克风集成在这些设备的内部。用户买设备后直接使用，不需要自行安装。

对于步骤S11，各麦克风接收模拟增益配置信息，其中，模拟增益主要是调节线性放大输入的信号强度,其大小直接影响输出音频功率的值在一定范围内，较大的输入值有利于提高输出信噪比，也会同比增加输出功率。但是当输入过大后输出功率增加变缓，而失真则急剧上升。其最佳调整值应使输出电压峰值在放大器的线性范围内。根据所述模拟增益配置信息配置信号采集模式。作为一种实施方式，模拟增益配置信息为0分贝，用于防止所述噪声采集麦克风采集到说话语音。在本实施方式中，模拟增益为0dB，即不设模拟增益，这是为了防止噪声麦克风采集到说话人语音，造成经回声消除模块后发生语音自消的问题，即说话人语音被误认为自噪声而被消除。由于无模拟增益，所以噪声麦克风距离自噪声源不能过远，过远将无法采集到高信噪比的自噪声源信号，距离一般在20cm以内为佳，距离越近越好。

对于步骤S12，根据步骤S11中确定的信号采集模式进行多通道信号采集，将所采集到的噪声音频发送至语音识别设备。其中，语音识别设备预先与各噪声设备的噪声采集麦克风预连接，以便于噪声的传递。

通过该实施方法可以看出，在自噪声源配置噪声采集麦克风，用于专门采集设备自发噪声的基础上，与智能语音设备建立连接，将噪声有效的传递给智能语音设备。为智能语音设备降噪提供了最有效的噪声源，从而更好的降低噪声对智能语音设备识别的影响。

如图2所示为本发明一实施例提供的一种语音识别方法的流程图，包括如下步骤：

S21：所述语音识别设备实时采集的第一带噪语音音频，同步接收至少一个所述噪声采集麦克风发送的第一噪声音频；

S22：分别对所述第一带噪语音音频以及第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频以及第二噪声音频；

S23：实时估计所述第二带噪语音音频的噪声功率谱密度，按照所述噪声功率谱密度以及所述第二噪声音频，对所述第二带噪语音音频进行周边噪声降噪，生成降噪后的干净语音；

S24：对所述干净语音进行语音识别，确定所述干净语音对应的信息。

在本实施方式中，智能语音设备与噪声采集麦克风预先建立连接，例如无线网络。这样保证智能语音设备可以实时接收到噪声采集麦克风采集的噪声。

对于步骤S21，在使用中，语音识别设备和噪声采集麦克风可以在同一个麦克风组网下进行多通道信号同步采集，也可以单独进行连接。噪声采集麦克风采集到噪声音频实时发送到语音识别设备(也就是智能语音设备)中，语音识别设备接收到噪声采集麦克风实时采集的第一带噪语音音频，也采集到了第一带噪语音音频。

对于步骤S22，然后将第一带噪语音音频以及第一带噪语音音频输入回声消除模块，输出为消除了绝大部分设备自噪声的语音信号。回声消除算法的参考音输入是需要消除的回声来源，对于包含扬声器的设备来说是播放的音频，对于本方法涉及的设备而言，参考音输入就是自噪声源，即噪声麦克风采集的信号。回声消除算法的麦克风输入即为包含回声及语音的信号，即为语音麦克风采集的信号。通过参考音输入和麦克风输入之间的相关信息，利用线性自适应滤波器以及残余回声抑制等方法实现回声消除。从而确定出第二带噪语音音频以及第二噪声音频。

对于步骤S23，进一步的，如果第二噪声音频的功率谱密度随时间变化不大，即属于稳态噪声，那么在回声消除模块后可接后置滤波模块。后置滤波算法通过实时估计噪声功率谱密度，然后在带噪信号中去除估计出来的噪声，从而抑制噪声，并且不引入或者引入很小的语音失真。比如扫地机、吸尘器、油烟机等有风机的设备在工作过程中会发出稳态风噪，该类噪声即可通过后置滤波模块实现降噪。进而生成降噪后的干净语音。

对于步骤S24，确定出干净语音后，进行语音识别，从而确定出干净语音对应的信息，进行唤醒操作，或是语音交互操作等。其中，本方法不需要模式匹配，神经网络等方法来处理已知产品类型的噪声。模式匹配，神经网络的方法需要很大的数据量支撑(比如录制各种场景噪声的音频)，对于没有录制过的噪声类型，得不到很好的降噪效果。只能通过增加数据的方法进行改善，即对训练数据较为敏感，不具有普适性。而本方法可以通过调节具体算法及参数，适配各种产品。另外模式匹配，神经网络的计算量也比本方法的信号降噪处理大非常多，对智能语音设备的计算能力，内存提出很高的要求。而本方法由于不需要神经网络，也不需要模式匹配，所占用的资源不多，可以用在内存小或者计算能力差一点的智能设备中。此外，由于模式匹配，神经网络计算量大及其模型特性，往往存在一定的响应延时，直观体验表现为唤醒的反应速度慢等。而本方法可做到实时处理，不存在延时问题。

通过该实施方法可以看出，同步获取带噪语音以及噪声音频输入至回声消除模块，实现消除语音麦克风采集信号内的设备自噪声。在信号级别上进行降噪处理，无需大量计算，对智能语音设备的要求不高，适用更加广泛。延时低，提高用户的体验，同时也保证了语音识别的准确率、唤醒成功率。

作为一种实施方式，在本实施例中，在所述分别对所述第一带噪语音音频以及第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频以及第二噪声音频之后，所述方法还包括：

利用所述语音识别设备中麦克风阵列内各麦克风之间的相位差进行波束形成处理，增强所述麦克风阵列的语音声源方向的语音信号，抑制至少一个非语音声源方向的噪声信号，确定第三带噪语音以及第三噪声音频；

实时估计所述第三带噪语音音频的噪声功率谱密度，按照所述噪声功率谱密度以及所述第三噪声音频，对所述第三带噪语音音频进行周边噪声降噪，生成降噪后的干净语音。

所述麦克风阵列至少包括：双麦克风阵列、线性四麦克风阵列、环形四麦克风阵列、环形六麦克风阵列。

在本实施方式中，如果语音麦克风是麦克风阵列，如双麦克风阵列、线性四麦克风阵列、环形四麦克风阵列、环形六麦克风阵列等，那么在回声消除模块后可接波束形成模块。波束形成算法利用阵列每个麦克风之间的相位差、幅度差信息，可以增强期望方向语音，抑制非期望方向的噪声，即非语音方向的噪声，得到很好的降噪效果。

通过该实施方式可以看出，通过波束形成来增强期望方向的语音(例如，用户所在的方向)，抑制非期望方向的噪声(即非语音方向的噪声，也就是用户不在的方向)，这样可以进一步提高降噪的效果。

如图3所示为本发明一实施例提供的一种用于噪声设备的噪声自采集***的结构示意图，该***可执行上述任意实施例所述的用于噪声设备的噪声自采集方法，并配置在终端中。

本实施例提供的一种用于噪声设备的噪声自采集***包括：模拟增益配置程序模块11和噪声采集程序模块12。

其中，模拟增益配置程序模块11用于所述噪声采集麦克风接收模拟增益配置信息，根据所述模拟增益配置信息配置信号采集模式；噪声采集程序模块12用于通过所述信号采集模式进行多通道信号采集，将所采集的噪声音频发送至语音识别设备。

进一步地，所述模拟增益配置信息为0分贝，用于防止所述噪声采集麦克风采集到说话语音。

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于噪声设备的噪声自采集方法。

如图4所示为本发明一实施例提供的一种语音识别***的结构示意图，该***可执行上述任意实施例所述的语音识别方法，并配置在终端中。

本实施例提供的一种语音识别***包括：音频获取程序模块21、回声消除程序模块22、降噪程序模块23和识别程序模块24。

其中，音频获取程序模块21用于所述语音识别设备实时采集的第一带噪语音音频，同步接收至少一个所述噪声采集麦克风发送的第一噪声音频；回声消除程序模块22用于分别对所述第一带噪语音音频以及第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频以及第二噪声音频；降噪程序模块23用于实时估计所述第二带噪语音音频的噪声功率谱密度，按照所述噪声功率谱密度以及所述第二噪声音频，对所述第二带噪语音音频进行周边噪声降噪，生成降噪后的干净语音；识别程序模块24用于对所述干净语音进行语音识别，确定所述干净语音对应的信息。

进一步地，在所述回声消除程序模块之后，所述***还包括：

波束形成程序模块，用于利用所述语音识别设备中麦克风阵列内各麦克风之间的相位差进行波束形成处理，增强所述麦克风阵列的语音声源方向的语音信号，抑制至少一个非语音声源方向的噪声信号，确定第三带噪语音以及第三噪声音频；

降噪程序模块，用于实时估计所述第三带噪语音音频的噪声功率谱密度，按照所述噪声功率谱密度以及所述第三噪声音频，对所述第三带噪语音音频进行周边噪声降噪，生成降噪后的干净语音。

进一步地，所述麦克风阵列至少包括：双麦克风阵列、线性四麦克风阵列、环形四麦克风阵列、环形六麦克风阵列。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于噪声设备的噪声自采集方法以及语音识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，应用于与噪声采集麦克风建立连接的语音识别设备，所述方法包括：

所述语音识别设备实时采集第一带噪语音音频，同步接收至少一个所述噪声采集麦克风发送的第一噪声音频；

2.根据权利要求1所述的方法，其中，在所述分别对所述第一带噪语音音频以及第一噪声音频进行回声消除，确定回声消除后的第二带噪语音音频以及第二噪声音频之后，所述方法还包括：

利用所述语音识别设备中麦克风阵列内各麦克风之间的相位差进行波束形成处理，增强所述麦克风阵列的语音声源方向的语音信号，抑制至少一个非语音声源方向的噪声信号，确定第三带噪语音音频以及第三噪声音频；

3.根据权利要求2所述的方法，其中，所述麦克风阵列至少包括：双麦克风阵列、线性四麦克风阵列、环形四麦克风阵列、环形六麦克风阵列。

4.根据权利要求1所述的方法，其中，所述噪声采集麦克风在噪声设备的噪声源处进行针对噪声设备的噪声自采集操作，具体包括：

5.根据权利要求4所述的方法，其中，所述模拟增益配置信息为0分贝，用于防止所述噪声采集麦克风采集到说话语音。

6.一种语音识别***，应用于与噪声采集麦克风建立连接的语音识别设备，所述***包括：

音频获取程序模块，用于所述语音识别设备实时采集第一带噪语音音频，同步接收至少一个所述噪声采集麦克风发送的第一噪声音频；

7.根据权利要求6所述的语音识别***，其中，在所述回声消除程序模块之后，所述***还包括：

波束形成程序模块，用于利用所述语音识别设备中麦克风阵列内各麦克风之间的相位差进行波束形成处理，增强所述麦克风阵列的语音声源方向的语音信号，抑制至少一个非语音声源方向的噪声信号，确定第三带噪语音音频以及第三噪声音频；

8.根据权利要求7所述的语音识别***，其中，所述麦克风阵列至少包括：双麦克风阵列、线性四麦克风阵列、环形四麦克风阵列、环形六麦克风阵列。

9.根据权利要求6所述的语音识别***，其中，所述噪声采集麦克风设置在噪声设备的噪声源处，且所述噪声采集麦克风包含用于噪声设备的噪声自采集***，其中所述噪声自采集***具体包括：

10.根据权利要求9所述的语音识别***，其中，所述模拟增益配置信息为0分贝，用于防止所述噪声采集麦克风采集到说话语音。