CN108538305A

CN108538305A - 语音识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN108538305A
Application number: CN201810361397.5A
Authority: CN
Inventors: 耿雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-09-14
Also published as: US11074924B2; US20190325888A1; JP6914236B2; JP2019191554A

Abstract

本发明实施例提出一种语音识别方法、装置、设备及计算机可读存储介质。其中，该方法包括：启动麦克风阵列中的部分麦克风采集得到第一语音信号；对所述第一语音信号进行回声消除处理，得到第二语音信号；对所述第二语音信号进行唤醒识别，以确定所述第二语音信号中是否包括唤醒词；在确定所述第二语音信号中包括所述唤醒词的情况下，启动所述麦克风阵列采集得到第三语音信号；对所述第三语音信号进行降噪处理；以及对降噪处理后的信号进行语音识别。由于唤醒状态前大部分前端处理算法都不启动，麦克风阵列也只启动部分麦克风，因此可以大大降低语音识别过程的运算量和功耗。

Description

语音识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。

背景技术

随着远场语音识别技术的快速发展，智能语音交互正在成为重要的交互入口之一，而集成远场语音识别技术的智能硬件产品近来也是全面爆发。智能家居尤其是便携式智能硬件对于低功耗的要求也越来越突出。

根据研究及实际测试表明，在远场语音应用当中，麦克风阵列前端降噪算法对硬件设备的处理器芯片的运算能力有着极大的需求，功耗大。

在当前远场语音前端降噪算法应用中，麦克风阵列一直处于录音状态中，所有前端降噪算法都处于工作状态，语音唤醒引擎和语音识别引擎也一直处于工作状态，大量增加了硬件设备的处理器芯片的运算量，使功耗大大提高。

发明内容

本发明实施例提供一种语音识别方法、装置、设备及计算机可读存储介质，以至少解决现有技术中的以上技术问题中的至少一个。

第一方面，本发明实施例提供了一种语音识别方法，包括：

启动麦克风阵列中的部分麦克风采集得到第一语音信号；

对所述第一语音信号进行回声消除处理，得到第二语音信号；

对所述第二语音信号进行唤醒识别，以确定所述第二语音信号中是否包括唤醒词；

在确定所述第二语音信号中包括所述唤醒词的情况下，启动所述麦克风阵列采集得到第三语音信号；

对所述第三语音信号进行降噪处理；以及

对降噪处理后的信号进行语音识别。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，对所述第三语音信号进行降噪处理，包括：

将所述第三语音信号进行回声消除处理得到第四语音信号；

对所述第四语音信号进行声源定位处理，得到波束成形的角度；

根据所述波束成形的角度对所述第四语音信号进行波束成形处理；

对波束成形处理后的信号进行噪声抑制处理；

对噪声抑制处理后的信号进行去混响处理；以及

对去混响处理后的信号进行非线性处理。

结合第一方面，本发明实施例在第一方面的第二种实现方式中，对所述第二语音信号进行唤醒识别，包括：

将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。

结合第一方面，本发明实施例在第一方面的第三种实现方式中，对降噪处理后的信号进行语音识别，包括：

将降噪处理后的信号发送至语音识别引擎中进行语音识别。

结合第一方面或第一方面的任意一种实现方式，本发明实施例在第一方面的第四种实现方式中，在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前，所述方法还包括：

将麦克风阵列中的一个麦克风设置为工作状态，其他麦克风设置为非工作状态。

第二方面，本发明实施例提供了一种语音识别装置，包括：

第一启动模块，用于启动麦克风阵列中的部分麦克风采集得到第一语音信号；

回声消除模块，用于对所述第一语音信号进行回声消除处理，得到第二语音信号；

唤醒识别模块，用于对所述第二语音信号进行唤醒识别，以确定所述第二语音信号中是否包括唤醒词；

第二启动模块，用于在确定所述第二语音信号中包括所述唤醒词的情况下，启动所述麦克风阵列采集得到第三语音信号；

降噪处理模块，用于对所述第三语音信号进行降噪处理；以及

语音识别模块，用于对降噪处理后的信号进行语音识别。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，所述降噪处理模块包括：

回声消除子模块，用于将所述第三语音信号进行回声消除处理得到第四语音信号；

声源定位子模块，用于对所述第四语音信号进行声源定位处理，得到波束成形的角度；

波束成形子模块，用于根据所述波束成形的角度对所述第四语音信号进行波束成形处理；

噪声抑制子模块，用于对波束成形处理后的信号进行噪声抑制处理；

去混响子模块，用于对噪声抑制处理后的信号进行去混响处理；以及

非线性子模块，用于对去混响处理后的信号进行非线性处理。

结合第二方面，本发明实施例在第二方面的第二种实现方式中，所述唤醒识别模块还用于：将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。

结合第二方面，本发明实施例在第二方面的第三种实现方式中，所述语音识别模块还用于将降噪处理后的信号发送至语音识别引擎中进行语音识别。

结合第二方面或第二方面的任意一种实现方式，本发明实施例在第二方面的第四种实现方式中，该装置还包括：

预设模块，用于在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前，将麦克风阵列中的一个麦克风设置为工作状态，其他麦克风设置为非工作状态。

第三方面，本发明实施例提供了一种语音识别设备，包括：

所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，语音识别设备的结构中包括处理器和存储器，所述存储器用于存储支持语音识别设备执行上述语音识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语音识别设备还可以包括通信接口，用于语音识别设备与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音识别设备所用的计算机软件指令，其包括用于执行上述语音识别方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：先开启麦克风阵列中的部分麦克风采集语音信号进行回声消除，将处理后的信号发送给语音唤醒引擎；当语音唤醒引擎识别到唤醒词后，再启动麦克风阵列录音及其余降噪处理算法。由于唤醒状态前大部分前端处理算法都不启动，麦克风阵列也只启动部分麦克风，因此可以大大降低语音识别过程的运算量和功耗。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明一实施例的语音识别方法的流程图。

图2示出根据本发明一实施例的语音识别方法中唤醒过程的流程图。

图3示出根据本发明一实施例的语音识别方法中唤醒之后的流程图。

图4示出根据本发明另一实施例的语音识别方法的流程图。

图5出根据本发明另一实施例的语音识别方法的应用示例的示意图。

图6示出根据本发明一实施例的语音识别装置的结构框图。

图7示出根据本发明另一实施例的语音识别装置的结构框图。

图8示出根据本发明一实施例的语音识别设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明一实施例的语音识别方法的流程图。如图1所示，该语音识别方法包括以下步骤：

101、启动麦克风阵列中的部分麦克风采集得到第一语音信号。

本发明实施例中，设备的麦克风阵列中可以包括多个麦克风。可以预先设置两种工作状态。第一种工作状态时，只启动部分麦克风，且处理器芯片仅执行回声消除算法，语音唤醒引擎处于工作状态。第二种工作状态时，启动全部麦克风，处理器芯片执行的前端降噪处理算法，语音唤醒引擎和语音识别引擎均处于工作状态。前端降噪处理算法可以包括回声消除、声源定位(Sound location)、波束成形、噪声抑制、去混响和非线性处理等多个过程。其中，回声消除可以采用AEC(Acoustic Echo Control,声学回声控制)算法。

参见图2，在设备上电后，可以默认处于第一种工作状态，启动部分麦克风从声源采集第一语音信号，而不启动全部麦克风，以降低功耗。如果只启动一个麦克风，则可以最大程度的降低功耗。

102、对所述第一语音信号进行回声消除处理，得到第二语音信号。

对于部分麦克风采集的第一语音信号，在第一种工作状态时，可以先进行回声消除处理，而不进行后续的其他前端降噪处理。这样可以进一步降低功耗。

103、对所述第二语音信号进行唤醒识别，以确定所述第二语音信号中是否包括唤醒词。

参见图2，可以将回声消除之后的第二语音信号发送至语音唤醒引擎中进行唤醒识别。语音唤醒引擎可以调取预设的唤醒词。将第二语音信号转换为文本信息，比较文本信息与唤醒词的相似度，以判断第二语音信号中是否包括该唤醒词。唤醒词可以为一个，也可以为多个，在实际应用中可以根据具体需求灵活选择。语音唤醒引擎也可以称为唤醒词识别引擎。

104、在确定所述第二语音信号中包括所述唤醒词的情况下，启动所述麦克风阵列采集得到第三语音信号。

如果语音唤醒引擎识别出第二语音信号中有预设的唤醒词，可以控制麦克风阵列中的全部麦克风启动，再次采集得到第三语音信号。

105、对所述第三语音信号进行降噪处理。

参见图3，处理器芯片可以采用前端降噪处理算法，对全部麦克风再次采集的第三语音信号进行降噪处理。

106、对降噪处理后的信号进行语音识别。

参见图3，处理器芯片可以将降噪处理后的信号发送至语音识别引擎中进行语音识别。其中，语音识别也可以称为ASR(Automatic Speech Recognition,自动语音识别)。

图4示出根据本发明另一实施例的语音识别方法的流程图。在上一实施例的基础上，如图4所示，该语音识别方法的步骤105可以包括：

201、将麦克风阵列采集的第三语音信号进行回声消除处理得到第四语音信号；

202、对所述第四语音信号进行声源定位处理，得到波束成形的角度；

203、根据所述波束成形的角度对所述第四语音信号进行波束成形处理；

204、对波束成形处理后的信号进行噪声抑制处理；

205、对噪声抑制处理后的信号进行去混响处理；

206、对去混响处理后的信号进行非线性处理。

参见图3，对于麦克风阵列的全部麦克风采集的第三语音信号，可以执行全部的前端降噪处理算法。全部的前端降噪处理算法包括回声消除、声源定位、波束成形、噪声抑制、去混响以及非线性处理等算法。先对第三语音信号进行回声消除处理得到第四语音信号。再对第四语音信号进行声源定位处理，得到波束成形的角度。然后根据波束成形的角度对第四语音信号进行波束成形处理、噪声抑制处理、去混响处理和非线性处理。

在一种可能的实现方式中，该方法还包括：

例如，在初始上电状态，设备默认处于第一种工作状态，只有一个麦克风处于工作状态，其他麦克风为非工作状态，并且只对该麦克风采集的语音信号启动回声消除处理。在唤醒成功后，设备变成第二种工作状态，麦克风阵列的全部麦克风均处于工作状态，并且对麦克风阵列采集的语音启动全部的前端降噪处理算法。在语音识别结束后，设备再次回到第一种工作状态。

本发明实施例，先开启麦克风阵列中的部分麦克风采集语音信号进行回声消除，将处理后的信号发送给语音唤醒引擎；当语音唤醒引擎识别到唤醒词后，再启动麦克风阵列录音及其余降噪处理算法。由于唤醒状态前大部分前端处理算法都不启动，麦克风阵列也只启动部分麦克风，因此可以大大降低语音识别过程的运算量和功耗。

图5出根据本发明另一实施例的语音识别方法的应用示例的示意图。参见图5，以初始状态仅启动一个麦克风，并且由处理器芯片执行前端降噪算法为例，该语音识别方法可以包括以下步骤：

501、在设备上电后，只有麦克风(MIC)阵列其中的一个麦克风处于工作状态，处理器芯片只执行回声消除算法，并且语音唤醒引擎处于工作状态。处理器芯片对该单路MIC采集语音信号做单路回声消除例如AEC处理。

502、将处理后的信号发送给处于工作状态中的语音唤醒引擎。语音唤醒引擎判断是否识别到唤醒词。如果没有识别到唤醒词，就继续保持当前的工作状态，继续由一个MIC录音。当语音唤醒引擎识别到唤醒词后，启动麦克风阵列录音及其余前端算法和语音识别引擎。

503、对多路MIC采集的语音信号进行AEC处理后，输入到声源定位算法模块，经过声源定位算法获得波束成形的准确角度。

504、设置波束成形的角度，对经过回声消除算法的音频信号采用波束成形算法进行处理。再经过噪声抑制、去混响以及非线性处理等算法后，把处理后的音频信号发送到远场语音识别引擎例如ASR语音识别引擎进行语音识别。

505、当语音识别完成后，设备可以再返回到只启动单麦克风、回声消除算法和语音唤醒引擎的工作状态。

本实施例在设备上电后，只使麦克风阵列中的一个麦克风处于工作状态采集语音信号做单路回声消除，将处理后的信号发送给处于工作状态中的语音唤醒引擎。当语音唤醒引擎识别到唤醒词后，得到声源对象例如说话的人的位置信息。然后再启动麦克风阵列录音及其余前端算法和语音识别引擎。由于唤醒状态前大部分前端处理算法都不启动，麦克风阵列也只启动部分麦克风，因此会大大降低处理器芯片的运算量，进而大大降低麦克风阵列和处理器芯片的硬件功耗。

图6示出根据本发明一实施例的语音识别装置的结构框图。如图6所示，该装置包括：

第一启动模块41，用于启动麦克风阵列中的部分麦克风采集得到第一语音信号；

回声消除模块42，用于对所述第一语音信号进行回声消除处理，得到第二语音信号；

唤醒识别模块43，用于对所述第二语音信号进行唤醒识别，以确定所述第二语音信号中是否包括唤醒词；

第二启动模块44，用于在确定所述第二语音信号中包括所述唤醒词的情况下，启动所述麦克风阵列采集得到第三语音信号；

降噪处理模块45，用于对所述第三语音信号进行降噪处理；以及

语音识别模块46，用于对降噪处理后的信号进行语音识别。

图7示出根据本发明另一实施例的语音识别装置的结构框图。如图7所示，在上一实施例的基础上，该装置的降噪处理模块45可以包括：

在一种可能的实现方式中，所述唤醒识别模块43还用于：将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。

在一种可能的实现方式中，所述语音识别模块46还用于将降噪处理后的信号发送至语音识别引擎中进行语音识别。

在一种可能的实现方式中，该装置还包括：

预设模块51，用于在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前，将麦克风阵列中的一个麦克风设置为工作状态，其他麦克风设置为非工作状态。

本发明实施例各装置中的模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图8示出根据本发明一实施例的语音识别设备的结构框图。如图8所示，该语音识别设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的语音识别方法。所述存储器910和处理器920的数量可以为一个或多个。

该语音识别设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，用于存储语音识别设备所用的计算机软件指令，其包括用于执行上述语音识别方法所涉及的程序。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

启动麦克风阵列中的部分麦克风采集得到第一语音信号；

对所述第三语音信号进行降噪处理；以及

对降噪处理后的信号进行语音识别。

2.根据权利要求1所述的方法，其特征在于，对所述第三语音信号进行降噪处理，包括：

将所述第三语音信号进行回声消除处理得到第四语音信号；

对波束成形处理后的信号进行噪声抑制处理；

对噪声抑制处理后的信号进行去混响处理；以及

对去混响处理后的信号进行非线性处理。

3.根据权利要求1所述的方法，其特征在于，对所述第二语音信号进行唤醒识别，包括：

将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。

4.根据权利要求1所述的方法，其特征在于，对降噪处理后的信号进行语音识别，包括：

将降噪处理后的信号发送至语音识别引擎中进行语音识别。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在启动麦克风阵列中的部分麦克风采集得到第一语音信号之前，所述方法还包括：

6.一种语音识别装置，其特征在于，包括：

语音识别模块，用于对降噪处理后的信号进行语音识别。

7.根据权利要求6所述的装置，其特征在于，所述降噪处理模块包括：

8.根据权利要求6所述的装置，其特征在于，所述唤醒识别模块还用于：将所述第二语音信号发送至语音唤醒引擎中进行唤醒识别。

9.根据权利要求6所述的装置，其特征在于，所述语音识别模块还用于将降噪处理后的信号发送至语音识别引擎中进行语音识别。

10.根据权利要求6至9中任一项所述的装置，其特征在于，还包括：

11.一种语音识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。