CN113270099A

CN113270099A - 智能语音提取方法、装置、电子设备及存储介质

Info

Publication number: CN113270099A
Application number: CN202110728758.7A
Authority: CN
Inventors: 谢志强
Original assignee: Shenzhen Oribo Technology Co Ltd
Current assignee: Shenzhen Oribo Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-08-17
Anticipated expiration: 2041-06-29
Also published as: CN113270099B

Abstract

本申请公开了一种智能语音提取方法、装置、电子设备及存储介质，涉及语音技术领域。该方法包括：采集当前环境的环境音，监测所述环境音的音量；若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频；从所述环境音中提取所述指定音频作为目标语音。如此，可准确检测除可控音源以外的其他音频，并实现将可控音源进行剔除，仅提取除可控音源以外的其他音频作为目标语音，提高语音提取的准确度，为提高语音识别及语音控制的准确性奠定基础。

Description

智能语音提取方法、装置、电子设备及存储介质

技术领域

本申请涉及语音技术领域，更具体地，涉及一种智能语音提取方法、装置、电子设备及存储介质。

背景技术

在智能家居环境中，用户可以通过对智能控制面板进行语音控制，从而控制多个智能设备。然而，在实际应用中，用户在对智能控制面板进行语音控制时，可能存在干扰用户语音指令的音源，导致用户语音无法被识别，或者，误将干扰音源作为用户语音指令进行响应，导致语音控制的准确性大大降低等问题。

发明内容

有鉴于此，本申请提出了一种智能语音提取方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种智能语音提取方法，所述方法包括：

采集当前环境的环境音，监测所述环境音的音量；若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频；从所述环境音中提取所述指定音频作为目标语音。

第二方面，本申请实施例提供了一种智能语音提取装置，所述装置包括：音量监测模块、音频确定模块以及语音提取模块。音量监测模块，用于采集当前环境的环境音，监测所述环境音的音量；音频确定模块，用于若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频；语音提取模块，用于从所述环境音中提取所述指定音频作为目标语音。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行第一方面提供的智能语音提取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行第一方面提供的智能语音提取方法。

本申请提供的方案中，通过采集当前环境的环境音，监测所述环境音的音量；若确定音量发生变化，且环境音满足预设音频条件，则确定环境音中包含指定音频，其中，指定音频为环境音中除可控音源以外的其他音频；从环境音中提取指定音频作为目标语音。如此，可以准确检测除可控音源以外的其他音频，并实现将可控音源进行剔除，仅提取除可控音源以外的其他音频作为目标语音，解决了在智能家居的语音控制场景下，因存在干扰指定音频的可控音源，导致指定音频无法被识别的问题，同时避免了因可控音源所导致的误控制，提高了基于指定音频进行语音控制的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的智能语音提取方法的流程示意图。

图2示出了本申请另一实施例提供的智能语音提取方法的流程示意图。

图3示出了本申请再一实施例提供的智能语音提取方法的流程示意图。

图4示出了图3所示步骤S330在一种实施方式中的子步骤流程示意图。

图5示出了本申请再一实施例提供的智能语音提取方法的流程示意图。

图6示出了本申请再一实施例提供的智能语音提取方法的流程示意图。

图7示出了图6所示步骤S560在一种实施方式中的子步骤流程示意图。

图8是根据本申请一实施例提供的一种智能语音提取装置的框图。

图9是本申请实施例的用于执行根据本申请实施例的智能语音提取方法的电子设备的框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的智能语音提取方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在相关技术中，当用户对智能控制面板进行语音控制时，智能控制面板一般是采集当前环境下的环境音，并对环境音进行识别，进而实现对多个智能设备的控制。由于环境音中可能存在其他会干扰用户语音指令的音源，导致用户语音无法被识别，或者识别到非用户产生的控制语音，而产生语音控制，导致语音控制的准确性大大降低等问题。

针对上述问题，发明人提出一种智能语音提取方法、装置、电子设备及存储介质，可以通过采集当前环境的环境音，监测所述环境音的音量；当所述音量发生变化时，判断所述环境音是否满足预设音频条件；若所述环境音满足预设音频条件，确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频；从所述环境音中提取所述指定音频作为目标语音。下面对该内容进行详细描述。

请参照图1，图1为本申请一实施例提供的一种智能语音提取方法的流程示意图。下面将结合图1对本申请实施例提供的智能语音提取方法进行详细阐述。该智能语音提取方法应用于电子设备，可以包括以下步骤：

步骤S110：采集当前环境的环境音，监测所述环境音的音量。

在本实施例中，电子设备可以持续采集当前环境的环境音，同时对环境音的音量进行实时监测。其中，电子设备可以是智能控制面板、智能家居设备、手机、平板电脑或者智能手表等设备；环境音可以包括当前环境中用户发出的声音、可控音源(如智能设备播放的音频)以及其他环境噪音(如汽车鸣笛声、雨声等)等。

可以理解地，以电子设备为智能控制面板为例，在智能家居的语音控制场景中，用户可以通过说出指定控制语音，实现对智能控制面板的语音控制，进而控制多个智能家居设备。对应地，智能控制面板可以通过持续采集当前环境的环境音，并从环境音中提取出该用户发出的指定控制语音，生成对应的控制指令，实现对智能家居设备的控制。其中，在用户说出指定控制语音时，环境音的音量也会对应发生改变，因此，智能控制面板可以通过监测环境音的音量，基于环境音的音量是否发生变化，来初步检测环境音中是否存在用户发出的指定控制语音。

步骤S120：若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频。

在本实施例中，当智能控制面板监测到环境音的音量发生变化时，可以进一步判断环境音是否满足预设音频条件，再根据判断结果确定环境音中是否包含指定音频。

其中，预设音频条件作为环境音中包含除可控音频以外的其他音频的判定依据。判断环境音是否满足预设音频条件的方式可以有多种，可选的，智能控制面板可以根据可控音源的数量以及环境音中包含的音源数量，确定环境音是否满足预设音频条件；还可以根据可控音源的音量调整记录，以及环境音的音量变化量，确定环境音是否满足预设音频条件；还可以根据可控音源的总音量，以及环境音的音量，确定环境音是否满足预设音频条件；可选的，通过声纹匹配的方式，确定环境音是否满足预设音频条件。

示例性的，智能控制面板通过声纹匹配的方式，确定环境音是否满足预设音频条件。具体地，可以通过对采集到的环境音进行声纹识别，得到环境音的声纹特征，再将该声纹特征与预设声纹特征进行匹配，若匹配，可以确定包含该声纹特征的语音的环境音有权限对智能控制面板实现语音控制，进而判定环境音满足预设音频条件；若不匹配，可以确定包含该声纹特征的语音的环境音没有权限对智能控制面板实现语音控制，进而判定环境音不满足预设音频条件。其中，预设声纹特征可以是通过用户提前录入智能控制面板得到，仅有与预设声纹特征相匹配的声纹特征的语音可以对智能控制面板进行语音控制，可以理解为通过对声纹特征进行识别匹配，对当前环境中发出语音的用户进行身份验证，声纹特征匹配成功，代表该用户身份验证通过，即该用户有权限对智能控制面板进行语音控制。

基于此，在确定环境音满足预设音频条件后，进而可以确定环境音中包含指定音频，即，确定环境中存在除可控音源以外的其他音频，其中，指定音频可以是用户发出的声音(如指定控制语音)、环境噪音等。

步骤S130：从所述环境音中提取所述指定音频作为目标语音。

在一些实施方式中，在确定环境音中包含指定音频后，可以直接将指定音频提取出来作为目标语音，并基于目标语音对智能控制面板进行语音控制，进而实现对智能家居设备的控制。

在另一些实施方式中，可以先将指定音频从环境音中提取出来，再检测指定音频中是否包含预设词汇，当指定音频中包含预设词汇时，将指定音频作为目标语音，并基于目标语音对智能控制面板进行语音控制，进而实现对智能家居设备的控制。

上述实施例中，可以准确检测除可控音源以外的其他音频，并实现将除可控音源进行剔除，仅提取除可控音源以外的其他音频作为目标语音，解决了在智能家居的语音控制场景下，因存在干扰指定音频的可控音源，导致指定音频无法被识别的问题，同时避免了因可控音源所导致的误唤醒和误控制，提高了基于指定音频进行语音控制的准确性。

请参照图2，图2为本申请另一实施例提供的一种智能语音提取方法的流程示意图。下面将结合图2对本申请实施例提供的智能语音提取方法进行详细阐述。该智能语音提取方法应用于电子设备，可以包括以下步骤：

步骤S210：采集当前环境的环境音，监测所述环境音的音量。

在本申请实施例中，步骤S210可以参阅前述实施例中的内容，在此不再赘述。

步骤S220：当所述音量发生变化时，分析所述环境音中包含的音源数量，以及正在播放音频的智能设备的设备数量。

在本实施例中，以电子设备为智能控制面板为例，当智能控制面板监测到环境音的音量发生变化时，可以通过分析环境音中包含的音源数量与正在播放音频的智能设备的设备数量，来判断环境音是否满足预设音频条件。其中，环境音中可以包括来自不同音源的音频，如智能设备播放的音频、用户发出的音频等，因此，可以通过分析环境音中包含的音源数量，来分析得到环境音中包含多少种音源的音频。智能控制面板可以基于麦克风阵列的声源定位算法，对环境音中包含的音源进行较为准确的声源定位，其中，声源定位算法可以是基于波束形成的方法、基于高分辨率谱估计的方法或基于声达时延差的方法等，本实施例对此不作限制。

另外，智能控制面板可以通过紫蜂协议(ZigBee)与当前环境中的智能设备建立通信连接，并且可以基于该通信连接获取到每个智能设备的状态，也就是说，智能控制面板可以获取到每个智能设备是否正在播放音频，同时统计正在播放音频的智能设备的设备数量。

步骤S230：若所述音源数量大于所述设备数量，则确定所述环境音满足所述预设音频条件，以及所述环境音中包含指定音频。

判断所述音源数量是否大于所述设备数量。

在获取到环境音中的音源数量以及正在播放音频的智能设备的设备数量后，可以通过判断音源数量和设备数量的大小关系，进而判断环境音中是否包含除正在播放音频的智能设备之外的其他音源。

具体地，判断音源数量是否大于设备数量，若音源数量大于设备数量，可以判定环境音中包含除正在播放音频的智能设备之外的其他音源，如用户发出的语音或者其他环境噪音；若音源数量不大于设备数量，可以判定环境音中仅包含正在播放音频的智能设备播放的音频。

基于此，当音源数量大于设备数量时，可以确定环境音中包含除正在播放音频的智能设备之外的其他音源，进而可以判定环境音满足预设音频条件，进而可以确定环境音中包含指定音频，即包含除可控音源以外的其他音频，其中，可控音源为正在播放音频的智能设备。

步骤S240：从所述环境音中提取所述指定音频作为目标语音。

在本申请实施例中，步骤S240可以参阅前述实施例中的内容，在此不再赘述。

在一些实施方式中，若所述音源数量不大于所述设备数量，判定所述环境音不满足所述预设音频条件。即，若音源数量不大于设备数量，可以确定环境音中仅包含智能设备正在播放的音频，进而可以确定环境音不满足预设音频条件，也就是说，此时，环境音中没有包含指定音频。

在本实施例中，仅基于环境音的音源数量与正在播放音频的智能设备的设备数量，即可判断环境音是否满足预设音频条件，并从满足预设音频条件的环境音中提取除指定音频作为语音控制的目标语音。如此，提高了智能控制面板从环境音中提取除可控音源以外的其他音频作为目标语音的速度，进而提高了在智能家居的语音控制场景下，语音控制智能控制面板的效率。

请参照图3，图3为本申请再一实施例提供的一种智能语音提取方法的流程示意图。下面将结合图3对本申请实施例提供的智能语音提取方法进行详细阐述。该智能语音提取方法应用于电子设备，可以包括以下步骤：

步骤S310：采集当前环境的环境音，监测所述环境音的音量。

在本申请实施例中，步骤S310可以参阅前述实施例中的内容，在此不再赘述。

步骤S320：当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整记录。

步骤S330：若确定所述变化不是由所述可控音源的音量调整记录所产生，则判定所述环境音满足所述预设音频条件，以及所述环境音中包含指定音频。

在本实施例中，可以先确定所述变化是否由所述可控音源的音量调整所产生，具体地，以电子设备为智能控制面板为例，可控音源可以是智能设备播放的音频，音量调整记录可以为用户手动调整智能设备播放音频的音量的调整记录、用户开启或关闭智能设备播放音频的记录或者智能设备播放的音频的音量自动发生变化的记录，其中，播放的音频的音量自动变化可能是因为该音频在播放的过程中原本就自身存在音量的变化(如智能音箱播放音乐，在播放间奏时音量较小，而当播放到副歌部分时音量会变得相对较大)，也可能是因为智能设备的硬件老化(如声卡老化)或智能设备的电压不稳定等其他因素。如此，电子设备除了可以获取到用户调整智能设备的音量的调整记录，还能实时监测智能设备播放的音量，防止因智能设备所播放的音频自动发生变化造成的误判，提高了判断音量变化是否由可控音源调整的准确性。因此，当监测到环境音的音量发生变化时，智能控制面板可以获取当前环境中所有可控音源的音量调整记录。通过该音量调整记录，确定环境音的音量变化是否由可控音源的音量调整所产生。

在一些实施方式中，请参阅图4，步骤S330中确定音量变化不是由所述可控音源的音量调整记录所产生可以包括以下步骤：

步骤S331：若所述音量调整记录中所述可控音源存在音量调整，获取存在音量调整的所述可控音源的音量调整数值，以及所述环境音的音量相较于当前时刻之前的音量的变化数值，所述音量调整数值为当前音量相较于调整之前的音量的调整数值。

在本实施例中，可以获取环境音当前时刻之前的第一音量数值，以及当前时刻的第二音量数值，再获取第一音量数值与第二音量数值的差值作为上述环境音的音量的变化数值。

获取可控音源的音量调整数值，若可控音源中仅存在一个音源存在音量调整，则可以通过计算该音源音量调整后对总音量的影响值，计算的单个音源调整对总音量的影响的公式为：LP＝10lg(Lp1/Lp0)，其中，LP代表总音量因可控音源进行音量调整后的变化数值，Lp1代表该音源调整后的音量数值，Lp0代表该音源调整前的音量数值。例如，若可控音源中仅存在声源1将音量提高至原来的3倍，从20分贝调整至60分贝，对应的LP＝10lg3＝4.77，也就是声源1调整音量的给总音量带来的影响值为4.77分贝。

同理可得，当可控音源中存在多个音源同时存在音量调整，对应地，通过上述公式计算出每个音源调整后对总音量带来的影响值，并将每个音源调整后带来的影响值相加，即可得到可控音源的总的音量调整数值。例如，声源1将音量从20分贝调整至60分贝，声源2将音量从30分贝调整至60分贝，声源1对总音量的影响值为10lg3＝4.77，声源2对总音量的影响值为10lg2＝3.01，因此，可以得到声源1和声源2同时调整音量后，可控音源的总的音量调整数值为7.78分贝。

步骤S332：若确定所述变化数值与所述音量调整数值不匹配，则判定所述变化不是由所述可控音源的音量调整所产生。

在本实施例中，可以先判断所述变化数值与所述音量调整数值是否匹配。具体地，在获取到环境音的变化数值以及可控音源的音量调整数值后，可以判断环境音的变化数值以及可控音源的音量调整数值是否匹配，以此来判断环境音的音量变化是否由可控音源的音量调整所产生，进而判断环境音是否满足预设音频条件。

在一些实施方式中，可以通过判断环境音的变化数值与可控音源的音量调整数值是否相等，若相等，则判定该变化数值与音量调整数值匹配；若不相等，则判定该变化数值与音量调整数值不匹配。

在另一些实施方式中，可以获取环境音的变化数值与可控音源的音量调整数值之间的差值，判断该差值是否在预设差值范围内，若该差值在预设差值范围内，则可以判定该变化数值与音量调整数值匹配；若该差值不在预设差值范围内，可以判定该变化数值与音量调整数值不匹配。

可选地，当确定环境音的变化数值与可控音源的音量调整数值相匹配时，可以判定该变化是由可控音源的音量调整所产生。

可选地，当确定环境音的变化数值与可控音源的音量调整数值不匹配时，可以判定该变化不是由可控音源的音量调整所产生。进而判定所述环境音满足所述预设音频条件，确定所述环境音中包含指定音频，其中，指定音频为所述环境音中除可控音源以外的其他音频。即，确定当前环境中存在除可控音源以外的其他音频。

步骤S340：从所述环境音中提取所述指定音频作为目标语音。

在本申请实施例中，步骤S340可以参阅前述实施例中的内容，在此不再赘述。

在另一些实施方式中，若环境音的变化不是由可控音源的音量调整所产生，则可以判定环境音中仅包含可控音源，未包含除可控音源以外的其他音源，因此，进一步可以判定环境音不满足预设音频条件，也就是说，当前环境的环境音中不存在需要提取的指定音频。

请参照图5，图5为本申请再一实施例提供的一种智能语音提取方法的流程示意图。下面将结合图5对本申请实施例提供的智能语音提取方法进行详细阐述。该智能语音提取方法应用于电子设备，可以包括以下步骤：

步骤S410：采集当前环境的环境音，监测所述环境音的音量。

在本申请实施例中，步骤S410可以参阅前述实施例中的内容，在此不再赘述。

步骤S420：当所述音量发生变化时，获取所述当前环境中每个可控音源的实时音量。

步骤S430：根据所述当前环境中每个可控音源的实时音量，确定所述当前环境中所有可控音源的总音量。

在本实施例中，以电子设备为智能控制面板为例，当智能控制面板监测到环境音的音量发生变化时，可以获取当前环境中每个可控音源的实时音量。

在一些实施方式中，智能控制面板可以基于ZigBee协议向每个智能设备发送实时音量获取请求，对应地，每个智能设备将自身的实时音量反馈至智能控制面板处。

在另一些实施方式中，每个智能设备可以基于ZigBee协议主动向智能控制面板上报自身的实时音量。

在成功获取到当前环境中每个可控音源的实时音量后，可以基于每个可控音源的实时音量，确定当前环境中所有可控音源的总音量。具体地，可控音源的音量可以用声压级表示，当可控音源中存在多个声源时，可控音源的总声压级不是简单的线性相加，而是呈对数叠加。示例性地，若可控音源中包含两个声源(声源1和声源2)，对应地，计算该两个声源的声压级的公式可以为：LP＝10lg[10^(Lp1/10)+10^(Lp2/10)]，其中，LP表示可控音源的总声压级，Lp1代表声源1的声压级，Lp2代表声源2的声压级。

步骤S440：若所述环境音的音量与所述总音量不匹配，则判定所述环境音满足所述预设音频条件，以及所述环境音中包含指定音频。

在本实施例中，可以先判断所述环境音的音量与所述总音量是否匹配。具体地，在获取到环境音的音量以及所有可控音源的总音量后，可以判断环境音的音量与所有可控音源的总音量是否匹配，以此来判断当前环境的环境音中是否还包含除可控音源之外的其他音频存在，进而判断环境音是否满足预设音频条件。

在一些实施方式中，可以通过判断环境音的音量的分贝值与总音量的分贝值是否相等，若相等，则判定环境音的音量与总音量匹配；若不相等，则判定环境音的音量与总音量不匹配。

在另一些实施方式中，可以获取环境音的音量的分贝值与总音量的分贝值之间的差值，判断该差值是否在预设阈值范围内，若该差值在预设阈值范围内，则可以判定环境音的音量与总音量匹配；若该差值不在预设阈值范围内，可以判定环境音的音量与总音量不匹配。

若环境音的音量与总音量不匹配，判定环境音满足预设音频条件，并确定环境音中包含指定音频，其中，指定音频为所述环境音中除可控音源以外的其他音频。

步骤S450：从所述环境音中提取所述指定音频作为目标语音。

在本申请实施例中，步骤S450可以参阅前述实施例中的内容，在此不再赘述。

在另一些实施方式中，若环境音的音量与总音量匹配，则可以判定环境音中仅包含可控音源，未包含除可控音源以外的其他音源，因此，进一步可以判定环境音不满足预设音频条件，也就是说，当前环境的环境音中不存在需要提取的指定音频。

请参照图6，图6为本申请再一实施例提供的一种智能语音提取方法的流程示意图。下面将结合图6对本申请实施例提供的智能语音提取方法进行详细阐述。该智能语音提取方法应用于电子设备，可以包括以下步骤：

步骤S510：采集当前环境的环境音，监测所述环境音的音量。

步骤S520：当所述音量发生变化时，判断所述环境音是否满足预设音频条件。

步骤S530：若所述环境音满足预设音频条件，确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频。

在本申请实施例中，步骤S510-步骤S530可以参阅前述实施例中的内容，在此不再赘述。

步骤S540：从所述环境音中提取所述指定音频。

步骤S550：检测所述指定音频中是否包含预设词汇。

在本实施例中，以电子设备为智能控制面板为例，预设词汇可以是提前设置的，也可以是智能控制面板出厂默认的，如“你好，小欧”、“小欧管家”，本实施例对此不作限制。当确定环境音中包含指定音频后，智能控制面板可以先将指定音频从环境音中提取出来，再将指定音频转换为文本，对文本进行分词，将指定音频对应的文本拆分为多个词汇；将多个词汇与预设词汇进行匹配，判断多个词汇中是否包含预设词汇。

示例性地，指定音频对应的文本为“小欧管家，请打开空调”，预设词汇可以为“小欧管家”，可以将该文本拆分为“小欧管家”、“请”、“打开”、“空调”四个词汇，再将上述四个词汇与预设词汇进行匹配，检测四个词汇中是否包含预设词汇，进而检测指定音频中是否包含预设词汇。

步骤S560：若所述指定音频中包含预设词汇，则将所述指定音频作为所述目标语音。

在本实施例中，目标语音可以用于语音控制智能控制面板，进而实现对智能家居设备的控制。仍以上述例子为例，将“小欧管家”、“请”、“打开”、“空调”四个词汇与预设词汇进行匹配，可以确定指定音频中包含该预设词汇“小欧管家”，因此，可以将指定音频作为目标语音，进一步地，智能控制面板可以根据该目标语音生成对应的控制指令，控制对应的智能家居设备。

在一些实施方式中，指定音频中可能会包含多个不同音源对应的子语音，该情况下，请参阅图7，步骤S560可以包括：

步骤S561：若所述多个子语音中均包含所述预设词汇，确定每个所述子语音中包含的所述预设词汇的词汇得分，所述词汇得分用于表征所述子语音对应识别出的分词与所述预设词汇的相似度，所述词汇得分与所述相似度呈正相关。

在本实施例中，指定音频可以是包含多个不同音源对应的子语音，也就是说指定音频可以是同时包含多个用户发出的语音；词汇得分可以用于表征子语音对应识别出的分词的发音与预设词汇的标准发音之间的相似度，也就是说，子语音对应识别除的分词的发音与预设词汇的标准发音的相似度越高，词汇得分相对应就越高。

在指定音频是包含多个不同音源对应的子语音的情况下，若多个子语音中均包含预设词汇，代表指定音频中多个用户发出的语音中均包含了预设词汇，进而可以确定多个用户发出的语音均是包含针对智能控制面板的语音指令。因此，可以选择多个子语音中发音最标准的作为目标语音，以对智能控制面板进行语音控制。

步骤S562：根据所述每个所述子语音中包含的所述预设词汇的词汇得分，确定每个所述子语音的得分，所述子语音的得分用于表示所述子语音的可信度。

在本实施例中，子语音的得分可以用于表示子语音的可信度，即子语音的得分越高，对应地，子语音的可信度越高，也就是说，子语音的发音越标准。子语音中包含的预设词汇的发音越标准，代表子语音的发音越标准，对应地，子语音的可信度就越高。因此，可以根据每个子语音中包含的预设词汇的词汇得分，来确定每个子语音的得分。其中，可以直接将子语音包含的预设词汇得分作为该子语音的得分；也可以将子语音包含的预设词汇得分与预设得分系数的乘积作为该子语音的得分，本实施例对此不作限制。

示例性地，若指定音频中包含三个子语音，每个子语音均包含预设词汇，三个子语音包含的预设词汇得分分别为70、80、90，对应地，三个子语音的得分也为70、80、90。其中，三个子语音的可信度随子语音的得分升高而升高，子语音的得分为90的可信度最高。

步骤S563：提取所述得分最高的子语音作为所述目标语音。

在实际应用中，可能会有小孩和大人同时对智能控制面板发出语音指令，其中，小孩可能是模仿大人说话，或者，小孩的发音相对大人的发音较为不准确。因此，可以提取用户语音中发音最标准的子语音作为目标语音，即，可以提取得分最高的子语音作为目标语音，将多个子语音中可信度最高、发音最标准的子语音作为目标语音，以实现对智能家居设备的准确控制。

本实施例可以将不包含预设词汇的音频进行提出，仅提取包含预设词汇的指定音频作为目标语音，解决了在智能家居的语音控制场景下，因存在干扰指定音频的可控音源，导致指定音频无法被识别的问题，同时避免了因可控音源所导致的误唤醒和误控制，提高了基于指定音频进行语音控制的准确性。同时，从多个包含预设词汇的子语音中，提取可信度最高的子语音作为目标语音，进一步提高了基于目标语音进行语音控制的准确性。

请参照图8，其中示出了本申请一实施例提供的一种智能语音提取装置600的结构框图。该装置600可以包括：音量监测模块610、音频确定模块620和语音提取模块630。

音量监测模块610用于采集当前环境的环境音，监测所述环境音的音量。

音频确定模块620用于若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频。

语音提取模块630用于从所述环境音中提取所述指定音频作为目标语音。

在一些实施方式中，所述可控音源包括智能设备播放的音频，音频确定模块620可以包括：音源数量分析单元以及第一确定单元。其中，音源数量分析单元可以用于当所述音量发生变化时，分析所述环境音中包含的音源数量，以及正在播放音频的智能设备的设备数量。第一确定单元可以用于：若所述音源数量大于所述设备数量，则确定所述环境音满足所述预设音频条件。

在另一些实施方式中，音频确定模块620可以包括：音量获取单元以及第二确定单元。其中，音量获取单元可以用于当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整记录。第二确定单元可以用于：若确定所述变化不是由所述可控音源的音量调整记录所产生，则判定所述环境音满足所述预设音频条件。

在该方式下，第二确定单元可以包括：数值获取子单元以及数值确定子单元。其中，数值获取子单元可以用于若所述音量调整记录中所述可控音源存在音量调整，获取存在音量调整的所述可控音源的音量调整数值，以及所述环境音的音量相较于当前时刻之前的音量的变化数值，所述音量调整数值为当前音量相较于调整之前的音量的调整数值。数值确定子单元可以用于：若确定所述变化数值与所述音量调整数值不匹配，则判定所述变化不是由所述可控音源的音量调整所产生。

在一些实施方式中，音频确定模块620可以包括：实时音量获取单元、总音量获取单元以及音量匹配单元。其中，实时音量获取单元可以用于当所述音量发生变化时，获取所述当前环境中每个可控音源的实时音量。总音量获取单元可以用于根据所述当前环境中每个可控音源的实时音量，确定所述当前环境中所有可控音源的总音量。音量匹配单元可以用于若所述环境音的音量与所述总音量不匹配，则判定所述环境音满足所述预设音频条件。

在一些实施方式中，语音提取模块630可以包括：音频提取单元、词汇检测单元以及语音确定单元。其中，音频提取单元可以用于从所述环境音中提取所述指定音频。词汇检测单元可以用于检测所述指定音频中是否包含预设词汇。语音确定单元可以用于若所述指定音频中包含预设词汇，则将所述指定音频作为所述目标语音。

在该实施方式中，所述指定音频中包含多个不同音源对应的子语音，语音确定单元可以具体包括：第一确定子单元、第二确定子单元以及语音提取单元。其中，第一确定子单元可以用于若所述多个子语音中均包含所述预设词汇，确定每个所述子语音中包含的所述预设词汇的词汇得分，所述词汇得分用于表征所述子语音对应识别出的分词与所述预设词汇的相似度，所述词汇得分与所述相似度呈正相关。第二确定子单元可以用于根据所述每个所述子语音中包含的所述预设词汇的词汇得分，确定每个所述子语音的得分，所述子语音的得分用于表示所述子语音的可信度。语音提取单元可以用于提取所述得分最高的子语音作为所述目标语音。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

下面将结合图对本申请提供的一种电子设备进行说明。

参照图9，图9示出了本申请实施例提供的一种电子设备700的结构框图，本申请实施例提供的局域网的智能登录方法可以由该电子设备700执行。该电子设备700可以为上述实施例中的智能控制面板、智能网关设备或智能家居设备中的主控设备等。

本申请实施例中的电子设备700可以包括一个或多个如下部件：处理器701、存储器702、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器702中并被配置为由一个或多个处理器701执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器701可以包括一个或者多个处理核。处理器701利用各种接口和线路连接整个电子设备700内的各个部分，通过运行或执行存储在存储器702内的指令、程序、代码集或指令集，以及调用存储在存储器702内的数据，执行电子设备700的各种功能和处理数据。可选地，处理器701可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器701可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器701中，单独通过一块通信芯片进行实现。

存储器702可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器702可用于存储指令、程序、代码、代码集或指令集。存储器702可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备700在使用中所创建的数据(比如上述的预设词汇及预设声纹特征)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种智能语音提取方法，其特征在于，所述方法包括：

采集当前环境的环境音，监测所述环境音的音量；

若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频；

从所述环境音中提取所述指定音频作为目标语音。

2.根据权利要求1所述的方法，其特征在于，所述可控音源包括智能设备播放的音频，所述确定所述音量发生变化，且所述环境音满足预设音频条件，包括：

当所述音量发生变化时，分析所述环境音中包含的音源数量，以及正在播放音频的智能设备的设备数量；

若所述音源数量大于所述设备数量，则确定所述环境音满足所述预设音频条件。

3.根据权利要求1所述的方法，其特征在于，所述确定所述音量发生变化，且所述环境音满足预设音频条件，包括：

当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整记录；

若确定所述变化不是由所述可控音源的音量调整记录所产生，则判定所述环境音满足所述预设音频条件。

4.根据权利要求3所述的方法，其特征在于，所述确定所述变化不是由所述可控音源的音量调整记录所产生，包括：

若所述音量调整记录中所述可控音源存在音量调整，获取存在音量调整的所述可控音源的音量调整数值，以及所述环境音的音量相较于当前时刻之前的音量的变化数值，所述音量调整数值为当前音量相较于调整之前的音量的调整数值；

若确定所述变化数值与所述音量调整数值不匹配，则判定所述变化不是由所述可控音源的音量调整所产生。

5.根据权利要求1所述的方法，其特征在于，所述确定所述音量发生变化，且所述环境音满足预设音频条件，包括：

当所述音量发生变化时，获取所述当前环境中每个可控音源的实时音量；

根据所述当前环境中每个可控音源的实时音量，确定所述当前环境中所有可控音源的总音量；

若所述环境音的音量与所述总音量不匹配，则判定所述环境音满足所述预设音频条件。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述从所述环境音中提取所述指定音频作为目标语音，包括：

从所述环境音中提取所述指定音频；

检测所述指定音频中是否包含预设词汇；

若所述指定音频中包含预设词汇，则将所述指定音频作为所述目标语音。

7.根据权利要求6所述的方法，其特征在于，所述指定音频中包含多个不同音源对应的子语音，所述若所述指定音频中包含预设词汇，则将所述指定音频作为所述目标语音，包括：

若所述多个子语音中均包含所述预设词汇，确定每个所述子语音中包含的所述预设词汇的词汇得分，所述词汇得分用于表征所述子语音对应识别出的分词与所述预设词汇的相似度，所述词汇得分与所述相似度呈正相关；

根据所述每个所述子语音中包含的所述预设词汇的词汇得分，确定每个所述子语音的得分，所述子语音的得分用于表示所述子语音的可信度；

提取所述得分最高的子语音作为所述目标语音。

8.一种智能语音提取装置，其特征在于，所述装置包括：

音量监测模块，用于采集当前环境的环境音，监测所述环境音的音量；

音频确定模块，用于若确定所述音量发生变化，且所述环境音满足预设音频条件，则确定所述环境音中包含指定音频，所述指定音频为所述环境音中除可控音源以外的其他音频；

语音提取模块，用于从所述环境音中提取所述指定音频作为目标语音。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7中任意一项所述的方法。