CN107622770B

CN107622770B - 语音唤醒方法及装置

Info

Publication number: CN107622770B
Application number: CN201710922732.XA
Authority: CN
Inventors: 孙杨; 谢波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2021-03-16
Anticipated expiration: 2037-09-30
Also published as: CN107622770A

Abstract

本发明提出一种语音唤醒方法及装置，该方法对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形，可以通过云端服务器的第二声学模型进行再次识别，可以尽可能地避免终端设备误唤醒或可以唤醒却没唤醒的情形发生，提高用户的体验度。此外，对通过第一声学模型识别出的唤醒语音与预设唤醒词信号之间相识度较高的情形或相识度较低的情形，由终端设备自身决定是否执行唤醒终端设备的操作，无需发送给云端服务器进行识别，这样可以提高终端设备的执行唤醒操作的效率。

Description

语音唤醒方法及装置

技术领域

本发明涉及智能人机交互技术领域，尤其涉及一种语音唤醒方法及装置。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等。

随着语音识别技术的发展，越来越多的智能终端设备配置了语音唤醒功能。用户对着智能终端设备输入一段语音，智能终端设备通过内置的算法判断输入的语音是否包含唤醒词，若包含，则将智能终端设备从休眠状态切换到唤醒状态。

然而，由于用户可能身处不同的场景当中，例如用户正参加演唱会，现场比较嘈杂，智能终端设备接收到的语音中的噪声比较多，可能会使智能终端设备出现误唤醒，影响用户的体验。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音唤醒方法。该方法对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形，可以通过云端服务器的第二声学模型进行再次识别，可以尽可能地避免终端设备误唤醒或可以唤醒却没唤醒的情形发生，提高用户的体验度。

为此，本发明的第二个目的在于提出一种语音唤醒装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了语音唤醒方法，包括：

检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景；

根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值；

根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度；

判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值；

若判断结果为是，将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度；

接收所述唤醒指令并执行唤醒所述终端设备的操作。

如上所述的方法，所述若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令，包括：

根据所述第二声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音对应的发音序列；

根据语言模型对所述唤醒语音对应的发音序列进行分析，获取所述唤醒语音对应的文本序列；

将所述唤醒语音对应的文本序列和所述预设唤醒词信号对应的文本序列进行匹配；

若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

如上所述的方法，所述根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度，包括：

根据所述唤醒语音的声学特征和所述第一声学模型确定所述唤醒语音的声学特征和所述预设唤醒词信号的声学特征之间的特征相似度；

根据各个所述特征相似度确定所述唤醒语音与所述预设唤醒词信号之间的第一相似度。

如上所述的方法，所述检测所述终端设备所处的当前场景包括：

检测所述终端设备的当前位置，根据所述当前位置确定所述终端设备所处的当前场景；

或者，检测所述终端设备的场景语音，对所述场景语音进行语料分析，获取所述场景语音的语料集合以及确定所述语料集合对应的场景，将所述语料集合对应的场景确定为所述终端设备所处的当前场景。

如上所述的方法，还包括：

若所述第一相似度大于所述第一阈值，则执行唤醒所述终端设备的操作；

或者，若所述第一相似度小于所述第二阈值，则不执行唤醒所述终端设备的操作。

为达上述目的，本发明第二方面实施例提出了语音唤醒装置，包括：

第一检测模块，用于检测输入到终端设备的唤醒语音

第二检测模块，用于检测所述终端设备所处的当前场景；

阈值模块，用于根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值；

分析模块，用于根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度；

判断模块，用于判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值，若判断结果为是，触发发送模块；

发送模块，用于将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度；

第一执行模块，用于接收所述唤醒指令并执行唤醒所述终端设备的操作。

如上所述的装置，所述云端服务器包括唤醒指令生成模块；

所述唤醒指令生成模块具体用于：

若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

如上所述的装置，所述分析模块具体用于：

如上所述的装置，所述第二检测模块具体用于：

或者，所述第二检测模块具体用于：检测所述终端设备的场景语音，对所述场景语音进行语料分析，获取所述场景语音的语料集合以及确定所述语料集合对应的场景，将所述语料集合对应的场景确定为所述终端设备所处的当前场景。

如上所述的装置，还包括：第二执行模块和第三执行模块；

若所述判断模块的判断结果为所述第一相似度大于所述第一阈值，触发第二执行模块；其中，所述第二执行模块用于执行唤醒所述终端设备的操作；

或者，若所述判断模块的判断结果为所述第一相似度小于所述第二阈值，触发第三执行模块；其中，所述第三执行模块用于不执行唤醒所述终端设备的操作。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：存储器和处理器其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如本发明实施例第一方面所述的语音唤醒方法。

为达上述目的，本发明第四方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如第一方面实施例所述的语音唤醒方法。

为达上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，当计算机程序被处理器执行时实现如第一方面实施例所述的语音唤醒方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音唤醒方法的流程示意图；

图2是本发明又一实施例提出的语音唤醒方法的流程示意图；

图3是本发明一实施例提出的语音唤醒装置的结构示意图；

图4是本发明又一实施例提出的语音唤醒装置的结构示意图；

图5示出了适于用来实现本发明实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音唤醒方法及装置。

图1是本发明一实施例提出的语音唤醒方法的流程示意图。该方法的执行主体为语音唤醒装置，该装置可以有硬件和/或软件实现，也可以集成到终端设备中。

如图1所示，本实施例提出的语音唤醒方法，包括以下步骤：

S101、检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景。

举例来说，当用户对着终端设备说出一段语言，例如“小度小度”，由于这段语音中包括由用户自主设置或默认的唤醒词“小度”，则当前用户所说出的语音为唤醒语音；终端设备可以通过配置的诸如听筒等语言检测设备接收用户输入的唤醒语音。

具体地，由于用户可能身处不同的场景当中，例如用户正参加演唱会，现场比较嘈杂，智能终端设备接收到的语音中的噪声比较多，可能会使智能终端设备出现误唤醒，影响用户的体验。为此，很有必要对终端设备所处的当前场景进行检测，根据场景的不同进行自适应地唤醒终端设备，尽可能地避免误唤醒或可以唤醒却没唤醒的情形的发生。需要指出的是，可以对检测到实际场景进行细分，例如分为安静场景和噪声场景。终端设备在安静场景中出现误唤醒的情形的概率相比终端设备在噪声场景中出现误唤醒的情形的概率低些。

在一种可能的实现方式中，检测所述终端设备所处的当前场景的具体实现方式为：检测所述终端设备的当前位置，根据所述当前位置确定所述终端设备所处的当前场景。例如，终端设备配置了诸如GPS(Global Positioning System，全球定位***)的定位模块，通过定位模块检测终端设备的当前位置为某KTV(Karaoke Television)娱乐场所，这时，确定终端设备所处的当前场景为噪声场景。又例如，通过定位模块检测终端设备的当前位置为图书馆，这时，确定终端设备所处的当前场景为安静场景。

在又一种可能的实现方式中，检测所述终端设备所处的当前场景的具体实现方式为：检测所述终端设备的场景语音，对所述场景语音进行语料分析，获取所述场景语音的语料集合以及确定所述语料集合对应的场景，将所述语料集合对应的场景确定为所述终端设备所处的当前场景。

举例来说，场景语音可以理解为检测到的终端设备所处周边环境的语音，场景语音可以在检测唤醒语音之前进行检测，也可以在检测唤醒语音之后检测，或者是两者同时检测，在此不做具体限制。

举例来说，在图书馆中检测的场景语音有诸如借书、还书等特定的语料；在某KTV娱乐场所中检测的场景语音也有诸如歌星名、歌曲名、再唱来一首等特定的语料。本实施例通过对检测的场景语音从语义、语音、语境等多个角度进行语料分析，得到该场景语音的全部语料，全部语料组成语料集合。可选地，终端设备中配置了能够对不同场景对应的语料进行深度学习的场景模型，通过将语料集合输入到场景模型中进行深度学习，可以获取到语音集合对应的场景，本实施例中将语料集合对应的场景确定为终端设备所处的当前场景。可选地，将语料集合对应的场景进行细分，分为安静场景和噪声场景，相应地，可以确定终端设备所处的当前场景为安静场景或噪声场景。

需要指出的是，检测终端设备所处的当前场景不限于举例说明。

S102、根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值。

具体地，第一阈值、第二阈值可以由用户自主设置或终端设备在出厂前由厂商进行设置，在此不做具体限制。在本实施例中，根据场景的不同设置不同的第一阈值和第二阈值，例如，噪声场景对应的第一阈值高于安静场景对应的第一阈值，噪声场景对应的第二阈值高于安静场景对应的第二阈值，实现根据场景的不同自适应地调整第一阈值或第二阈值，进而实现尽可能地避免由于固定的第一阈值或第二阈值造成的终端设备出现误唤醒或可以唤醒却没唤醒的情形的发生，提升用户使用终端设备的体验度。更为具体地，预先配置了场景与阈值的对应关系，根据当前场景和场景与阈值的对应关系可以精准地获取第一阈值和第二阈值。

举例来说，以唤醒语音和预设唤醒词信号之间的相似度作为设置第一阈值或第二阈值的依据来源，具体地，若唤醒语音和预设唤醒词信号之间的相似度高于第一阈值，可以认为唤醒语音与预设唤醒词信号匹配；若唤醒语音和预设唤醒词信号之间的相似度低于第二阈值，可以认为唤醒语音与预设唤醒词信号不匹配；若唤醒语音和预设唤醒词信号之间的相似度在第一阈值和第二阈值之间，可以认为唤醒语音与预设唤醒词信号匹配程度不高也不低，出现这种情形时，需要进一步地确认唤醒语音中是否能够与诸如“小度小度”的预设唤醒词信号匹配。

S103、根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度。

具体地，声学模型是语音识别***中最为重要的部分之一，通过声学模型可以分析得到输入语音对应的发音序列，也可以得到输入语音与预设语音之间的相似度，关于声学模型可参见现有技术，在此不再赘述。

在本实施例中，可以采用语音端点检测技术对检测到唤醒语音进行静音部分和实际唤醒语音部分进行分离，接着对获取的实际唤醒语音部分进行声学特征提取，将获取到的唤醒语音的声学特征输入到第一声学模型进行分析，获取唤醒语音和预设唤醒词信号之间的第一相似度。可选地，基于隐马尔科夫模型建立第一声学模型。

在一种可能的实现方式中，步骤S103的具体的实现方式为：根据所述唤醒语音的声学特征和所述第一声学模型确定所述唤醒语音的声学特征和所述预设唤醒词信号的声学特征之间的特征相似度；根据各个所述特征相似度确定所述唤醒语音与所述预设唤醒词信号之间的第一相似度。

举例来说，唤醒语音具有多个不同的声学特征，相应地，预设唤醒词信号具有多个不同的声学特征，第一声学模型可以先分析出每个唤醒语音的声学特征和对应的预设唤醒词信号的声学特征之间的特征相似度，再对各个得到的特征相似度进行统计分析，例如，可以利用极大似然原理对各个得到的特征相似度进行统计分析，获取所述唤醒语音的声学特征和所述预设唤醒词信号的声学特征之间的极大似然值，将得到的极大似然值作为唤醒语音与预设唤醒词信号之间的第一相似度。

S104、判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值。

具体地，当第一相似度大于第二阈值且小于第一阈值，说明检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低，出现这种情形时，需要进一步地确认唤醒语音中是否能够与诸如“小度小度”的预设唤醒词信号匹配。

S105、若判断结果为是，将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度。

在本实施例中，第一声学模型配置在本地，即配置在终端设备中；而本实施例中的第二声学模型配置在云端服务器。云端服务器具有强大的数据处理能力，例如，云端服务器可以通过挖掘更多的相关数据进行深度学习建立识别精度更高的第二声学模型。在本实施例中，第二声学模型的识别精度大于第一声学模型的识别精度，对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形，可以通过云端服务器的第二声学模型进行再次识别。

若云端服务器的第二声学模型判断所述唤醒语音和预设唤醒词信号之间的第二相似度大于第一阈值，可以认为唤醒语音与预设唤醒词信号匹配。以预设唤醒词信号为“小度小度”为例，识别结果为匹配，说明用户说出了“小度小度”这样的唤醒语音，这时可以执行唤醒终端设备的操作。具体地，在本实施例中，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；若所述第二相似度小于所述第一阈值，则不生成用于唤醒所述终端设备的唤醒指令。

在一种可能的实现方式中，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令的具体的实现方式为：

S1、根据所述第二声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音对应的发音序列。

在本实施例中，通过第二声学模型可以确定与唤醒语音最为匹配的发音序列。

S2、根据语言模型对所述唤醒语音对应的发音序列进行分析，获取所述唤醒语音对应的文本序列。

具体地，语言模型是语音识别***中最为重要的部分之一，通过语言模型可以得到输入语音对应的文本序列，即将输入语音转化为文本。可选地，语言模型为N-Gram模型(N元模型)。

本实施例在通过第二声学模型可以确定与唤醒语音最为匹配的发音序列之后，再通过语音模型可以确定与唤醒语音最为匹配的文本序列。

S3、将所述唤醒语音对应的文本序列和所述预设唤醒词信号对应的文本序列进行匹配。

S4、若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

本实施例通过第二声学模型对唤醒语音和预设唤醒词信号的声学特征之间的相似度进行初步评判，接着，利用语言模型对唤醒语音对应的文本序列和预设唤醒词信号对应的文本序列进行匹配，即从语音和文本两个角度进行了两次匹配，语音唤醒方法更为准确可靠。

S106、接收所述唤醒指令并执行唤醒所述终端设备的操作。

本发明实施例提供的语音唤醒方法，包括：检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景；根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值；根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度；判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值；若判断结果为是，将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度；接收所述唤醒指令并执行唤醒所述终端设备的操作。该方法对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形，可以通过云端服务器的第二声学模型进行再次识别，可以尽可能地避免终端设备误唤醒或可以唤醒却没唤醒的情形发生，提高用户的体验度。

图2是本发明又一实施例提出的语音唤醒方法的流程示意图。在上述实施例的基础上，若所述第一相似度大于所述第一阈值，则执行唤醒所述终端设备的操作；或者，若所述第一相似度小于所述第二阈值，则不执行唤醒所述终端设备的操作。

如图2所示，本实施例提出的语音唤醒方法，包括以下步骤：

S201、检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景，执行步骤S202。

S202、根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值，执行步骤S203。

S203、根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度，执行步骤S204。

S204、判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值，执行步骤S205、步骤S207、步骤S208中任一步骤。

S205、若判断结果为是，将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度，执行步骤S206。

S206、接收所述唤醒指令并执行唤醒所述终端设备的操作。

需要说明的是，本实施例中的步骤S201、S202、S203、S204、S205、S206的实现方式分别与上述实施例中的步骤S101、S102、S103、S104、S105、S106的实现方式相同，在此不再赘述。

S207、若所述第一相似度大于所述第一阈值，则执行唤醒所述终端设备的操作。

具体地，通过本地的第一声学模型确定出第一相似度大于第一阈值，可以认为唤醒语音与预设唤醒词信号匹配。以预设唤醒词信号为“小度小度”为例，识别结果为匹配，说明用户说出了“小度小度”这样的唤醒语音，这时可以执行唤醒终端设备的操作。

S208、若所述第一相似度小于所述第二阈值，则不执行唤醒所述终端设备的操作。

具体地，通过本地的第一声学模型确定出第一相似度小于第二阈值，可以认为唤醒语音与预设唤醒词信号不匹配。以预设唤醒词信号为“小度小度”为例，识别结果为不匹配，说明用户没有说出了“小度小度”这样的唤醒语音，这时不执行唤醒终端设备的操作。

本发明实施例提供的语音唤醒方法，通过本地的第一声学模型确定出第一相似度大于第一阈值时，执行唤醒终端设备的操作；通过本地的第一声学模型确定出第一相似度小于第二阈值时，不执行唤醒终端设备的操作。也就是说，对通过第一声学模型识别出的唤醒语音与预设唤醒词信号之间相识度较高的情形或相识度较低的情形，由终端设备自身决定是否执行唤醒终端设备的操作，无需发送给云端服务器进行识别，这样可以提高终端设备的执行唤醒操作的效率。

图3是本发明一实施例提出的语音唤醒装置的结构示意图。该装置可以有硬件和/或软件实现，也可以集成到终端设备中，用于执行语音唤醒方法。

如图3所示，本实施例提供的语音唤醒装置，包括：

第一检测模块01，用于检测输入到终端设备的唤醒语音；

第二检测模块02，用于检测所述终端设备所处的当前场景；

阈值模块03，用于根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值；

分析模块04，用于根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度；

判断模块05，用于判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值，若判断结果为是，触发发送模块；

发送模块06，用于将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度；

第一执行模块07，用于接收所述唤醒指令并执行唤醒所述终端设备的操作。

进一步地，所述云端服务器包括唤醒指令生成模块；

所述唤醒指令生成模块具体用于：

若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

进一步地，所述分析模块04具体用于：

进一步地，所述第二检测模块02具体用于：

或者，所述第二检测模块02具体用于：检测所述终端设备的场景语音，对所述场景语音进行语料分析，获取所述场景语音的语料集合以及确定所述语料集合对应的场景，将所述语料集合对应的场景确定为所述终端设备所处的当前场景。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供的语音唤醒装置，包括：第一检测模块，用于检测输入到终端设备的唤醒语音；第二检测模块，用于检测所述终端设备所处的当前场景；阈值模块，用于根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值；分析模块，用于根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度；判断模块，用于判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值，若判断结果为是，触发发送模块；发送模块，用于将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度，若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令；其中，所述第二声学模型的识别精度大于所述第一声学模型的识别精度；第一执行模块，用于接收所述唤醒指令并执行唤醒所述终端设备的操作。该装置对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形，可以通过云端服务器的第二声学模型进行再次识别，可以尽可能地避免终端设备误唤醒或可以唤醒却没唤醒的情形发生，提高用户的体验度。

图4是本发明一实施例提出的语音唤醒装置的结构示意图。在上述实施例的基础上，语音唤醒装置还包括第二执行模块和第三执行模块。

如图4所示，本实施例提供的语音唤醒装置，包括：

第一检测模块01，用于检测输入到终端设备的唤醒语音；

第二检测模块02，用于检测所述终端设备所处的当前场景；

判断模块05，用于判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值，若判断结果为是，触发发送模块，或者，若所述判断模块的判断结果为所述第一相似度大于所述第一阈值，触发第二执行模块，或者，若所述判断模块的判断结果为所述第一相似度小于所述第二阈值，触发第三执行模块；

进一步地，所述云端服务器包括唤醒指令生成模块；

所述唤醒指令生成模块具体用于：

若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

进一步地，所述分析模块04具体用于：

进一步地，所述第二检测模块02具体用于：

第二执行模块08，用于执行唤醒所述终端设备的操作。

第三执行模块09，用于不执行唤醒所述终端设备的操作。

本发明实施例提供的语音唤醒装置，通过本地的第一声学模型确定出第一相似度大于第一阈值时，执行唤醒终端设备的操作；通过本地的第一声学模型确定出第一相似度小于第二阈值时，不执行唤醒终端设备的操作。也就是说，对通过第一声学模型识别出的唤醒语音与预设唤醒词信号之间相识度较高的情形或相识度较低的情形，由终端设备自身决定是否执行唤醒终端设备的操作，无需发送给云端服务器进行识别，这样可以提高终端设备的执行唤醒操作的效率。

图5示出了适于用来实现本发明实施方式的示例性计算机设备20的框图。图5显示的计算机设备20仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备20以通用计算设备的形式表现。计算机设备20的组件可以包括但不限于：一个或者多个处理器或者处理单元21，***存储器22，连接不同***组件(包括***存储器22和处理单元21)的总线23。

总线23表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备20典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备20访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器22可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线23相连。存储器22可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器22中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备20也可以与一个或多个外部设备50(例如键盘、指向设备、显示器60等)通信，还可与一个或者多个使得用户能与该计算机设备20交互的设备通信，和/或与使得该计算机设备20能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口24进行。并且，计算机设备20还可以通过网络适配器25与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器25通过总线23与计算机设备20的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备20使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元21通过运行存储在***存储器22中的程序，从而执行各种功能应用以及数据处理，例如实现图1-图2所示的语音唤醒方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(Local AreaNetwork；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行如前述实施例所述的语音唤醒方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时能够实现如前述实施例所述的语音唤醒方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音唤醒方法，其特征在于，包括：

检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景，其中，检测所述终端设备的场景语音，对所述场景语音进行语料分析，获取所述场景语音的语料集合以及确定所述语料集合对应的场景，将所述语料集合对应的场景确定为所述终端设备所处的当前场景，其中，在所述终端设备中配置对不同场景对应的语料进行深度学习的场景模型，通过将语料集合输入到所述场景模型进行深度学习，以获取到语料集合对应的场景；

根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值，所述当前场景包括噪声场景和安静场景，所述噪声场景对应的第一阈值高于所述安静场景对应的第一阈值，所述噪声场景对应的第二阈值高于所述安静场景对应的第二阈值；

接收所述唤醒指令并执行唤醒所述终端设备的操作。

2.如权利要求1所述的方法，其特征在于，所述若所述第二相似度大于所述第一阈值，则生成用于唤醒所述终端设备的唤醒指令，包括：

若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

3.如权利要求1所述的方法，其特征在于，所述根据第一声学模型对所述唤醒语音的声学特征进行分析，获取所述唤醒语音和预设唤醒词信号之间的第一相似度，包括：

4.如权利要求1所述的方法，其特征在于，还包括：

5.一种语音唤醒装置，其特征在于，包括：

第一检测模块，用于检测输入到终端设备的唤醒语音；

第二检测模块，用于检测所述终端设备所处的当前场景；所述第二检测模块，具体用于：检测所述终端设备的场景语音，对所述场景语音进行语料分析，获取所述场景语音的语料集合以及确定所述语料集合对应的场景，将所述语料集合对应的场景确定为所述终端设备所处的当前场景，其中，在所述终端设备中配置对不同场景对应的语料进行深度学习的场景模型，通过将语料集合输入到所述场景模型进行深度学习，以获取到语料集合对应的场景；

阈值模块，用于根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值，其中，所述第一阈值大于所述第二阈值，所述当前场景包括噪声场景和安静场景，所述噪声场景对应的第一阈值高于所述安静场景对应的第一阈值，所述噪声场景对应的第二阈值高于所述安静场景对应的第二阈值；

6.如权利要求5所述的装置，其特征在于，所述云端服务器包括唤醒指令生成模块；

所述唤醒指令生成模块具体用于：

若匹配成功，则生成用于唤醒所述终端设备的唤醒指令。

7.如权利要求5所述的装置，其特征在于，所述分析模块具体用于：

8.如权利要求5所述的装置，其特征在于，还包括：第二执行模块和第三执行模块；

9.一种计算机设备，其特征在于，包括：处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-4中任一项所述的语音唤醒方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的语音唤醒方法。