CN105654949A

CN105654949A - 一种语音唤醒方法及装置

Info

Publication number: CN105654949A
Application number: CN201610009103.3A
Authority: CN
Inventors: 田伟
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2016-06-08
Anticipated expiration: 2036-01-07
Also published as: CN105654949B

Abstract

本发明公开了一种语音唤醒方法及装置，用于实现语音唤醒终端设备的个性化，从而提高用户利用语音唤醒终端设备的成功率即用户体验度。所述方法包括：确定置信度阈值；当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对所述第一语音数据和预设语言模型进行匹配，获得所述第一语音数据的置信度；判断所述置信度是否大于或等于所述置信度阈值；根据对所述置信度的判断结果确定是否唤醒所述终端设备的语音控制功能。该技术方案使终端设备对第一语音数据的识别更加个性化，且提高了用户利用语音唤醒终端设备的成功率及用户体验度。

Description

一种语音唤醒方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音唤醒方法及装置。

背景技术

语音识别技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。语音唤醒即是语音识别技术的一种形式，其不直接接触硬件设备，通过语音即可将设备唤醒运行。一般情况下，大部分设备都是靠物理按键实现设备的唤醒或者运行。然而，这对于用户体验来说并不好。语音作为人们最自然的交流方式，通过语音唤醒这种非接触式的方式启动设备无疑是更友好的。

发明内容

本发明实施例提供一种语音唤醒方法及装置，用于实现语音唤醒终端设备的个性化，从而提高用户利用语音唤醒终端设备的成功率即用户体验度。

一种语音唤醒方法，包括以下步骤：

确定置信度阈值；

当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对所述第一语音数据和预设语言模型进行匹配，获得所述第一语音数据的置信度；

判断所述置信度是否大于或等于所述置信度阈值；

根据对所述置信度的判断结果确定是否唤醒所述终端设备的语音控制功能。

本发明实施例的一些有益效果可以包括：

上述技术方案，能够首先确定置信度阈值，并根据接收到的第一语音数据的置信度与置信度阈值之间的关系来确定是否唤醒终端设备的语音控制功能，使得对第一语音数据的识别能够基于不同情况下的置信度阈值，从而使终端设备对第一语音数据的识别更加个性化，且提高了用户利用语音唤醒终端设备的成功率及用户体验度。

在一个实施例中，所述确定置信度阈值，包括：

判断所述终端设备当前是否正输出第二语音数据；

当所述终端设备当前正输出所述第二语音数据时，确定所述置信度阈值为第一预设置信度阈值；

当所述终端设备当前未输出所述第二语音数据时，确定所述置信度阈值为第二预设置信度阈值；

其中，所述第二预设置信度阈值大于所述第一预设置信度阈值。

该实施例中，能够根据终端设备当前是否正在输出语音数据来确定不同的置信度阈值，使得终端设备对接收到的第一语音数据的识别更加个性化，从而提高了用户利用语音唤醒终端设备的成功率及用户体验度。

在一个实施例中，所述判断所述终端设备当前是否正输出第二语音数据之后，所述确定置信度阈值，还包括：

当所述终端设备当前正输出所述第二语音数据时，确定所述第二语音数据的音量值；

根据所述音量值确定所述置信度阈值。

该实施例中，能够根据终端设备输出的第二语音数据的音量值来确定置信度阈值，使得置信度阈值能够根据第二语音数据的音量值进行动态调整，从而使终端设备对接收到的第一语音数据的识别更加个性化，提高了用户利用语音唤醒终端设备的成功率及用户体验度。

在一个实施例中，所述根据所述音量值确定所述置信度阈值，包括：

获取所述第二语音数据的音量值和置信度阈值之间的对应关系；

根据所述第二语音数据的音量值和置信度阈值之间的对应关系，确定所述第二语音数据的音量值对应的置信度阈值。

该实施例中，通过第二语音数据的音量值和置信度阈值之间的对应关系来确定置信度阈值，使得置信度阈值的确定能够根据第二语音数据的音量值进行动态调整，且置信度阈值的确定更加准确，从而提高了用户利用语音唤醒终端设备的成功率及用户体验度。

在一个实施例中，所述根据对所述置信度的判断结果确定是否唤醒所述终端设备的语音控制功能，包括：

当对所述置信度的判断结果为所述置信度大于或等于所述置信度阈值时，唤醒所述终端设备的语音控制功能。

该实施例中，能够在用户输入的第一语音数据的置信度大于或等于置信度阈值时唤醒终端设备的语音控制功能，使得用户能够在一定程度上通过语音控制终端设备，且根据置信度的大小确定是否唤醒终端设备使得语音唤醒终端设备的结果更加准确，避免了其它无关的或者识别不准确的语音数据对终端设备的干扰。

一种语音唤醒装置，包括：

第一确定模块，用于确定置信度阈值；

匹配模块，用于当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对所述第一语音数据和预设语言模型进行匹配，获得所述第一语音数据的置信度；

判断模块，用于判断所述置信度是否大于或等于所述置信度阈值；

第二确定模块，用于根据对所述置信度的判断结果确定是否唤醒所述终端设备的语音控制功能。

在一个实施例中，所述第一确定模块包括：

判断子模块，用于判断所述终端设备当前是否正输出第二语音数据；

第一确定子模块，用于当所述终端设备当前正输出所述第二语音数据时，确定所述置信度阈值为第一预设置信度阈值；

第二确定子模块，用于当所述终端设备当前未输出所述第二语音数据时，确定所述置信度阈值为第二预设置信度阈值；

在一个实施例中，所述第一确定模块还包括：

第三确定子模块，用于判断所述终端设备当前是否正输出第二语音数据之后，当所述终端设备当前正输出所述第二语音数据时，确定所述第二语音数据的音量值；

第四确定子模块，用于根据所述音量值确定所述置信度阈值。

在一个实施例中，所述第四确定子模块包括：

获取单元，用于获取所述第二语音数据的音量值和置信度阈值之间的对应关系；

确定单元，用于根据所述第二语音数据的音量值和置信度阈值之间的对应关系，确定所述第二语音数据的音量值对应的置信度阈值。

在一个实施例中，所述第二确定模块包括：

唤醒子模块，用于当对所述置信度的判断结果为所述置信度大于或等于所述置信度阈值时，唤醒所述终端设备的语音控制功能。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种语音唤醒方法的流程图；

图2为本发明实施例中一种语音唤醒方法中步骤S11的流程图；

图3为本发明实施例中一种语音唤醒方法中步骤S11的流程图；

图4为本发明实施例中一种语音唤醒方法中步骤S32的流程图；

图5为本发明实施例中一种语音唤醒装置的框图；

图6为本发明实施例中一种语音唤醒装置中第一确定模块的框图；

图7为本发明实施例中一种语音唤醒装置中第一确定模块的框图；

图8为本发明实施例中一种语音唤醒装置中第四确定子模块的框图；

图9为本发明实施例中一种语音唤醒装置中第二确定模块的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种语音唤醒方法的流程图。该语音唤醒方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图1所示，该方法包括以下步骤S11-S14：

步骤S11，确定置信度阈值。

步骤S12，当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对第一语音数据和预设唤醒词进行匹配，获得第一语音数据和预设唤醒词匹配的置信度。

其中，预设唤醒词为与终端设备的语音控制功能相关的词语，由用户预先设定。例如，如果终端设备的语音控制功能包括控制智能家居时，预设唤醒词可包括空调、电视、窗帘等与智能家居有关的词；再例如，如果终端设备的语音控制功能包括连接至云端服务器、并通过云端服务器搜索网络信息时，预设唤醒词可包括搜索、查询、天气、火车票等与网络服务相关的词。

在执行该步骤时，终端设备会首先对用户输入的语音数据进行识别，识别该语音数据中是否包含预设唤醒词，如果该语音数据中包含预设唤醒词，则继续执行步骤S12-S14，如果该语音数据中不包含预设唤醒词，说明用户没有唤醒终端设备的语音控制功能的意愿，此时终端设备不对用户输入的语音数据作任何反馈。

预设语言模型可以是通用语言模型。

步骤S13，判断置信度是否大于或等于置信度阈值。

步骤S14，根据对置信度的判断结果确定是否唤醒终端设备的语音控制功能。

本发明实施例的一些有益效果可以包括：

在一个实施例中，第一语音数据的置信度可通过第一语音数据的以下特征的至少一种来确定：

(1)语速；即单位字的时长。

(2)N-best特征。

(3)位置；即每个词在句子中所处的位置，包括句首、句中和句末。

(4)词长；即每个词包括的字符个数。

(5)时长；即每个词所持续的帧数。

(6)竞争词个数：混淆网络上两个相邻结点间的弧个数，即一段时间内

有几个词在竞争。

(7)词的ngram语言模型得分。

(8)竞争词后验概率的差；即混淆网络上两个相邻结点间的两个后验概

率最大的竞争词的后验概率的差。

(9)句长。

针对第一语音数据的以上特征，可通过基于预测特征分类的方法或者基于后验概率的方法来确定第一语音数据的置信度，由于该两种方法均为现有技术，因此不再赘述。

上述实施例中，置信度的取值位于0～1的范围之间，由于置信度是用来评估语音识别结果的可靠性的，因此置信度越高，说明语音识别结果越准确。预设置信度阈值的取值位于0～1的范围之间。

在一个实施例中，如图2所示，步骤S11可执行为以下步骤S21-S23：

步骤S21，判断终端设备当前是否正输出第二语音数据；如果终端设备当前正输出第二语音数据，则执行步骤S22；如果终端设备当前未输出第二语音数据，则执行步骤S23。

步骤S22，确定置信度阈值为第一预设置信度阈值。

步骤S23，确定置信度阈值为第二预设置信度阈值，该第二预设置信度阈值大于第一预设置信度阈值。

该实施例中，如果终端设备当前正输出第二语音数据，那么终端设备接收到的第一语音数据就会收到干扰，这种情况下，终端设备对第一语音数据的识别难度增大，因此，为提高用户语音唤醒终端设备的成功率，可将置信度阈值确定为较低的第一预设置信度阈值。而如果终端设备当前未输出第二语音数据，那么终端设备接收到的第一语音数据不受其它语音数据的干扰，此时终端设备对第一语音数据的识别难度降低，因此，为避免不相关的语音数据对终端设备的干扰，以及提高用户语音唤醒终端设备的准确率，可将置信度阈值确定为较高的第二预设置信度阈值。

例如，第一预设置信度阈值设置为0.6，第二预设置信度阈值设置为0.8。当用户输入第一语音数据时，如果终端设备当前正输出第二语音数据，那么终端设备确定第一语音数据的置信度必须大于或等于0.6，才可唤醒终端设备的语音控制功能；如果终端设备当前未输出第二语音数据，那么终端设备确定第一语音数据的置信度必须大于或等于0.8，才可唤醒终端设备的语音控制功能。

可见，该实施例能够根据终端设备当前是否正在输出语音数据来确定不同的置信度阈值，使得终端设备对接收到的第一语音数据的识别更加个性化，从而提高了用户利用语音唤醒终端设备的成功率及用户体验度。

在上述实施例中，当终端设备当前正输出第二语音数据时，步骤S11可执行为如图3所示的步骤S31-S32：

步骤S31，当终端设备当前正输出第二语音数据时，确定第二语音数据的音量值。

其中，音量值可通过分贝值来表征。终端设备可确定第二语音数据中声音的分贝值。

步骤S32，根据第二语音数据的音量值确定置信度阈值。

在一个实施例中，如图4所示，步骤S32可实施为以下步骤S41-S42：

步骤S41，获取第二语音数据的音量值和置信度阈值之间的对应关系。

步骤S42，根据第二语音数据的音量值和置信度阈值之间的对应关系，确定第二语音数据的音量值对应的置信度阈值。

举例来说，音量值通过分贝值来表征，为提高用户语音唤醒终端设备的成功率，可设置第二语音数据中声音的分贝值越高，置信度阈值就越低，该例中第二语音数据中声音的分贝值和置信度阈值之间的对应关系如表1所示。

表1

分贝值	置信度阈值
		0～20	0.9
21～30	0.8
		31～60	0.6
61～80	0.5

在上述任一实施例中，步骤S14可实施为：当对该置信度的判断结果为置信度大于或等于置信度阈值时，唤醒终端设备的语音控制功能。

图5为本发明实施例中一种语音唤醒装置的框图。如图5所示，该装置包括：

第一确定模块51，用于确定置信度阈值；

匹配模块52，用于当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对第一语音数据和预设语言模型进行匹配，获得第一语音数据的置信度；

判断模块53，用于判断置信度是否大于或等于置信度阈值；

第二确定模块54，用于根据对置信度的判断结果确定是否唤醒终端设备的语音控制功能。

在一个实施例中，如图6所示，第一确定模块51包括：

判断子模块511，用于判断终端设备当前是否正输出第二语音数据；

第一确定子模块512，用于当终端设备当前正输出第二语音数据时，确定置信度阈值为第一预设置信度阈值；

第二确定子模块513，用于当终端设备当前未输出第二语音数据时，确定置信度阈值为第二预设置信度阈值；

其中，第二预设置信度阈值大于第一预设置信度阈值。

在一个实施例中，如图7所示，第一确定模块51还包括：

第三确定子模块514，用于判断终端设备当前是否正输出第二语音数据之后，当终端设备当前正输出第二语音数据时，确定第二语音数据的音量值；

第四确定子模块515，用于根据音量值确定置信度阈值。

在一个实施例中，如图8所示，第四确定子模块515包括：

获取单元5151，用于获取第二语音数据的音量值和置信度阈值之间的对应关系；

确定单元5152，用于根据第二语音数据的音量值和置信度阈值之间的对应关系，确定第二语音数据的音量值对应的置信度阈值。

在一个实施例中，如图9所示，第二确定模块54包括：

唤醒子模块541，用于当对置信度的判断结果为置信度大于或等于置信度阈值时，唤醒终端设备的语音控制功能。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音唤醒方法，其特征在于，包括：

确定置信度阈值；

判断所述置信度是否大于或等于所述置信度阈值；

2.根据权利要求1所述的方法，其特征在于，所述确定置信度阈值，包括：

判断所述终端设备当前是否正输出第二语音数据；

3.根据权利要求2所述的方法，其特征在于，所述判断所述终端设备当前是否正输出第二语音数据之后，所述确定置信度阈值，还包括：

根据所述音量值确定所述置信度阈值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述音量值确定所述置信度阈值，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据对所述置信度的判断结果确定是否唤醒所述终端设备的语音控制功能，包括：

6.一种语音唤醒装置，其特征在于，包括：

第一确定模块，用于确定置信度阈值；

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块还包括：

9.根据权利要求8所述的装置，其特征在于，所述第四确定子模块包括：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述第二确定模块包括：