CN106448663B

CN106448663B - 语音唤醒方法及语音交互装置

Info

Publication number: CN106448663B
Application number: CN201610901706.4A
Authority: CN
Inventors: 杨香斌
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2016-10-17
Filing date: 2016-10-17
Publication date: 2020-10-23
Anticipated expiration: 2036-10-17
Also published as: CN106448663A

Abstract

本发明实施例提供一种语音唤醒方法及语音交互装置，其中，该方法包括：接收语音输入信号；根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第一预设阈值；若超过，则根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，并判断所述第二相似度是否超过第二预设阈值，若超过，则唤醒语音交互功能，其中，所述第二声学模型的准确度高于所述第一声学模型的准确度。本发明实施例提供的语音唤醒方法及语音交互装置能够兼顾低功耗功耗和低误唤醒率的需求。

Description

语音唤醒方法及语音交互装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音唤醒方法及语音交互装置。

背景技术

随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍,智能电视,智能车载,智能家居,智能机器人都是语音交互应用的主要应用场景,同时由于人机交互对于用户体验的要求越来越高,人机语音对话的距离也越来越不局限于近讲(50cm以内)。现在通过多麦克风技术,已经能够实现3-5米内的远距离语音交互。

与此同时,远距离语音交互还存在一个问题,就是什么时候开始触发语音收音并且开始识别。目前的技术方案有两种,一种是用一颗低功耗芯片,一直通过麦克风阵列收音,做相应的信号处理后(信号增强,噪声抑制,回声消除),然后再做语音识别,判断用户是否说出唤醒词,如果说了,则通知主模块,开始收音并进行语音识别,还有一种方式是前端的模块只做信号处理,由主模块来一直收音,并做语音识别来判断用户是否说出唤醒词,但是这两种方式都有弊端,前一种方式由于前端处理模块要求低功耗,所以识别性能相对来说会较低,同时误唤醒率也会较高；而后一种方案的问题是主芯片模块需要一直全速运行,功耗会比较大，并且由于对主芯片模块的要求比较高，方案的成本也比较高。目前尚无兼顾功耗和误唤醒率的方案。

发明内容

本发明实施例提供一种语音唤醒方法及语音交互装置，用以解决现有技术无法兼顾功耗和误唤醒率的问题。

本发明实施例第一方面提供一种语音唤醒方法，该方法包括：

接收语音输入信号；

根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第一预设阈值；

若超过，则根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，并判断所述第二相似度是否超过第二预设阈值，其中，所述第二声学模型的准确度高于所述第一声学模型的准确度；

若超过，则唤醒语音交互功能。

本发明实施例第二方面提供一种语音交互装置，该装置包括：

接收模块，用于接收语音输入信号；

第一确定模块，用于根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第一预设阈值；

第二确定模块，用于在所述第一相似度超过所述第一预设阈值时，根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，并判断所述第二相似度是否超过第二预设阈值，其中，所述第二声学模型的准确度高于所述第一声学模型的准确度；

唤醒模块，用于当所述第二相似度超过第二预设阈值时，唤醒语音交互功能。

本发明实施例，首先通过准确度较低的第一声学模型对语音输入信号进行初步的语音唤醒识别，当识别出语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时，再通过准确度较高第二声学模型对语音输入信号进行第二次语音唤醒识别，从而根据第二次识别的结果，确定是否唤醒语音交互功能。由于在第一次识别过程中，采用的是准确度较低的声学模型，因此，第一次识别过程中的功耗较低。而只有当第一次识别通过，即语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时，才启用准确度较高的第二声学模型进行第二次唤醒识别。这样通过将准确度较低的声学模型和准确度较高的声学模型结合使用，避免了低准确度声学模型单独使用时，唤醒识别准确率较低，误唤醒率较高的问题，同时也能避免高准确度声学模型单独使用时，功耗较高的问题，进而达到了兼顾功耗和低误唤醒率的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音唤醒方法的流程示意图；

图2为本发明一实施例提供的语音交互装置的架构图；

图3为本发明一实施例提供的语音交互装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。

图1为本发明一实施例提供的语音唤醒方法的流程示意图，该方法可以由诸如智能电视,智能车载,智能家居,智能机器人等具有语音交互功能的语音交互装置来执行。如图1所示，本实施例提供的方法包括如下步骤：

步骤S101、接收语音输入信号。

实际应用中，语音交互装置可以通过设置在其上的麦克风阵列来接收用户或终端设备输入的语音信号，并在接收到语音信号后通过时间延迟补偿来确保接收到的语音信号的完整性，避免由于漏掉部分语音信号，而对唤醒判断造成影响。

进一步的，在获得完整的语音信号后通过对该语音信号进行预处理来获得本实施例所称的“语音输入信号”。具体的，在预处理过程中，至少要对语音信号进行噪声抑制处理、回声消除处理和声音增强处理，其中，上述处理与现有技术中语音处理过程类似，在这里不再赘述。

步骤S102、根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第一预设阈值，若未超过，则结束本次唤醒操作，若超过，则执行步骤S103。

其中，该第一预设阈值可以由用户根据实际需求自定义设置，也可以由终端设备默认设置，本发明实施例对此不作限定。

特别的，本实施例中提供的语音唤醒方法包括两次判别过程，其中，第一次判断过程，可以通过一DSP模块来执行。在第一次判断过程中，首先从步骤S101中获得的语音输入信号中，提取特征信号。例如，可以通过提取语音输入信号的梅尔频率倒谱系数的方式来获取特征信号，此过程与现有技术相同，在这里不再赘述。

进一步的，在实际应用中，可以在DSP模块中内置一个简单的声学模型，通过将该声学模型对上述获得的特征信号做解码处理，并采用最大似然比计算来判断特征信号和唤醒语音信号之间的相似度，其基本原理为，将特征信号中的每个特征点和声学模型里预设唤醒语音信号的每个特征点进行相似度比较，然后将所有的点综合得出一个极大似然值，公式为：

其中，x_i是特征信号中第i个特征点的样本值，μ为模型中的值，θ为需要计算得出的极大似然值，通过这个极大似然值来计算当前语音输入信号与预设的唤醒语音信号之间的相似度。其中，当计算获得的相似度大于预设第一阈值时，则开启第二次唤醒判断，否则结束唤醒操作。本实施例中，DSP模块对语音输入信号进行第一次唤醒判断的过程与现有技术类似，这里不再赘述。

这里需要说明的是，由于第一次唤醒判断过程采用的是较简单的声学模型，因此，对DSP模块的要求较低，DSP模块的功耗较低。

当然上述仅为示例说明，而不是对本发明的唯一限定，例如，在实际应用中也可以采用数据包窗口DTW的方法来计算两段语音的相似度，但是其最大的问题是语音的发音风格不同会严重影响语音的识别率。

步骤S103、根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，并判断所述第二相似度是否超过第二预设阈值，若超过则唤醒语音交互功能，否则不唤醒。其中，所述第二声学模型的准确度高于所述第一声学模型的准确度。

本实施例中，第二次唤醒判断可以由一主芯片处理模块来执行。在经过第一次唤醒判断后，如果语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值，则激活主芯片处理模块，进而主芯片处理模块从DSP模块中获取上述特征信号，并根据其内置的准确度较高的声学模型(即第二声学模型)和上述获得的特征信号，确定语音输入信号与预设的唤醒语音信号之间的第二相似度。进一步的，在获得第二相似度后，将计算获得的第二相似度与第二预设阈值进行对比，当第二相似度超过第二预设阈值时，唤醒语音交互功能，否则不唤醒。

需要说明的是，在DSP模块未判断到语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值时，主芯片处理模块处于未激活状态，即主芯片处理模块处于低功耗工作状态或者休眠状态；当DSP模块判断到语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值时，DSP模块将该语音信号对应的特征信号发送给主芯片处理模块，进而激活主芯片处理模块。

特别的，在本实施例中，第二次唤醒判断的方法和第一次唤醒判断的方法不同，其不同在于：第二次唤醒判断会用复杂的相似度解码算法,如Vetebi,它是一种动态规划算法，能计算语音信号内容的前后状态关联关系，而第一次唤醒判断是静态的计算相似度方法，只计算每个采样点的最大似然值，同时两者的声学模型也不一样，DSP模块里用的是非常简单的，容易计算处理的简单声学模型，主芯片处理模块里用的是较复杂的，且精度较高的复杂声学模型。

举例来说，假设唤醒语音中的唤醒词是“Vidaa，Vidaa”，在DSP模块中的计算过程中，可以认为是将这段语音分解成256个采样点，然后通过最大似然值算法来综合比较这256个点中，声学模型里的值和采集进来的语音输入信号之间的最大似然值的重合概率，是一种静态的计算方法，比如可以认为只要这个概率达到70％，就认为用户有可能说了句”Vidaa Vidaa”；

然后启动第二次唤醒判断，主芯片处理模块会将语音输入信号和唤醒语音信号导入训练好的高精度、高鲁棒性的HMM声学模型，并用Veterbi算法来计算语音输入信号和唤醒语音信号之间的相似度，这种算法是动态的规划算法，是计算了语音信号中每个点和前后发音单元的转移概率，因为人说话时，每个词的发音都是连续的，这是由声带决定的，因此每个拼音或者因素发音特点局定了前后每个点的转移概率，这部分计算量较大，准确度也很高，因此，如果Veterbi计算出来的相似度超过第二预设阈值(比如90％)，则认为是用户真正地说出了“Vidaa Vidaa”这句话。当然上述仅为示例说明，并不是对本发明的唯一限定。

这里需要说明的是，在本实施例中，第二次唤醒识别的目的是对语音输入信号进行较为精确的识别，避免误唤醒的发生。因此，在实际应用中，第二预设阈值的设置应大于或等于第一预设阈值。

本实施例，首先通过准确度较低的第一声学模型对语音输入信号进行初步的语音唤醒识别，当识别出语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时，再通过准确度较高第二声学模型对语音输入信号进行第二次语音唤醒识别，从而根据第二次识别的结果，确定是否唤醒语音交互功能。由于在第一次识别过程中，采用的是准确度较低的声学模型，因此，第一次识别过程中的功耗较低。而只有当第一次识别通过，即语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时，才启用准确度较高的第二声学模型进行第二次唤醒识别。这样通过将准确度较低的声学模型和准确度较高的声学模型结合使用，避免了低准确度声学模型单独使用时，唤醒识别准确率较低，误唤醒率较高的问题，同时也能避免高准确度声学模型单独使用时，功耗较高的问题，进而达到了兼顾功耗和低误唤醒率的目的。

图2为本发明一实施例提供的语音交互装置的架构图，如图2所示，图2中语音交互装置包括DSP模块和主芯片处理模块。其中，DSP模块中内置一较简单的声学模型(即准确度较低的声学模型)，主芯片处理模块中内置有一准确度和鲁棒性较高的声学模型。且主芯片处理模块未被DSP模块触发时，处于低功耗的工作状态或者休眠状态，其中，优选的，当主芯片处理模块未被DSP模块触发时，主芯片处理模块处于休眠状态，可以最大限度的降低主芯片的功耗。

实际应用中，当麦克风阵列接收到语音输入信号后,DSP模块通过端点检测(voiceactivity detection,简称VAD)来判断是否有语音信号输入,比如可以采用现有的短时能量和短时过零率的算法，该算法在本实施例中的应用与在现有技术中的应用相同，这里不再赘述。端点检测完成后，需要进行一次时间延迟补偿，以确保语音输入信号的完整。在对语音输入信号进行信号处理之前，需要将这段语音输入信号完整保存下来，以备传送到云端服务器进行识别。信号处理部分至少包括噪声抑制处理、回声消除处理和声音增强处理。实际应用中，噪声抑制处理可以在多滤波器组合的基础上进行。回声消除处理和声音增强处理的执行方法与现有技术相同，在这里不再赘述。

进一步的，在完成上述信号处理之后，先从语音输入信号中提取特征信号，再根据DSP模块内的一个简单的声学模型，对提取获得的特征信号进行解码处理，并计算特征信号和预设的唤醒语音信号之间的相似度，当计算获得的相似度超过第一预设阈值时，则触发主芯片处理模块，进行再一次的唤醒判断，否则退出本次唤醒操作。这里需要说明的是，DSP模块，只是通过简单的声学模型做初步的唤醒判断，因此，DSP模块只要在低功耗的工作环境下即可。

进一步的，当主芯片处理模块被触发时，主芯片处理模块可以通过其与DSP模块之间的数据接口，获取DSP模块在第一唤醒判断过程中获得的特征信号，并根据其内置的准确度较高的声学模型和上述特征信号对语音输入信号进行第二次唤醒识别，这里主芯片处理模进行第二次唤醒识别的方法与DSP模块图1实施例中所示的第二次唤醒识别的方法相同，在这里不再赘述。

图2所示的架构，利用前端DSP模块的快速低功耗，对语音输入信号做初步的唤醒识别，同时利用DSP模块的计算资源，做了一次特征提取，为主芯片处理模块的第二次唤醒识别节省了计算资源，而主芯片处理模块在没有接收到DSP模块的触发信号之前，一直在低功耗模式运行，被触发后，则利用自身的高存储资源和高计算资源，以及DSP模块发送过来的特征信号，能快速高效地对语音输入信号进行唤醒识别，因此整个架构能够兼顾低功耗和高准确率。

图3为本发明一实施例提供的语音交互装置的结构示意图，如图3所示，本实施例提供的装置包括：

接收模块11，用于接收语音输入信号；

第一确定模块12，用于根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第一预设阈值；

第二确定模块13，用于在所述第一相似度超过所述第一预设阈值时，根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，并判断所述第二相似度是否超过第二预设阈值，其中，所述第二声学模型的准确度高于所述第一声学模型的准确度；

唤醒模块14，用于当所述第二相似度超过第二预设阈值时，唤醒语音交互功能。

其中，所述第二预设阈值大于或等于第一预设阈值。

所述第一确定模块12，包括：

获取子模块121，用于从所述语音输入信号中，提取特征信号；

第一确定子模块122，用于根据第一声学模型和所述特征信号，确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值；

根据所述第一极大似然值，确定所述语音输入信号与预设的唤醒语音信号之间的第一相似度。

所述第二确定模块13，包括：

第二确定子模块131，用于

根据所述第二声学模型，确定所述特征信号中发音单元与其前和/或后发音单元之间的第一转移概率，以及对应的所述唤醒语音信号中发音单元与其前和/或后发音单元之间的第二转移概率；

根据所述第一转移概率和所述第二转移概率，确定所述特征信号和所述唤醒语音信号之间的第二相似度。

本实施例提供的语音交互装置，能够用于执行图1所示的方法，其具体的执行方式和有益效果与图1所示实施例类似，在这里不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

接收语音输入信号；

若超过，则唤醒语音交互功能；

所述第一声学模型设置在DSP模块中，所述的第二声学模型设置在主芯片处理模块中。

2.根据权利要求1所述的方法，其特征在于，所述第二预设阈值大于所述第一预设阈值。

3.根据权利要求2所述的方法，其特征在于，所述根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，包括：

从所述语音输入信号中，提取特征信号；

根据第一声学模型和所述特征信号，确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值；

4.根据权利要求3所述的方法，其特征在于，当所述第一相似度超过所述第一预设阈值时，所述根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，包括：

5.一种语音交互装置，其特征在于，包括：

麦克风阵列，用于接收语音输入信号；

DSP模块，用于根据第一声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第一预设阈值；

主芯片，用于在所述第一相似度超过所述第一预设阈值时，根据第二声学模型，确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度，并判断所述第二相似度是否超过第二预设阈值，其中，所述第二声学模型的准确度高于所述第一声学模型的准确度；

6.根据权利要求5所述的装置，其特征在于所述第二预设阈值大于第一预设阈值。

7.根据权利要求6所述的装置，其特征在于，所述DSP模块，包括：

获取子模块，用于从所述语音输入信号中，提取特征信号；

第一确定子模块，用于根据第一声学模型和所述特征信号，确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值；

8.根据权利要求7所述的装置，其特征在于，所述主芯片，包括：

第二确定子模块，用于根据所述第二声学模型，确定所述特征信号中发音单元与其前和/或后发音单元之间的第一转移概率，以及对应的所述唤醒语音信号中发音单元与其前和/或后发音单元之间的第二转移概率；