CN112700782A

CN112700782A - 语音处理方法和电子设备

Info

Publication number: CN112700782A
Application number: CN202011568957.8A
Authority: CN
Inventors: 李俊潓
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-23

Abstract

本申请公开了一种语音处理方法及电子设备，属于电子技术领域，以解决在现有技术中，语音唤醒算法的误启动现象发生的频率较高的问题。其中，所述语音处理方法包括：在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息；在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。本申请中的语音处理方法应用于电子设备中。

Description

语音处理方法和电子设备

技术领域

本申请属于电子技术领域，具体涉及一种语音处理方法和电子设备。

背景技术

目前，电子设备具有语音唤醒功能。在实现语音唤醒功能的过程中，需实时监测麦克风数据，以检测是否有人在说话。当检测到有人在说话时，则启动语音唤醒功能进行校验。进一步地，语音唤醒功能校验通过后，会唤醒设备的***，接受训练者的命令，进行相应的响应。这样，用户可通过语音来控制电子设备，方便快捷。

通常，只要是有人说话声音较大，就会认为有人在说话，但不一定是用户本人在说话。但这样的情况下，语音唤醒功能还是会被启动，从而导致语音唤醒功能的误启动现象发生。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：在现有技术中，语音唤醒功能的误启动现象发生的频率较高。

发明内容

本申请实施例的目的是提供一种语音处理方法，能够解决在现有技术中，语音唤醒功能的误启动现象发生的频率较高的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音处理方法，该方法包括：在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息；在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

第二方面，本申请实施例提供了一种语音处理装置，该装置包括：第一获取模块，用于在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息；第一启动模块，用于在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的方法。

这样，在本申请的实施例中，在目标声音信号大于第一预设阈值的情况下，认为有人在说话，从而获取第一声音信息的声纹信息，以将获取的声纹信息与预设的声纹信息进行匹配。若匹配成功，则默认是指定人物在说话，从而启动语音唤醒功能，进行唤醒相关的校验。可见，相比于现有技术，本实施例增加了声纹校验，从而只有在指定人物(如用户)发出的命令的情况下，语音唤醒功能才会被启动，从而降低语音唤醒功能的误启动频率。

附图说明

图1是本申请实施例的语音处理方法的流程图；

图2是本申请实施例的语音处理装置的框图；

图3是本申请实施例的电子设备的硬件结构示意图之一。

图4是本申请实施例的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。

图1示出了本申请一个实施例的语音处理方法的流程图。

步骤S1：在目标声音信号大于第一预设阈值的情况下，获取目标声音信号的声纹信息。

在现有技术中，在实现语音唤醒功能的过程中，首先在前端加入一个语音端点检测(Voice Activity Detection，简称VAD)算法模块。该模块用于：实时检测麦克风数据，一般会综合分析输入信号的能量特征，以及频谱特征等信息判断是否存在语音，或者直接检测环境声音的平均能量大小，当超过预设阈值时，就认定当前有人说话，从而实现检测是否有用户在说话及其说话的开始时间点。其次在后端设置语音唤醒算法模块，该模块用于实现语音唤醒功能。进一步地，在VAD算法模块可通知后端的语音唤醒算法，什么时候开始运行，以及语音的起始点。

在本实施例中，结合现有技术中的VAD算法，可在目标声音信号大于第一预设阈值的情况下，认定当前有人说话。

其中，目标声音信号包括人声信号。

可选地，第一预设阈值为用户自定义阈值，或者***自定义阈值，以用于区别当前是否有人在说话。

进一步地，在本实施例中，在VAD算法中同时运行对应的声纹校验算法。

其中，声纹校验算法为轻量的算法，以避免功耗太大，同时，该算法的复杂度支持动态调节，以确保其校验能力。

可参考地，VAD算法在前端一直运行，当现有技术中的语音唤醒触发通过后，即认定当前有人说话，则获取目标声音信号的声纹信息，以进行本实施例中附加的声纹校验。

步骤S2：在声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

在该步骤中，当本实施例中附加的声纹校验也通过时，VAD算法会唤醒后端的语音唤醒算法，并把语音数据送给该算法进行语音唤醒校验。

其中，本实施例中附加的声纹校验为：将获取的目标声音信号的声纹信息与预设的声纹信息进行匹配比对。

可参考地，将目标声音信号的声纹信息与预设的声纹信息进行相似度的计算，若二者相似度大于预设阈值，则二者匹配成功。

可选地，用户在进行语音唤醒模型训练，提取训练者的声纹信息，作为预设的声纹信息。

进一步地，将预设的声纹信息和匹配条件加载至VAD算法中，以使得在VAD算法中同时运行对应的声纹校验算法。

在另一个步骤中，若本实施例中附加的声纹校验没有通过，则不会启动后端的语音唤醒算法，只是保持一直循环检测。

另外，语音唤醒功能一般会运行在低功耗处理芯片里面，以达到降低功耗的目的，低功耗处理芯片里面的语音唤醒功能校验通过后，会唤醒设备的***，接受唤醒者的命令，进行相应的响应。而由于语音唤醒算法的复杂度会比VAD算法大很多倍，所以相应的算法运行时的资源消耗和功耗也会大很多倍。因此，基于本实施例提供的语音处理方法，在减少语音唤醒功能的误启动现象的基础上，可避免低功耗处理器频繁运行语音唤醒算法，从而避免过多的耗电，以达到省电的目的，进而优化设备性能。

在本申请另一个实施例的语音处理方法的流程中，步骤S2，包括以下任一项：

子步骤A1：在声纹信息与预设用户的声纹信息匹配的情况下，启动语音唤醒功能。

在该步骤中，用户可录入本人的声纹信息，作为预设用户的声纹信息。

其中，用户自定义相关阈值。当声纹信息与预设用户的声纹信息的相似度大于预设阈值时，匹配成功。

相关阈值的取值越大，VAD校验的精准度越高，发生语音唤醒功能的误启动现象的频率越低。

子步骤A2：在声纹信息与预设类型的声纹信息匹配的情况下，启动语音唤醒功能。

在该步骤中，用户可录入本人的声纹信息，将本人的声纹信息所属的类型作为预设类型的声纹信息。

可选地，根据本人的声纹信息，将本人的声纹信息归类为男性声纹类型或者女性声纹类型。

可选地，将本人的声纹信息归类为某一年龄段的声纹类型，如儿童、青年、成年、老年等中的任一类型。

可选地，基于不同的分类标准，可进行相互结合，以限定预设类型。例如，预设类型为男性与老人相结合。

其中，用户自定义预设类型。

预设类型所包含的分类标准越多，分类越精细，VAD校验的精准度越高，发生语音唤醒功能的误启动现象的频率越低。

在本实施例中，提供了两种可参考的声纹校验方案。在不同的方法中，预设不同的声纹信息，以用于匹配。一方面，可直接校验是否为注册者(如用户本人)的声纹；另一方面，可检验是否为与注册者(如用户本人)同属一个类型。同时，本实施例支持用户动态设置任一种方案，以及不同方案中的设置参数，进一步增加VAD的准确性，防止因后端的语音唤醒功能被过多的触发并允许，而导致过多耗电和误启动现象。

在本申请另一个实施例的语音处理方法中，在本地建立一个声纹库。在动态更新用户的语音数据后，根据用户的声纹信息变化而动态适配声纹库，从而VAD的算法中预设的声纹信息也随之更新适配，以便实现声纹信息跟随用户的声音变化而变化，增加VAD校验的精准度。

在本申请另一个实施例的语音处理方法的流程中，在目标声音信号大于第一预设阈值的情况下，还包括：

步骤B1：获取目标声音信号的音素信息。

在本实施例中，用户可设置唤醒词。每个唤醒词声音都有自己的一定特征。

例如，唤醒词分别为“小V小V”和“Hi jovi”。不同唤醒词的发音和音素都不一样，直观表现为声音的波形图和语谱图都有差别。更具体地，“小V小V”作为唤醒词，前端第一个发音音节为“x”，“Hi jovi”作为唤醒词，前端第一个发音音节为“h”，“x”和“h”两者的语音特征也是不一样。

因此，在本实施例中，可获取目标声音信号的音素信息，以用于与预设的音素信息进行匹配。

在本实施例中，在VAD算法中同时运行对应的发音校验算法。

其中，发音校验算法为轻量的算法，以避免功耗太大，同时，该算法的复杂度支持动态调节，以确保其校验能力。

可参考地，VAD算法在前端一直运行，当现有技术中的语音唤醒触发通过后，即认定当前有人说话，则获取目标声音信号的音素信息，以进行本实施例中附加的发音校验。

步骤B2：在音素信息与预设的音素信息匹配的情况下，启动语音唤醒功能。

在该步骤中，当本实施例中附加的发音校验也通过时，VAD算法会唤醒后端的语音唤醒功能，并把语音数据送给该功能进行语音唤醒校验。

其中，本实施例中附加的发音校验为：将获取的目标声音信号的音素信息与预设的音素信息进行匹配比对。

可参考地，将目标声音信号的音素信息包含预设的音素信息，则二者匹配成功。

可选地，用户在设置唤醒词时，提取唤醒词的音素信息，动态生成声学模型，作为预设的音素信息。

进一步地，将预设的音素信息和匹配条件加载至VAD算法中，以使得在VAD算法中同时运行对应的发音校验算法。

在本实施例中，在VAD运行时，若检测到有人说话，则进一步检测说的话是否是与预设的音素信息匹配的词。若匹配成功，则认为是喊了唤醒词，从而启动后端的语音唤醒校验功能，反之则一直检测，保持后端语音唤醒功能休眠。可见，相比于现有技术，本实施例增加了发音校验，从而只有在检测到指定词组的情况下，语音唤醒功能才会被启动，进而降低语音唤醒功能被非唤醒词误启动的频率。

在本申请另一个实施例的语音处理方法的流程中，步骤B2，包括：

子步骤C1：获取预设的精准程度。

子步骤C2：在音素信息与预设语音内容中的前N个音素匹配的情况下，启动语音唤醒功能。

其中，N为正整数，N的取值正比于预设的精准程度。

在本实施例中，预设的音素信息包括预设语音内容中的前N个音素。

其中，预设语音内容为前述的唤醒词。

在本实施例中，用户可自定义VAD校验的精准程度。

其中，精准程度越高，预设的音素信息包括的音素的数量越多，N的取值越大。

可选地，为了确保VAD的校验精度，将预设语音内容前端的音素依次加入预设的音素信息中。

例如，设置唤醒词为“小V小V”，可以将前端的“x”作为预设的音素信息；进一步地，可以从“x”改为“xi”，作为预设的音素信息；进一步地，可以从“xi”改为“xia”，作为预设的音素信息；等等，一个一个音素增加，从而改变VAD的校验精确度。

可选地，在用户设置唤醒词和精准程度后，可根据唤醒词中包括的音素，以及预设的精准程度，提取唤醒词中对应的前端的N个音素，作为预设的音素信息进行匹配。

对应地，将预设的唤醒词和精准程度加载至VAD算法中，以使得在VAD算法中同时运行对应的发音校验算法。

在本实施例中，利用了声学发音的特征，提取唤醒词前端的N个发音/音素，并在VAD算法中实时校验，以检测用户是否说了唤醒词相关的语句，减少后端语音唤醒功能的启动频率，以及降低语音唤醒功耗。

在本申请另一个实施例的语音处理方法中，可以将音素校验算法和声纹校验算法结合起来，来实现更精准的语音处理，降低后端语音唤醒功能的误启动频率，以及降低语音唤醒功耗。

步骤D1：检测目标声音信号是否有二次失真。

步骤D2：在目标声音信号非二次失真的情况下，启动语音唤醒功能。

在本实施例中，针对电视、手机等设备播放出来的声音和实际人说的声音，前者由于从喇叭里面播放出来，会有二次失真，和真实的人声有差别，可以在VAD中加入相应的失真校验算法，区分设备播放出来的人声和真人的声音，从而防止语音唤醒功能被录制的人声误触发，以及假冒录制声音攻击。

在本申请另一个实施例的语音处理方法的流程中，步骤S1之前，还包括：

步骤E1：在环境声音信号大于第二预设阈值的情况下，更新第一预设阈值至第三预设阈值。

其中，第三预设阈值大于第一预设阈值。

可选地，第二预设阈值由用户自定义，或者由***自定义，以用于区分噪声很大的场景，或者前端消噪算法性能不强的场景。

可选地，第三预设阈值由用户自定义，或者由***自定义。第三预设阈值大于第一预设阈值，以用于提高VAD算法的检测门限。

在本实施例中，在音频数据的能量很大，或者人声很多的嘈杂环境中，可以自适应地调整第一预设阈值至第三预设阈值，从而调整VAD的检测门限，避免过多的触发后端语音唤醒算法运行，以降低后端语音唤醒功能的误启动频率，以及降低语音唤醒功耗。

在本申请另一个实施例的语音处理方法的流程中，在步骤S1之前，还包括：

步骤F1：在预设时段内，检测目标声音信号是否大于第一预设阈值。

在本实施例中，预设时段可以是除第一时段以外的时段，而第一时段可以是用户睡觉，或者其它不会用到语音唤醒功能的时候。

预设时段可由用户自定义，还可由***智能场景识别。

在本实施例中，可在用户睡觉，或者其它不会用到语音唤醒功能的时候，让前端的VAD算法或者语音唤醒算法停止运行，减少功耗消耗以及误启动频率。

综上，本实施例能够能很好地区分是否是语音唤醒注册者在说话，以及注册者说的是否是唤醒词相关的语音，从而降低后端语音唤醒算法被频繁拉起运行的频率。同时，前端的处理量增大，使得送给后端的语音唤醒算法的语音数据减少，降低了后端语音唤醒算法的复杂度，提高了语音唤醒算法的准确度，从而降低功耗，以及减少***误唤醒现象。另外，本实施例提供精准的声纹、音素等校验算法，可提高对语音唤醒词的起始点判断的准确度，从而降低了后端语音唤醒算法的复杂度，提高了语音唤醒算法的准确度，从而降低功耗，以及减少***误唤醒现象。

需要说明的是，本申请实施例提供的语音处理方法，执行主体可以为语音处理装置，或者该语音处理装置中的用于执行语音处理方法的控制模块。本申请实施例中以语音处理装置执行语音处理方法为例，说明本申请实施例提供的语音处理方法的语音处理装置。

图2示出了本申请另一个实施例的语音处理装置的框图，包括：

第一获取模块，用于在目标声音信号大于第一预设阈值的情况下，获取目标声音信号的声纹信息；

第一启动模块，用于在声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

可选地，第一启动模块，包括以下任一项：

第一匹配单元，用于在声纹信息与预设用户的声纹信息匹配的情况下，启动语音唤醒功能；

第二匹配单元，用于在声纹信息与预设类型的声纹信息匹配的情况下，启动语音唤醒功能。

可选地，装置，还包括：

第二获取模块，用于获取目标声音信号的音素信息；

第二启动模块，用于在音素信息与预设的音素信息匹配的情况下，启动语音唤醒功能。

可选地，第二启动模块，包括：

第三获取单元，用于获取预设的精准程度；

第三匹配单元，用于在音素信息与预设语音内容中的前N个音素匹配的情况下，启动语音唤醒功能；N为正整数，N的取值正比于预设的精准程度。

可选地，装置，还包括：

更新模块，用于在环境声音信号大于第二预设阈值的情况下，更新第一预设阈值至第三预设阈值；第三预设阈值大于第一预设阈值。

本申请实施例中的语音处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音处理装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的语音处理装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图3所示，本申请实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在所述处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述任一种语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图4为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器1010逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息；在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

可选地，处理器1010，还用于在所述声纹信息与预设用户的声纹信息匹配的情况下，启动语音唤醒功能；在所述声纹信息与预设类型的声纹信息匹配的情况下，启动语音唤醒功能。

可选地，处理器1010，还用于获取所述目标声音信号的音素信息；在所述音素信息与预设的音素信息匹配的情况下，启动语音唤醒功能。

可选地，处理器1010，还用于获取预设的精准程度；在所述音素信息与预设语音内容中的前N个音素匹配的情况下，启动语音唤醒功能；N为正整数，N的取值正比于所述预设的精准程度。

可选地，处理器1010，还用于在环境声音信号大于第二预设阈值的情况下，更新所述第一预设阈值至第三预设阈值；所述第三预设阈值大于所述第一预设阈值。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述任一种语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述任一种语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息；

在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

2.根据权利要求1所述的方法，其特征在于，所述在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能，包括以下任一项：

在所述声纹信息与预设用户的声纹信息匹配的情况下，启动语音唤醒功能；

在所述声纹信息与预设类型的声纹信息匹配的情况下，启动语音唤醒功能。

3.根据权利要求1所述的方法，其特征在于，所述在目标声音信号大于第一预设阈值的情况下，还包括：

获取所述目标声音信号的音素信息；

在所述音素信息与预设的音素信息匹配的情况下，启动语音唤醒功能。

4.根据权利要求3所述的方法，其特征在于，所述在所述音素信息与预设的音素信息匹配的情况下，启动语音唤醒功能，包括：

获取预设的精准程度；

在所述音素信息与预设语音内容中的前N个音素匹配的情况下，启动语音唤醒功能；N为正整数，N的取值正比于所述预设的精准程度。

5.根据权利要求1所述的方法，其特征在于，所述在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息之前，还包括：

在环境声音信号大于第二预设阈值的情况下，更新所述第一预设阈值至第三预设阈值；所述第三预设阈值大于所述第一预设阈值。

6.一种语音处理装置，其特征在于，所述装置包括：

第一获取模块，用于在目标声音信号大于第一预设阈值的情况下，获取所述目标声音信号的声纹信息；

第一启动模块，用于在所述声纹信息与预设的声纹信息匹配的情况下，启动语音唤醒功能。

7.根据权利要求6所述的装置，其特征在于，所述第一启动模块，包括以下任一项：

第一匹配单元，用于在所述声纹信息与预设用户的声纹信息匹配的情况下，启动语音唤醒功能；

第二匹配单元，用于在所述声纹信息与预设类型的声纹信息匹配的情况下，启动语音唤醒功能。

8.根据权利要求6所述的装置，其特征在于，所述装置，还包括：

第二获取模块，用于获取所述目标声音信号的音素信息；

第二启动模块，用于在所述音素信息与预设的音素信息匹配的情况下，启动语音唤醒功能。

9.根据权利要求8所述的装置，其特征在于，所述第二启动模块，包括：

第三获取单元，用于获取预设的精准程度；

第三匹配单元，用于在所述音素信息与预设语音内容中的前N个音素匹配的情况下，启动语音唤醒功能；N为正整数，N的取值正比于所述预设的精准程度。

10.根据权利要求6所述的装置，其特征在于，所述装置，还包括：

更新模块，用于在环境声音信号大于第二预设阈值的情况下，更新所述第一预设阈值至第三预设阈值；所述第三预设阈值大于所述第一预设阈值。