CN116229962A

CN116229962A - 终端设备及语音唤醒方法

Info

Publication number: CN116229962A
Application number: CN202211611894.9A
Authority: CN
Inventors: 杨香斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-06-06

Abstract

本申请提供一种终端设备及语音唤醒方法，所述终端设备包括声音采集器、第一处理器和第二处理器，第一处理器可以响应于用户输入的唤醒语音，对唤醒语音进行特征提取，提取唤醒语音的语音特征值，并向第二处理器发送语音特征值，其中，语音特征值为包含唤醒词的频谱特征，频谱特征由唤醒语音经过语音信号处理得到，第二处理器可以响应于第一处理器发送的语音特征值，对语音特征值进行校验，以及在校验成功时，控制终端设备开启语音交互功能。所述方法可以将在唤醒语音中提取的语音特征值进行缓存，在唤醒词二次校验时，直接传输语音特征值进行二次校验，以降低占用的存储空间，提高唤醒响应速度。

Description

终端设备及语音唤醒方法

技术领域

本申请涉及语音交互技术领域，尤其涉及一种终端设备及语音唤醒方法。

背景技术

终端设备是指具有声音采集功能的电子设备，可以是智能电视、手机、智能音箱、电脑、机器人等电子设备。为了满足用户多样化和个性化需求，终端设备拥有语音识别技术，用户可以与终端设备进行语音交互。例如，在智能电视处于待机状态时，用户可利用语音识别技术唤醒智能电视，即通过远场语音指令唤醒智能电视，使智能电视从待机状态进入开机状态。

通常智能电视的唤醒过程为采集用户语音，对用户语音进行唤醒词识别，为了降低功耗，唤醒词识别通常是利用低功耗的小模型简单网络进行唤醒计算，当判断出有唤醒词时，向前回滚固定时间，保存对应的音频，将音频传输至大模型复杂网络进行唤醒计算，即二次校验是否是真的唤醒，如果是，则进入正常的唤醒、识别、语义理解及用户命令响应流程。

然而，为了降低功耗及成本，语音唤醒时能独立保存音频的空间较少，目前远场语音进行音频缓存的内存空间只有80K-100K，以采样率为16000bit/s，采样精度为16bit来计算，最多只能缓存2.5-3.2s的音频，按照用户说话的平均语速2个字/秒来计算，仅能满足五个字以内的唤醒词。而针对语速较慢，或者超过5个字以上的唤醒词，则会唤醒失败。并且在低功耗的小模型简单网络中识别出唤醒词后，回滚并进行音频保存，传输至大模型复杂网络进行二次校验时，音频的传输效率较慢，且会再进行一次信号处理及特征提取，导致唤醒的响应时间较长，降低用户体验。

发明内容

本申请提供了一种终端设备及语音唤醒方法，以解决语音唤醒时缓存音频空间少、唤醒响应时间长的问题。

第一方面，本申请提供一种终端设备，包括：声音采集器、第一处理器和第二处理器；其中，所述声音采集器用于采集唤醒语音；所述第一处理器被配置为执行以下程序步骤：

响应于用户输入的唤醒语音，从所述唤醒语音中提取语音特征值，以及向第二处理器发送所述语音特征值，所述语音特征值为包含唤醒词的频谱特征，所述频谱特征由所述唤醒语音经过语音信号处理得到；

所述第二处理器被配置为执行以下程序步骤：

响应于所述第一处理器发送的所述语音特征值，校验所述语音特征值，以及在校验成功时，控制所述终端设备开启语音交互功能。

第二方面，本申请还提供一种语音唤醒方法，应用于终端设备，所述终端设备包括声音采集器、第一处理器和第二处理器；所述声音采集器用于采集唤醒语音；所述语音唤醒方法包括：

所述第一处理器响应于用户输入的唤醒语音，从所述唤醒语音中提取语音特征值，以及向第二处理器发送所述语音特征值，所述语音特征值为包含唤醒词的频谱特征，所述频谱特征由所述唤醒语音经过语音信号处理得到；

所述第二处理器响应于所述第一处理器发送的所述语音特征值，校验所述语音特征值，以及在校验成功时，控制所述终端设备开启语音交互功能。

由以上技术方案可知，本申请提供的提供一种终端设备及语音唤醒方法，所述终端设备包括声音采集器、第一处理器和第二处理器，第一处理器可以响应于用户输入的唤醒语音，对唤醒语音进行特征提取，提取唤醒语音的语音特征值，并向第二处理器发送语音特征值，其中，语音特征值为包含唤醒词的频谱特征，频谱特征由唤醒语音经过语音信号处理得到，第二处理器可以响应于第一处理器发送的语音特征值，对语音特征值进行校验，以及在校验成功时，控制终端设备开启语音交互功能。所述方法可以将在唤醒语音中提取的语音特征值进行缓存，在唤醒词二次校验时，直接传输语音特征值进行二次校验，以降低占用的存储空间，提高唤醒响应速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中语音识别方法和语音识别装置的***架构的示意图；

图2为本申请实施例中终端设备的硬件配置框图；

图3为本申请实施例中终端设备的配置示意图；

图4为本申请实施例中一种语音交互网络架构示意图；

图5为本申请实施例中语音唤醒方法的流程示意图；

图6为本申请实施例中语音信号处理的流程示意图；

图7为本申请实施例中唤醒词识别的流程示意图；

图8为本申请实施例中检测唤醒状态的流程示意图；

图9为本申请实施例中二次校验时第一处理器与第二处理器的交互图；

图10为本申请实施例中校验语音特征值的流程示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1示出了可以应用本申请的语音识别方法和语音识别装置的示例性***架构。如图1所示，其中，10为服务器，200为终端设备，示例性包括(智能电视200a，移动设备200b，智能音箱200c)。

本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备20提供各种内容和互动。示例性的，终端设备200与服务器10可以通过发送和接收信息，以及接收软件程序更新。

服务器10可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于语音识别的方法可以通过服务器10执行，也可以通过终端设备200执行，还可以通过服务器10和终端设备200共同执行，本申请对此不做限定。

图2示出了根据示例性实施例中终端设备200的硬件配置框图。如图2所示终端设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。终端设备200可以通过通信器220建立控制信号和数据信号的发送和接收。

用户接口，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。终端设备200可以设置至少一个麦克风。在另一些实施例中，终端设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在终端设备200上，或者麦克风通过有线或者无线的方式与终端设备200相连接。当然，本申请实施例对麦克风在终端设备200上的位置不作限定。或者，终端设备200可以不包括麦克风，即上述麦克风并未设置于终端设备200中。终端设备200可以通过接口(如USB接口)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在终端设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制终端设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random Access Memory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些实施例中，终端设备200的操作***，以Android***为例，如图3所示，终端设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层23可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为***应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现终端设备200与服务器10的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些实施例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，终端设备200中的语音识别应用启动，终端设备200与服务器10建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器10中的意图识别模块202。意图识别模块202用于将终端设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。

参见图4，图4为本申请实施例提供的一种语音交互网络架构示意图。图4中，终端设备200用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示终端设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图4所示架构处理输入终端设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，智能设备可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由终端设备来完成，在此不做赘述。

基于上述终端设备200，用户可以与终端设备200进行语音交互。终端设备200可以对用户输入的语音进行语音识别，其中语音唤醒，即关键词检测，是语音识别任务的一个分支，终端设备200可以对用户输入的语音进行关键词检测，从一串语音流里检测出有限个预先定义的激活词或者关键词，而不需要对所有的语音进行识别。唤醒词可以预先设定，通常中文唤醒词是四字，音节覆盖越多，音节差异越大，相对唤醒和误唤醒性能越好。例如，为了降低功耗，终端设备200可以设置低功耗模式，即终端设备200处于待机状态。在终端设备200处于待机状态时，用户可以通过预先设定的唤醒词，例如“小A小A”，唤醒终端设备200的语音交互功能，使终端设备200从待机状态进入开机状态。

在一些实施例中，语音唤醒的基本原理是基于关键词定位(Key word spotting)技术，即唤醒词识别技术，其核心部分主要包括两大部分：唤醒模型和解码算法。唤醒模型在使用之前需要进行训练，通过收集大量的预先定义唤醒词的发音数据，将收集到的数据输入算法模型进行训练，从而生成了一个类似于压缩包的模型。在需要语音唤醒时，通过该唤醒模型进行唤醒计算。

唤醒模型可以理解为是对声音的建模，能够把语音输入转换成声学表示的输出，准确的说，是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出唤醒模型参数。在识别时可以将待识别的语音的特征参数与唤醒模型进行匹配，得到识别结果。

在一些实施例中，可以通过不同的训练方式，对唤醒模型进行压缩，在识别时，可以通过调用预先设置的模型路径(setting)获取所需要的唤醒模型，同时通过模型通道将唤醒模型传送给识别通道，并给出相应的唤醒阈值(threshold)。也就是说，通过模型路径(setting)，唤醒模型(model)以及唤醒阈值(threshold)与识别模块一一对应，通过识别模块得到识别结果，即识别出唤醒词的概率。例如识别出唤醒词的概率为0.85，唤醒阈值(threshold)为0.8，则认为唤醒识别成功。

在一些实施例中，终端设备200是基于控制器250进行唤醒词识别。控制器250包括第一处理器400和第二处理器500。第一处理器400利用低功耗的小模型简单网络进行唤醒计算，当判断出有唤醒词时，向前回滚固定时间，保存对应的音频，将音频传输至第二处理器500，第二处理器500利用大模型复杂网络进行唤醒计算，即二次校验是否是真的唤醒，如果是，则进入正常的唤醒、识别、语义理解及用户命令响应流程。

由于处理器的计算能力和功耗是强相关的，第一处理器400用于识别唤醒词，因而计算能力要求较低，功耗也较低。第二处理器500需要利用较大的唤醒模型对语音数据进行唤醒确认，因而计算能力要求较高，功耗也较高。例如，第一处理器400可以为DSP(DigitalSignal Processing，数字信号处理技术)芯片，第二处理器500可以为SOC芯片(System ona Chip，***级芯片)。本申请实施例中的，第一处理器400可以是集成在第二处理器500上，也可以与第二处理器500为分离状态，本申请实施例不做限定。

然而，为了降低功耗及成本，DSP芯片能独立保存音频的空间较少，例如，MTK848、MT9652等型号的芯片，目前远场语音进行音频缓存的内存空间只有80K-100K，以采样率为16000bit/s，采样精度为16bit来计算，最多只能缓存2.5-3.2s的音频，按照用户说话的平均语速2个字/秒来计算，仅能满足五个字以内的唤醒词。而针对语速较慢，或者超过5个字以上的唤醒词，则会唤醒失败。并且在DSP芯片中识别出唤醒词后，回滚并进行音频保存，传输至SOC芯片进行二次校验时，音频的传输效率较慢，且会再进行一次信号处理及特征提取，导致唤醒的响应时间较长，降低用户体验。

为了降低占用的存储空间、提高唤醒响应速度，本申请的部分实施例中还提供一种语音唤醒方法，应用于终端设备200。其中，能够应用所述语音唤醒方法的终端设备200包括：声音采集器300、第一处理器400和第二处理器500。所述声音采集器300用于采集唤醒语音。所述第一处理器400和所述第二处理器500则被配置为执行上述语音唤醒方法，图5为本申请实施例中语音唤醒方法的流程示意图，如图5所示，第一处理器400被配置为执行如下步骤：

S100，响应于用户输入的唤醒语音，从所述唤醒语音中提取语音特征值。

其中，所述语音特征值为包含唤醒词的频谱特征，所述频谱特征由所述唤醒语音经过语音信号处理得到。终端设备200可以通过声音采集器300接收用户输入的唤醒语音，并将唤醒语音输入至第一处理器400。第一处理器400接收到用户输入的唤醒语音，对所述唤醒语音进行语音信号处理和特征提取，得到唤醒语音的频谱特征，再对频谱特征进行唤醒词识别，判断频谱特征中是否包含唤醒词，进而得到语音特征值。

声音采集器300在采集用户输入的唤醒语音时，可以采用流式收音，即将唤醒语音的音频流分段发送至第一处理器400，例如，声音采集器300每采集到20ms的音频，就将20ms的音频发送至第一处理器400进行语音信号处理，实现收音和语音信号处理同时进行，提高语音信号处理效率。

对唤醒语音进行语音信号处理，即对唤醒语音对应的语音信号进行分析，提取出可表示该唤醒语音本质的特征参数，作为唤醒词识别的基础。因此，第一处理器400接收到用户输入的唤醒语音，对唤醒语音进行语音信号处理，提取表征唤醒语音本质的特征参数，即频谱特征，例如，梅尔频率倒谱系数(MFCC)、基于滤波器组的特征Fbank(Filter bank)等。

图6为本申请实施例中语音信号处理的流程示意图，第一处理器400对唤醒语音进行语音信号处理时，如图6所示，被配置为执行如下步骤：

对唤醒语音进行预处理，将唤醒语音对应的语音信号拆分成多个帧音频数据段。

其中，预处理包括预加重处理、分帧处理和加窗处理。首先对语音信号进行预加重处理，所述预加重处理用于放大所述语音信号的高频段，削弱低频干扰的影响，平衡频谱。具体的，可以通过一个高通滤波器进行预加重处理。例如，高通滤波器可以为y(t)＝x(t)-ax(t-1)，将语音信号输入该高通滤波器进行预加重处理，其中a为滤波器系数，可以为0.97，x为输入的语音信号，y是经过预加重后的语音信号。

在预加重处理之后，将语音信号进行分帧处理，按照所述语音信号的形成时序将所述语音信号拆分成依次排布的多个帧音频数据段，其中，相邻两个所述帧音频数据段包含重叠区域。

例如，可以将语音信号拆分成多个20-40ms的帧音频数据段。以25ms的帧音频数据段为例，16kHz帧音频数据段的帧长度为0.025×16000＝400个采样点。帧移通常为10ms，也就是0.01×16000＝160个采样点，为了避免相邻两帧音频数据段的变化过大，因此，相邻两帧音频数据段之间存在一段重叠区域。重叠区域可以为每帧音频数据段的1/2、1/3等，例如，重叠区域设置为15ms，则重叠区域包含0.015×16000＝240个采样点。

由于语音信号在长范围内是不停变动的，为了消除每个帧音频数据段两端的信号不连续性，减少频谱泄漏。将语音信号进行分帧处理后，对所述帧音频数据段进行加窗处理，即将每个帧音频数据段乘以一个窗函数，例如汉明窗(Hamming)、汉宁窗(Hanning)等，所述加窗处理用于增加多个所述帧音频数据段之间的连续性，增加帧左端和右端的连续性。

由于语音信号在时域上的变换通常很难看出信号的特性，需要将语音信号由时域转换为频域上的能量分布进行分析，不同的能量分布，可以代表不同语音的特性。因此在预处理后，需要对帧音频数据段进行时频转换，计算所述帧音频数据段的功率谱，其中，所述功率谱为所述帧音频数据段由时域转换成频域对应的谱线能量。具体的，通过如下公式计算帧音频数据段的功率谱：

其中，xi为语音信号分帧处理后的第i帧音频数据段，对加窗处理后的帧音频数据段进行N点的快速傅里叶变换(FFT)得到各帧音频数据段的频谱，并对帧音频数据段的频谱取模平方，得到语音信号的功率谱。

为了模拟人耳对不同频率语音的感知特性，获取到语音信号的功率谱后，需要采用滤波器组对线性频谱进行转换。即将所述功率谱输入预设滤波器，得到频谱图。具体的，将功率谱输入一组梅尔刻度(Mel scale)的三角滤波器(tnangular filters)提取频带(frequency bands)，即将功率谱分别跟每一个滤波器进行频率相乘累加，得到该帧音频数据段在该滤波器对应频段的能量值。其中，三角滤波器的数量可以为20-40个，如果三角滤波器的个数为22，通过三角滤波器组会得到22个能量值。获取到频谱图后，可以根据所述频谱图，获取频谱特征。

获取频谱特征时，对所述频谱图执行对数运算，即滤波器输出的对数能量，得到对数谱域，再对所述对数谱域执行离散余弦变换，即将对数能量进行离散余弦变换，得到频谱特征。

可以理解的是，上述为示例性的一种语音信号处理方法，不同的频谱特征对应的语音信号处理方法不同，频谱特征可以为梅尔频率倒谱系数(MFCC)或基于滤波器组的特征Fbank(Filter bank)，对于梅尔频率倒谱系数(MFCC)，需要进行预处理、时频转换、滤波器、对数运算、离散余弦变换等步骤；对于基于滤波器组的特征Fbank在执行对数运算后，即可生成一组特征。

获取到唤醒语音的频谱特征后，需要对频谱特征进行唤醒词识别，检测识别频谱特征中是否包括唤醒词，如果频谱特征中包括唤醒词，则确定唤醒词识别成功，如果频谱特征中不包括唤醒词，则确定唤醒词识别失败。图7为本申请实施例中唤醒词识别的流程示意图，如图7所示，第一处理器400还被配置为执行如下步骤：

获取所述唤醒语音的频谱特征，以及缓存所述频谱特征。

检测唤醒状态。其中，所述唤醒状态为对所述频谱特征进行唤醒词识别后的识别结果；所述唤醒状态包括唤醒词识别成功或唤醒词识别失败。

如图8所示，图8为本申请实施例中检测唤醒状态的流程示意图，第一处理器400可以内置有第一唤醒模型，在进行唤醒词识别时，将所述频谱特征输入第一唤醒模型，通过所述第一唤醒模型对所述频谱特征进行唤醒词计算，判断所述频谱特征中是否包含唤醒词，以得到所述第一唤醒模型输出的所述频谱特征的唤醒值，所述唤醒值用于表征识别唤醒词的概率。

如果所述唤醒值大于或等于唤醒阈值，确定所述唤醒状态为唤醒词识别成功。如果所述唤醒值小于所述唤醒阈值，确定所述唤醒状态为唤醒词识别失败。

示例性的，唤醒阈值为0.8，如果第一处理器400内置的第一唤醒模型对所述频谱特征进行唤醒词计算后，确定所述频谱特征中包含唤醒词，唤醒值为0.85，则确定唤醒状态为唤醒词识别成功，如果唤醒值为0.7，则确定唤醒状态为唤醒词识别失败。

获取到唤醒状态后，如果所述唤醒状态为唤醒词识别成功，回滚定位包含唤醒词的频谱特征，以得到语音特征值。如果所述唤醒状态为唤醒词识别失败，过滤所述频谱特征。

本实施例中，第一处理器400接收用户输入的唤醒语音，对唤醒语音进行语音信号处理得到频谱特征，缓存频谱特征以及通过第一唤醒模型对频谱特征进行唤醒词计算，如果计算得到的唤醒值大于或等于唤醒阈值，确定唤醒词识别成功，即频谱特征包含唤醒词，回滚定位包含唤醒词的频谱特征，以获取语音特征值，如果计算得到的唤醒值小于唤醒阈值，确定唤醒词识别失败，即频谱特征不包含唤醒词，过滤频谱特征。

可以理解的是，唤醒语音经过语音信号处理及特征提取后，由存储唤醒音频转换成存储特征值，会降低整体数据的缓存空间，例如采用16k、16bit的采样格式进行语音录制，每秒大约需要16000×16/2＝32Kbyte的存储空间，按照正常语速录制4个字的唤醒词，需要2S，同时对慢语速进行冗余，大致需要3S，即96Kbyte，再加上数据包等其他内容，每次传输约100K的存储空间；而采用存储特征值的方法，例如特征值为40维的梅尔频率倒谱系数(MFCC)，1S的音频按照100帧计算，每帧数据为2byte，则只需要100×40×2×3＝24k，较原始音频的100k减少3/4的存储空间，进而使得第一处理器400，例如MT9652芯片，可以支持10S的存储空间，可以支持较长唤醒词的识别，例如“海信小聚请开机”。

S200，向第二处理器500发送所述语音特征值。

为了降低功耗及成本，如图9所示，图9为本申请实施例中二次校验时第一处理器与第二处理器的交互图，第一次唤醒词识别由第一处理器400内置的第一唤醒模型来执行，第一唤醒模型为基于小模型及简单网络的唤醒模型。在经过第一次唤醒词识别后，如果第一唤醒模型对频谱特征进行唤醒词识别计算的唤醒值超过唤醒阈值，即检测出唤醒语音存在唤醒词，向前回滚固定时间，保存对应的语音特征值，将语音特征值发送至第二处理器500进行第二次唤醒词识别，即校验是否存在唤醒词，第二次唤醒词识别由第二处理器500内置的第二唤醒模型来执行，第二唤醒模型为基于大模型及复杂网络的唤醒模型。在经过第二次唤醒词识别后，如果校验成功，则控制终端设备200开启语音交互功能，即进入正常的唤醒、识别、语义理解及用户命令响应流程，如果校验失败，则控制终端设备200不开启语音交互功能。

可以理解的是，在第一处理器400对频谱特征进行唤醒词识别，在识别出唤醒词后，回滚并完成语音特征值的保存，并将语音特征值发送至第二处理器500进行校验。音频的传输时间决定整个唤醒的响应时间，由传输唤醒音频更换为传输语音特征值，相较于音频的传输格式，语音特征值可以降低传输时间，例如如果音频需要500-1500ms的传输时间，语音特征值可能仅需要125-250ms的时间，并且在第二处理器500进行第二次唤醒词识别计算时，不需要在进行语音信号处理及特征提取，可直接对从第一处理器400获取到的语音特征值进行唤醒词识别计算，降低唤醒响应时间。

第二处理器500被配置为执行如下步骤：

S300，响应于所述第一处理器400发送的所述语音特征值，校验所述语音特征值。

本实施例中，第一处理器400对用户输入的唤醒语音进行语音信号处理和特征提取后，对提取到的频谱特征进行唤醒词识别，在唤醒词识别成功时，回滚定位语音特征值，并将语音特征值发送给第二处理器500进行二次唤醒校验。如图10所示，图10为本申请实施例中校验语音特征值的流程示意图，第二处理器500获取到第一处理器400发送的语音特征值，将所述语音特征值输入第二唤醒模型，以得到所述第二唤醒模型输出的所述语音特征值的校验结果，所述校验结果包括校验成功和校验失败。

S400，在校验成功时，控制所述终端设备开启语音交互功能。

在获取到所述语音特征值的校验结果后，根据校验结果控制终端设备200执行后续操作，如果所述校验结果为校验成功，控制终端设备200开启语音交互功能；如果所述校验结果为校验失败，控制终端设备200的语音交互功能保持关闭。

可以理解的是，第二次唤醒词识别的方法和第一次唤醒词识别的的方法不同，其不同在于，第二次唤醒词识别会基于大模型及复杂网络的唤醒模型进行二次确认，采用更多层的网络架构，更精确的分类，从而实现更低的误唤醒率。也就是说，第一处理器400采用计算能力较低的简单唤醒模型进行唤醒词识别计算，第二处理器500采用计算能力较高、且精度较高的复杂唤醒模型进行唤醒确认。

示例性的，唤醒词为“小A请开机”，第一处理器400响应于用户输入的唤醒语音，对唤醒语音进行语音信号处理和特征提取，得到唤醒语音的频谱特征，将频谱特征输入第一唤醒模型，通过第一唤醒模型进行唤醒词识别，如果第一唤醒模型计算出来的唤醒值超过第一唤醒阈值(第一唤醒模型的唤醒阈值)，则确定唤醒词识别成功，即认为用户输入的唤醒语音中可能包含“小A请开机”这句唤醒词，可以对特征进行回滚，定位包含唤醒词的语音特征值，将所述语音特征值发送至第二处理器500进行二次唤醒校验，第二处理器500接收到所述语音特征值，将所述语音特征值输入第二唤醒模型，通过第二唤醒模型进行唤醒词识别，如果第二唤醒模型计算出来的唤醒值超过第二唤醒阈值(第二唤醒模型的唤醒阈值)，则确定校验成功，即认为用户输入的唤醒语音中包含“小A请开机”这句唤醒词，控制终端设备200开机。

需要说明的是，在本实施例中，二次唤醒校验的目的是对语音输入信号进行较为精确的识别，避免误唤醒的发生。因此，在实际应用中，第二唤醒阈值应大于或等于第一唤醒阈值，例如第一唤醒阈值为0.7，第二唤醒阈值为0.9。

在一些实施例中，在第一处理器400未检测到唤醒语音中存在唤醒词时，第二处理器500处于低功耗工作状态或者休眠状态，当第一处理器400在唤醒语音中检测到唤醒词时，可以向第二处理器500发送开机指令，触发第二处理器500从低功耗工作状态或者休眠状态进入开机状态。当第一处理器400在唤醒语音中未检测到唤醒词时，不触发第二处理器500从低功耗工作状态或者休眠状态进入开机状态。

因此，第一处理器400基于第一唤醒模型进行唤醒词识别后，如果唤醒词识别成功，向第二处理器500发送开启指令。第二处理器500响应于第一处理器400发送的开启指令，进入开机状态，以及在开机结束后向第一处理器400反馈开启回执信号。第一处理器400响应于第二处理器500反馈的开启回执信号，向第二处理器500发送语音特征值。

如图9所示，终端设备200的最初状态是第二处理器500处于休眠状态。低功耗的第一处理器400可以是保持开启状态。第一处理器400在接收到用户输入的唤醒语音后，对唤醒语音进行唤醒词识别，判断唤醒语音中是否包含唤醒词。如果该唤醒语音中包含唤醒词，回滚定位语音特征值的同时向第二处理器500发送开机指令，第二处理器500接收所述开机指令，由休眠状态进入开机状态，同时在开机成功后向第一处理器400反馈开启回执信号，用于通知第一处理器400当前第二处理器500已开机，第一处理器400接收到第二处理器500反馈的开启回执信号，向第二处理器500发送语音特征值，第二处理器500接收到语音特征值进行二次唤醒校验。

在一些实施例中，如果第一处理器400基于第一唤醒模型进行唤醒词识别时，唤醒识别失败，即唤醒语音中不包含唤醒词，不需要进行二次唤醒校验，则保持第二处理器500处于休眠状态。

示例性的，第一处理器400接收到用户输入的唤醒语音，判断出唤醒语音中包含唤醒词，则向第二处理器500发送开机指令，使得第二处理器500从休眠状态进入开启状态。判断出唤醒语音中不包含唤醒词，则不向第二处理器500发送开机指令，保持第二处理器500处于休眠状态。

本实施例中，在第一处理器400端对唤醒语音进行语音信号处理和特征提取后，直接保存特征值，取代保存的音频数据，然后通过计算能力较低的第一唤醒模型对唤醒语音进行初步的唤醒词识别，当唤醒词识别成功时，直接将唤醒语音的语音特征值发送至第二处理器500，通过计算能力较高的第二唤醒模型对语音特征值进行第二次唤醒词识别，从而根据第二次唤醒词识别的结果，确定是否开启语音交互功能。由于在第一次唤醒词识别过程中，采用的是计算能力较低的第一唤醒模型，因此，第一次唤醒词识别过程中的功耗较低。而只有当第一次唤醒词识别通过，才启用计算能力较高的第二唤醒模型进行第二次唤醒词识别。通过两个模型的结合，避免计算能力较低的第一唤醒模型单独使用时，唤醒识别准确率较低，误唤醒率较高的问题，同时也能避免计算能力较高的第二唤醒模型单独使用时，功耗较高的问题，进而达到兼顾功耗和低误唤醒率的目的。

基于上述终端设备200，在本申请的部分实施例中还提供一种语音唤醒方法。包括以下步骤：

第一处理器400响应于用户输入的唤醒语音，从所述唤醒语音中提取语音特征值，以及向第二处理器发送所述语音特征值。

其中，所述语音特征值为包含唤醒词的频谱特征，所述频谱特征由所述唤醒语音经过语音信号处理得到。

第二处理器500响应于所述第一处理器发送的所述语音特征值，校验所述语音特征值，以及在校验成功时，控制所述终端设备开启语音交互功能。

由以上技术方案可知，上述实施例提供的终端设备及语音唤醒方法，所述终端设备包括声音采集器、第一处理器和第二处理器，第一处理器可以响应于用户输入的唤醒语音，对唤醒语音进行特征提取，提取唤醒语音的语音特征值，并向第二处理器发送语音特征值，其中，语音特征值为包含唤醒词的频谱特征，频谱特征由唤醒语音经过语音信号处理得到，第二处理器可以响应于第一处理器发送的语音特征值，对语音特征值进行校验，以及在校验成功时，控制终端设备开启语音交互功能。所述方法可以将在唤醒语音中提取的语音特征值进行缓存，在唤醒词二次校验时，直接传输语音特征值进行二次校验，以降低占用的存储空间，提高唤醒响应速度。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种终端设备，其特征在于，包括：

声音采集器，用于采集唤醒语音；

第一处理器，被配置为：

第二处理器，被配置为：

2.根据权利要求1所述的终端设备，其特征在于，所述第一处理器执行从所述唤醒语音中提取语音特征值的步骤之后，还被配置为：

向所述第二处理器发送开启指令，以及响应于所述第二处理器反馈的开启回执信号，向所述第二处理器发送所述语音特征值；

所述第二处理器，还被配置为：

响应于所述第一处理器发送的开启指令，进入开机状态，以及在开机结束后向所述第一处理器反馈开启回执信号。

3.根据权利要求1所述的终端设备，其特征在于，所述第一处理器还被配置为：

获取所述唤醒语音的频谱特征，以及缓存所述频谱特征；

检测唤醒状态，所述唤醒状态为对所述频谱特征进行唤醒词识别后的识别结果；所述唤醒状态包括唤醒词识别成功或唤醒词识别失败；

如果所述唤醒状态为唤醒词识别成功，回滚定位包含唤醒词的频谱特征，以得到语音特征值；

如果所述唤醒状态为唤醒词识别失败，过滤所述频谱特征。

4.根据权利要求3所述的终端设备，其特征在于，所述第一处理器执行对所述频谱特征进行唤醒词识别，还被配置为：

将所述频谱特征输入第一唤醒模型，以得到所述第一唤醒模型输出的所述频谱特征的唤醒值，所述唤醒值用于表征识别唤醒词的概率；

如果所述唤醒值大于或等于唤醒阈值，确定所述唤醒状态为唤醒词识别成功；

如果所述唤醒值小于所述唤醒阈值，确定所述唤醒状态为唤醒词识别失败。

5.根据权利要求1所述的终端设备，其特征在于，所述第一处理器还被配置为：

获取所述唤醒语音的语音信号；

将所述语音信号拆分成多个帧音频数据段；

计算所述帧音频数据段的功率谱，所述功率谱为所述帧音频数据段由时域转换成频域对应的谱线能量；

将所述功率谱输入预设滤波器，得到频谱图；

根据所述频谱图，获取频谱特征。

6.根据权利要求5所述的终端设备，其特征在于，所述第一处理器执行根据所述频谱图，获取频谱特征，还被配置为：

对所述频谱图执行对数运算，得到对数谱域；

对所述对数谱域执行离散余弦变换，得到频谱特征。

7.根据权利要求5所述的终端设备，其特征在于，所述第一处理器执行将所述语音信号拆分成多个帧音频数据段的步骤，还被配置为：

对所述语音信号进行预加重处理，所述预加重处理用于放大所述语音信号的高频段；

按照所述语音信号的形成时序将所述语音信号拆分成依次排布的多个帧音频数据段，其中，相邻两个所述帧音频数据段包含重叠区域；

对所述帧音频数据段进行加窗处理，所述加窗处理用于增加多个所述帧音频数据段之间的连续性。

8.根据权利要求1所述的终端设备，其特征在于，所述第二处理器执行校验所述语音特征值，还被配置为：

获取所述语音特征值；

将所述语音特征值输入第二唤醒模型，以得到所述第二唤醒模型输出的所述语音特征值的校验结果，所述校验结果包括校验成功和校验失败。

9.根据权利要求1所述的终端设备，其特征在于，所述第二处理器还被配置为：

获取所述语音特征值的校验结果；

如果所述校验结果为校验成功，控制所述终端设备开启语音交互功能；

如果所述校验结果为校验失败，控制所述终端设备的语音交互功能保持关闭。

10.一种语音唤醒方法，其特征在于，应用于终端设备，所述终端设备包括声音采集器、第一处理器和第二处理器；所述声音采集器用于采集唤醒语音；所述语音唤醒方法包括：