CN108735209B

CN108735209B - 唤醒词绑定方法、智能设备及存储介质

Info

Publication number: CN108735209B
Application number: CN201810407844.6A
Authority: CN
Inventors: 何瑞澄
Original assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-01-08
Anticipated expiration: 2038-04-28
Also published as: CN108735209A

Abstract

本发明公开了一种唤醒词绑定方法，包括：步骤S1、采集用户发出的语音信号；步骤S2、提取所述语音信号中的唤醒词信息和用户信息；步骤S3、将所述用户信息和所述唤醒词信息与所述用户绑定。本发明还提出一种智能设备及存储介质。本发明无需录制大量语音，减少操作，方便使用，提高智能化程度。

Description

唤醒词绑定方法、智能设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种唤醒词绑定方法、智能设备及存储介质。

背景技术

语音识别技术，就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，也就是让机器听懂人类的语音。也被称为自动语音识别(Automatic SpeechRecognition，ASR)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或字符序列。语音识别技术近年来已经进入家电、通信、电子产品、家庭服务等领域，以提供家电或电子产品的近场或远场控制，而唤醒词绑定技术为用户家电或电子产品的近场或远场控制提供了前提。

唤醒词绑定的主流技术是技术软件唤醒，但软件运行以***启动为前提，为保证能随时随地接收用户的语音指令，语音识别引擎需要一直后台运行和监听，***无法进入休眠待机的节电状态，耗电量较大。为减少***功耗，目前已经出现语音低功耗唤醒技术，通过录制大量的语音数据训练成固定的唤醒词，以在用户的语音指令中识别出所述唤醒词时唤醒***。

但本发明发明人发现上述技术至少存在如下技术问题：

自定义唤醒词需要定义非常录制非常多的语音数据，操作繁琐，使用不方便，智能化程度差。

发明内容

本发明实施例通过提供一种唤醒词绑定方法，解决了现有自定义唤醒词需要定义非常录制非常多的语音数据，操作繁琐，使用不方便，智能化程度差的技术问题。

本发明实施例提供了的唤醒词绑定方法，包括以下步骤：

步骤S1、采集用户发出的语音信号；

步骤S2、提取所述语音信号中的唤醒词信息和用户信息；

步骤S3、将所述用户信息和所述唤醒词信息与所述用户绑定。

可选地，所述步骤S3包括：

步骤S31、获取所述用户注册至语音识别***的唤醒词模型，将所述用户信息和所述唤醒词与所述唤醒词模型绑定。

可选地，在所述用户信息为声纹信息，所述步骤S31包括：

步骤S311、多次采集用户输入的唤醒词语音信号；

步骤S312、获取每次输入的唤醒词语音信号中的节奏感特征、音调特征和音素特征；

步骤S313、对每次获取的所述节奏感特征和音调特征进行声学特征处理，将经过声学特征处理的节奏感特征信息和音调特征信息注册为所述用户的声纹数据；

步骤S314、基于预设的声学模型对每次获取的音素特征进行排序组合，得到所述唤醒词模型；

步骤S315、将所述声纹数据和唤醒词与所述唤醒词模型关联保存。

可选地，所述步骤S2包括：

步骤S21、当接收到语音信号时，判断所述语音信号的音量值是否大于预设音量值；

步骤S22、若是，则基于声学模型和语法结构获取所述语音信号中的唤醒词信息，基于声纹识别技术获取所述语音信号中的声纹信息。

可选地，所述步骤S3之后，还包括：

步骤S4、接收唤醒语音信号，提取所述唤醒语音信号中的唤醒词；

步骤S5、在所述唤醒词与语音识别***中的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作。

可选地，所述步骤S4之后，还包括：

步骤S6、调整语音识别***中的预设唤醒词的识别阈值；

步骤S7、在所述唤醒词与调整后的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作。

可选地，所述用户信息为声纹信息，所述步骤S6包括：

步骤S61、提取所述唤醒词语音信号中的声纹信息；

步骤S62、当语音识别***内不存在与所述声纹信息匹配的声纹数据时，调高语音识别***的唤醒词识别阈值；

步骤S63、当语音识别***内存在与所述声纹信息匹配的声纹数据时，调低语音识别***的唤醒词识别阈值。

可选地，所述步骤S61之后，还包括：

步骤S64、根据预设声纹模型计算所述声纹信息与注册在语音识别***的声纹数据的相似度；

步骤S65、当所述相似度在预设范围内时，判定语音识别***内存在与所述声纹信息匹配的声纹数据；

步骤S66、当所述相似度在预设范围之外时，判定语音识别***内不存在与所述声纹信息匹配的声纹数据。

本发明还提出一种存储介质，该存储介质存储有唤醒词绑定程序，所述唤醒词绑定程序被处理器执行时实现如上所述的唤醒词绑定的步骤。

本发明通过获取接收到的语音信号中的唤醒词信息，将所述唤醒词与所述用户进行绑定，而不是盲目的录制大量语音，而是录制唤醒词之后，将唤醒词与用户信息绑定，在后续识别过程中，可以直接对应用户和唤醒词来识别，提高识别准确率，而无需录制大量语音，减少操作，方便使用，提高智能化程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的智能设备涉及的硬件运行环境的结构示意图；

图2为本发明的唤醒词绑定方法第一实施例的流程示意图；

图3为本发明一实施例中获取所述用户注册至语音识别***的唤醒词模型，将所述用户信息和所述唤醒词与所述唤醒词模型绑定的流程示意图；

图4为本发明一实施例中步骤S20的细化流程示意图；

图5为本发明唤醒词绑定方法第二实施例的流程示意图；

图6为本发明唤醒词绑定方法第三实施例的流程示意图；

图7为本发明一实施例中调整识别阈值的流程示意图；

图8为本发明一实施例中判断声纹信息的流程示意图；

图9为本发明一实施例中步骤S203的细化流程示意图；

图10为本发明一实施例中步骤S70的细化流程示意图。

附图标号说明：

标号	名称	标号	名称
				100	智能设备	101	射频单元
102	WiFi模块	103	音频输出单元
				104	A/V输入单元	1041	图形处理器
1042	麦克风	105	传感器
				106	显示单元	1061	显示界面
107	用户输入单元	1071	操控界面
				1072	其他输入设备	108	接口单元
109	存储器	110	处理器
				111	电源

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

智能设备可以以各种形式来实施。例如，本发明中描述的智能设备可以由诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器、智能音箱等具有显示界面的移动终端实现，也可以由诸如数字TV、台式计算机、空调器、电冰箱、热水器、吸尘器等具有显示界面的固定终端实现。

后续描述中将以智能设备为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的智能设备。

请参阅图1，其为实现本发明各个实施例的一种智能设备的硬件结构示意图，该智能设备100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示区域106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的智能设备结构并不构成对智能设备的限定，智能设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对智能设备的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access，宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，智能设备通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于智能设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。例如本实施例中，智能设备100可以基于WiFi模块102与App终端建立同步关联关系。

音频输出单元103可以在智能设备100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与智能设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。如本实施例中，在输出重新输入语音信号的提示时，该提示可以是语音提示、基于蜂鸣器的震动提示等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示区域106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

智能设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示界面1061的亮度，接近传感器可在智能设备100移动到耳边时，关闭显示界面1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示区域106用于显示由用户输入的信息或提供给用户的信息。显示区域106可包括显示界面1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示界面1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与智能设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括操控界面1071以及其他输入设备1072。操控界面1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在操控界面1071上或在操控界面1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。操控界面1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现操控界面1071。除了操控界面1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，操控界面1071可覆盖显示界面1061，当操控界面1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示界面1061上提供相应的视觉输出。虽然在图1中，操控界面1071与显示界面1061是作为两个独立的部件来实现智能设备的输入和输出功能，但是在某些实施例中，可以将操控界面1071与显示界面1061集成而实现智能设备的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与智能设备100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到智能设备100内的一个或多个元件或者可以用于在智能设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如语音识别***等)等；存储数据区可存储根据智能设备的使用所创建的数据(比如声纹数据、唤醒词模型、用户信息等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是智能设备的控制中心，利用各种接口和线路连接整个智能设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行智能设备的各种功能和处理数据，从而对智能设备进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

智能设备100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，智能设备100还可以包括可与其他终端建立通信连接的蓝牙模块等，在此不再赘述。

基于上述智能设备的硬件结构，本发明实施例的智能设备，装载有语音识别***，通过获取接收到的语音信号中的唤醒词信息，将所述唤醒词与所述用户进行绑定，而不是盲目的录制大量语音，而是录制唤醒词之后，将唤醒词与用户信息绑定，在后续识别过程中，可以直接对应用户和唤醒词来识别，提高识别准确率，而无需录制大量语音，减少操作，方便使用，提高智能化程度。

如图1所示，作为一种计算机存储介质的存储器109中可以包括操作***及唤醒词绑定程序。

在图1所示的智能设备100中，WiFi模块102主要用于连接后台服务器或大数据云端，与后台服务器或大数据云端进行数据通信，并可实现与其他终端设备进行通信连接；处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

步骤S1、采集用户发出的语音信号；

步骤S2、提取所述语音信号中的唤醒词信息和用户信息；

可选地，所述步骤S3包括：

进一步地，在所述用户信息为声纹信息，处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

步骤S311、多次采集用户输入的唤醒词语音信号；

进一步地，处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

进一步地，所述步骤S3之后，处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

进一步地，所述步骤S4之后，处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

步骤S6、调整语音识别***中的预设唤醒词的识别阈值；

进一步地，所述用户信息为声纹信息，处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

步骤S61、提取所述唤醒词语音信号中的声纹信息；

进一步地，所述步骤S61之后，处理器110可以用于调用存储器109中存储的唤醒词绑定应用程序，并执行以下操作：

本发明进一步提出一种唤醒词绑定方法，应用于唤醒语音识别***或装载有语音识别***的智能设备。

参照图2，图2为本发明的唤醒词绑定方法第一实施例的流程示意图。

在该实施例中，所述唤醒词绑定方法包括以下步骤：

S10：采集用户发出的语音信号；

在本实施例中，在用户首次利用自定义唤醒词对所述语音识别***进行唤醒时或者在需要录入用户的唤醒词时，为避免唤醒失败，提高唤醒率，需要训练用户自定义的唤醒词模型，以便在接收到用户输入包含所述唤醒词模型对应的唤醒词时做出响应。用户发出语音信号，采集该用户发出的语音信号，所述语音信号中可以是包括“空调”、“除湿机”或“风扇”等，也可以是包括“开机”、“调高温度”、“调高一档风速”等，提前设置作为唤醒词的信息。

S20、提取所述语音信号中的唤醒词信息和用户信息；

在获取到用户输入的语音信号后，提取所述语音信号中的唤醒词信息和用户信息；所述用户信息可以是用户身份信息，为用户声纹数据等可以用来识别用户的信息。所述唤醒词和用户信息的提取，通过对语音信号的转换，将其转换为文字信息，从文字信息中提取为唤醒词和携带用户信息的语句。

S30、将所述用户信息和所述唤醒词信息与所述用户绑定。

具体的，采集用户自定义的唤醒词语音信号，如用户可以多次输入“空调”的语音信号，而智能设备基于麦克风或音频传感器拾取到所述“空调”的语音信号后，获取所述用户注册至语音识别***的唤醒词模型，将所述用户信息和所述唤醒词与所述唤醒词模型绑定。

为便于后续根据识别到的声纹数据对唤醒词识别阈值进行更加准确的调整，在获取到注册用户的声纹数据及注册的唤醒词模型后，进一步将所述声纹数据和所述唤醒词模型进行关联，建立二者之间的关联关系。

本实施例通过获取接收到的语音信号中的唤醒词信息，将所述唤醒词与所述用户进行绑定，而不是盲目的录制大量语音，而是录制唤醒词之后，将唤醒词与用户信息绑定，在后续识别过程中，可以直接对应用户和唤醒词来识别，提高识别准确率，而无需录制大量语音，减少操作，方便使用，提高智能化程度。

进一步地，参照图3，基于上述实施例的唤醒词绑定方法，所述获取所述用户注册至语音识别***的唤醒词模型，将所述用户信息和所述唤醒词与所述唤醒词模型绑定的步骤包括：

S100：多次采集用户输入的唤醒词语音信号；

本实施例中，所述用户信息以用户声纹数据为例描述。为了提高唤醒词绑定的精准性，本实施例中方法在采样阶段，可以多次采集用户输入的唤醒词语音信号，然后根据多次采集的唤醒词语音信号得到最优的唤醒词模型和声纹数据。

S200：获取每次输入的唤醒词语音信号中的节奏感特征、音调特征和音素特征；

在根据多次采集的唤醒词语音信号获取用户的声纹数据和用户注册至语音识别***的唤醒词模型时，具体为将同一用户每次输入的唤醒词语音信号转换成语音数字信号后，基于声纹识别技术获取所述语音信号中的节奏感特征和音调特征；基于声学模型和语法结构获取所述语音信号中的因素特征，如通过端点检测获取语音信号在各种段落(如音素、音节、词素)的始点和终点位置，从语音信号中排除无声段。

S300：对每次获取的所述节奏感特征和音调特征进行声学特征处理，将经过声学特征处理的节奏感特征信息和音调特征信息注册为所述用户的声纹数据；

在获取到第一次输入的唤醒词语音信号后，基于声纹识别获取节奏感特征1和音调特征1，然后获取第二次输入的唤醒词语音信号中的节奏感特征2和音调特征2，当存在差异较大时，利用节奏感特征2优化节奏感特征1，利用音调特征2优化音调特征1，依次类推，直至再次获取的节奏感特征n和音调特征n分别与当前的节奏感特征n-1、音调特征n-1之间的差异在预设范围内，将所述当前节奏感特征和音调特征经过声学特征处理后注册为该用户的声纹数据。

S400：基于预设的声学模型对每次获取的音素特征进行排序组合，得到所述唤醒词模型；

同理，在获取到第一次输入的唤醒词语音信号后，基于声学模型和语法结构获取音素特征1，然后获取第二次输入的唤醒词语音信号中的音素特征2，获取同一音素在排列组合中的位置，当第一次输入和第二次输入不同时，获取第三次输入的唤醒词语音信号中的音素特征3，直至确定每一音素在预设的唤醒词模型的音素排列组合中的位置后，得到所述唤醒词模型。

S500：将所述声纹数据和唤醒词与所述唤醒词模型关联保存。

在获取到用户的声纹数据和注册的唤醒词模型后，通过该用户的用户信息，如用户账号、用户编号等，将所述声纹数据和唤醒词与所述唤醒词模型关联保存至所述语音识别***，以便于后续唤醒过程中根据识别出的声纹数据确定该用户对应的唤醒词模型，以供后续做出唤醒词识别。通过声纹数据和唤醒词与唤醒词模型的关联，使得通过声纹数据识别唤醒更加准确。

进一步地，参照图4，基于上述实施例的唤醒词绑定方法，步骤S20包括：

S20a：当接收到语音信号时，判断该语音信号的音量值是否大于预设音量值；

在本实施例中，由于声纹是带有言语信息的声波频谱，声纹本身与振幅、频率、基因轮廓、共振峰频率带宽等密切相关，而声波在传播过程中，传播的距离越远接收到的语音信号的音量值越小，而振幅与音量值成反比关系，所以声纹与接收到的语音信号的音量值有关。此外，语音识别***的语音识别引擎只识别语音音量达到预设阈值的语音，因此，为了提高声纹识别和语音识别的准确度，需要判断接收到的语音信号的音量值是否大于预设音量值，所述预设音量值为声纹识别和语音识别所需的语音信号的最小音量值。

S20b：若是，则基于声学模型和语法结构获取所述语音信号中的唤醒词信息，并基于声纹识别技术获取所述语音信号中的声纹信息。

当接收到的语音信号的音量值大于预设音量值时，判定接收到的语音信号有效，可以进一步对其进行声纹识别和声学模型分析，如基于端点检测将语音信号在音素、音节、词素等段落中的无声段排除，然后基于语音信号中的音节特征获取该语音信号的声纹信息，基于语音信号中的词素特征、音素特征声学模型及语法结构获取该语音信号中的唤醒词信息。

进一步地，参照图5，基于上述实施例的唤醒词绑定方法，步骤S30之后，还包括：

S40，接收唤醒语音信号，提取所述唤醒语音信号中的唤醒词；

S50，在所述唤醒词与语音识别***中的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作。

在用户有绑定唤醒词后，接收唤醒词语音信号，做出唤醒操作，提取所述唤醒语音信号中的唤醒词，在所述唤醒词与语音识别***中的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作。在提取的唤醒词与用户对应存储在语音识别***中的预设唤醒词匹配时，执行响应的操作。实现准确唤醒。

进一步地，为了更好的做到唤醒，减少误差率，参考图6，所述步骤S40之后，还包括：

S60：调整语音识别***中的预设唤醒词的识别阈值；

S70：在所述唤醒词与调整后的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作。

对唤醒词做出调整，不会固定不变，随着用户情况不同而做出调整。具体的，参考图7，所述调整的过程包括：

S201：提取所述唤醒词语音信号中的声纹信息；

在提取到唤醒词信息后，从所述唤醒词语音信号中提取声纹信息，由于本发明实施的主要目的就是解决用户使用个性化或自定义的唤醒词对语音识别***或装载有该语音识别***的智能设备进行唤醒时，唤醒率低的问题，而唤醒词绑定技术和语音识别技术的核心就是训练模型和识别模型，所以为了提高语音识别的唤醒率，需要预先在语音识别***注册相应的唤醒词模型和声纹数据，以供用户输入相匹配的语音信号后唤醒所述语音识别***。为了进一步提高语音识别***的唤醒率，并避免环境噪声导致的误唤醒，可以优先判断语音识别***内是否存在与所述声纹信息匹配的声纹数据。在语音识别***中存在所述声纹信息时，执行步骤S202，不存在时，执行步骤S203。

S202：调低语音识别***的唤醒词识别阈值；

当所述语音识别***内存在与所述声纹信息匹配的声纹数据时，可以根据用户在所述语音识别***内注册的声纹数据确定该智能设备的当前用户为已注册用户，排除了环境噪声或其他声音误唤醒的情况，从而调低该声纹数据对应的用户的唤醒词识别阈值，以提高用户唤醒语音识别***的概率。

S203：调高语音识别***的唤醒词识别阈值。

当所述语音识别***内不存在与所述声纹信息匹配的声纹数据时，可以推断该语音信号可能是环境噪声，也可能是非注册用户发出的，为了避免环境噪声造成的误唤醒，同时提高语音识别***的安全性，此时可以相应调高语音识别***的唤醒词识别阈值，以提高唤醒难度。

进一步地，参照图8，基于上述实施例的唤醒词绑定方法，步骤S201之后，还包括：

S204：根据预设声纹模型计算所述声纹信息与注册在语音识别***的声纹数据的相似度；

在本实施例中，在判断语音识别***内是否存在与语音信号中的声纹信息匹配的声纹数据时，为了提高声纹识别的准确度从而提高后续对后续语音识别的唤醒率，在判定时可以基于预设声纹模型计算语音信号中的声纹信息与注册在语音识别***的声纹数据的相似度，具体可以是基于所述预设声纹模型对所述声纹信息中的音调A进行音节状态切分，然后基于同样的手段对所述声纹数据中的音调S进行音节状态切分，然后比较音调A与音调S的各状态音节的重合度，所述重合度即为所述相似度。在其他实施例中，也可以通过比较语音信号中的声纹信息中的节奏感B与声纹数据中的节奏感D计算所述相似度。

S205：当所述相似度在预设范围内时，判定语音识别***内存在与所述声纹信息匹配的声纹数据；

当音调A与音调S的各状态音节的重合度在预设范围内时，可以判定语音识别***内存在与所述声纹信息匹配的声纹数据。

S206：当所述相似度在预设范围之外时，判定语音识别***内不存在与所述声纹信息匹配的声纹数据。

当音调A与音调S的各状态音节的重合度在预设范围之外时，判定语音识别***内不存在与所述声纹信息匹配的声纹数据。

进一步地，参照图9，基于上述实施例的唤醒词绑定方法，步骤S203，包括：

S2031：当语音识别***内不存在与所述声纹信息匹配的声纹数据时，获取当前用户状态信息和图像信息；

在本实施例中，当音调A与音调S的各状态音节的重合度在预设范围之外时，判定语音识别***内不存在与所述声纹信息匹配的声纹数据，此时可能是用户输入了未注册的唤醒词，也可能是接收到环境噪声导致，因而需要进一步获取当前用户状态信息和图像信息，以对当前用户是否为注册用户或接收到的语音信号是否为环境噪声进行判断。

S2032：当检测到当前用户未发声、处于语音识别***的识别范围之外、或当前用户未注册时，调高语音识别***的唤醒词识别阈值。

当根据获取的当前用户状态信息判定用户未发声或判定用户处于语音识别***的识别范围之外时，判定接收到的语音信号为环境噪声，为减少环境噪声引起的误唤醒，调高语音识别***的唤醒词识别阈值，以提高唤醒难度，降低误唤醒率。当根据获取的当前用户图像信息判定当前用户未注册时，调高语音识别***的唤醒词识别阈值，以提高唤醒难度，提高语音识别的安全性。

进一步地，参照图10，基于上述实施例的唤醒词绑定方法，步骤S70包括：

S71：统计接收到的所述语音信号中的唤醒词信息与注册至语音识别***的唤醒词模型的匹配度；

在本实施例中，由于主要将语音信号中的唤醒词信息与唤醒词模型进行匹配，而具体匹配的方式可以是音素之间的排列组合的匹配度，如当唤醒词模型包括48个音素时，需要统计接收到的语音信号中的唤醒词信息，也即统计唤醒词信息中的音素特征，然后比较唤醒词信息中的音素达到预设数量时进一步比较音素之间的排列组合方式。

S72：当所述匹配度达到调低或调高后的唤醒词识别阈值时，唤醒语音识别***或唤醒语音识别***所在的智能设备。

当唤醒词信息中的音素达到预设数量且音素之间的排列组合的重合率大于预设阈值时，判定语音信号中的唤醒词信息与唤醒词模型的匹配度达到调低或调高后的唤醒词识别阈值，此时可以对所述语音信号作出响应，如唤醒语音识别***或唤醒语音识别***所在的智能设备，以识别后续用户输入的语音控制指令或语音交互指令，进而作出响应的控制动作或交互动作，以提高智能设备的智能性。

此外，本发明实施例还提出一种存储介质，该存储介质存储有唤醒词绑定应用程序，所述唤醒词绑定程序被处理器执行时实现如上所述的唤醒词绑定方法的步骤。

其中，唤醒词绑定程序被执行时所实现的方法可参照本发明唤醒词绑定方法的各个实施例，此处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种唤醒词绑定方法，其特征在于，该唤醒词绑定方法包括以下步骤：

步骤S1、采集用户发出的语音信号；

步骤S2、提取所述语音信号中的唤醒词信息和用户信息；

步骤S3、将所述用户信息和所述唤醒词信息与所述用户绑定；

所述步骤S3包括：

步骤S31、获取所述用户注册至语音识别***的唤醒词模型，将所述用户信息和所述唤醒词与所述唤醒词模型绑定；

在所述用户信息为声纹信息，所述步骤S31包括：

步骤S311、多次采集用户输入的唤醒词语音信号；

步骤S313、对每次获取的所述节奏感特征和音调特征进行声学特征处理，将经过声学特征处理的节奏感特征信息和音调特征信息注册为所述用户的声纹数据；其中，在获取到第一次输入的唤醒词语音信号后，基于声纹识别获取节奏感特征1和音调特征1，获取第二次输入的唤醒词语音信号中的节奏感特征2和音调特征2，当存在差异较大时，利用节奏感特征2优化节奏感特征1，利用音调特征2优化音调特征1，直至再次获取的节奏感特征n与当前的节奏感特征n-1以及音调特征n与音调特征n-1之间的差异在预设范围内，将所述当前节奏感特征和音调特征经过声学特征处理后注册为该用户的声纹数据；

步骤S315、将所述声纹数据和唤醒词与所述唤醒词模型关联保存；

所述步骤S3之后，还包括：

步骤S5、在所述唤醒词与语音识别***中的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作；

所述步骤S4之后，还包括：

步骤S6、调整语音识别***中的预设唤醒词的识别阈值，对唤醒词做出调整，不会固定不变，随着用户情况不同而做出调整；

步骤S7、在所述唤醒词与调整后的预设唤醒词匹配时，对所述唤醒词语音信号响应执行响应的操作；

所述步骤S6包括：

步骤S61、提取所述唤醒词语音信号中的声纹信息；

2.根据权利要求1所述的唤醒词绑定方法，其特征在于，所述步骤S2包括：

3.根据权利要求1所述的唤醒词绑定方法，其特征在于，所述步骤S61之后，还包括：

4.一种智能设备，其特征在于，该智能设备装载有语音识别***，所述智能设备还包括存储器、处理器及存储在所述存储器并可在所述处理器上运行的唤醒词绑定应用程序，所述语音识别***与所述处理器连接，其中：

所述语音识别***用于响应满足唤醒条件的语音信号；

所述唤醒词绑定程序被所述处理器执行时实现如权利要求1至3任一项所述的唤醒词绑定方法的步骤。

5.一种存储介质，其特征在于，该存储介质存储有唤醒词绑定应用程序，所述唤醒词绑定应用程序被处理器执行时实现如权利要求1至3任一项所述的唤醒词绑定方法的步骤。