CN110890093A

CN110890093A - 一种基于人工智能的智能设备唤醒方法和装置

Info

Publication number: CN110890093A
Application number: CN201911158856.0A
Authority: CN
Inventors: 陈杰; 苏丹; 金明杰; 朱振岭
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-03-17
Anticipated expiration: 2039-11-22
Also published as: CN110890093B

Abstract

本申请实施例公开了一种智能设备唤醒的方法及装置，在智能设备采集到待识别音频数据后，在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中，保存根据待识别音频数据确定的声学特征；当一级验证确定待识别音频数据中包含唤醒词后，不唤醒智能设备，而是先进行二级验证，从保存的声学特征中确定待定特征序列，根据唤醒词的声学特征序列确定待定特征序列是否满足唤醒条件；在确定待定特征序列满足唤醒条件后，待识别音频数据通过一级和二级验证，此时唤醒智能设备。通过利用一级验证确定的声学特征，并根据声学特征提取待定特征序列进行二级验证，有效的降低对智能设备的错误唤醒频率。

Description

一种基于人工智能的智能设备唤醒方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种基于人工智能的智能设备唤醒方法和装置。

背景技术

目前智能设备越来越普及，广泛的应用在人们的工作、生活之中。

一些智能设备在不提供服务时处于休眠状态，用户在需要使用这类智能设备时，可以通过语音的方式说出唤醒词对智能设备进行唤醒，例如用户可以通过唤醒词唤醒休眠的智能音箱。

然而目前的相关技术会有较高的误唤醒率，即将一些噪声或非唤醒词的语音错误识别为唤醒词的语音，而错误的唤醒智能设备，使得智能设备在用户不需要的情况下突然启动，对用户造成不好的使用体验。

发明内容

为了解决上述技术问题，本申请提供了一种智能设备唤醒方法，利用一级验证确定的声学特征，并根据声学特征提取待定特征序列进行二级验证，有效的降低对智能设备的错误唤醒频率，提高了用户体验。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种智能设备唤醒方法，所述方法包括：

在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中，保存根据所述待识别音频数据确定的声学特征，所述声学特征用于标识所述待识别音频数据的声学特点；

若通过所述待识别音频数据中的目标音频帧确定所述待识别音频数据包含所述唤醒词，从保存的所述声学特征中确定待定特征序列，所述待定特征序列包括所述待识别音频数据中多个连续音频帧的声学特征，所述多个连续音频帧中包括所述目标音频帧；

根据所述唤醒词的声学特征序列确定所述待定特征序列是否满足唤醒条件；

若满足，唤醒所述智能设备。

第二方面，本申请实施例提供了一种智能设备唤醒装置，所述装置包括第一确定单元、第二确定单元、第三确定单元、唤醒单元：

所述第一确定单元，用于在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中，保存根据所述待识别音频数据确定的声学特征，所述声学特征用于标识所述待识别音频数据的声学特点；

所述第二确定单元，用于若通过所述待识别音频数据中的目标音频帧确定所述待识别音频数据包含所述唤醒词，从保存的所述声学特征中确定待定特征序列，所述待定特征序列包括所述待识别音频数据中多个连续音频帧的声学特征，所述多个连续音频帧中包括所述目标音频帧；

所述第三确定单元，用于根据所述唤醒词的声学特征序列确定所述待定特征序列是否满足唤醒条件；

所述唤醒单元，用于若所述待定特征序列满足唤醒条件，唤醒所述智能设备。

第三方面，本申请实施例提供了一种智能设备的唤醒词更新方法，所述方法包括：

获取智能设备发送的待更新唤醒词的文本特征；

根据所述文本特征生成所述待更新唤醒词的音频数据；

根据所述音频数据确定所述待更新唤醒词的声学特征序列；所述声学特征序列用于所述智能设备在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中进行二级验证，以确定待识别音频数据的待定特征序列是否满足唤醒条件；所述待定特征序列包括所述待识别音频数据中多个连续音频帧的声学特征，所述多个连续音频帧中包括确定所述待识别音频数据包含所述唤醒词时的目标音频帧，所述声学特征用于标识所述待识别音频数据的声学特点；

向所述智能设备返回所述声学特征序列。

第四方面，本申请实施例提供了一种智能设备的唤醒词更新装置，所述装置包括获取单元、生成单元、确定单元和返回单元：

所述获取单元，用于获取智能设备发送的待更新唤醒词的文本特征；

所述生成单元，用于根据所述文本特征生成所述待更新唤醒词的音频数据；

所述确定单元，用于根据所述音频数据确定所述待更新唤醒词的声学特征序列；所述声学特征序列用于所述智能设备在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中进行二级验证，以确定待识别音频数据的待定特征序列是否满足唤醒条件；所述待定特征序列包括所述待识别音频数据中多个连续音频帧的声学特征，所述多个连续音频帧中包括确定所述待识别音频数据包含所述唤醒词时的目标音频帧，所述声学特征用于标识所述待识别音频数据的声学特点；

所述返回单元，用于向所述智能设备返回所述声学特征序列。

第五方面，本申请实施例提供了一种用于智能设备唤醒的设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中所述的智能设备唤醒的方法。

第六方面，本申请实施例提供了一种用于智能设备的唤醒词更新的设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第三方面所述的智能设备的唤醒词更新的方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面中所述的智能设备唤醒的方法或第三方面所述的智能设备的唤醒词更新的方法。

由上述技术方案可以看出，在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中，保存根据待识别音频数据确定的声学特征，该声学特征用于标识待识别音频数据的声学特点。若在验证到目标音频帧时确定待识别音频数据包含唤醒词，从前述保存的声学特征中确定包括连续音频帧所对应声学特征的待定特征序列，其中连续音频帧中包括目标音频帧。由于是在验证到目标音频帧时确定待识别音频数据中包含唤醒词的，故若确实包含唤醒词，那么该待定特征序列应能体现唤醒词的声学特点。基于此，在二级验证时，根据唤醒词的实际声学特征序列可以确定待定特征序列是否满足唤醒条件，在满足时确定待识别音频数据确实包含唤醒词，可以唤醒智能设备，从而可以通过二级验证有效的降低对智能设备的错误唤醒频率，提高了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的智能设备唤醒方法的应用场景示意图；

图2为本申请实施例提供的一种智能设备唤醒方法的流程图；

图3为本申请实施例提供的一种解码网络的示意图；

图4为本申请实施例提供的一种智能设备的唤醒词更新方法的流程图；

图5为本申请实施例提供的一种应用场景中智能设备唤醒方法的流程图；

图6为本申请实施例提供的一种应用场景中智能设备唤醒方法的示意图；

图7为本申请实施例提供的一种应用场景中智能设备的唤醒词更新方法的流程图；

图8为本申请实施例提供的一种应用场景中智能设备的唤醒更新方法的示意图；

图9a为本申请实施例提供的一种智能设备唤醒装置的结构图；

图9b为本申请实施例提供的一种智能设备唤醒装置的结构图；

图10为本申请实施例提供的一种智能设备的唤醒词更新装置的结构图；

图11为本申请实施例提供的一种用于智能设备唤醒的设备的结构图；

图12为本申请实施例提供的一种服务器的结构图。

图13为本申请实施例提供的一种用于智能设备的唤醒词更新的设备的结构图；

图14为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在现有的智能设备唤醒技术中往往采用单模型自定义唤醒技术，即仅使用一种音频识别方法进行音频识别，例如仅采用关键词/隐马克尔夫模型(Keyword/Filler HiddenMarkov Model，简称HMM)或仅采用长短时记忆特征提取***(Long Short-term memoryFeature Extractor System，简称LSTM Feature Extractor System)进行音频识别，而无论是哪一种音频识别技术，在单独进行智能设备唤醒时，都存在一定误唤醒率，且该误唤醒率较高。

例如，智能设备的唤醒词为“打开音箱”，由于智能设备可以随时采集到音频数据，若用户在与其他人聊天发出语音“打开音乐”，那么，智能设备可以采集到音频数据“打开音乐”，从而识别“打开音乐”是否为唤醒词。在智能设备识别到“打开音”时，智能设备可能就会判定采集到的音频数据中包含唤醒词，从而进入唤醒状态。但实际上，“打开音乐”并不是实际唤醒词“打开音箱”，从而错误的唤醒智能设备，在用户不需要的情况下突然启动智能设备。

为了解决上述技术问题，本申请实施例提供了一种智能设备唤醒方法，该方法可以通过采用多级验证的方式进行语音识别，并在不同级别中使用不同的音频识别技术，实现不同音频识别技术之间的优势互补，从而降低通过音频识别唤醒智能设备时的误唤醒率，提高用户体验。

需要强调的是，本申请实施例所提供的智能设备唤醒方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。

例如可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

可以理解的是，该方法可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有语音唤醒功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)等。

该智能设备可以具有实施语音技术中自动语音识别技术让智能设备能听、能看、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在本申请实施例中，智能设备通过实施上述语音技术，可以对获取的待识别音频数据进行声学特征提取，以及根据提取的声学特征确定待定特征序列，进而通过待定特征序列以及唤醒词的声学特征序列确定相似度；通过机器学习技术训练声学模型，该声学模型用于根据智能设备获取的音频数据确定声学特征。

同时，在本申请实施例中，服务器通过实施上述语音技术，可以获取智能设备发送的待更新唤醒词的文本特征，以及根据文本特征生成待更新唤醒词的音频数据，进而根据音频数据确定待更新唤醒词的声学特征序列；通过机器学习技术训练声学模型，该声学模型用于根据服务器生成的待更新唤醒词的音频数据确定待更新唤醒词的声学特征序列。

为了便于理解本申请的技术方案，下面结合实际应用场景，对本申请实施例提供的智能设备唤醒方法进行介绍。

参见图1，图1为本申请实施例提供的智能设备唤醒方法的应用场景示意图。该应用场景中包括智能设备101，智能设备101能够获取外界输入的待识别音频数据。由于待识别音频数据为智能设备101所能采集到的所有音频数据，因此待识别音频数据中可以包括环境噪声、与唤醒词相关的音频数据和与唤醒词无关的音频数据等。

智能设备101在获取待识别音频数据后，对待识别音频数据进行一级验证。其中，一级验证是指对待识别音频数据中是否包含智能设备101对应的唤醒词进行验证。智能设备101中负责进行一级验证的主模块在智能设备开启时一直处于开启状态，对智能设备周围的音频进行不间断的采集与验证。智能设备101在对待识别音频数据进行一级验证的过程中，保存根据待识别音频数据确定的声学特征。其中，声学特征用于标识待识别音频数据的声学特点。待识别音频数据的声学特征能够体现待识别音频数据对应的音素组成，从而能够体现待识别音频数据的发音情况。

在进行一级验证时，智能设备101可以对待识别音频数据进行逐帧计算，若在验证到待识别音频数据的某一帧例如目标音频帧时确定待识别音频数据包含唤醒词，待识别音频数据通过一级验证，此时智能设备101并不直接进入唤醒状态，而是继续对待识别音频数据进行二级验证。智能设备101中负责二级验证的辅助模块平时处于关闭状态，只有在待识别音频数据通过一级验证，负责进行一级验证的主模块准备唤醒智能设备101时，进入开启状态辅助验证，以免主模块误唤醒智能设备101。

二级验证是指验证待定特征序列是否满足智能设备的唤醒条件。在进行二级验证时，智能设备101从前述保存的声学特征中确定包括连续音频帧所对应声学特征的待定特征序列，其中连续音频帧中包括目标音频帧。由于是在验证到目标音频帧时确定待识别音频数据中包含唤醒词的，故若确实包含唤醒词，那么该待定特征序列应能体现唤醒词的声学特点。由于待识别音频数据的声学特征能够体现待识别音频数据对应的音素组成，因此从声学特征中确定的待定特征序列能够体现某段待识别音频数据对应的音素组成，从而能够体现该段待识别音频数据的发音情况。而唤醒词的声学特征序列是由唤醒词对应的声学特征组成，能够体现唤醒词对应的音素组成，从而能够体现唤醒词音频数据的发音特点。由于待定特征序列和唤醒词对应的声学特征序列都能够体现对应音频数据的音素组成和发音特点，故智能设备101可以根据唤醒词的声学特征序列确定待定特征序列是否满足唤醒条件。

当满足时，待识别音频数据通过二级验证，此时待识别音频数据同时通过一级验证和二级验证，智能设备101进入唤醒状态。

由于智能设备101在对待识别音频数据进行验证时，能够在一级验证中获取与体现待识别音频数据所对应音素的声学特征，并在二级验证中将根据声学特征确定的待定特征序列与唤醒词的声学特征序列进行比较，只有在待识别音频数据同时通过一级验证和二级验证后才唤醒智能设备，从而降低了智能设备误唤醒率，提高了用户体验感。

接下来，将结合附图对本申请实施例提供的智能设备唤醒方法进行介绍。

参见图2，该图为本申请实施例提供的一种智能设备唤醒方法的流程图，所述方法包括以下步骤：

S201：在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中，保存根据待识别音频数据确定的声学特征。

智能设备在从外界获取待识别音频数据后，验证待识别音频数据是否包含智能设备所对应唤醒词，该验证可以为一级验证。其中，待识别音频数据中可以包括与唤醒词有关的音频数据、与唤醒词无关的音频数据和环境噪声数据等。

在进行一级验证的过程中，智能设备根据待识别音频数据确定声学特征。其中，声学特征可以是任意一种体现声音特点的特征。声学特征能够体现待识别音频数据的音素组成，即体现音频数据的发音情况。

需要说明的是，在本实施例中一级验证可以通过声学模型和置信度判决模块两部分实现，声学模型可以是任意类型的模型。

在一种可能的实现方式中，声学特征可以是通过声学模型确定的，声学模型基本结构包括：输入层、隐含层以及输出层。在一种可能的实现方式中，声学特征为声学模型的隐含层的输出特征。在一级验证中，智能设备在获取待识别音频数据后，将待识别音频数据代入声学模型的输入层进行计算，并保存任一隐含层输出的声学特征。一个声学模型中任意一个隐含层的输出特征(简称隐层特征)可以为本申请中的声学特征，一般来说，隐含层越靠近输出层，其隐层特征体现的声学特点越好。

此外，隐含层输出中的声学特征具有鲁棒性，即隐含层中的声学特征不容易受声源的个性化发音、环境噪声等影响，与待识别音频数据本身的声学特点的对应程度较高。

可以理解的是，在一级验证中保存的声学特征长度既可以等于唤醒词的声学特征的长度，也可以大于唤醒词声学特征的长度，以便在二级验证能够从保存的声学特征中提取可以覆盖唤醒词声学特征序列长度的待定特征序列进行验证。可以理解的是，在进行声学特征保存时，保存的声学特征长度是固定的，且满足先进先出原则，即当保存的声学特征达到预设的保存长度时，有新的需要保存的声学特征，则将已保存的声学特征中最先保存的进行去除。从而当在一级验证中验证到目标音频帧时，能够保证已保存的声学特征中保存有目标音频帧之前最接近的一段音频帧。

置信度判决模块能够接收声学模型输出的待识别音频数据的声学特征，并判断待识别音频数据是否含有唤醒词。置信度判决模块逐一对待识别音频数据中的音频帧进行验证，得到每一帧对应的待识别音频数据包含唤醒词的置信度，在验证过程中，多个音频帧的置信度可以累加。当在验证到某一音频帧例如目标音频帧时，待识别音频数据包含唤醒词的置信度达到了置信度判决模块的第一阈值，此时置信度判决模块确定待识别音频数据中包含唤醒词，待识别音频数据通过了一级验证。

例如，预设置信度判决模块的第一阈值为0.95，唤醒词为“打开音箱”，智能设备采集到的待识别音频数据为“打开音乐”，当验证到“音”所对应的最后一个音频帧时，置信度判决模块得到的置信度是0.98，由于0.98大于0.95，即待识别音频数据中包含唤醒词的置信度达到了置信度判决模块的第一阈值，置信度判决模块确定待识别音频数据中包含唤醒词，待识别音频数据通过一级验证。此时，“音”的最后一个音频帧为目标音频帧。

在一种实现方式中，置信度判决模块可以为解码网络，验证待识别音频数据中是否包含唤醒词可以通过解码网络来确定。解码网络可以为HMM解码网络，声学模型输出的声学特征中包括所有可能的发音单元，发音单元可以选择音节或者音素等，每一个发音单元对应一个HMM状态。HMM解码网络如图3所示，由关键词(Keyword)HMM和填充词(Filler)HMM组成，其中Keyword HMM由组成智能设备对应的唤醒的所有发音单元对应的HMM状态串组成，Filler HMM由一组人工精心设计的非唤醒词发音单元对应的HMM状态组成。在验证待识别音频数据是否包含唤醒词的过程中，声学特征按照固定窗大小送入解码网络，利用维特比解码算法查找最优解码路径。置信度判决模块可以根据最优解码路径是否经过KeywordHMM路径来判断待识别音频数据是否包含唤醒词。可以理解的是，置信度判决模块也可以通过计算更加复杂的置信度等策略来进行判决。

S202：若通过待识别音频数据中的目标音频帧确定待识别音频数据包含唤醒词，从保存的声学特征中确定待定特征序列。

在智能设备确定待识别音频数据中包含唤醒词后，待识别音频数据通过了一级验证，进入二级验证。智能设备从上述步骤S201保存的声学特征中确定待定特征序列，其中，待定特征序列包括待识别音频数据中多个连续音频帧的声学特征，多个音频帧中包括目标音频帧。

由于一级验证中保存的声学特征能够体现待识别音频数据的音素组成，因此从保存的声学特征中确定的待定特征序列能够体现某一段待识别音频数据的音素组成。

可以理解的是，为了使待识别音频数据的声学特征能够覆盖唤醒词的声学特征，提高二级验证的准确性，待定特征序列中声学特征数量是根据唤醒词的长度确定的，待定特征序列中声学特征的数量可以等于或大于唤醒词的长度。由于前已述及保存的声学特征中保证含有目标音频帧以及与目标音频帧最接近的一段音频帧，因此能够确保待定特征序列中含有一级验证中确定的包含唤醒词的音频数据的声学特征。

需要说明的是，根据保存的声学特征的长度的不同，确定待定特征序列的方式有所不同。例如，当保存的声学特征的长度等于唤醒词声学特征的长度时，可以直接镜保存的声学特征作为待定特征序列，此时，待定特征序列中的声学特征数量等于唤醒词的长度；当保存的声学特征的长度大于唤醒词声学特征的长度时，可以从保存的声学特征中选取待定特征序列，此时，待定特征序列中的声学特征数量可以等于或大于唤醒词的长度。

S203：根据唤醒词的声学特征序列确定待定特征序列是否满足唤醒条件。

在智能设备从保存的声学特征中确定待定特征序列后，由于待定特征序列能够体现第一验证中确定的包含唤醒词的待识别音频数据片段的音素组成，而唤醒词的声学特征序列能够体现唤醒词音频数据对应的音素组成，两者针对音频数据具有相同的体现形式，因此可以根据智能设备中预设的唤醒词的声学特征序列确定待定特征序列是否满足唤醒条件。在一种可能的实现方式中，智能设备可以确定唤醒词的声学特征序列和待定特征序列间的相似程度，并根据相似程度确定是否满足唤醒条件。

其中，确定唤醒词的声学特征序列和待定特征序列间的相似程度可以是计算二者间的余弦相似度，将计算得到的余弦相似度与预设的第二阈值进行比较来确定是否满足唤醒条件。当两者间的余弦相似度达到阈值时，说明唤醒词的声学特征序列和待定特征序列间的相似程度较高，而唤醒词的声学特征序列体现的是唤醒词音频数据的音素组成，待定特征序列体现的是某一段待识别音频数据的音素组成，因此当特征序列间的相似程度较高时，说明两音频数据的音素组成相似，从而说明该段待识别音频数据中大概率包含唤醒词。

需要说明的是，由于声学特征可以具有鲁棒性，不受音源的个性化发音、环境噪声等影响，因此，针对不同人的个性化发音或在不同环境下，都可以准确地确定唤醒词的声学特征序列和待定特征序列间的相似程度，从而准确地判断待识别音频数据是否可以唤醒智能设备。

S204：若满足，唤醒智能设备。

在智能设备根据唤醒词的声学特征序列确定待定特征序列满足唤醒条件后，待识别音频数据通过了二级验证，此时待识别音频数据通过了一级验证和二级验证，智能设备从休眠状态进入工作状态。可以理解的是，当智能设备确定待定特征序列不满足唤醒条件时，说明一级验证中出现误判，待识别音频数据中实际上并不包含唤醒词，智能设备保持休眠状态。

在一些情况下，可能会根据用户需求对唤醒词进行更新，可以理解的是，更新唤醒词的过程可以联网进行，也可以在本地进行。在联网进行唤醒词更新时，可以只通过云端服务器进行文本特征与音频数据之间的转化，确定待更新唤醒词声学特征序列的过程仍在本地进行；也可以在云端服务器中进行文本特征与音频数据之间的转化以及确定待更新唤醒词的声学特征序列，直接将确定的声学特征序列发送给智能设备。

第一种更新唤醒词方式：只在本地进行唤醒词更新。

当更新唤醒词的过程只在本地进行时，由于唤醒词的声学特征序列是用于体现唤醒词音频数据的音素组成和发音情况的，与其他影响音素无关，且在二级验证中，是通过将唤醒词的声学特征序列与待定特征序列进行比较来验证的，因此在进行唤醒词更新的过程中，智能设备可以获取待更新唤醒词的文本特征，从而根据文本特征生成待更新唤醒词的音频数据，并根据音频数据确定待更新唤醒词的声学特征序列。

例如，智能设备中可以具有文字语音转化模块，该文字语音转化模块使用的为文字语音转换(Test-to-speech，TTS)语音转换技术。在用户输入待更新唤醒词的文本特征后，智能设备通过文字语音转化模块将输入的文本特征转化为待更新唤醒词的音频数据，并根据待更新唤醒词的音频数据，通过声学模型确定待更新唤醒词的声学特征序列，然后在二级验证模块保存该声学特征序列，用于后续音频识别功能。可以理解的是，通过TTS生成的音频数据可以为多个，智能设备根据多个音频数据，通过声学模型确定多个音频数据分别对应的初级声学特征序列；根据多个初级声学特征序列，确定待更新唤醒词的声学特征序列。

第二种更新唤醒词方式：利用本地和联网结合更新。

当更新唤醒词的过程需要联网进行时，在一种可能的实现方式中，可以只利用云端服务器进行文本特征和音频数据之间的转化，确定声学特征序列的过程仍在本地进行。例如，可以利用文字语音转换服务器(Test-to-speech Server，简称TTS Server)进行唤醒词的更新。在智能设备的用户确定好待更新唤醒词后，用户可以输入待更新唤醒词的文本特征，智能设备能够将待更新唤醒词的文本特征通过联网送至云端的TTS Server，TTSServer获取待更新唤醒词的文本特征，从而根据文本特征生成待更新唤醒词的音频数据。TTS Server将音频数据通过联网传输至智能设备的一级验证模块，在一级验证模块中，可以根据音频数据，通过声学模型确定所述待更新唤醒词的声学特征序列，保存该声学特征序列用于后续音频识别功能。可以理解的是，通过TTS Server生成的待更新唤醒词的音频数据同样可以包括多个，并根据多个音频数据，通过声学模型确定多个音频数据分别对应的初级声学特征序列；根据多个所述初级声学特征序列，确定待更新唤醒词的声学特征序列。

第三种更新唤醒词的方式：只在云端进行唤醒词更新。

在一种可能的实现方式中，在需要联网进行唤醒词更新时，可以利用云端服务器直接根据文本特征确定待更新唤醒词的声学特征序列，并将声学特征序列返回给智能设备。参见图4，该图为本申请实施例提供的一种智能设备的唤醒词更新方法的流程图，所述方法包括以下步骤：

S401：获取智能设备发送的待更新唤醒词的文本特征。

在需要进行唤醒词更新时，音频生成服务器获取智能设备发送的待更新唤醒词的文本特征。

S402：根据文本特征生成待更新唤醒词的音频数据。

音频生成服务器获取文本特征后，根据文本特征生成待更新唤醒词的音频数据。

S403：根据音频数据确定待更新唤醒词的声学特征序列。

在音频生成服务器生成待更新唤醒词的音频数据后，根据音频数据确定待更新唤醒词的声学特征序列。其中，声学特征序列用于智能设备在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中进行二级验证，以确定待识别音频数据的待定特征序列是否满足唤醒条件；待定特征序列包括所述待识别音频数据中多个连续音频帧的声学特征，多个连续音频帧中包括确定待识别音频数据包含唤醒词时的目标音频帧，声学特征用于标识待识别音频数据的声学特点。可以理解的是，与前两种情况相同，待识别音频数据的声学特征也可以是通过声学模型确定的，即根据音频数据，通过声学模型确定待更新唤醒词的声学特征序列。

此外，音频生成服务器根据文本生成的待更新唤醒词的音频数据可以包括多个，根据多个音频数据，通过声学模型确定多个音频数据分别对应的初级声学特征序列；根据多个初级声学特征序列，确定待更新唤醒词的声学特征序列。

S404：向智能设备返回声学特征序列。

音频生成服务器在生成待更新唤醒词的声学特征序列后，将该声学特征序列返回给智能设备，从而完成智能设备中唤醒词的更新。

可以理解的是，虽然在某些生成待更新唤醒词的声学特征序列的过程中需要联网，但是在生成完毕后，可以将待更新唤醒词的声学特征序列保存在智能设备中，因此在进行智能设备唤醒的过程中，无需进行网络连接即可正常运行。

需要说明的是，为了保证确定唤醒词的声学特征序列和待定特征序列间的相似程度时，所采用的声学特征序列和待定特征序列的确定方式相同，进而保证相似程度计算的准确性，若待识别音频数据的声学特征是通过声学模型确定的，则，在确定待更新唤醒词的声学特征序列时，也可以根据音频数据，通过该声学模型确定待更新唤醒词的声学特征序列。

可以理解的是，当在一级验证中，置信度判决模块所采用的为HMM解码网络时，在更新唤醒词后，还需要根据待更新唤醒词更新解码网络，即对解码网络中的Keyword HMMs和Filler HMMs进行更新，将Keyword HMMs更新为由组成待更新唤醒词的所有发音单元对应的HMM状态串联组成，将Filler HMMs更新为由一组精心设计的非待更新唤醒词发音单元对应的HMM状态组成，从而可以正确的对待识别音频数据中是否包含待更新唤醒词进行判断。

接下来，将结合实际应用场景，对本申请实施例提供的一种智能设备唤醒方法进行介绍。在该应用场景中，智能设备为智能音箱，一级验证采用的声学模型为LSTM模型，采用的验证方法为解码网络；二级验证采用的验证***为LSTM KWS System，唤醒词为“打开音箱”。用户在音箱旁与他人交谈时，说出了“打开音乐”这一词语。所述智能设备唤醒方法如图5所示，所述方法包括：

S501：采集待识别音频数据，根据待识别音频数据确定声学特征。

如图6所示，图6为该场景中采用的音频识别的模型图。智能音箱采集周围环境的音频数据，并通过FBANK特征计算功能确定FBANK特征，然后将具有FBANK特征的待识别音频数据输入LSTM声学模型中进行转化，得到LSTM隐含层输出的声学特征和输出层输出的声学特征。

S502：保存根据待识别音频数据确定的声学特征。

智能音箱将LSTM隐含层输出的声学特征进行保存，用于后续进行二级验证。

S503：验证待识别音频数据中是否包含唤醒词“打开音箱”。

智能音箱通过解码网络验证待识别音频数据中是否包含唤醒词。由于采集到的待识别音频数据中含有“打开音乐”这段语音，在经过解码网络验证时，待识别音频数据的声学特征的最优解码路径经过与唤醒词“打开音箱”对应的Keyword HMM路径，因此验证待识别数据包含唤醒词。

S504：确定待识别音频数据中包含唤醒词后，从保存的的声学特征中确定待定特征序列。

智能音箱通过解码网络验证待识别音频数据中包含唤醒词后，待识别音频数据通过一级验证，进入二级验证。智能音箱通过LSTM特征提取器提取保存的LSTM隐含层输出的声学特征中的待定特征序列，用于进行后续验证。

S505：根据唤醒词的声学特征序列确定待定特征序列是否满足唤醒条件。

在提取待定特征序列后，智能音响通过计算待定特征序列与唤醒词的声学特征序列的余弦相似度，并通过比较余弦相似度与预设的阈值验证待定特征序列是否满足唤醒条件。

S506：若满足，唤醒智能音响。

当余弦相似度打到预设阈值时，智能音响进入唤醒状态。

此外，在该实际应用场景中，当需要对智能音响的唤醒词进行更新时，如图7所示，可以通过以下步骤进行更新，

S701：接收用户输入的待更新唤醒词文本。

智能音响接收用户输入的待更新唤醒词文本，如图8所示，图8是在该应用场景下进行唤醒词更新的模型图。

S702：通过TTS Server生成待更新唤醒词文本对应的音频数据。

智能音响在接收到待更新唤醒词文本后，将该文本上传至TTS Server进行音频数据生成，生成N个不同的待更新唤醒词音频数据。

S703：根据音频数据确定待更新唤醒词的声学特征序列。

在接收到TTS Server生成的音频数据后，通过有一级验证中的功能将音频数据转化为N个M帧长度的待更新唤醒词的声学特征序列，将这N个特征序列平均后得到待更新唤醒词的特征序列，从而能够利用待更新唤醒词的声学特征序列进行二级验证。

S704：根据待更新唤醒词的声学特征更新解码网络。

在获取待更新唤醒词的声学特征后，根据声学特征更新解码网络中的KeywordHMM和Filler HMM，使Keyword HMM由组成待更新唤醒词的所有发音单元对应的HMM串联组成，Filler HMM由一组精心设计的非唤醒词发音单元对应的HMM状态组成，从而能够对待更新唤醒词进行一级验证。

基于前述实施例提供的一种智能设备唤醒方法，本实施例提供一种智能设备唤醒装置900，参见图9a，装置900包括第一确定单元901、第二确定单元902、第三确定单元903、唤醒单元904：

第一确定单元901，用于在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中，保存根据待识别音频数据确定的声学特征，声学特征用于标识待识别音频数据的声学特点；

第二确定单元902，用于若通过待识别音频数据中的目标音频帧确定待识别音频数据包含唤醒词，从保存的声学特征中确定待定特征序列，待定特征序列包括待识别音频数据中多个连续音频帧的声学特征，多个连续音频帧中包括目标音频帧；

第三确定单元903，用于根据唤醒词的声学特征序列确定待定特征序列是否满足唤醒条件；

唤醒单元904，用于若待定特征序列满足唤醒条件，唤醒智能设备。

在一种可能的实现方式中，第三确定单元903具体用于：

确定唤醒词的声学特征序列和待定特征序列间的相似程度；

根据相似程度确定是否满足唤醒条件。

在一种可能的实现方式中，待识别音频数据的声学特征是通过声学模型确定的，其中，声学特征为声学模型的隐含层的输出特征。

在一种可能的实现方式中，待定特征序列中声学特征的数量是根据唤醒词的长度确定的。

在一种可能的实现方式中，参见图9b，装置900进一步包括更新单元905：

更新单元905，用于通过对智能设备进行唤醒词更新，将待更新唤醒词作为智能设备对应的唤醒词；

其中，更新单元905具体用于：

获取待更新唤醒词的文本特征；

根据文本特征生成待更新唤醒词的音频数据；

用于根据音频数据确定待更新唤醒词的声学特征序列。

在一种可能的实现方式中，待识别音频数据的声学特征是通过声学模型确定的，更新单元905具体用于：

根据所述音频数据，通过所述声学模型确定所述待更新唤醒词的声学特征序列。

在一种可能的实现方式中，待更新唤醒词的音频数据包括多个，更新单元905具体用于：

根据多个音频数据，通过声学模型确定多个音频数据分别对应的初级声学特征序列；

根据多个初级声学特征序列，确定待更新唤醒词的声学特征序列。

在一种可能的实现方式中，验证待识别音频数据是否包含唤醒词是通过解码网络确定的，更新单元905进一步用于：

根据待更新唤醒词更新解码网络。

基于前述实施例提供的一种智能设备的唤醒词更新方法，本实施例提供一种智能设备的唤醒词更新装置1000，参见图10，装置1000包括获取单元1001、生成单元1002、确定单元1003、返回单元1004：

获取单元1001，用于获取智能设备发送的待更新唤醒词的文本特征；

生成单元1002，用于根据文本特征生成待更新唤醒词的音频数据；

确定单元1003，用于根据音频数据确定待更新唤醒词的声学特征序列；声学特征序列用于智能设备在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中进行二级验证，以确定待识别音频数据的待定特征序列是否满足唤醒条件；待定特征序列包括待识别音频数据中多个连续音频帧的声学特征，多个连续音频帧中包括确定待识别音频数据包含所述唤醒词时的目标音频帧，声学特征用于标识待识别音频数据的声学特点；

返回单元1004，用于向智能设备返回声学特征序列。

在一种可能的实现方式中，确定单元1003具体用于：

根据音频数据，通过声学模型确定待更新唤醒词的声学特征序列；声学模型与智能设备在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中所使用的声学模型相同。

在一种可能的实现方式中，待更新唤醒词的音频数据包括多个，确定单元1003具体用于：

本申请实施例还提供了一种用于智能设备唤醒的设备，下面结合附图对用于智能设备唤醒的设备进行介绍。请参见图11所示，本申请实施例提供了一种用于智能设备唤醒的设备1100，该设备1100还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11，手机包括：射频(Radio Frequency，简称RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity，简称WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理***与处理器1180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1180还具有以下功能：

若满足，唤醒所述智能设备。

本申请实施例还提供一种服务器，请参见图12所示，图12为本申请实施例提供的服务器1200的结构图，服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作***1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

本申请实施例还提供了一种用于智能设备的唤醒词更新的设备，下面结合附图对用于智能设备的唤醒词更新的设备进行介绍。请参见图13所示，本申请实施例提供了一种用于智能设备的唤醒词更新的设备1300，该设备1300还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，简称RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(wireless fidelity，简称WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1341。进一步的，触控面板1331可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理***与处理器1380逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

在本实施例中，该终端设备所包括的处理器1380还具有以下功能：

获取智能设备发送的待更新唤醒词的文本特征；

根据所述文本特征生成所述待更新唤醒词的音频数据；

向所述智能设备返回所述声学特征序列。

本申请实施例还提供一种服务器，请参见图14所示，图14为本申请实施例提供的服务器1400的结构图，服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的智能设备唤醒方法以及智能设备的唤醒词更新方法中的任意一种实施方式。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种智能设备唤醒方法，其特征在于，所述方法包括：

若满足，唤醒所述智能设备。

2.根据权利要求1所述的方法，其特征在于，所述根据所述唤醒词的声学特征序列确定所述待定特征序列是否满足唤醒条件，包括：

确定所述唤醒词的声学特征序列和所述待定特征序列间的相似程度；

根据所述相似程度确定是否满足所述唤醒条件。

3.根据权利要求1所述的方法，其特征在于，所述待定特征序列中声学特征的数量是根据所述唤醒词的长度确定的。

4.根据权利要求1-3所述的方法，其特征在于，所述待识别音频数据的声学特征是通过声学模型确定的，其中，所述声学特征为所述声学模型的隐含层的输出特征。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过对所述智能设备进行唤醒词更新，将待更新唤醒词作为所述智能设备对应的唤醒词，其中，所述唤醒词更新包括：

获取所述待更新唤醒词的文本特征；

获取所述文本特征生成所述待更新唤醒词的音频数据；

根据所述音频数据确定所述待更新唤醒词的声学特征序列。

6.根据权利要求5所述的方法，其特征在于，所述待识别音频数据的声学特征是通过声学模型确定的，所述根据所述音频数据确定所述待更新唤醒词的声学特征序列，包括：

7.根据权利要求6所述的方法，其特征在于，所述待更新唤醒词的音频数据包括多个，所述根据所述音频数据，通过所述声学模型确定所述待更新唤醒词的声学特征序列，包括：

根据多个所述音频数据，通过所述声学模型确定多个所述音频数据分别对应的初级声学特征序列；

根据多个所述初级声学特征序列，确定所述待更新唤醒词的声学特征序列。

8.根据权利要求5-7任意一项所述的方法，其特征在于，验证所述待识别音频数据是否包含所述唤醒词是通过解码网络确定的，所述唤醒词更新还包括根据所述待更新唤醒词更新所述解码网络。

9.一种智能设备唤醒装置，其特征在于，所述装置包括第一确定单元、第二确定单元、第三确定单元、唤醒单元：

10.一种智能设备的唤醒词更新方法，其特征在于，所述方法包括：

获取智能设备发送的待更新唤醒词的文本特征；

根据所述文本特征生成所述待更新唤醒词的音频数据；

向所述智能设备返回所述声学特征序列。

11.根据权利要求10所述的方法，其特征在于，所述根据所述音频数据确定所述待更新唤醒词的声学特征序列，包括：

根据所述音频数据，通过声学模型确定所述待更新唤醒词的声学特征序列；所述声学模型与所述智能设备在验证待识别音频数据是否包含智能设备所对应唤醒词的过程中所使用的声学模型相同。

12.根据权利要求11所述的方法，其特征在于，所述待更新唤醒词的音频数据包括多个，所述根据所述音频数据，通过声学模型确定所述待更新唤醒词的声学特征序列，包括：

13.一种智能设备的唤醒词更新装置，其特征在于，所述装置包括获取单元、生成单元、确定单元和返回单元：

14.一种用于智能设备唤醒的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的智能设备唤醒的方法。

15.一种用于智能设备的唤醒词更新的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求10-12中任意一项所述的智能设备的唤醒词更新的方法。