CN106611597A

CN106611597A - 基于人工智能的语音唤醒方法和装置

Info

Publication number: CN106611597A
Application number: CN201611111477.2A
Authority: CN
Inventors: 唐立亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2017-05-03
Anticipated expiration: 2036-12-02
Also published as: US10332507B2; US20180158449A1; CN106611597B

Abstract

本发明提出一种基于人工智能的语音唤醒方法和装置，其中，该语音唤醒方法，包括：获取自定义唤醒词对应的发音信息；获取所述发音信息对应的近似发音信息；根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络，以根据所述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。本发明的实施例，能够针对不同的自定义唤醒动态构建唤醒词识别网络，有效提升唤醒的正确率，并降低误报率，能够提升唤醒效率，内存占用更小，功耗低。

Description

基于人工智能的语音唤醒方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种基于人工智能的语音唤醒方法和装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。

语音唤醒技术是语音识别技术中重要分支，目前在车载，导航，智能家居等方面有着重要的应用，用于通过声音启动程序或者服务，解放双手。目前，为了满足用户的个性化需求，语音唤醒技术可支持用户根据自身的喜好和习惯定制唤醒词，具体的，可根据以下几种方式基于用户自定义唤醒词进行语音唤醒：

方式一当用户定义唤醒词时，由技术人员根据用户自定义唤醒词重新开发或者修改唤醒程序，然后用户进行下载使用，人脸成本高、耗费时间周期较长；

方式二将原唤醒网络中的唤醒词直接替换为用户自定义唤醒词，但是，这种针对所有唤醒词均采用相同的识别策略，因此存在唤醒正确率较低、误报率较高的问题。

方式三通过通用的语音识别模块对用户输入的语音进行识别，以判断用户输入的语音是否包含唤醒词，然而，通用的语音识别模型功耗较大，比较费电，而唤醒技术要求实时监听，因此，此种方式会导致设备电量消耗较大，不利于本地化的唤醒技术使用。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种基于人工智能的语音唤醒方法，能够有效提升唤醒的正确率，并降低误报率，提升唤醒效率，功耗低。

本发明的第二个目的在于提出一种基于人工智能的语音唤醒装置。

为达上述目的，根据本发明第一方面实施例提出了一种基于人工智能的语音唤醒方法，包括以下步骤：获取自定义唤醒词对应的发音信息；获取所述发音信息对应的近似发音信息；根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络，以根据所述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

本发明第二方面实施例提出了一种基于人工智能的语音唤醒装置，包括：第一获取模块，用于获取自定义唤醒词对应的发音信息；第二获取模块，用于获取所述发音信息对应的近似发音信息；第一构建模块，用于根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络；唤醒模块，用于根据所述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

本发明实施例的基于人工智能的语音唤醒方法和装置，通过获取用户自定义唤醒词对应的发音信息及其近似发音信息，并根据预设的垃圾词列表、自定义唤醒词的发音信息及其近似发音信息唤醒构建唤醒词识别网络，以对用户输入的语音进行识别唤醒，能够针对不同的自定义唤醒动态构建唤醒词识别网络，根据该唤醒词识别网络得到的识别结果进行唤醒，相对于使用通用的唤醒词网络，能够有效提升唤醒的正确率，在构建唤醒词识别网络时，增加了唤醒词发音的近似发音，进一步提升了唤醒的准确率，并降低误报率。此外，上述过程为全自动化，无需人工干预，降低了唤醒成本低，且唤醒速度快，提升唤醒效率，利于唤醒技术的推广和铺开；另外，相对于使用语言模型进行识别唤醒的方法，本发明实施例使用垃圾词列表的唤醒词识别网络代替了语言模型，内存占用更小，同时减少硬盘占用，使得用户可以在随身携带的嵌入式设备上使用并优化，功耗低。

本发明第三方面实施例提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取自定义唤醒词对应的发音信息；

获取所述发音信息对应的近似发音信息；

根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络，以根据所述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器被执行时，使得电子设备能够执行一种基于人工智能的语音唤醒方法，所述方法包括：

获取自定义唤醒词对应的发音信息；

获取所述发音信息对应的近似发音信息；

本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种语音唤醒方法，所述方法包括：

获取自定义唤醒词对应的发音信息；

获取所述发音信息对应的近似发音信息；

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于人工智能的语音唤醒方法的流程图；

图2为根据本发明另一个实施例的基于人工智能的语音唤醒方法的流程图；

图3为根据本发明一个实施例的唤醒词识别网络的示意图；

图4为根据本发明另一个实施例的基于人工智能的语音唤醒方法的流程图；

图5为根据本发明另一个实施例的基于人工智能的语音唤醒方法的流程图；

图6为根据本发明另一个实施例的基于人工智能的语音唤醒方法的流程图；

图7为根据本发明一个实施例的基于人工智能的语音唤醒装置的结构示意图；

图8为根据本发明另一个实施例的基于人工智能的语音唤醒装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面参考附图描述根据本发明实施例的基于人工智能的语音唤醒方法和装置。

图1为根据本发明一个实施例的基于人工智能的语音唤醒方法的流程图。

如图1所示，根据本发明实施例的基于人工智能的语音唤醒方法，包括：

S101，获取自定义唤醒词对应的发音信息。

其中，自定义唤醒词对应的发音信息为自定义唤醒词音节组成结构。可根据用户输入的自定义唤醒词文本查找对应的发音信息，或者根据用户输入的自定义唤醒词语音匹配对应的发音信息。

举例来说，如果用户定义的自定义唤醒词为“小都你好”，则对应的发音信息为“xiao du ni hao”。

S102，获取所述发音信息对应的近似发音信息。

自定义唤醒词的发音信息对应的近似发音信息可以是由与唤醒词对应的每个发音音节的近似音节组成的发音信息。

具体而言，可根据自定义唤醒词的发音信息中每个音节分别查找预先建立的近似发音库，得到与自定义唤醒词的各个音节具有相近发音的音节，得到近似发音信息。

举例来说，音节“jiao”和音节“xiao”的发音类似，则在近似发音库中，音节“jiao”在音节“xiao”对应的近似发音信息集合Near_xiao中。

进而，对于自定义唤醒词的发音信息中每个音节，可分别查找对应的近似发音信息集合，得到自定义唤醒词的发音信息对应的近似发音信息。

S103，根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络，以根据所述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

其中，垃圾词列表可以是预先生成的，可记为Garbage。具体而言，可根据音素库中的所有音素(可用phone表示)并联成解码器。向该解码器输入海量语音，从输出结果中选取输出次数最多的若干个结果，作为垃圾词列表。

在本发明的一个实施例中，可通过图2所示的步骤构建唤醒词识别网络，如图2所示，包括步骤S201-S202。

S201，根据所述垃圾词列表和所述自定义唤醒词中预设词语的发音信息生成第一发音信息。

其中，预设词语可以是位于自定义唤醒词中预设位置的词语，例如，位于自定义唤醒词开头的词语，或者位于自定义唤醒词结尾的词语，可根据实际需要进行设置。

举例来说，对于自定义唤醒词“小都你好”，如果预设词语为位于自定义唤醒词开头的词语“小都”，则根据“小都”的发音信息和垃圾词列表可生成第一发音信息“xiao du+Garbage”。

S202，根据所述垃圾词列表、所述自定义唤醒的发音信息、所述第一发音信息和所述近似发音信息构建所述唤醒词识别网络。

举例来说，对于自定义唤醒词“小都你好”，其对应的发音信息为“xiao du nihao”，相应的进行发音信息为“Near_xiao Near_du Near_ni Near_hao”，将这两个发音信息、垃圾词列表和第一发音信息“xiao du+Garbage”进行并联，可得到如图3所示的唤醒词识别网络。

如图3所示，在该唤醒词识别网络中，是针对每个自定义唤醒词进行优化后得到的，且可根据用户输入的自定义唤醒词自动构建完成，无需专业技术人员进行干预和定制，从而能够在提升唤醒准确率的同时，降低唤醒成本。

本发明实施例在建立的唤醒词识别网络时，通过加入自定义唤醒词对应的近似发音，能够对用户在发音偏差的情况下也能唤醒***，例如，如果用户输入的语音为自定义唤醒词的发音“xiao du ni hao”的近似发音“jiao du ni hao”，则根据本发明实施例的唤醒词识别网络，仍可将其为能够唤醒***的识别结果，进行执行唤醒操作。

此外，本发明实施例在建立的唤醒词识别网络时，还增加了由垃圾词列表和自定义唤醒词中预设词语的发音信息组成的第一发音信息，从而，能够在识别用户输入的语音时，根据第一发音信息组成的路径控制误报率。

进而，可根据上述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

具体而言，可使用现有的任意方法根据上述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。例如，提取用户输入的语音的声学特征，根据预设的声学模型对该声学特征进行分析，得到多个状态的似然得分，根据得到的似然得分基于维特比算法从该唤醒词识别网络中选择最优路径，作为识别结果。然后，计算识别结果的置信度，如果大于第一预设置信度，则执行唤醒操作，否则拒绝唤醒操作。

或者，还可以通过后续实施例中的方法根据上述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。具体可参加图4-图5所示实施例。

根据本发明实施例的基于人工智能的语音唤醒方法，通过获取用户自定义唤醒词对应的发音信息及其近似发音信息，并根据预设的垃圾词列表、自定义唤醒词的发音信息及其近似发音信息唤醒构建唤醒词识别网络，以对用户输入的语音进行识别唤醒，能够针对不同的自定义唤醒动态构建唤醒词识别网络，根据该唤醒词识别网络得到的识别结果进行唤醒，相对于使用通用的唤醒词网络，能够有效提升唤醒的正确率，在构建唤醒词识别网络时，增加了唤醒词发音的近似发音，进一步提升了唤醒的准确率，并降低误报率。此外，上述过程为全自动化，无需人工干预，降低了唤醒成本低，且唤醒速度快，提升唤醒效率，利于唤醒技术的推广和铺开；另外，相对于使用语言模型进行识别唤醒的方法，本发明实施例使用垃圾词列表的唤醒词识别网络代替了语言模型，内存占用更小，同时减少硬盘占用，使得用户可以在随身携带的嵌入式设备上使用并优化，功耗低。

图4为根据本发明另一个实施例的基于人工智能的语音唤醒方法的流程图。

如图4所示，本发明实施例的基于人工智能的语音唤醒方法，包括以下步骤S401-S409。

其中，步骤S401-S402与图1所示实施例中的步骤S101-S102相同。

S403，根据所述自定义唤醒词构建线性识别网络。

具体而言，可根据自定义唤醒词对应的各个音素分别查询预设的状态表，得到各个音素对应的状态，并组成自定义唤醒对应的状态信息序列。然后根据该状态信息序列构建线性识别网络。

举例来说，如果用户定义的自定义唤醒词为“小都你好”，对应的发音信息为“xiaodu ni hao”，进而，可得到对应的音素为“x i ao d u n I h ao”，可通过查询预设的状态表，得到自定义唤醒词对应的状态信息序列S1，S2……S27。进而，构建线性识别网络sil，S1，S2……S27。其中，sil表示静音状态。

S404，利用所述自定义唤醒词的示例语音在所述线性解码网络上做强制对齐，得到所述线性解码网络对应的似然得分总和。

其中，自定义唤醒词的示例语音为与自定义唤醒词对应的标准语音，可根据自定义唤醒词中的词语查询预设的语音数据库得到。

具体而言，可将示例语音对应的状态与线性解码网络进行强制对齐，得到线性解码网络中各个状态的似然得分，进而，可计算各个状态的似然得分总和，即为SumFA。

S405，根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络。

在本发明的一个实施例中，可通过图2所示的步骤构建唤醒词识别网络。

需要说明的是，在本发明的实施例中，步骤S405也可在步骤S403-S404之前执行，本发明对此不做限定。

在根据用户设定的自定义唤醒词构建唤醒词识别网络后，可加载该唤醒词识别网络。从而，当接收到用户输入的语音时，根据该唤醒词识别网络和预设的声学模型对该语音进行识别。

S406，提取所述语音的声学特征。

具体而言，可将用户输入的语音切分为多个语音帧，并提取每个语音帧中的声学特征。其中，声学特征可以是40维的FilterBank特征，也可以是13维的MFCC(Mel FrequencyCepstral Coefficent，梅尔频率倒谱系数)特征。

S407，根据预设的声学模型对所述声学特征进行分析，得到所述语音对应的N个状态及所述N个状态的似然得分，其中，N为正整数。

其中，声学模型可为预先建立的。举例来说，声学模型可为卷积神经网络模型、深度神经网络模型等。

具体而言，声学特征为一个向量，在本发明的实施例中，可将声学特征向量与声学模型的矩阵相乘，得到状态的似然得分向量。其中，似然得分向量中的每个元素表示一个状态的似然得分。举例来说，得到的似然得分向量可为D₁，D₂，……D_N，其中，D_i为第i个状态的似然得分。

S408，如果第i个状态属于所述自定义唤醒词对应的状态集合，则根据所述似然得分总和对所述第i个状态的似然得分进行修正，其中，i为不大于N的正整数。

具体而言，如果第i个状态属于所述自定义唤醒词对应的状态集合，则可通过以下公司对第i个状态的似然得分进行修正：

D_i’＝D_i+SumFA/k1，

其中，D_i’为第i个状态修正后的似然得分，D_i为第i个状态修正前的似然得分，SumFA为自定义唤醒词对应的线性解码网络的似然得分总和，k1为预设的第一修正参数。

由此，使用自定义唤醒词对应的线性解码网络的似然得分总和，对属于自定义唤醒词对应的状态集合的状态的似然得分进行修正，即提高其似然得分，降低非唤醒词的影响，由此，能够在后续识别过程中得到更加准确的识别结果，进而提升语音唤醒的准确性。

S409，根据所述N个状态修正后的似然得分，基于所述唤醒词识别网络，采用维特比算法对所述语音进行识别。

其中，基于所述唤醒词识别网络，采用维特比算法对所述语音进行识别的过程，即根据N个状态修正后的似然得分，在上述唤醒词识别网络中寻找最优路径的过程，并将最优路径作为识别结果。

由此，可通过上述步骤S406-S409实现根据所述唤醒词识别网络对用户输入的语音进行识别。

S410，根据识别结果确定是否执行唤醒操作。

在本发明的一个实施例中，可通过判断识别结果的置信度是否大于预设阈值，如果大于预设阈值，则执行唤醒操作，否则，拒绝执行唤醒操作。

在本发明的另一个实施例中，在根据所述唤醒词识别网络对用户输入的语音进行识别之前，还可包括：获取所述自定义唤醒词的文本长度信息，并获取所述自定义唤醒词的发音得分。根据所述文本长度信息、所述发音得分和所述似然得分总和，对预设的第一置信度阈值进行调整，得到第二置信度阈值。从而，可根据调整得到的第二置信度阈值判断是否执行唤醒操作。

具体而言，根据识别结果确定是否执行唤醒操作，可包括以下步骤：获取所述识别结果的置信度；如果所述置信度大于所述第二置信度阈值，则执行唤醒操作；如果所述置信度不大于所述第二置信度阈值，则拒绝执行唤醒操作。

其中，自定义唤醒词的发音得分包括自定义唤醒词的各个因素的发音得分，可通过查询预设的唤醒词概率分布表得到。

根据本发明实施例的基于人工智能的语音唤醒方法，根据用户自定义唤醒词对应的发音信息及其近似发音信息和预设的垃圾词列表构建唤醒词识别网络，使用该唤醒词识别网对用户输入的语音进行识别唤醒，并可对识别过程中所使用的该语音对应的声学特征模型得分进行修正，能够有效提升唤醒的正确率，并降低误报率。此外，上述过程为全自动化，无需人工干预，降低了唤醒成本低，且唤醒速度快，提升唤醒效率，利于唤醒技术的推广和铺开；另外，相对于使用语言模型进行识别唤醒的方法，本发明实施例使用垃圾词列表的唤醒词识别网络代替了语言模型，内存占用更小，同时减少硬盘占用，使得用户可以在随身携带的嵌入式设备上使用并优化，功耗低。

图5为根据本发明另一个实施例的基于人工智能的语音唤醒方法的流程图。

如图5所示，本发明实施例的基于人工智能的语音唤醒方法，包括以下步骤S501-S516。

如图5所示，其中，步骤S501-S504与图4所示实施例中步骤S401-S404相同，步骤S509-S512与图4所示实施例中步骤S405-S408。

此外，在根据所述唤醒词识别网络对用户输入的语音进行识别之前，还可包括步骤S505-S506：

S505根据所述自定义唤醒词的发音信息确定所述自定义唤醒词对应的音素数量。

举例来说，对于用户定义的自定义唤醒词为“小都你好”，对应的发音信息为“xiaodu ni hao”，进而，可得到对应的音素数量LengthPhone为9(x i ao d u n I h ao共九个)。

S506，根据所述音素数量对预设的语音识别过程中使用的第一活跃路径数量进行调整，得到第二活跃路径数量。

具体而言，可通过以下公式对第一活跃路径数量进行调整：

T’＝T+LengthPhone*k2。

其中，T’为第二活跃路径数据，T为第一活跃路径数量，LengthPhone为自定义唤醒词对应的音素数量，k2为预设的第二修正系数。

其中，第一活跃路径数量可以是默认值，例如，唤醒***当前使用的活跃路径数量，或者初始活跃路径数量。

由此，可根据自定义唤醒词对应的音素数量动态对寻找最优路径过程中使用的活跃路径数量进行调整，相对于对于所有唤醒词都使用相同的活跃路径数量的方案，通过简单方便的实现方式，可针对不同的自定义唤醒词设置不同的活跃路径数量，能够使得唤醒识别结果能够达到定制的水准，有效提升唤醒准确性和效率，且能够有效降低开发难度和功耗。

S507，获取所述自定义唤醒词的文本长度信息，并获取所述自定义唤醒词的发音得分。

在本发明的实施例中，查询预先建立的唤醒词概率分布表，得到所述自定义唤醒词对应的各个音节的发音得分。

举例来说，对于用户定义的自定义唤醒词为“小都你好”，可计算得到对应的文本长度信息LengthTxt为4；其对应的四个发音信息“xiao”、“du”、“ni”和“hao”，可通过查询唤醒词概率分布表，分别得到对应的发音得分WScore(xiao)、WScore(du)、WScore(ni)和WScore(hao)。自定义唤醒词的发音得分为其各个发音信息(音节)的发音得分总和，即WScore＝WScore(xiao)+WScore(du)+WScore(ni)+WScore(hao)。

S508，根据所述文本长度信息、所述发音得分和所述似然得分总和，对预设的第一置信度阈值进行调整，得到第二置信度阈值。

具体而言，可通过一下公式对第一置信度进行调整，得到第二置信度：

ThresNew＝ThresO+WScore*LengthTxt+SumFA/k3，

其中，ThresNew为第二置信度，ThresO为第一置信度，WScore为自定义唤醒词的发音得分，LengthTxt为自定义唤醒词对应的文本长度信息，SumFA为自定义唤醒词对应的线性解码网络的似然得分总和，k3为预设的第三修正系数。

由此，可根据自定义唤醒词对应的文本长度信息、所述发音得分和所述似然得分总和对置信度阈值进行调整，相对于对于所有唤醒词都使用相同的置信度阈值的方案，通过简单方便的实现方式，可针对不同的自定义唤醒词设置不同的置信度阈值，从而能够使得唤醒识别结果能够达到定制的水准，有效提升唤醒准确性和效率，且能够有效降低开发难度和功耗。

其中，对步骤S503-S504、步骤S505-S506、步骤S507-S508和步骤S509四者之间的前后顺序不做限定，可任意调整。

S513，根据所述N个状态修正后的似然得分和所述第二活跃路径数量，从所述唤醒词识别网络中选取最优识别路径，得到所述语音的识别结果。

S514，获取所述识别结果的置信度。

需要说明的是，可使用任意可选的方法获取识别结果的置信度。

举例来说，可计算唤醒词识别网络中所有活动节点的声学特征得分的第一平均值，然后计算唤醒词识别网络中唤醒词对应的Y个节点的声学特征得分的第二平均值，最后根据第一平均值和第二平均值计算识别结果的置信度。

或者，还可根据预设的模型计算识别结果的置信度。该预设模型可以是filler模型。其中，filler模型是所有语音信息的聚类，也就是说filler模型包含所有语音信息的声学特征。具体地，可计算每个语音帧在filler模型中的似然得分，然后用语音帧的声学模型得分减去该语音帧的似然得分获得两者的差值，最后求多个语音帧差值的平均值，该平均值为置信度。

S515，如果所述置信度大于所述第二置信度阈值，则执行唤醒操作。

S516，如果所述置信度不大于所述第二置信度阈值，则拒绝执行唤醒操作。

本发明实施例的基于人工智能的语音唤醒方法，根据用户自定义唤醒词对应的发音信息及其近似发音信息和预设的垃圾词列表构建唤醒词识别网络，使用该唤醒词识别网对用户输入的语音进行识别唤醒，并可对识别过程中所使用的该语音对应的声学特征模型得分、活跃路径数量和置信度阈值进行修正，能够有效提升唤醒的正确率，并降低误报率。此外，上述过程为全自动化，无需人工干预，降低了唤醒成本低，且唤醒速度快，提升唤醒效率，利于唤醒技术的推广和铺开；另外，相对于使用语言模型进行识别唤醒的方法，本发明实施例使用垃圾词列表的唤醒词识别网络代替了语言模型，内存占用更小，同时减少硬盘占用，使得用户可以在随身携带的嵌入式设备上使用并优化，功耗低。

在本发明的一个实施例中，图5所示实施例中步骤S507中所使用的用于查询各个音节的唤醒概率得分的唤醒词概率分布表，旨在统计唤醒词的唤醒成功率，误报率等信息，以用于分析唤醒词的好坏，唤醒成功率等信息。唤醒词概率分布表可通过如图6所示的步骤建立。

S601，对于每个音节，统计字库中发音包括所述音节的字符的第一数量，并统计预设文本数据集合中发音包括所述音节的字符的第二数量，并统计与所述音节具有相似发音的音节的第三数量。

以汉字为例，字库为包含所有汉字的数据库；预设文本数据集可为预先收集的海量文本数据。

举例来说，对于音节“xiao”来说，第一数量为在汉字字库中发音包括该音节的汉字(如小、笑、晓、校等)的数量，可记录为Cxiao；第二数量为在海量文本数据中发音包括该音节的汉字的数量，可记录为Dxiao。第三数量为在所有音节中与音节“xiao”发音相近的音节数量，可记录为Exiao。

具体而言，在统计音节“xiao”的相近的音节数量时，可首先分别列举出所有音节对应的状态序列然后，根据每个音节对应的状态序列与音节“xiao”对应的状态序列计算相应音节与音节“xiao”的差异度(可用Mxiao表示)。如果一个音节与音节“xiao”的差异度Mxiao小于预设差异值，则可确定该音节与音节“xiao”发音相近，从而可统计所有与音节“xiao”的差异度Mxiao小于预设差异值的音节的数量，并作为第三数量Exiao

其中，音节之间的差异度可通过音节对应的状态差的平方和来表示。例如，“xiao”对应的状态序列为Sxiao1，Sxiao2……，Sxiao9，“hao”对应的状态序列为Shao1，Shao2，……，Shao6，则音节“hao”与“xiao”的差异度Mxiao为：

Mxiao＝(Sxiao1-Shao1)²+(Sxiao2-Shao2)²+……+(Sxiao6-Shao6)²+(Sxiao7)²+(Sxiao8)²+(Sxiao9)²。

S602，根据每个音节对应的所述第一数量、所述第二数量和所述第三数量计算相应音节的唤醒词概率发音得分，建立所述唤醒词概率分布表。

具体而言，可对每个音节对应的第一数量、第二数量和第三数量进行加权求和，得到该音节的唤醒词概率发音得分。

例如，可通过以下公式计算音节“xiao”唤醒词概率发音得分WScore(xiao)：

WScore(xiao)＝h1*Cxiao+h2*Dxiao+h3*Exiao，

其中，h1、h2和h3为预设的权重值。

由此，在得到各个音节对应的唤醒词概率发音得分后，即完成唤醒词概率分布表的建立。后续可根据对应的音节在该唤醒词概率分布表中查找相应的唤醒词概率发音得分。

为了实现上述实施例，本发明还提出一种基于人工智能的语音唤醒装置。

图7为根据本发明一个实施例的基于人工智能的语音唤醒装置的结构示意图。

如图7所示，根据本发明实施例的基于人工智能的语音唤醒装置，包括：第一获取模块10、第二获取模块20、第一构建模块30和唤醒模块40。

具体地，第一获取模块10用于获取自定义唤醒词对应的发音信息。

其中，自定义唤醒词对应的发音信息为自定义唤醒词音节组成结构。第一获取模块10可根据用户输入的自定义唤醒词文本查找对应的发音信息，或者根据用户输入的自定义唤醒词语音匹配对应的发音信息。

第二获取模块20用于获取所述发音信息对应的近似发音信息。

具体而言，第二获取模块20可根据自定义唤醒词的发音信息中每个音节分别查找预先建立的近似发音库，得到与自定义唤醒词的各个音节具有相近发音的音节，得到近似发音信息。

第一构建模块30用于根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络。

在本发明的一个实施例中，第一构建模块30可用于：根据所述垃圾词列表和所述自定义唤醒词中预设词语的发音信息生成第一发音信息；根据所述垃圾词列表、所述自定义唤醒的发音信息、所述第一发音信息和所述近似发音信息构建所述唤醒词识别网络。

举例来说，对于自定义唤醒词“小都你好”，如果预设词语为位于自定义唤醒词开头的词语“小都”，则根据“小都”的发音信息和垃圾词列表可生成第一发音信息“xiao du+Garbage”。自定义唤醒词“小都你好”，对应的发音信息为“xiao du ni hao”，相应的进行发音信息为“Near_xiao Near_du Near_ni Near_hao”，将这两个发音信息、垃圾词列表和第一发音信息“xiao du+Garbage”进行并联，可得到如图3所示的唤醒词识别网络。

进而，唤醒模块40可根据上述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

具体而言，唤醒模块40可使用现有的任意方法根据上述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。例如，提取用户输入的语音的声学特征，根据预设的声学模型对该声学特征进行分析，得到多个状态的似然得分，根据得到的似然得分基于维特比算法从该唤醒词识别网络中选择最优路径，作为识别结果。然后，计算识别结果的置信度，如果大于第一预设置信度，则执行唤醒操作，否则拒绝唤醒操作。

或者，唤醒模块40还可以通过后续实施例中根据上述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

根据本发明实施例的基于人工智能的语音唤醒装置，通过获取用户自定义唤醒词对应的发音信息及其近似发音信息，并根据预设的垃圾词列表、自定义唤醒词的发音信息及其近似发音信息唤醒构建唤醒词识别网络，以对用户输入的语音进行识别唤醒，能够针对不同的自定义唤醒动态构建唤醒词识别网络，根据该唤醒词识别网络得到的识别结果进行唤醒，相对于使用通用的唤醒词网络，能够有效提升唤醒的正确率，在构建唤醒词识别网络时，增加了唤醒词发音的近似发音，进一步提升了唤醒的准确率，并降低误报率。此外，上述过程为全自动化，无需人工干预，降低了唤醒成本低，且唤醒速度快，提升唤醒效率，利于唤醒技术的推广和铺开；另外，相对于使用语言模型进行识别唤醒的方法，本发明实施例使用垃圾词列表的唤醒词识别网络代替了语言模型，内存占用更小，同时减少硬盘占用，使得用户可以在随身携带的嵌入式设备上使用并优化，功耗低。

如图8所示，根据本发明实施例的基于人工智能的语音唤醒装置，包括：第一获取模块10、第二获取模块20、第一构建模块30、唤醒模块40、第二构建模块50、对齐模块60、确定模块70、第一调整模块80、第三获取模块90、第二调整模块100和建立模块110。

其中，第一获取模块10、第二获取模块20和第一构建模块30与图7所示实施例中相同。

第二构建模块50用于根据所述自定义唤醒词构建线性识别网络。

具体而言，第二构建模块50可根据自定义唤醒词对应的各个音素分别查询预设的状态表，得到各个音素对应的状态，并组成自定义唤醒对应的状态信息序列。然后根据该状态信息序列构建线性识别网络。

对齐模块60用于利用所述自定义唤醒词的示例语音在所述线性解码网络上做强制对齐，得到所述线性解码网络对应的似然得分总和。

具体而言，对齐模块60可将示例语音对应的状态与线性解码网络进行强制对齐，得到线性解码网络中各个状态的似然得分，进而，可计算各个状态的似然得分总和，即为SumFA。

确定模块70用于根据所述自定义唤醒词的发音信息确定所述自定义唤醒词对应的音素数量。

第一调整模块80用于根据所述音素数量对预设的语音识别过程中使用的第一活跃路径数量进行调整，得到第二活跃路径数量。

具体而言，可通过以下公式对第一活跃路径数量进行调整：

T’＝T+LengthPhone*k2。

第三获取模块90用于获取所述自定义唤醒词的文本长度信息，并获取所述自定义唤醒词的发音得分。

在本发明的实施例中，第三获取模块90可用于查询预先建立的唤醒词概率分布表，得到所述自定义唤醒词对应的各个音节的发音得分。

第二调整模块100用于根据所述文本长度信息、所述发音得分和所述似然得分总和，对预设的第一置信度阈值进行调整，得到第二置信度阈值。

ThresNew＝ThresO+WScore*LengthTxt+SumFA/k3，

唤醒模块40可进一步包括：提取单元41、分析单元42、修正单元43和识别单元44。

其中，提取单元41用于提取所述语音的声学特征。

具体而言，提取单元41可将用户输入的语音切分为多个语音帧，并提取每个语音帧中的声学特征。其中，声学特征可以是40维的FilterBank特征，也可以是13维的MFCC(MelFrequency Cepstral Coefficent，梅尔频率倒谱系数)特征。

分析单元42用于根据预设的声学模型对所述声学特征进行分析，得到所述语音对应的N个状态及所述N个状态的似然得分，其中，N为正整数。

具体而言，声学特征为一个向量，在本发明的实施例中，分析单元42可将声学特征向量与声学模型的矩阵相乘，得到状态的似然得分向量。其中，似然得分向量中的每个元素表示一个状态的似然得分。举例来说，得到的似然得分向量可为D₁，D₂，……D_N，其中，D_i为第i个状态的似然得分。

修正单元43用于如果第i个状态属于所述自定义唤醒词对应的状态集合，则根据所述似然得分总和对所述第i个状态的似然得分进行修正，其中，i为不大于N的正整数。

D_i’＝D_i+SumFA/k1，

识别单元44用于根据所述N个状态修正后的似然得分，基于所述唤醒词识别网络，采用维特比算法对所述语音进行识别。

具体而言，在本发明的一个实施例中，识别单元44可用于：根据所述N个状态修正后的似然得分和所述第二活跃路径数量，从所述唤醒词识别网络中选取最优识别路径，得到所述语音的识别结果。

然后，唤醒模块40根据识别结果确定是否执行唤醒操作。具体而言，唤醒模块40可用于：获取所述识别结果的置信度；如果所述置信度大于所述第二置信度阈值，则执行唤醒操作；如果所述置信度不大于所述第二置信度阈值，则拒绝执行唤醒操作。

在本发明的一个实施例中，第三获取模块90所使用的用于查询各个音节的唤醒概率得分的唤醒词概率分布表，旨在统计唤醒词的唤醒成功率，误报率等信息，以用于分析唤醒词的好坏，唤醒成功率等信息。唤醒词概率分布表可由建立模块110建立。

建立模块110用于通过以下步骤建立所述唤醒词概率分布表：对于每个音节，统计字库中发音包括所述音节的字符的第一数量，并统计预设文本数据集合中发音包括所述音节的字符的第二数量，并统计与所述音节具有相似发音的音节的第三数量；根据每个音节对应的所述第一数量、所述第二数量和所述第三数量计算相应音节的唤醒词概率发音得分，建立所述唤醒词概率分布表。

具体实现，可参照图6所示实施例。

本发明实施例的基于人工智能的语音唤醒装置，根据用户自定义唤醒词对应的发音信息及其近似发音信息和预设的垃圾词列表构建唤醒词识别网络，使用该唤醒词识别网对用户输入的语音进行识别唤醒，并可对识别过程中所使用的该语音对应的声学特征模型得分、活跃路径数量和置信度阈值进行修正，能够有效提升唤醒的正确率，并降低误报率。此外，上述过程为全自动化，无需人工干预，降低了唤醒成本低，且唤醒速度快，提升唤醒效率，利于唤醒技术的推广和铺开；另外，相对于使用语言模型进行识别唤醒的方法，本发明实施例使用垃圾词列表的唤醒词识别网络代替了语言模型，内存占用更小，同时减少硬盘占用，使得用户可以在随身携带的嵌入式设备上使用并优化，功耗低。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音唤醒方法，其特征在于，包括以下步骤：

获取自定义唤醒词对应的发音信息；

获取所述发音信息对应的近似发音信息；

2.如权利要求1所述的方法，其特征在于，所述根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络，包括：

根据所述垃圾词列表和所述自定义唤醒词中预设词语的发音信息生成第一发音信息；

根据所述垃圾词列表、所述自定义唤醒的发音信息、所述第一发音信息和所述近似发音信息构建所述唤醒词识别网络。

3.如权利要求1所述的方法，其特征在于，在根据所述唤醒词识别网络对用户输入的语音进行识别之前，还包括：

根据所述自定义唤醒词构建线性识别网络；

利用所述自定义唤醒词的示例语音在所述线性解码网络上做强制对齐，得到所述线性解码网络对应的似然得分总和；

所述根据所述唤醒词识别网络对用户输入的语音进行识别，包括：

提取所述语音的声学特征；

根据预设的声学模型对所述声学特征进行分析，得到所述语音对应的N个状态及所述N个状态的似然得分，其中，N为正整数；

如果第i个状态属于所述自定义唤醒词对应的状态集合，则根据所述似然得分总和对所述第i个状态的似然得分进行修正，其中，i为不大于N的正整数；

根据所述N个状态修正后的似然得分，基于所述唤醒词识别网络，采用维特比算法对所述语音进行识别。

4.如权利要求3所述的方法，其特征在于，在根据所述唤醒词识别网络对用户输入的语音进行识别之前，还包括：

根据所述自定义唤醒词的发音信息确定所述自定义唤醒词对应的音素数量；

根据所述音素数量对预设的语音识别过程中使用的第一活跃路径数量进行调整，得到第二活跃路径数量；

所述根据所述N个状态修正后的似然得分，基于所述唤醒词识别网络，采用维特比算法对所述语音进行识别，包括：

根据所述N个状态修正后的似然得分和所述第二活跃路径数量，从所述唤醒词识别网络中选取最优识别路径，得到所述语音的识别结果。

5.如权利要求3或4所述的方法，其特征在于，在根据所述唤醒词识别网络对用户输入的语音进行识别之前，还包括：

获取所述自定义唤醒词的文本长度信息，并获取所述自定义唤醒词的发音得分；

根据所述文本长度信息、所述发音得分和所述似然得分总和，对预设的第一置信度阈值进行调整，得到第二置信度阈值；

所述根据识别结果确定是否执行唤醒操作，包括：

获取所述识别结果的置信度；

如果所述置信度大于所述第二置信度阈值，则执行唤醒操作；

如果所述置信度不大于所述第二置信度阈值，则拒绝执行唤醒操作。

6.如权利要求5所述的方法，其特征在于，所述获取所述自定义唤醒词的发音得分，包括：

查询预先建立的唤醒词概率分布表，得到所述自定义唤醒词对应的各个音节的发音得分。

7.如权利要求6所述的方法，其特征在于，所述唤醒词概率分布表通过以下步骤建立：

对于每个音节，统计字库中发音包括所述音节的字符的第一数量，并统计预设文本数据集合中发音包括所述音节的字符的第二数量，并统计与所述音节具有相似发音的音节的第三数量；

根据每个音节对应的所述第一数量、所述第二数量和所述第三数量计算相应音节的唤醒词概率发音得分，建立所述唤醒词概率分布表。

8.一种基于人工智能的语音唤醒装置，其特征在于，包括：

第一获取模块，用于获取自定义唤醒词对应的发音信息；

第二获取模块，用于获取所述发音信息对应的近似发音信息；

第一构建模块，用于根据预设的垃圾词列表、所述发音信息和所述近似发音信息构建唤醒词识别网络；

唤醒模块，用于根据所述唤醒词识别网络对用户输入的语音进行识别，并根据识别结果确定是否执行唤醒操作。

9.如权利要求8所述的装置，其特征在于，所述第一构建模块用于：

10.如权利要求8所述的装置，其特征在于，还包括：

第二构建模块，用于根据所述自定义唤醒词构建线性识别网络；

对齐模块，用于利用所述自定义唤醒词的示例语音在所述线性解码网络上做强制对齐，得到所述线性解码网络对应的似然得分总和；

唤醒模块包括：

提取单元，用于提取所述语音的声学特征；

分析单元，用于根据预设的声学模型对所述声学特征进行分析，得到所述语音对应的N个状态及所述N个状态的似然得分，其中，N为正整数；

修正单元，用于如果第i个状态属于所述自定义唤醒词对应的状态集合，则根据所述似然得分总和对所述第i个状态的似然得分进行修正，其中，i为不大于N的正整数；

识别单元，用于根据所述N个状态修正后的似然得分，基于所述唤醒词识别网络，采用维特比算法对所述语音进行识别。

11.如权利要求10所述的装置，其特征在于，还包括：

确定模块，用于根据所述自定义唤醒词的发音信息确定所述自定义唤醒词对应的音素数量；

第一调整模块，用于根据所述音素数量对预设的语音识别过程中使用的第一活跃路径数量进行调整，得到第二活跃路径数量；

所述识别单元用于：

12.如权利要求10或11所述的装置，其特征在于，还包括：

第三获取模块，用于获取所述自定义唤醒词的文本长度信息，并获取所述自定义唤醒词的发音得分；

第二调整模块，用于根据所述文本长度信息、所述发音得分和所述似然得分总和，对预设的第一置信度阈值进行调整，得到第二置信度阈值；

所述唤醒模块，用于：

获取所述识别结果的置信度；

13.如权利要求12所述的装置，其特征在于，所述第三获取模块用于：

14.如权利要求13所述的装置，其特征在于，还包括建立模块，用于通过以下步骤建立所述唤醒词概率分布表：