CN112331189A

CN112331189A - 一种低功耗的自定义唤醒词语音识别***及方法

Info

Publication number: CN112331189A
Application number: CN202011057902.0A
Authority: CN
Inventors: 刘玲; 欧阳鹏; 尹首一
Original assignee: Jiangsu Qingwei Intelligent Technology Co ltd
Current assignee: Jiangsu Qingwei Intelligent Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-02-05

Abstract

本发明公开一种低功耗的自定义唤醒词语音识别***及方法，属于自定义语音唤醒识别技术领域。包括：语音数据采集模块、声学特征提取模块、唤醒词检测模块、自定义唤醒词模块、预置字典模块、发音字典生成器、字典生成器、语言模型生成器、解码图生成器、深度学习模型、通用声学模型和解码器。当设备需要自定义唤醒词时，通过自定义唤醒词模块接收唤醒词后输出自定义唤醒词表，通过解码图生成器生成静态解码图，通过解码器将静态解码图和通用声学模型解码判断是否含有激活词。本发明解决了现有技术中唤醒词需要海量的数据作为训练数据，且无法满足用户个性化需求的问题。

Description

一种低功耗的自定义唤醒词语音识别***及方法

技术领域

本发明属于自定义语音唤醒识别技术领域，尤其涉及一种低功耗的自定义唤醒词语音识别***及方法。

背景技术

现有的智能音箱，在待机状态下，以较低的功耗持续监听周围的环境，用户通过唤醒词能够将设备从休眠状态中唤醒，并作出指定响应。但当不同设备是一个唤醒词时，一个唤醒词便能够同时唤醒多个设备，对用户的使用造成了极大的不便。

唤醒词往往需要大量的训练数据才可以生成有效的模型，保证唤醒率。现有的静态解码存在的内存占用率较大的问题，无法用于芯片这种对内存要求比较高的场景。

发明内容

本发明的目的是提供一种低功耗的自定义唤醒词语音识别***及方法，以解决现有技术中唤醒词需要海量的数据作为训练数据，且无法满足用户个性化需求的问题。

为了实现上述目的，本发明提供如下技术方案：

一种低功耗的自定义唤醒词语音识别方法，包括：

S101，一个语音数据采集模块，通过语音数据采集模块采集操作人员发出的唤醒词。

S102，一个声学特征提取模块，其配置为能够接收语音数据采集模块采集的唤醒词，通过声学特征提取模块提取唤醒词的特征信息。

S103，一个唤醒词检测模块，其能够接收特征信息，根据特征信息判断唤醒词是否是自定义唤醒词。若是，则输出唤醒词。

S104，一个自定义唤醒词模块，其能够接收唤醒词，自定义唤醒词模块能够输出自定义唤醒词表。

S105，一个预置字典模块。

S106，一个发音字典生成器，其能够接收接收自定义唤醒词表，发音字典生成器能够根据接收到的自定义唤醒词表和预置字典模块生成一个发音字典。

S107，一个字典生成器，其配置为接收发音字典，字典生成器能够根据发音字典生成一个字典。

S108，一个语言模型生成器，其配置为能够接收字典生成器输出的新字典。语言模型生成器能够根据字典生成一个语言模型。

S109，一个解码图生成器，其配置为能够接收语言模型和发音字典。解码图生成器接收语言模型和发音字典能够生成一个静态解码图。

S110，一个通用声学模型。

S111，一个解码器，其能够接收静态解码图和通用声学模型，解码器能够将接收到的静态解码图和通用声学模型解码，并判断语音数据是否含有激活词。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，若唤醒词检测模块的判断结果为否。解码器根据静态解码图和通用声学模型判断是否含有激活词。

进一步地，还包括一个深度学习模型，深度学习模型不大于300KB。

进一步地，深度学习模型能够接收声学特征提取模块输出的特征向量。通过深度学习模型训练声学模型。

进一步地，一个语音数据采集模块，通过语音数据采集模块采集操作人员发出的唤醒词。

一个声学特征提取模块，其配置为能够接收语音数据采集模块采集的唤醒词，通过声学特征提取模块提取唤醒词的特征信息。

一个唤醒词检测模块，其能够接收特征信息，根据特征信息判断唤醒词是否是自定义唤醒词。若是，则输出唤醒词。

一个自定义唤醒词模块，其能够接收唤醒词，自定义唤醒词模块能够输出自定义唤醒词表。

一个预置字典模块。

一个发音字典生成器，其能够接收接收自定义唤醒词表，发音字典生成器能够根据接收到的自定义唤醒词表和预置字典模块生成一个发音字典。

一个字典生成器，其配置为接收发音字典，字典生成器能够根据发音字典生成一个字典。

一个语言模型生成器，其配置为能够接收字典生成器输出的新字典。语言模型生成器能够根据字典生成一个语言模型。

一个解码图生成器，其配置为能够接收语言模型和发音字典。解码图生成器接收语言模型和发音字典能够生成一个静态解码图。

一个通用声学模型。

一个解码器，其能够接收静态解码图和通用声学模型，解码器能够将接收到的静态解码图和通用声学模型解码，并判断语音数据是否含有激活词。

深度学习模型能够接收特征提取模型输出的特征向量。通过深度学习模型训练声学模型。

进一步地，发音字典生成器根据自定义唤醒词表和字典生成只保留所需的词和因素的发音字典，发音字典因素和词并存，能够避免误识且能够降低识别过程的复杂度。

进一步地，字典采用1-gram组成句子，唤醒词每个词的概率是相同的1/n。

进一步地，解码图包括若干个路径，添加唤醒词的易混淆词。

本发明具有如下优点：

本发明中的低功耗的自定义唤醒词语音识别***，当设备需要自定义唤醒词时，通过自定义唤醒词模块接收唤醒词后输出自定义唤醒词表，通过解码图生成器生成静态解码图，通过解码器将静态解码图和通用声学模型解码判断是否含有激活词。该低功耗的自定义唤醒词语音识别***自定义唤醒词不需要海量的数据作为训练数据，可以满足用户个性化需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明自定义唤醒词语音识别方法的流程图。

图2本发明的自定义唤醒词语音识别方法的流程图。

图3本发明的自定义唤醒词语音识别方法的流程图。

标号说明

语音数据采集模块10，声学特征提取模块20，唤醒词检测模块30，自定义唤醒词模块40，预置字典模块50，发音字典生成器60，字典生成器70，语言模型生成器80，解码图生成器90，深度学习模型100，通用声学模型110，解码器120。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，本发明实施例提供了一种低功耗的自定义唤醒词语音识别***及方法，包括：一个语音数据采集模块10、一个声学特征提取模块20、一个唤醒词检测模块30、一个自定义唤醒词模块40、一个预置字典模块50、一个发音字典生成器60、一个字典生成器70、一个语言模型生成器80、一个解码图生成器90、一个通用声学模型110和一个解码器120。

S101，语音数据采集模块10采集操作人员发出的唤醒词。

语音数据采集模块10，通过语音数据采集模块10采集操作人员发出的唤醒词。

在智能语音交互领域中，用户可通过唤醒词将处于休眠状态的设备唤醒。而该唤醒词通常为厂家预先定义的，无法更改，不能满足用户个性化的需求。因此，本实施例为设备设置一个自定义唤醒词模式，可以让用户设置一个符合自身需求的自定义唤醒词。

用户在训练自定义唤醒词之前，可先进入自定义唤醒词模式。其中，进入的方式可以采用触发实体按键或者发出语音指令等方式。

在设备进入自定义唤醒词模式之后，用户可设置自己想要的唤醒词。用户说出唤醒词后，语音数据采集模块10在一定的时间段，如2秒，采集唤醒词的语音数据。

S102，声学特征提取模块20提取唤醒词的特征信息。

声学特征提取模块20，其配置为能够接收语音数据采集模块10采集的唤醒词，通过声学特征提取模块20提取唤醒词的特征信息。

声学特征提取模块20对唤醒词的每一帧，分别进行维度均为的音强、响度、基频和浊音度的声学特征提取，得到200维度的特征值。

S103，唤醒词检测模块30判断唤醒词是否是自定义唤醒词。

唤醒词检测模块30，其能够接收特征信息，根据特征信息判断唤醒词是否是自定义唤醒词。若是，则输出唤醒词。

若唤醒词检测模块30判断唤醒词不是是自定义唤醒词而是***原设定有唤醒词，直接按照原有程序运行即可。

S104，自定义唤醒词模块40接收唤醒词并输出自定义唤醒词表。

自定义唤醒词模块40，其能够接收唤醒词，自定义唤醒词模块40能够输出自定义唤醒词表。通过自定义唤醒词模块40，输入唤醒词文本。

S105，配置一个预置字典模块50。

预置字典模块50。预置字典模块50包括大量的语言数据。

S106，发音字典生成器60根据接收到的自定义唤醒词表和预置字典模块50生成一个发音字典。

发音字典生成器60，其能够接收接收自定义唤醒词表，发音字典生成器60能够根据接收到的自定义唤醒词表和预置字典模块50生成发音字典。

发音字典会保留需要的词和因素，其他的都不保留，使得输出级别是因素和词并存的，这样就可以有效避免误识别并且可以降低识别过程的复杂度，直接是因素到因素的识别。

S107，字典生成器70根据发音字典生成一个字典。

字典生成器70，其配置为接收发音字典，字典生成器70能够根据发音字典生成字典。

字典生成器70将发音字典加入一些生成语言模型时的需求。用1-gram,使得每个词的概率都是相同的1/n。

S108，语言模型生成器80根据字典生成一个语言模型。

语言模型生成器80，其配置为能够接收字典生成器70输出的新字典。语言模型生成器80能够根据字典生成语言模型。语言模型由于想把唤醒词识别率高，所以改变字典中每个词的概率。

S109，解码图生成器90根据语言模型和发音字典生成一个静态解码图。

解码图生成器90，其配置为能够接收语言模型和发音字典。解码图生成器90接收语言模型和发音字典能够生成一个静态解码图。

静态解码图还需保持静态解码图路径多样性，添加这一类词易混淆词，比如唤醒词是小薇小薇，就要添加“小”、“小微微”等等，在语音识别时，如果没有此类路径多样性词汇，很可能一段语音只包含“小”，甚至有x等因素都有可能识别成“小薇小薇”。

静态解码图的自由构成，并且可以随着用户的需求不断变化，可以满足自定义唤醒和多唤醒词。

S110，配置一个通用声学模型110。从大数据技术出发泛化成相应的通用模型，每次唤醒词的切换不需要重新训练模型，并满足自定义唤醒词的要求。

通用声学模型110。一次性训练通用声学模型110，无需重复训练，比如用Tdnn等深度学习模型100训练声学模型。tdnn等模型大小控制在300KB以内，把200维度的特征值作为输入，训练全因素识别的声学模型的分类器。

S111，解码器120对静态解码器和通用声学模型110解码。

解码器120，其能够接收静态解码图和通用声学模型110，解码器120能够将接收到的静态解码图和通用声学模型110解码，并判断语音数据是否含有激活词。

静态解码是语言模型提前构成静态解码图。静态解码通过确定化、权重前移、最小化等一些列优化操作，解码效率更高，但是内存占用率更大。对于芯片这种对内存要求较高的场景，如果选择解码效率高的静态解码，内存问题是一大问题。

通用的模型对应的解码图的大小也是很客观的，且不说海量数据。只有aishell2的数据对应的通用模型的静态解码器的大小都有860MB大小，对唤醒词来说解码的过程是相对复杂和繁琐的，并且时间也太长，对低功耗的设备来说无疑就是一个难题，无论从空间还是时间来说都是不可能的。

本发明一种低功耗的自定义唤醒词语音识别方法在解码前构成解码图，以便解码效率更高，在静态构图占用率大的方面进行了发明和改进。使得解码器空间存储和解码的时间都实现缩短，满足了自定义唤醒词的需求。

表一

表一为本发明的解码器120与原始解码器的对比数据。原始解码器占用的空间为860MB，本发明的单唤醒词解码器120占用的空间为8KB，本发明的三个唤醒词解码器120占用的空间为14KB。

原始解码器的正确率为98％，本发明的的单唤醒词解码器120正确率为93％，本发明的三个唤醒词解码器120的正确率为91％。原始解码器的解码时间为143frames/sec，本发明的的单唤醒词解码器120的解码时间为983frames/sec，本发明的三个唤醒词解码器120的解码时间为562frames/sec。

具体设置如下：

若唤醒词检测模块30的判断结果为否。解码器120根据静态解码图和通用声学模型110判断是否含有激活词。

还包括一个深度学习模型100，深度学习模型100不大于300KB。

深度学习模型100能够接收声学特征提取模块20输出的特征向量。通过深度学习模型100训练声学模型。

一个语音数据采集模块10，通过语音数据采集模块10采集操作人员发出的唤醒词。

一个声学特征提取模块20，其配置为能够接收语音数据采集模块10采集的唤醒词，通过声学特征提取模块20提取唤醒词的特征信息。

一个唤醒词检测模块30，其能够接收特征信息，根据特征信息判断唤醒词是否是自定义唤醒词。若是，则输出唤醒词。

一个自定义唤醒词模块40，其能够接收唤醒词，自定义唤醒词模块40能够输出自定义唤醒词表。

一个预置字典模块50。

一个发音字典生成器60，其能够接收接收自定义唤醒词表，发音字典生成器60能够根据接收到的自定义唤醒词表和预置字典模块50生成一个发音字典。

一个字典生成器70，其配置为接收发音字典，字典生成器70能够根据发音字典生成一个字典。

一个语言模型生成器80，其配置为能够接收字典生成器70输出的新字典。语言模型生成器80能够根据字典生成一个语言模型。

一个解码图生成器90，其配置为能够接收语言模型和发音字典。解码图生成器90接收语言模型和发音字典能够生成一个静态解码图。

一个通用声学模型110。

一个解码器120，其能够接收静态解码图和通用声学模型110，解码器120能够将接收到的静态解码图和通用声学模型110解码，并判断语音数据是否含有激活词。

还包括一个深度学习模型100，深度学习模型100不大于300KB。

深度学习模型100能够接收特征提取模型输出的特征向量。通过深度学习模型100训练声学模型。

发音字典生成器60根据自定义唤醒词表和字典生成只保留所需的词和因素的发音字典，发音字典因素和词并存，能够避免误识且能够降低识别过程的复杂度。发音字典60是每个词的发音符号表。

以往的发音词典格式如下：

一yi

你好ni hao

北京bei jing

本发明的发音字典格式如下

<UNK>spn

$0$0

ai ai

ao ao

ao2$0ao

ei ei

h h

i i

iao iao

n n

ong ong

t t

ve ve

w w

x x

y y

小xiao

小童xiao tong

小爱xiao ai

小薇小薇xiao wei xiao wei

薇薇wei wei

你好ni hao

小薇xiao wei

本发明的发音字典不仅仅是发音字典的组成有所变化，发音字典也是根据每个用户的需求设定的唤醒词和唤醒词的量的多少而实时变化的。

字典采用1-gram组成句子，唤醒词每个词的概率是相同的1/n。

解码图包括若干个路径，添加唤醒词的易混淆词。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种低功耗的自定义唤醒词语音识别方法，其特征在于，包括：

S101，一个语音数据采集模块，通过语音数据采集模块采集操作人员发出的唤醒词；

S102，一个声学特征提取模块，其配置为能够接收所述语音数据采集模块采集的唤醒词，通过声学特征提取模块提取唤醒词的特征信息；

S103，一个唤醒词检测模块，其能够接收所述特征信息，根据所述特征信息判断唤醒词是否是自定义唤醒词；若是，则输出所述唤醒词；

S104，一个自定义唤醒词模块，其能够接收所述唤醒词，所述自定义唤醒词模块能够输出自定义唤醒词表；

S105，一个预置字典模块；

S106，一个发音字典生成器，其能够接收接收所述自定义唤醒词表，所述发音字典生成器能够根据接收到的所述自定义唤醒词表和预置字典模块生成一个发音字典；

S107，一个字典生成器，其配置为接收所述发音字典，所述字典生成器能够根据所述发音字典生成一个字典；

S108，一个语言模型生成器，其配置为能够接收所述字典生成器输出的新字典；所述语言模型生成器能够根据所述字典生成一个语言模型；

S109，一个解码图生成器，其配置为能够接收所述语言模型和所述发音字典；所述解码图生成器接收所述语言模型和所述发音字典能够生成一个静态解码图；

S110，一个通用声学模型；

S111，一个解码器，其能够接收所述静态解码图和所述通用声学模型，所述解码器能够将接收到的所述静态解码图和所述通用声学模型解码，并判断所述语音数据是否含有激活词。

2.如权利要求1所述的低功耗的自定义唤醒词语音识别方法，其特征是，若所述唤醒词检测模块的判断结果为否；所述解码器根据静态解码图和所述通用声学模型判断是否含有激活词。

3.如权利要求2所述的低功耗的自定义唤醒词语音识别方法，其特征是，还包括一个深度学习模型，所述深度学习模型不大于300KB。

4.如权利要求3所述的低功耗的自定义唤醒词语音识别方法，其特征是，所述深度学习模型能够接收所述声学特征提取模块输出的特征向量；通过所述深度学习模型训练所述声学模型。

5.一种低功耗的自定义唤醒词语音识别***，其特征在于，包括：

一个语音数据采集模块，通过语音数据采集模块采集操作人员发出的唤醒词；

一个声学特征提取模块，其配置为能够接收所述语音数据采集模块采集的唤醒词，通过声学特征提取模块提取唤醒词的特征信息；

一个唤醒词检测模块，其能够接收所述特征信息，根据所述特征信息判断唤醒词是否是自定义唤醒词；若是，则输出所述唤醒词；

一个自定义唤醒词模块，其能够接收所述唤醒词，所述自定义唤醒词模块能够输出自定义唤醒词表；

一个预置字典模块；

一个发音字典生成器，其能够接收接收所述自定义唤醒词表，所述发音字典生成器能够根据接收到的所述自定义唤醒词表和预置字典模块生成一个发音字典；

一个字典生成器，其配置为接收所述发音字典，所述字典生成器能够根据所述发音字典生成一个字典；

一个语言模型生成器，其配置为能够接收所述字典生成器输出的新字典；所述语言模型生成器能够根据所述字典生成一个语言模型；

一个解码图生成器，其配置为能够接收所述语言模型和所述发音字典；所述解码图生成器接收所述语言模型和所述发音字典能够生成一个静态解码图；

一个通用声学模型；

一个解码器，其能够接收所述静态解码图和所述通用声学模型，所述解码器能够将接收到的所述静态解码图和所述通用声学模型解码，并判断所述语音数据是否含有激活词。

6.如权利要求5所述的低功耗的自定义唤醒词语音识别***，其特征是，还包括一个深度学习模型，深度学习模型不大于300KB；

所述深度学习模型能够接收所述特征提取模型输出的特征向量；通过所述深度学习模型训练所述声学模型。

7.如权利要求6所述的低功耗的自定义唤醒词语音识别***，其特征是，所述发音字典生成器根据所述自定义唤醒词表和所述字典生成只保留所需的词和因素的发音字典，所述发音字典因素和词并存，能够避免误识且能够降低识别过程的复杂度。

8.如权利要求7所述的低功耗的自定义唤醒词语音识别***，其特征是，所述字典采用1-gram组成句子，所述唤醒词每个词的概率是相同的1/n。

9.如权利要求8所述的低功耗的自定义唤醒词语音识别***，其特征是，所述解码图包括若干个路径，添加所述唤醒词的易混淆词。