CN109753665B

CN109753665B - 唤醒模型的更新方法及装置

Info

Publication number: CN109753665B
Application number: CN201910095182.8A
Authority: CN
Inventors: 靳源; 陈孝良; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-10-16
Anticipated expiration: 2039-01-30
Also published as: CN109753665A

Abstract

本发明提供了一种唤醒模型的更新方法，包括：分离原始语音数据中的命令词与唤醒词；根据语言模型确定命令词的概率，删除所述命令词中概率低于一第一阈值的命令词；将唤醒词输入一唤醒模型，确定所述唤醒模型输出的得分，删除所述唤醒词中，得分低于一第二阈值的唤醒词。由此，对已构建的误唤醒概率较高的唤醒模型进行更新处理，分别对命令词和唤醒词筛选，通过剔除误唤醒数据或失真数据，使得唤醒词更接近预定唤醒词；同时还将命令词作为训练数据，保证了训练数据的数量，使得更新后的唤醒模型的误唤醒概率更低。

Description

唤醒模型的更新方法及装置

技术领域

本发明涉及语音唤醒领域，尤其涉及一种唤醒模型的更新方法及装置。

背景技术

目前，通过语音方式实现产品交互的应用越来越广泛，例如智能音箱、手机、平板等，但在对唤醒模型的训练过程中，一般只将唤醒词作为训练数据，存在训练数据的质量和数量不高的缺陷，因此，容易影响唤醒模型的唤醒率。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种唤醒模型的更新方法及装置，以解决上述的至少一项技术问题。

(二)技术方案

本发明实施例提供了一种唤醒模型的更新方法，包括：

分离原始语音数据中的命令词与唤醒词；

根据语言模型确定命令词的概率，删除所述命令词中概率低于一第一阈值的命令词；

将唤醒词输入一唤醒模型，确定所述唤醒模型输出的得分，删除所述唤醒词中，得分低于一第二阈值的唤醒词。

在本发明的一些实施例中，所述根据语言模型确定命令词的概率，具体包括步骤：

将所述命令词转化为对应的文本信息；

将所述文本信息输入至所述语言模型，确定所述命令词的概率。

在本发明的一些实施例中，将所述文本信息输入至所述语言模型，确定所述命令词的概率，具体包括步骤：

依照预定字典对所述命令词进行分词处理，按照顺序确定k个分词词语，k≥1；

根据句首标记、k个分词词语和句尾标记，按序确定一个集合{W_i}，其中，句首标记包括<s1>和<s2>，句尾标记包括</s2>和</s1>，1≤i≤k+4；

将<s1>为第1个c个分词词语{W₁～W_c}的开头，直至将</s1>作为第k+2个c个分词词语{W_k+2～W_k+c+1}的末尾，确定k+2个c个分词词语{W_t～W_t+c-1}的概率值P(W_t+c-1|W_t，...，W_t+c-2)，1≤t≤k+2；

根据所述概率值确定所述命令词的概率：

在本发明的一些实施例中，将唤醒词输入一唤醒模型，确定所述唤醒模型输出的得分，具体包括步骤：

将唤醒词进行分帧并提取其特征值，将分帧之后的各帧唤醒词的特征值输入至一唤醒模型；

根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素；

根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素，对所述各帧唤醒词进行以下处理：

若预定唤醒词的预定音素中不包括所述最大概率音素，将该帧唤醒词的各音素的概率都置零；若预定唤醒词的预定音素中包括所述最大概率的音素，则保留该最大概率音素，将该帧唤醒词的非最大概率音素的概率都置零；

对处理后的各帧唤醒词进行平滑处理；

根据平滑处理后的各帧唤醒词的概率，确定所述唤醒模型输出的得分。

在本发明的一些实施例中，所述平滑处理后的各帧唤醒词的概率p_mn′满足公式：

其中，h_smooth＝max{1，n-ω_smooth+1}表示在ω_smooth平滑窗中第一帧的索引，n表示该平滑窗的最后一帧，p_me表示第m个音素第e帧的原始概率；

所述得分confidence满足公式：

其中，p_me′为平滑处理后的第e帧唤醒词的概率；

h_max＝max{1，n-ω_max+1}表示在ω_max计算窗中第一帧的索引，s指各帧中的非所述预定音素的音素数目。

在本发明的一些实施例中，所述第一阈值A的范围为0＜A≤0.15；所述第二阈值B的范围为0.15＜B≤0.35。

本发明还提供了一种唤醒模型的更新装置，包括：

分离模块，用于分离原始语音数据中的命令词与唤醒词；

命令词处理模块，用于根据语言模型确定命令词的概率，删除所述命令词中概率低于一第一阈值的命令词；

唤醒词处理模块，用于将唤醒词输入一唤醒模型，确定所述唤醒模型输出的得分，删除所述唤醒词中，得分低于一第二阈值的唤醒词。

在本发明的一些实施例中，命令词处理单元包括：

转化单元，用于将所述命令词转化为对应的文本信息；

概率确定单元，用于将所述文本信息输入至所述语言模型，确定所述命令词的概率。

在本发明的一些实施例中，所述概率确定单元包括：

分词确定子单元，用于依照预定字典对所述命令词进行分词处理，按照顺序确定k个分词词语，k≥1；

集合确定子单元，用于根据句首标记、k个分词词语和句尾标记，按序确定一个集合{W_i}，其中，句首标记包括<s1>和<s2>，句尾标记包括</s2>和</s1>，1≤i≤k+4；

分词词语概率确定子单元，用于将<s1>为第1个c个分词词语{W₁～W_c}的开头，直至将</s1>作为第k+2个c个分词词语{W_k+2～W_k+c+1}的末尾，确定k+2个c个分词词语{W_t～W_t+c-1}的概率值P(W_t+c-1|W_t，...，W_t+c-2)，1≤t≤k+2：

命令词概率确定子单元，用于根据所述概率值确定所述命令词的概率：

在本发明的一些实施例中，所述唤醒词处理模块还包括：

特征值输入单元，用于将唤醒词进行分帧并提取其特征值，将分帧之后的各帧唤醒词的特征值输入至一唤醒模型；

最大概率音素确定单元，用于根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素；

处理单元，用于根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素，对所述各帧唤醒词进行以下处理：

平滑处理单元，用于对处理后的各帧唤醒词进行平滑处理；

得分确定单元，用于根据平滑处理后的各帧唤醒词的概率

确定所述唤醒模型输出的得分

其中h_smooth＝max{1，n-ω_smooth+1}表示在ω_smooth平滑窗中第一帧的索引，n表示该平滑窗的最后一帧，p_me表示第m个音素第e帧的原始概率，p_me′为平滑处理后的第e帧唤醒词的概率，h_max＝max{1，n-ω_max+1}表示在ω_max计算窗中第一帧的索引，s指各帧中的非所述预定音素的音素数目。

(三)有益效果

本发明的唤醒模型的更新方法及装置，相较于现有技术，至少具有以下优点：

1、对已构建的误唤醒率较高的唤醒模型进行更新处理，分别对训练数据(命令词和唤醒词)筛选，剔除误唤醒数据或失真数据，使得唤醒词更接近预定唤醒词，同时还将命令词作为训练数据，保证了训练数据的数量，从而实现对唤醒模块的更新，使得更新后的唤醒模型的误唤醒率更低；

2、对于命令词，先将其转化成文本信息，再通过语言模型确定命令词的概率，同时删除概率低于一第一阈值的命令词，避免了不符合语言逻辑的情况，保证了命令词的逻辑性，避免了训练数据的质量出现问题的情况，同时将命令词作为训练数据，保证了训练数据的数量；

3、对于唤醒词，先确定各帧唤醒词的最大概率音素，再判断最大概率音素是否属于预定唤醒词，能够降低误唤醒的概率；此外，还将所述唤醒模型输出的得分与第二阈值进行比较，删除得分低于第二阈值的唤醒词，即剔除误唤醒数据或失真数据，使得唤醒词更接近预定唤醒词，避免了训练数据的质量出现问题的情况，从而提高了唤醒模型的唤醒率。

附图说明

图1为本发明实施例的唤醒模型的更新方法的步骤示意图；

图2为本发明实施例的唤醒模型的更新装置的模块示意图。

具体实施方式

现有技术中，一般只将唤醒词作为训练数据，存在训练数据的质量和数量不高的缺陷，因此，容易影响唤醒模型的唤醒率，严重影响了用户的体验感，有鉴于此，本发明提供了一种唤醒模型的更新方法及装置，对误唤醒率较高的唤醒模型进行更新处理，分别对命令词和唤醒词筛选，剔除误唤醒数据或失真数据，使得唤醒词更接近于预定唤醒词，同时使得命令词更符合语言逻辑并将其作为训练数据，保证了训练数据的质量和数量，使得更新后的唤醒模型的误唤醒概率更低。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明第一实施例提供了一种唤醒模型的更新方法，包括以下步骤：

S1、分离原始语音数据中的命令词与唤醒词；

S2、根据语言模型确定命令词的概率，删除所述命令词中概率低于一第一阈值的命令词；

S3、将唤醒词输入一唤醒模型，确定所述唤醒模型输出的得分，删除所述唤醒词中，得分低于一第二阈值的唤醒词。

在本发明的一些实施例中，第一阈值A的范围可以为0＜A≤0.15；所述第二阈值B的范围可以为0.15＜B≤0.35。且用户可以根据实际情况选择A和B的范围，从而调整更新后的唤醒模型的正确唤醒率。

在步骤S1中，举例来说，原始语音数据中的命令词为“今天北京的天气怎么样”，唤醒词为“小花”。以下将以该原始语音数据为例进行详细说明。

在步骤S2中，根据语言模型确定命令词的概率，具体包括以下子步骤：

S21、将所述命令词转化为对应的文本信息；即，将语音形式的命令词转化成文本信息“今天北京的天气怎么样”；

S22、将所述文本信息输入至所述语言模型，确定所述命令词的概率。

步骤S22具体包括以下子步骤：

S221、依照预定字典对所述命令词进行分词处理，按照顺序确定k个分词词语，使得命令词更符合语言逻辑，保证命令词的质量，k≥1；

S222、根据句首标记、k个分词词语和句尾标记，按序确定一个集合{W_i}，其中，句首标记包括<s1>和<s2>，句尾标记包括</s2>和</s1>，1≤i≤k+4；

S223、将<s1>为第1个c个分词词语{W₁～W_c}的开头，直至将</s1>作为第k+2个c个分词词语{W_k+2～W_k+c+1}的末尾，确定k+2个c个分词词语{W_t～W_t+c-1}的概率值P(W_t+c-1|W_t，...，W_t+c-2)，1≤t≤k+2；

S224、根据所述概率值确定所述命令词的概率：

对于“今天北京的天气怎么样”的文本信息，c＝3时，i＝8，k＝4，{W_i}为{<s1>、<s2>、今天、北京的、天气、怎么样、</s2>和</s1>}，分词词语包括{<s1>、<s2>、今天}、{<s2>、今天、北京的}、{今天、北京的、天气}、{北京的、天气、怎么样}、{天气、怎么样、</s2>}、{怎么样、</s2>和</s1>}。P(W_t+C-1|W_t，...，W_t+c-2)包括P(今天|<s1>，<s2>)、P(北京的|<s2>，今天)、P(天气|今天，北京的)、P(怎么样|北京的，天气)、P(</s2>|天气，怎么样)、P(</s1>|怎么样，</s2>)。

在步骤S3中，将唤醒词输入一唤醒模型，确定所述唤醒模型输出的得分具体包括以下步骤：

S31、将唤醒词进行分帧并提取其特征值，将分帧之后的各帧唤醒词的特征值输入至一唤醒模型；

S32、根据所述特征值通过前向传播算法确定各帧唤醒词的最大概率音素；

S33、根据各帧唤醒词的最大概率音素与预定唤醒词的预定音素，对所述各帧唤醒词进行以下处理：

若预定唤醒词的预定音素中不包括所述最大概率音素，将该帧唤醒词的各音素的概率都置零；若预定唤醒词的预定音素中包括所述最大概率的音素，则保留该最大概率音素，将该帧唤醒词的非最大概率音素的概率都置零；由此，通过剔除误唤醒数据或失真数据，使得唤醒词更接近预定唤醒词，以保证唤醒词的质量；

S34、对处理后的各帧唤醒词进行平滑处理；

S35、根据平滑处理后的各帧唤醒词的概率

确定所述唤醒模型输出的得分

其中h_smooth＝max{1，n-ω_smooth+1}表示在ω_smooth平滑窗中第一帧的索引，n表示该平滑窗的最后一帧，p_me表示第m个音素第e帧的原始概率，p_me为平滑处理后的第e帧唤醒词的概率，h_max＝max{1，n-ω_max+1}表示在ω_max计算窗中第一帧的索引，s指各帧中的非所述预定音素的音素数目。

对于唤醒词“小花”，其音素为“x”、“i”、“ao”、“h”、“u”、“a”；该唤醒模型对应的预定唤醒词为“小度”，其音素为“x”、“i”、“ao”、“d”、“u”。首先，确定该帧中唤醒词的最大概率音素，若为“x”，则其在预定唤醒词的因素中，则保留“x”的概率，并将“小花”中的其他音素的概率置零；若该帧中唤醒词的最大概率音素为“h”，则其不在预定唤醒词的因素中，则将“小花”中的所有音素的概率置零。

本发明实施例的另一方面，还提供了一种唤醒模型的更新装置，包括：

分离模块，用于分离原始语音数据中的命令词与唤醒词；

在本发明的一些实施例中，命令词处理单元包括：

转化单元，用于将所述命令词转化为对应的文本信息；

在本发明的一些实施例中，所述概率确定单元包括：

分词确定子单元，用于依照预定字典对所述命令词进行分词处理，按照顺序确定k个分词词语，使得命令词更符合语言逻辑，以保证命令词的质量，k≥1；

分词词语概率确定子单元，用于将<s1>为第1个c个分词词语{W₁～W_c}的开头，直至将</s1>作为第k+2个c个分词词语{W_k+2～W_k+c+1}的末尾，确定k+2个c个分词词语{W_t～W_t+c-1}的概率值P(W_t+c-1|W_t，...，W_t+c-2)，1≤t≤k+2；

在本发明的一些实施例中，所述唤醒词处理模块还包括：

若预定唤醒词的预定音素中不包括所述最大概率音素，将该帧唤醒词的各音素的概率都置零；若预定唤醒词的预定音素中包括所述最大概率的音素，则保留该最大概率音素，将该帧唤醒词的非最大概率音素的概率都置零；通过剔除误唤醒数据或失真数据，使得唤醒词更接近预定唤醒词，以保证唤醒词的质量；

平滑处理单元，用于对处理后的各帧唤醒词进行平滑处理；

得分确定单元，用于根据平滑处理后的各帧唤醒词的概率

确定所述唤醒模型输出的得分

综上，本发明的唤醒模型的更新方法及装置，对已构建的唤醒率较低的唤醒模型进行更新处理，分别对命令词和唤醒词筛选，剔除误唤醒数据或失真数据，使得唤醒词更接近于预定唤醒词，同时使得命令词更符合语言逻辑，还将其作为训练数据，保证了训练数据的数量和质量，使得更新后的唤醒模型的误唤醒率更低。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本发明的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

再者，“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。