CN111429912A

CN111429912A - 关键词检测方法、***、移动终端及存储介质

Info

Publication number: CN111429912A
Application number: CN202010184549.6A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; ***; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-17
Anticipated expiration: 2040-03-17
Also published as: CN111429912B

Abstract

本发明提供了一种关键词检测方法、***、移动终端及存储介质，该方法包括：获取文本语料和转写文本对语言模型进行模型训练；根据训练集中的声学特征对链模型进行模型训练，将链模型和语言模型进行组合得到语音识别模型；将待检测语音片段输入语音识别模型进行分析得到词图，对词图进行倒排索引；将索引结果转换为因子转换器，将预设关键词输入因子转换器进行检索，得到关键词检索结果；根据关键词检索结果计算预设关键词的出现概率，当出现概率大于概率阈值时，判定预设关键词在待检测语音片段有出现。本发明通过控制语音识别模型对待检测语音片段进行解码生成词图，规避了因语音识别错误而导致关键词检测错误的情况，提高了关键词检测的准确性。

Description

关键词检测方法、***、移动终端及存储介质

技术领域

本发明属于关键词检测技术领域，尤其涉及一种关键词检测方法、***、移动终端及存储介质。

背景技术

关键词检测是从感兴趣的连续语音中检测出关键词的技术，关键词检测在智能家居、***听、语音数据挖掘等领域有着重要应用。关键词检测已有超过40年的研究历史，但在低资源、低功耗、低计算复杂度环境下的关键词检测仍然是研究热点。关键词检测从应用场景上可分成两大类，一类是关键词数量较少且固定，从连续语音流中持续检测语音流中是否存在关键词列表中的关键词，典型应用是智能家居中的唤醒词识别；另一类是关键词数量较多且不固定，但是待检测语音是事先存在的，通过算法找出关键词所在的语音片段，典型应用是语音数据挖掘。

但现有的关键词检测过程中，主要通过提取大量针对性关键词数据的语音特征，进行归一化后放入神经网络中进行机器学习模型训练，其所得模型鲁棒性较差，在场景不一致的情况下对识别率影响较大，进而降低了关键词检测的准确性。

发明内容

本发明实施例的目的在于提供一种关键词检测方法、***、移动终端及存储介质，旨在解决现有的关键词检测方法检测准确性低的问题。

本发明实施例是这样实现的，一种关键词检测方法，所述方法包括：

获取文本语料及训练集中所述文本语料对应的转写文本，并根据所述文本语料和所述转写文本对语言模型进行模型训练；

根据所述训练集中的声学特征对链模型进行模型训练，并将所述链模型和所述语言模型进行组合，得到语音识别模型；

将待检测语音片段输入所述语音识别模型进行分析，得到词图，并对所述词图进行倒排索引；

将索引结果转换为因子转换器，并将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果；

根据所述关键词检索结果分别计算每个所述预设关键词的出现概率，并当所述出现概率大于概率阈值时，则判定对应所述预设关键词在所述待检测语音片段有出现。

进一步的，所述根据所述训练集中的声学特征对链模型进行模型训练的步骤包括：

根据所述声学特征训练单音素声学模型，并对所述声学特征进行差分处理，以得到差分特征；

根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型，并根据三音素声学模型对音素进行对齐；

对所述声学特征进行向量变换，得到特征向量，并根据所述特征向量训练所述三音素声学模型；

根据所述三音素声学模型训练所述链模型。

进一步的，所述根据所述声学特征训练单音素声学模型的步骤之后，所述方法还包括：

根据所述文本语料和所述转写文本构建发音词典，并控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码，以得到验证解码结果；

根据所述验证解码结果查询模型调整参数，并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。

进一步的，所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为：

其中，s为待计算的所述预设关键词关键词，N_true(s)为所述预设关键词在所述待检测语音片段中实际出现次数，N_correct(s)为所述预设关键词在所述关键词检索结果中对应的计算出现次数，N_spurious(s)为所述预设关键词未在所述待检测语音片段中但判定为在的出现次数，即所述预设关键词的误检次数，T为所述待检测语音片段的总时长，β为调节误检率和漏检率的参数，ATWV为所述出现概率。

进一步的，所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率。

进一步的，所述将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果的步骤之后，所述方法还包括：

根据所述后验概率对所述预设关键词进行排序，并根据排序结果依序计算每个所述预设关键词的所述出现概率。

进一步的，所述根据所述声学特征训练单音素声学模型的步骤包括：

获取所述声学特征的使用频率，并根据所述使用频率对所述声学特征进行排序；

获取本地预存储的特征数量值，并根据所述特征数量值对排序后的所述声学特征进行获取；

根据获取到的所述声学特征进行所述单音素声学模型的训练。

本发明实施例的另一目的在于提供一种关键词检测***，所述***包括：

语言模型训练模块，用于获取文本语料及训练集中所述文本语料对应的转写文本，并根据所述文本语料和所述转写文本对语言模型进行模型训练；

模型组合模块，用于根据所述训练集中的声学特征对链模型进行模型训练，并将所述链模型和所述语言模型进行组合，得到语音识别模型；

词图索引模块，用于将待检测语音片段输入所述语音识别模型进行分析，得到词图，并对所述词图进行倒排索引；

关键词检索模块，用于将索引结果转换为因子转换器，并将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果；

出现概率计算模块，用于根据所述关键词检索结果分别计算每个所述预设关键词的出现概率，并当所述出现概率大于概率阈值时，则判定对应所述预设关键词在所述待检测语音片段有出现。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的关键词检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的关键词检测方法的步骤。

本发明实施例，通过控制语音识别模型对待检测语音片段进行解码生成词图，有效规避了因语音识别错误而导致关键词检测错误的情况，提高了关键词检测的准确性，由于词图允许比词更小的声学建模单元，因此可以对集外词进行检测，且通过对待检测语音片段的词图进行倒排索引，并将索引转换成因子转换器的设计，有效的加快了关键词检测的检测速度和检测效率。

附图说明

图1是本发明第一实施例提供的关键词检测方法的流程图；

图2是本发明第二实施例提供的关键词检测方法的流程图；

图3是本发明第三实施例提供的关键词检测***的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

实施例一

请参阅图1，是本发明第一实施例提供的关键词检测方法的流程图，包括步骤：

步骤S10，获取文本语料及训练集中所述文本语料对应的转写文本，并根据所述文本语料和所述转写文本对语言模型进行模型训练；

其中，该文本语料为语音识别模型待识别的语种，该文本语料可以根据需求进行选择，例如该文本语料可以为粤语或闽南语等语种，该步骤中，该转写文本中采用普通话的表达方式，且该文本语料与转写文本之间采用一一对应的关系；

优选的，通过对本地预存储的数据集进行划分，以将数据划分为训练集、验证集和测试集，该训练集用于为语音识别模型中的语言模型和声学模型提供训练数据，该验证集和测试集用于该语言模型和声学模型的验证和测试，具体的，该步骤中，该训练集、验证集和测试集的数据占比为70％、10％和20％；

步骤S20，根据所述训练集中的声学特征对链模型进行模型训练，并将所述链模型和所述语言模型进行组合，得到语音识别模型；

其中，当完成该链模型的训练时，控制该链模型、语言模型以及发音词典对验证集和测试集进行解码，以判断该链模型和语言模型是否达到训练要求；

优选的，当判断到该链模型和语言模型的测试结果未达到训练要求时，对该链模型和语言模型进行参数调整，进而有效的保障了该语音识别模型中参数的准确性，提高了后续语音识别的准确性；

步骤S30，将待检测语音片段输入所述语音识别模型进行分析，得到词图，并对所述词图进行倒排索引；

其中，通过控制语音识别模型对待检测语音片段进行解码生成词图(lattice)，有效规避了因语音识别错误而导致关键词检测错误的情况，提高了关键词检测的准确性；

步骤S40，将索引结果转换为因子转换器，并将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果；

其中，该预设关键词的数量和词汇均可以根据需求进行选择，且该步骤通过对待检测语音片段的词图进行倒排索引，并将索引转换成因子转换器的设计，有效的加快了关键词检测的检测速度和检测效率，具体的，该步骤中，可以通过采用WFST将该索引结果转换为因子转换器(factor transducer)，该因子转换器为一个三维数据结构，包含预设关键词在语音片段中的起始时间、结束时间以及后验概率；

因此，该步骤中，通过将该关键词表中的预设关键词输入所述因子转换器进行检索得到关键词检索结果的设计，以使得到每一个预设关键词在待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间以及后验概率；

步骤S50，根据所述关键词检索结果分别计算每个所述预设关键词的出现概率；

其中，通过计算每个所述预设关键词的出现概率，以分析各个预设关键词在该待检测语音片段可能出现的概率值；优选的，可以采用预设函数或预设计算公式的方式计算所述预设关键词的出现概率；

步骤S60，当所述出现概率大于概率阈值时，则判定对应所述预设关键词在所述待检测语音片段有出现；

其中，该概率阈值可以根据需求进行数值设置，且出现概率与概率阈值之间可以采用比较器的方式进行大小值的判断，优选的，当判断到所述出现概率大于概率阈值时，则对对应预设关键词进行出现标记，以提示用户在该待检测语音片段中有出现对应预设关键词；

本实施例，通过控制语音识别模型对待检测语音片段进行解码生成词图，有效规避了因语音识别错误而导致关键词检测错误的情况，提高了关键词检测的准确性，由于词图允许比词更小的声学建模单元，因此可以对集外词进行检测，且通过对待检测语音片段的词图进行倒排索引，并将索引转换成因子转换器的设计，有效的加快了关键词检测的检测速度和检测效率。

实施例二

请参阅图2，是本发明第二实施例提供的关键词检测方法的流程图，包括步骤：

步骤S11，获取文本语料及训练集中所述文本语料对应的转写文本，并根据所述文本语料和所述转写文本对语言模型进行模型训练；

其中，获取到该文本语料之后，可以对该文本语料进行加噪和加混响处理，以使能有效的扩充数据，且提高了语言模型的鲁棒性，使得模型能适应更多复杂的环境；

步骤S21，根据所述声学特征训练单音素声学模型，并根据所述文本语料和所述转写文本构建发音词典；

该步骤中，所述根据所述声学特征训练单音素声学模型的步骤包括：

根据获取到的所述声学特征进行所述单音素声学模型的训练；

步骤S31，控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码，以得到验证解码结果，并根据所述验证解码结果查询模型调整参数；

步骤S41，根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新并对所述声学特征进行差分处理，以得到差分特征；

其中，通过根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的设计，有效的提高了所述音素声学模型和所述语言模型识别的准确性，进而保障了语音识别模型整体的识别效率；

具体的，该步骤中，通过对该声学特征进行一阶差分和二阶差分，以得到该差分特征；

步骤S51，根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型，并根据三音素声学模型对音素进行对齐；

其中，通过控制所述三音素声学模型对音素进行声韵母对齐的设计，有效的方便了后续链模型的训练；

步骤S61，对所述声学特征进行向量变换，得到特征向量，并根据所述特征向量训练所述三音素声学模型；

其中，该特性向量可以采用MFCC特性向量或FBank特性向量等，本实施例中采用的是MFCC特性向量，在语音识别和话者识别方面，最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，简称MFCC)；

具体的，该步骤中，通过该声学特征进行快速傅里叶变换，并将变换结构输入三角带通滤波器，计算每个滤波器组输出的对数能量，并将对数能量经离散余弦变换(DCT)得到MFCC系数特征；

由于标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述，因此，通过对该MFCC系数特征进行动态差分参数的提取，以得到该特征向量；

步骤S71，根据所述三音素声学模型训练所述链模型，并将所述链模型和所述语言模型进行组合，得到语音识别模型；

步骤S81，将待检测语音片段输入所述语音识别模型进行分析，得到词图，并对所述词图进行倒排索引；

步骤S91，将索引结果转换为因子转换器，并将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果；

其中，该预设关键词的数量和词汇均可以根据需求进行选择，且该步骤通过对待检测语音片段的词图进行倒排索引，并将索引转换成因子转换器的设计，有效的加快了关键词检测的检测速度和检测效率；

优选的，该步骤中，所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率；

步骤S101，根据所述后验概率对所述预设关键词进行排序，并根据排序结果依序计算每个所述预设关键词的所述出现概率；

该步骤中，所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为：

其中，s为待计算的所述预设关键词关键词，N_true(s)为所述预设关键词在所述待检测语音片段中实际出现次数，N_correct(s)为所述预设关键词在所述关键词检索结果中对应的计算出现次数，N_spurious(s)为所述预设关键词未在所述待检测语音片段中但判定为在的出现次数，即所述预设关键词的误检次数，T为所述待检测语音片段的总时长，β为调节误检率和漏检率的参数，ATWV为所述出现概率；

步骤S111，当所述出现概率大于概率阈值时，则判定对应所述预设关键词在所述待检测语音片段有出现；

本实施例中，通过控制语音识别模型对待检测语音片段进行解码生成词图，有效规避了因语音识别错误而导致关键词检测错误的情况，提高了关键词检测的准确性，由于词图允许比词更小的声学建模单元，因此可以对集外词进行检测，且通过对待检测语音片段的词图进行倒排索引，并将索引转换成因子转换器的设计，有效的加快了关键词检测的检测速度和检测效率。

实施例三

请参阅图3，是本发明第三实施例提供的关键词检测***100的结构示意图，包括：语言模型训练模块10、模型组合模块11、词图索引模块12、关键词检索模块13和出现概率计算模块14，其中：

语言模型训练模块10，用于获取文本语料及训练集中所述文本语料对应的转写文本，并根据所述文本语料和所述转写文本对语言模型进行模型训练；

模型组合模块11，用于根据所述训练集中的声学特征对链模型进行模型训练，并将所述链模型和所述语言模型进行组合，得到语音识别模型。

其中，所述模型组合模块11还用于：根据所述声学特征训练单音素声学模型，并对所述声学特征进行差分处理，以得到差分特征；

根据所述三音素声学模型训练所述链模型。

优选的，所述模组组合模块11还用于：根据所述文本语料和所述转写文本构建发音词典，并控制所述单音素声学模型、所述语言模型和所述发音词典对验证集进行解码，以得到验证解码结果；

此外，本实施例中，所述模组组合模块11还用于：获取所述声学特征的使用频率，并根据所述使用频率对所述声学特征进行排序；

词图索引模块12，用于将待检测语音片段输入所述语音识别模型进行分析，得到词图，并对所述词图进行倒排索引。

关键词检索模块13，用于将索引结果转换为因子转换器，并将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果；

出现概率计算模块14，用于根据所述关键词检索结果分别计算每个所述预设关键词的出现概率，并当所述出现概率大于概率阈值时，则判定对应所述预设关键词在所述待检测语音片段有出现。

其中，所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为：

其中，s为待计算的所述预设关键词关键词，N_ture(s)为所述预设关键词在所述待检测语音片段中实际出现次数，N_correct(s)为所述预设关键词在所述关键词检索结果中对应的计算出现次数，N_spurious(s)为所述预设关键词未在所述待检测语音片段中但判定为在的出现次数，即所述预设关键词的误检次数，T为所述待检测语音片段的总时长，β为调节误检率和漏检率的参数，ATWV为所述出现概率。

具体的，所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率。

进一步的，所述出现概率计算模块14还用于：根据所述后验概率对所述预设关键词进行排序，并根据排序结果依序计算每个所述预设关键词的所述出现概率。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的关键词检测方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

根据所述关键词检索结果分别计算每个所述预设关键词的出现概率，并当所述出现概率大于概率阈值时，则判定对应所述预设关键词在所述待检测语音片段有出现。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的关键词检测***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的关键词检测方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标关键词检测***中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标关键词检测***的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键词检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的关键词检测方法，其特征在于，所述根据所述训练集中的声学特征对链模型进行模型训练的步骤包括：

根据所述三音素声学模型训练所述链模型。

3.如权利要求2所述的关键词检测方法，其特征在于，所述根据所述声学特征训练单音素声学模型的步骤之后，所述方法还包括：

4.如权利要求1所述的关键词检测方法，其特征在于，所述根据所述关键词检索结果分别计算每个所述预设关键词的出现概率所采用的计算公式为：

5.如权利要求1所述的关键词检测方法，其特征在于，所述关键词检索结果中存储有每个所述预设关键词在所述待检测语音片段中出现关键词的语音片段ID、起始时间、结束时间和后验概率。

6.如权利要求5所述的关键词检测方法，其特征在于，所述将关键词表中的预设关键词输入所述因子转换器进行检索，得到关键词检索结果的步骤之后，所述方法还包括：

7.如权利要求2所述的关键词检测方法，其特征在于，所述根据所述声学特征训练单音素声学模型的步骤包括：

8.一种关键词检测***，其特征在于，所述***包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的关键词检测方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的关键词检测方法的步骤。