CN109192224B

CN109192224B - 一种语音评测方法、装置、设备及可读存储介质

Info

Publication number: CN109192224B
Application number: CN201811073869.3A
Authority: CN
Inventors: 金海�; 吴奎; 竺博; 魏思; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2021-08-17
Anticipated expiration: 2038-09-14
Also published as: CN109192224A

Abstract

本申请公开了一种语音评测方法、装置、设备及可读存储介质，本申请获取待评测语音，及作为评测标准的关键词，进一步检测待评测语音中是否存在与关键词对应的语音片段，得到检测结果，根据该检测结果确定待评测语音的评测结果。本申请通过获取作为评测标准的关键词，可以实现自动化的检测待评测语音中是否存在关键词对应的语音片段，并根据检测结果来确定待评测语音的评测结果，由于不需要人工进行评测，既避免了人的主观影响对评测结果的干扰，又减少了人工成本的消耗。

Description

一种语音评测方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种语音评测方法、装置、设备及可读存储介质。

背景技术

随着教育改革的不断深入，口语考试在全国各个省市开展。口语考试一般是给定一段材料，并针对该材料设定若干题目。由考生阅读完材料之后，针对每道题目，通过口语形式说出答案。

现有口语考试多是通过专业老师，根据题目对应的正确答案信息，对考生的回答进行评测。这种人工评测的方式极其容易受到人的主观影响，导致评测结果受人为干扰，并且，还会消耗大量的人工成本。

发明内容

有鉴于此，本申请提供了一种语音评测方法、装置、设备及可读存储介质，用于解决现有人工进行口语考试评测的方式所存在的缺点。

为了实现上述目的，现提出的方案如下：

一种语音评测方法，包括：

获取待评测语音，及作为评测标准的关键词；

检测所述待评测语音中是否存在与所述关键词对应的语音片段，得到检测结果；

根据所述检测结果，确定所述待评测语音的评测结果。

优选地，所述检测所述待评测语音中是否存在与所述关键词对应的语音片段，包括：

识别所述待评测语音，得到识别后的文本信息；

将所述关键词与所述文本信息进行匹配得到匹配结果，所述匹配结果表明所述待评测语音对所述关键词对应语音片段的包含情况。

优选地，所述识别所述待评测语音，得到识别后的文本信息，包括：

提取所述待评测语音的声学特征；

将所述声学特征输入预置的第一声学识别模型，得到第一声学识别模型输出的所述待评测语音对应的文本信息。

优选地，所述第一声学识别模型为，通用声学识别模型，或，为利用所述通用声学识别模型对所述待评测语音的识别结果，对所述通用声学识别模型进行自适应后的声学识别模型。

优选地，所述第一声学识别模型为，以所述关键词及过滤器构成的解码空间对应的声学识别模型，所述过滤器表征所有的非关键词。

优选地，所述检测所述待评测语音中是否存在与所述关键词对应的语音片段，还包括：

获取所述第一声学识别模型的隐层输出的，对所述声学特征转换后的隐层平均声学特征；

将所述隐层平均声学特征与所述关键词的词向量特征输入预置的第一关键词分类器，得到第一关键词分类器输出的所述待评测语音对所述关键词及非关键词对应语音片段的分类结果；

所述第一关键词分类器为，以语音训练数据的声学特征经第一声学识别模型的隐层转换后的隐层平均声学特征，及所述关键词的词向量特征为训练样本，以语音训练数据对所述关键词及非关键词对应语音片段的分类标注结果为样本标签训练得到。

对所述待评测语音进行加窗，得到至少一加窗待评测语音；

获取所述第一声学识别模型的隐层，对每一所述加窗待评测语音对应加窗声学特征转换后的隐层平均加窗声学特征；

将每一所述隐层平均加窗声学特征输入预置的第二关键词分类器，得到第二关键词分类器输出的每一加窗待评测语音对所述关键词及非关键词对应语音片段的分类结果；

所述第二关键词分类器为，利用语音训练数据中关键词、非关键词对应语音片段的声学特征经第一声学识别模型的隐层转换后的关键词隐层平均声学特征、非关键词隐层平均特征训练的关键词分类器。

优选地，所述根据所述检测结果，确定所述待评测语音的评测结果，包括：

根据所述检测结果确定评测特征，所述评测特征包括命中关键词、命中关键词的置信度、关键词命中率和命中关键词的高斯时长中的任意一项或多项；

所述命中关键词为所述待评测语音中存在与关键词对应的语音片段；所述命中关键词的置信度为所述第一声学识别模型对所述命中关键词的识别置信度，或，所述命中关键词的置信度为所述第一关键词分类器对所述命中关键词的分类置信度，或，所述命中关键词的置信度为所述第二关键词分类器对所述命中关键词的分类置信度；所述关键词命中率为所述命中关键词个数，占所述关键词的总个数的比例，所述高斯时长由所述待评测语音中所述命中关键词的发音时长确定；

根据所述评测特征，确定所述待评测语音的评测结果。

一种语音评测装置，包括：

数据获取单元，用于获取待评测语音，及作为评测标准的关键词；

语音检测单元，用于检测所述待评测语音中是否存在与所述关键词对应的语音片段，得到检测结果；

评测结果确定单元，用于根据所述检测结果，确定所述待评测语音的评测结果。

优选地，所述语音检测单元包括：

文本识别单元，用于识别所述待评测语音，得到识别后的文本信息；

文本匹配单元，用于将所述关键词与所述文本信息进行匹配得到匹配结果，所述匹配结果表明所述待评测语音对所述关键词对应语音片段的包含情况。

优选地，所述文本识别单元包括：

声学特征提取单元，用于提取所述待评测语音的声学特征；

第一声学识别模型预测单元，用于将所述声学特征输入预置的第一声学识别模型，得到第一声学识别模型输出的所述待评测语音对应的文本信息。

优选地，所述语音检测单元还包括：

全局隐层特征获取单元，用于获取所述第一声学识别模型的隐层输出的，对所述声学特征转换后的隐层平均声学特征；

第一关键词分类器预测单元，用于将所述隐层平均声学特征与所述关键词的词向量特征输入预置的第一关键词分类器，得到第一关键词分类器输出的所述待评测语音对所述关键词及非关键词对应语音片段的分类结果；

优选地，所述语音检测单元还包括：

语音加窗单元，用于对所述待评测语音进行加窗，得到至少一加窗待评测语音；

加窗隐层特征获取单元，用于获取所述第一声学识别模型的隐层，对每一所述加窗待评测语音对应加窗声学特征转换后的隐层平均加窗声学特征；

第二关键词分类器预测单元，用于将每一所述隐层平均加窗声学特征输入预置的第二关键词分类器，得到第二关键词分类器输出的每一加窗待评测语音对所述关键词及非关键词对应语音片段的分类结果；

优选地，所述评测结果确定单元包括：

第一评测特征确定单元，用于根据所述检测结果确定评测特征，所述评测特征包括命中关键词、命中关键词的置信度、关键词命中率和命中关键词的高斯时长中的任意一项或多项；

所述命中关键词为所述待评测语音中存在与关键词对应的语音片段；所述命中关键词的置信度为所述第一声学识别模型对所述命中关键词的识别置信度；所述关键词命中率为所述命中关键词个数，占所述关键词的总个数的比例，所述高斯时长由所述待评测语音中所述命中关键词的发音时长确定；

第一评测特征处理单元，用于根据所述评测特征，确定所述待评测语音的评测结果。

优选地，所述评测结果确定单元包括：

第二评测特征确定单元，用于根据所述检测结果确定评测特征，所述评测特征包括命中关键词、命中关键词的置信度、关键词命中率和命中关键词的高斯时长中的任意一项或多项；

所述命中关键词为所述待评测语音中存在与关键词对应的语音片段；所述命中关键词的置信度为所述第一关键词分类器对所述命中关键词的分类置信度，或为所述第二关键词分类器对所述命中关键词的分类置信度；所述关键词命中率为所述命中关键词个数，占所述关键词的总个数的比例；所述高斯时长由所述待评测语音中所述命中关键词的发音时长确定；

第二评测特征处理单元，用于根据所述评测特征，确定所述待评测语音的评测结果。

一种语音评测设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音评测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音评测方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音评测方法，获取待评测语音，及作为评测标准的关键词，进一步检测待评测语音中是否存在与关键词对应的语音片段，得到检测结果，根据该检测结果确定待评测语音的评测结果。本申请通过获取作为评测标准的关键词，可以实现自动化的检测待评测语音中是否存在关键词对应的语音片段，并根据检测结果来确定待评测语音的评测结果，由于不需要人工进行评测，既避免了人的主观影响对评测结果的干扰，又减少了人工成本的消耗。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种语音评测方法流程图；

图2示例了一种待评测语音样本关键词和非关键词隐层平均特征提取示意图；

图3为本申请实施例公开的一种语音评测装置结构示意图；

图4为本申请实施例公开的一种语音评测设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有口语测评依靠人工，导致评测结果受人为干扰且浪费人力成本的问题，本申请基于语音检测技术实现自动化的语音评测，详细结合附图1进行说明，语音评测方法可以包括：

步骤S100、获取待评测语音，及作为评测标准的关键词。

具体地，以口语考试场景为例，待评测语音可以是考生给出的口语回答录音。对应的，本实施例中可以预先设定作为评测标准的关键词。以材料阅读口语考试题目为例，作为评测标准的关键词可以是从阅读材料中提取的关键词。除此之外，针对其他类型问题的口语考试，作为评测标准的关键词可以是问题对应答案中提取的关键词。

本步骤中，待评测语音的获取方式可以是通过录音设备接收，录音设备可以包括麦克风，如头戴式麦克风。

其中，作为评测标准的关键词，能够反映标准答案的核心点。关键词可以由用户预先指定，或者可以采用关键词提取技术从问题对应的答案中提取关键词，常见的关键词提取技术如TF-IDF(term frequency–inverse document frequency)关键词提取方法等。

可以理解的是，作为评测标准的关键词的个数并不限定，可以是一个或多个。

步骤S110、检测所述待评测语音中是否存在与所述关键词对应的语音片段，得到检测结果。

具体地，前述已经确定了作为评测标准的关键词，该关键词反映了答案的核心点，本步骤中可以对待评测语音进行关键词检测，即检测待评测语音中是否存在关键词对应的语音片段，得到检测结果。

检测结果反映了待评测语音对关键词对应语音片段的包含情况。当关键词为一个时，检测结果即为待评测语音是否包含该一个关键词对应的语音片段。当关键词为至少两个时，检测结果即为待评测语音对每一关键词对应语音片段的包含情况。

步骤S120、根据所述检测结果，确定所述待评测语音的评测结果。

具体地，根据前述说明可知，关键词反映了问题对应答案的核心点，因此关键词在一定程度上能够代表问题对应的答案。本步骤中，根据前述待评测语音对关键词对应语音片段的包含情况，确定待评测语音的评测结果。

可以理解的是，随着待评测语音中所存在的关键词对应语音片段的数量增加，待评测语音的评测结果越好。

本申请实施例提供的语音评测方法，通过获取作为评测标准的关键词，可以实现自动化的检测待评测语音中是否存在关键词对应的语音片段，并根据检测结果来确定待评测语音的评测结果，由于不需要人工进行评测，既避免了人的主观影响对评测结果的干扰，又减少了人工成本的消耗。

在本申请的一个实施例中，介绍了上述步骤S110，检测所述待评测语音中是否存在与所述关键词对应的语音片段的一种实施方式，可选的该过程可以包括：

S1、识别所述待评测语音，得到识别后的文本信息。

具体地，可以对待评测语音进行语音识别，得到识别后的文本信息。

S2、将所述关键词与所述文本信息进行匹配得到匹配结果，所述匹配结果表明所述待评测语音对所述关键词对应语音片段的包含情况。

本步骤中，基于先验的作为评测标准的关键词，将关键词与文本信息进行匹配，得到匹配结果，该匹配结果可以作为前述检测结果。

可以理解的是，匹配结果可以包括文本信息中是否存在与每一关键词匹配的词。进一步可选的，匹配结果还可以包括文本信息中存在的与每一关键词匹配的词的置信度，该词的置信度可以是语音识别过程，每个词的识别置信度。

其中，上述S1识别待评测语音，得到识别后的文本信息的过程，可以包括：

S11、提取所述待评测语音的声学特征。

其中声学特征用于语音识别，所述声学特征一般为语音数据的频谱特征，如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征或感知线性预测(Perceptual Linear Predictive，PLP)特征等。

具体提取时，可以预先对待评测语音进行分帧处理。进一步，对分帧后的待评测语音进行预加重。最后，依次提取每帧待评测语音的频谱特征。

S12、将所述声学特征输入预置的第一声学识别模型，得到第一声学识别模型输出的所述待评测语音对应的文本信息。

其中，第一声学识别模型可以是利用训练语料训练得到的神经网络形式的声学识别模型。

本实施例中提供了几种可选结构的第一声学识别模型。接下来分别进行介绍。

首先，第一声学识别模型可以是通用声学识别模型，即采用已有的训练语料库训练得到的通用的声学识别模型。

需要说明的是，通用声学识别模型虽然可以进行声学识别，但是由于其训练语料可能并未覆盖口语考试所有场景，而口语考试场景差异性较大，且不同地区发音差异大，通用声学识别模型对该口语考试场景的识别准确率会降低。

在此基础上，本实施例利用通用声学识别模型对待评测语音进行一遍识别，得到一遍识别结果。进一步可以将一遍识别结果和待评测语音作为训练数据，对通用声学识别模型进行自适应，得到自适应后的声学识别模型，作为第一声学识别模型。

可选的，上述对通用声学识别模型进行自适应的过程，可以选取一遍识别结果中识别置信度高于设定阈值的识别结果，结合对应的待评测语音作为训练数据。

进一步地，本实施例介绍了再一种结构的第一声学识别模型。

由于本申请目标是基于先验的关键词，检测所述待评测语音中是否存在与所述关键词对应的语音片段。为了进一步提高关键词检测准确度，本实施例中设计了一种新的解码空间的声学识别模型，区别于现有以词典内所有单词构成的解码空间，本实施例设计的新的解码空间由关键词及过滤器构成，该过滤器用于吸收除关键词外的所有非关键词。

示例如，关键词包括：A、B和C，用N代表过滤器，则新的解码空间包括A、B、C和N。

本实施例设计的新解码空间的第一声学识别模型，将语音识别过程转换为基于先验的关键词，进行关键词主动检测的过程。使用本实施例的第一声学识别模型，其不受训练数据中关键词和非关键词分布不均的影响，关键词识别准确度更高。

以上述新的解码空间对应的声学识别模型作为第一声学识别模型。基于该第一声学识别模型进行语音识别时，其识别结果仅包含关键词和过滤器。通过过滤器滤除了所有非关键词的影响。进一步，第一声学识别模型进行语音识别时，判断关键词的识别置信度是否超过设定置信度阈值，如果是，则识别为对应关键词，否则，识别为过滤器。

进一步地，由于不同词或词组的声学发音不一定相同，因此上述关键词置信度阈值并不适用于所有问题，本申请提出一种关键词置信度阈值自适应方法。可以利用人工对待评测语音的评分，构建告警集和召回集，告警集包含评分低的待评测语音，召回集包含评分高的待评测语音。基于告警集和召回集调节作为评测标准的关键词的置信度阈值。

在本申请的另一个实施例中，介绍了上述步骤S110，检测所述待评测语音中是否存在与所述关键词对应的语音片段的另一种实施方式。在前述S1-S2的基础上，可以进一步增加通过关键词分类器对待评测语音进行关键词分类的过程。

本实施例中介绍了两种形式的关键词分类器，分别进行介绍。

第一关键词分类器：

基于前述S11-S12中，将待评测语音的声学特征输入第一声学识别模型，得到输出的待评测语音对应的文本信息。本实施例中，可以获取所述第一声学识别模型的隐层输出的，对所述声学特征转换后的隐层平均声学特征。

其中，第一声学识别模型的隐层对声学特征转换后的隐层平均声学特征，是对输入声学特征的一种高度抽象表示。隐层平均声学特征是将待评测语音内所有帧的隐层声学特征求平均后的结果。

进一步地，将所述隐层平均声学特征与所述关键词的词向量特征输入预置的第一关键词分类器，得到第一关键词分类器输出的所述待评测语音对所述关键词及非关键词对应语音片段的分类结果。

具体地，本实施例中得到的分类结果可以作为步骤S110中的检测结果。

其中，第一关键词分类器为，以语音训练数据的声学特征经第一声学识别模型的隐层转换后的隐层平均声学特征，及所述关键词的词向量特征为训练样本，以语音训练数据对所述关键词及非关键词对应语音片段的分类标注结果为样本标签训练得到。

第二关键词分类器：

本实施例中，可以对所述待评测语音进行加窗，得到至少一加窗待评测语音。其中，窗长大小可以是第一设定帧数，如40帧，窗移动步长可以是第二设定帧数，如5帧。针对每一加窗待评测语音可以提取对应的加窗声学特征。进一步，获取所述第一声学识别模型的隐层输出的，对每一所述加窗待评测语音对应加窗声学特征转换后的隐层平均加窗声学特征。

进一步，将每一所述隐层平均加窗声学特征输入预置的第二关键词分类器，得到第二关键词分类器输出的每一加窗待评测语音对所述关键词及非关键词对应语音片段的分类结果。

其中，所述第二关键词分类器为，利用语音训练数据中关键词、非关键词对应语音片段的声学特征经第一声学识别模型的隐层转换后的关键词隐层平均声学特征、非关键词隐层平均特征训练的关键词分类器。

具体地，第二关键词分类器训练时，可以利用第一声学识别模型对语音训练数据进行识别，并根据识别结果确定语音训练数据中关键词对应语音片段，及非关键词对应语音片段。利用关键词对应语音片段经第一声学识别模型的隐层转换后的关键词隐层平均特征，及非关键词对应语音片段经第一声学识别模型的隐层转换后的非关键词隐层平均特征，训练第二关键词分类器。

参见图2，其示出了一种待评测语音样本关键词和非关键词隐层平均特征提取示意图。

上述示例的两种关键词分类器，可以选择其中一种使用，也可以两种均使用，关键词分类器得到的分类结果作为步骤S110中的检测结果。

本实施例中，进一步增加了使用第一声学识别模型的隐层特征，作为关键词分类器的输入特征，并利用关键词分类器输出待评测语音对所述关键词及非关键词对应语音片段的分类结果，该分类结果可以结合前述S1-S2的关键词与待评测语音对应文本信息的匹配结果，共同作为检测结果，以确定待评测语音中是否存在与关键词对应的语音片段。

在本申请的又一个实施例中，介绍前述步骤S120，根据所述检测结果，确定所述待评测语音的评测结果的过程。

基于上述各实施例确定的检测结果，可以确定待评测语音的评测结果，该过程可以包括两个环节，分别为：

第一个环节：

根据所述检测结果确定评测特征。

本实施例中介绍了多种类型的评测特征，分别介绍：

1)命中关键词：

所述命中关键词为所述待评测语音中存在与关键词对应的语音片段。根据前述确定的检测结果，可以确定待评测语音中具体包含哪些关键词对应的语音片段。

命中关键词作为评测特征时，其表示方式可以以one-hot向量形式，即通过N维向量表示，N为关键词个数，N维向量中每个元素位对应唯一一关键词，元素位存在两种取值，第一取值表示该关键词为命中关键词，第二取值表示该关键词为非命中关键词，其中第一取值可以是1，第二取值可以是0。

2)命中关键词的置信度：

所述命中关键词的置信度，可以是前述第一声学识别模型对该命中关键词的识别置信度，或者可以是，前述关键词分类器，如第一关键词分类器或第二关键词分类器对该命中关键词的分类置信度。

3)关键词命中率：

所述关键词命中率为所述命中关键词个数，占所述关键词的总个数的比例。

4)命中关键词的高斯时长：

所述命中关键词的高斯时长由所述待评测语音中所述命中关键词的发音时长确定。命中关键词的高斯时长可以作为考生对命中关键词发音特性的一种衡量。

具体地，根据检测结果可以确定待评测语音中包含哪些关键词对应的语音片段，以及关键词对应语音片段的位置。根据待评测语音中关键词对应语音片段的发音时长，可以确定关键词的高斯时长。

高斯时长假设每个音节发音时长服从正态分布，命中关键词的高斯时长可以描述考生的关键词发音特性，提取方法如下：首先构建每个命中关键词或关键词组成单元(如音节、音素等)发音时长均值和方差分布表。以命中关键词组成单元为音节为例进行说明：

基于构建的音节发音时长均值和方差分布表可统计命中关键词中每个音节的高斯时长得分，平均所有音节的高斯时长得分作为该命中关键词的高斯时长得分，计算公式参照如下：

其中，w_gauss为命中关键词的高斯时长，K为命中关键词的音节数，ph_gauss(k)为第k个音节的高斯时长，μ_k和σ_k分别为第k个音节的发音时长均值和方差，x_k为待评测语音中命中关键词的第k个音节的发音时长。

其中，上述音节发音时长均值和方差分布表可以是基于大量口语考试数据构建的通用音节发音时长均值和方差分布表，还可以是基于当前口语考试数据构建的自适应音节发音时长均值和方差分布表。

第二个环节：

根据所述评测特征，确定所述待评测语音的评测结果。

具体地，第一个环节中确定了多种评测特征，可以选取其中一种或多种的组合，基于选取的评测特征，确定待评测语音的评测结果。

本实施例中，可以基于评测特征及预先训练的评分回归模型，确定待评测语音的评测结果。

其中，评分回归模型可以是线性回归、高斯回归、神经网络回归等形式。

训练时可以使用语音训练数据的评测特征作为训练样本，使用标注的语音训练数据的评测结果作为样本标签。

下面对本申请实施例提供的语音评测装置进行描述，下文描述的语音评测装置与上文描述的语音评测方法可相互对应参照。

参见图3，图3为本申请实施例公开的一种语音评测装置结构示意图。如图3所示，该装置可以包括：

数据获取单元11，用于获取针对目标问题的待评测语音，及作为评测标准的关键词；

语音检测单元12，用于检测所述待评测语音中是否存在与所述关键词对应的语音片段，得到检测结果；

评测结果确定单元13，用于根据所述检测结果，确定所述待评测语音的评测结果。

可选的，所述语音检测单元可以包括：

可选的，所述文本识别单元可以包括：

声学特征提取单元，用于提取所述待评测语音的声学特征；

可选的，所述第一声学识别模型可以是，通用声学识别模型，或，是利用所述通用声学识别模型对所述待评测语音的识别结果，对所述通用声学识别模型进行自适应后的声学识别模型。

可选的，所述第一声学识别模型可以是，以所述关键词及过滤器构成的解码空间对应的声学识别模型，所述过滤器表征所有的非关键词。

可选的，所述语音检测单元还可以包括：

可选的，本申请示例了评测结果确定单元的两种可选结构，分别介绍如下：

第一种，所述评测结果确定单元可以包括：

所述命中关键词为所述待评测语音中存在与关键词对应的语音片段；所述命中关键词的置信度为所述第一声学识别模型对所述命中关键词的识别置信度；所述关键词命中率为所述命中关键词个数，占所述关键词的总个数的比例；所述高斯时长由所述待评测语音中所述命中关键词的发音时长确定；

第二种，所述评测结果确定单元可以包括：

本申请实施例提供的语音评测装置可应用于语音评测设备，如PC终端、云平台、服务器及服务器集群等。可选的，图4示出了语音评测设备的硬件结构框图，参照图4，语音评测设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取针对目标问题的待评测语音，及作为评测标准的关键词；

根据所述检测结果，确定所述待评测语音的评测结果。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

根据所述检测结果，确定所述待评测语音的评测结果。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音评测方法，其特征在于，包括：

获取待评测语音，及作为评测标准的关键词；

提取所述待评测语音的声学特征；

将所述声学特征输入预置的第一声学识别模型，得到第一声学识别模型输出的所述待评测语音对应的文本信息；

通过第一关键词分类器对所述待评测语音进行关键词分类，得到分类结果，并将所述分类结果作为检测所述待评测语音中是否包含与所述关键词对应的语音片段的检测结果；所述第一关键词分类器为，以语音训练数据的声学特征经第一声学识别模型的隐层转换后的隐层平均声学特征，及所述关键词的词向量特征为训练样本，以语音训练数据对所述关键词及非关键词对应语音片段的分类标注结果为样本标签训练得到；

根据所述检测结果，确定所述待评测语音的评测结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述关键词与所述文本信息进行匹配得到匹配结果，并将所述匹配结果作为检测所述待评测语音中是否包含与所述关键词对应的语音片段的检测结果；所述匹配结果表明所述待评测语音对所述关键词对应语音片段的包含情况。

3.根据权利要求1所述的方法，其特征在于，所述第一声学识别模型为，通用声学识别模型，或，为利用所述通用声学识别模型对所述待评测语音的识别结果，对所述通用声学识别模型进行自适应后的声学识别模型。

4.根据权利要求1所述的方法，其特征在于，所述第一声学识别模型为，以所述关键词及过滤器构成的解码空间对应的声学识别模型，所述过滤器表征所有的非关键词。

5.根据权利要求1所述的方法，其特征在于，所述通过第一关键词分类器对所述待评测语音进行关键词分类，得到分类结果，包括：

将所述隐层平均声学特征与所述关键词的词向量特征输入预置的第一关键词分类器，得到第一关键词分类器输出的所述待评测语音对所述关键词及非关键词对应语音片段的分类结果。

6.根据权利要求2所述的方法，其特征在于，所述根据所述检测结果，确定所述待评测语音的评测结果，包括：

根据所述评测特征，确定所述待评测语音的评测结果。

7.根据权利要求1所述的方法，其特征在于，所述根据所述检测结果，确定所述待评测语音的评测结果，包括：

所述命中关键词为所述待评测语音中存在与关键词对应的语音片段；所述命中关键词的置信度为所述第一关键词分类器对所述命中关键词的分类置信度；所述关键词命中率为所述命中关键词个数，占所述关键词的总个数的比例；所述高斯时长由所述待评测语音中所述命中关键词的发音时长确定；

根据所述评测特征，确定所述待评测语音的评测结果。

8.一种语音评测装置，其特征在于，包括：

语音检测单元，用于提取所述待评测语音的声学特征，将所述声学特征输入预置的第一声学识别模型，得到第一声学识别模型输出的所述待评测语音对应的文本信息；通过第一关键词分类器对所述待评测语音进行关键词分类，得到分类结果，并将所述分类结果作为检测所述待评测语音中是否包含与所述关键词对应的语音片段的检测结果；所述第一关键词分类器为，以语音训练数据的声学特征经第一声学识别模型的隐层转换后的隐层平均声学特征，及所述关键词的词向量特征为训练样本，以语音训练数据对所述关键词及非关键词对应语音片段的分类标注结果为样本标签训练得到；

9.根据权利要求8所述的装置，其特征在于，所述语音检测单元还用于：

10.根据权利要求8所述的装置，其特征在于，所述语音检测单元包括：

第一关键词分类器预测单元，用于将所述隐层平均声学特征与所述关键词的词向量特征输入预置的第一关键词分类器，得到第一关键词分类器输出的所述待评测语音对所述关键词及非关键词对应语音片段的分类结果。

11.根据权利要求9任一项所述的装置，其特征在于，所述评测结果确定单元包括：

12.根据权利要求8所述的装置，其特征在于，所述评测结果确定单元包括：

13.一种语音评测设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-7中任一项所述的语音评测方法的各个步骤。

14.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的语音评测方法的各个步骤。