CN109215632B

CN109215632B - 一种语音评测方法、装置、设备及可读存储介质

Info

Publication number: CN109215632B
Application number: CN201811162964.0A
Authority: CN
Inventors: 金海�; 吴奎; 胡阳; 朱群; 竺博; 魏思
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-10-08
Anticipated expiration: 2038-09-30
Also published as: JP2020056982A; JP6902010B2; CN109215632A

Abstract

本申请公开了一种语音评测方法、装置、设备及可读存储介质，本申请获取待评测语音及作为评测标准的答案文本，基于待评测语音的声学特征和答案文本的文本特征，可以确定待评测语音与答案文本的对齐信息，可以理解的是，对齐信息表明了待评测语音与答案文本的对齐关系，进而可以根据对齐信息，实现自动化的确定待评测语音相对于答案文本的评测结果。由于不需要人工进行评测，既避免了人的主观影响对评测结果的干扰，又减少了人工成本的消耗。

Description

一种语音评测方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种语音评测方法、装置、设备及可读存储介质。

背景技术

随着教育改革的不断深入，口语考试在全国各地开展。相对于书面考试而言，口语考试能够评测考生的口语水平。

现有口语考试多是通过专业老师，根据题目对应的正确答案信息，对考生的回答进行评测。这种人工评测的方式极其容易受到人的主观影响，导致评测结果受人为干扰，并且，还会消耗大量的人工成本。

发明内容

有鉴于此，本申请提供了一种语音评测方法、装置、设备及可读存储介质，用于解决现有人工进行口语考试评测的方式所存在的缺点。

为了实现上述目的，现提出的方案如下：

一种语音评测方法，包括：

获取待评测语音，及作为评测标准的答案文本；

基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息；

根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果。

优选地，所述待评测语音的声学特征的获取过程，包括：

获取所述待评测语音的频谱特征，作为声学特征；

或，

获取所述待评测语音的频谱特征；

获取神经网络模型的隐层对所述频谱特征转换后的隐层特征，作为声学特征。

优选地，所述答案文本的文本特征的获取过程，包括：

获取所述答案文本的向量，作为文本特征；

或，

获取所述答案文本的向量；

获取神经网络模型的隐层对所述向量转换后的隐层特征，作为文本特征。

优选地，所述基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息，包括：

基于所述待评测语音的声学特征和所述答案文本的文本特征，确定帧级注意力矩阵，所述帧级注意力矩阵包括：对于所述答案文本中任意一个文本单元，所述待评测语音中每一帧语音对所述文本单元的对齐概率。

优选地，所述基于所述待评测语音的声学特征和所述答案文本的文本特征，确定帧级注意力矩阵，包括：

利用神经网络模型的第一全连接层处理所述待评测语音的声学特征和所述答案文本的文本特征，所述第一全连接层被配置为接收并处理所述声学特征和所述文本特征，以生成帧级注意力矩阵的内部状态表示。

优选地，所述基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息，还包括：

基于所述帧级注意力矩阵和所述声学特征，确定词级声学对齐矩阵，所述词级声学对齐矩阵包括：与所述答案文本中每一个文本单元对齐的声学信息，所述声学信息包括以所述文本单元与每帧语音的对齐概率为权重，对每帧语音的声学特征进行加权求和的结果；

基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵，所述词级注意力矩阵包括：对于所述答案文本中任意一个文本单元的文本特征，所述答案文本中每一个文本单元的声学信息对其对齐概率。

优选地，所述基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵，包括：

利用神经网络模型的第二全连接层处理所述词级声学对齐矩阵和所述文本特征，所述第二全连接层被配置为接收并处理所述词级声学对齐矩阵和所述文本特征，以生成词级注意力矩阵的内部状态表示。

优选地，所述根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果，包括：

根据所述对齐信息，确定所述待评测语音与所述答案文本的匹配度；

根据所述匹配度，确定所述待评测语音相对于所述答案文本的评测结果。

优选地，所述根据所述对齐信息，确定所述待评测语音与所述答案文本的匹配度，包括：

利用神经网络模型的卷积单元处理所述对齐信息，所述卷积单元被配置为接收并处理所述对齐信息，以生成所述待评测语音与所述答案文本的匹配度的内部状态表示。

优选地，所述根据所述匹配度，确定所述待评测语音相对于所述答案文本的评测结果，包括：

利用神经网络模型的第三全连接层处理所述匹配度，所述第三全连接层被配置为接收并处理所述匹配度，以生成所述待评测语音相对于所述答案文本的评测结果的内部状态表示。

一种语音评测装置，包括：

数据获取单元，用于获取待评测语音，及作为评测标准的答案文本；

对齐信息确定单元，用于基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息；

评测结果确定单元，用于根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果。

优选地，还包括声学特征获取单元，包括：

第一声学特征获取子单元，用于获取所述待评测语音的频谱特征，作为声学特征；

或，

第二声学特征获取子单元，用于获取所述待评测语音的频谱特征；

第三声学特征获取子单元，用于获取神经网络模型的隐层对所述频谱特征转换后的隐层特征，作为声学特征。

优选地，还包括：文本特征获取单元，包括：

第一文本特征获取子单元，用于获取所述答案文本的向量，作为文本特征；

或，

第二文本特征获取子单元，用于获取所述答案文本的向量；

第三文本特征获取子单元，用于获取神经网络模型的隐层对所述向量转换后的隐层特征，作为文本特征。

优选地，所述对齐信息确定单元包括：

帧级注意力矩阵确定单元，用于基于所述待评测语音的声学特征和所述答案文本的文本特征，确定帧级注意力矩阵，所述帧级注意力矩阵包括：对于所述答案文本中任意一个文本单元，所述待评测语音中每一帧语音对所述文本单元的对齐概率。

优选地，所述帧级注意力矩阵确定单元包括：

第一全连接层处理单元，用于利用神经网络模型的第一全连接层处理所述声学特征和所述文本特征，所述第一全连接层被配置为接收并处理所述声学特征和所述文本特征，以生成帧级注意力矩阵的内部状态表示。

优选地，所述对齐信息确定单元还包括：

词级声学对齐矩阵确定单元，用于基于所述帧级注意力矩阵和所述声学特征，确定词级声学对齐矩阵，所述词级声学对齐矩阵包括：与所述答案文本中每一个文本单元对齐的声学信息，所述声学信息包括以所述文本单元与每帧语音的对齐概率为权重，对每帧语音的声学特征进行加权求和的结果；

词级注意力矩阵确定单元，用于基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵，所述词级注意力矩阵包括：对于所述答案文本中任意一个文本单元的文本特征，所述答案文本中每一个文本单元的声学信息对其对齐概率。

优选地，所述词级注意力矩阵确定单元包括：

第二全连接层处理单元，用于利用神经网络模型的第二全连接层处理所述词级声学对齐矩阵和所述文本特征，所述第二全连接层被配置为接收并处理所述词级声学对齐矩阵和所述文本特征，以生成词级注意力矩阵的内部状态表示。

优选地，所述评测结果确定单元包括：

匹配度确定单元，用于根据所述对齐信息，确定所述待评测语音与所述答案文本的匹配度；

匹配度应用单元，用于根据所述匹配度，确定所述待评测语音相对于所述答案文本的评测结果。

优选地，所述匹配度确定单元包括：

卷积单元处理单元，用于利用神经网络模型的卷积单元处理所述对齐信息，所述卷积单元被配置为接收并处理所述对齐信息，以生成所述待评测语音与所述答案文本的匹配度的内部状态表示。

优选地，所述匹配度应用单元包括：

第三全连接层处理单元，用于利用神经网络模型的第三全连接层处理所述匹配度，所述第三全连接层被配置为接收并处理所述匹配度，以生成所述待评测语音相对于所述答案文本的评测结果的内部状态表示。

一种语音评测设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音评测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音评测方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音评测方法，获取待评测语音及作为评测标准的答案文本，基于待评测语音的声学特征和答案文本的文本特征，可以确定待评测语音与答案文本的对齐信息，可以理解的是，对齐信息表明了待评测语音与答案文本的对齐关系，进而可以根据对齐信息，实现自动化的确定待评测语音相对于答案文本的评测结果。由于不需要人工进行评测，既避免了人的主观影响对评测结果的干扰，又减少了人工成本的消耗。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种语音评测方法流程图；

图2示例了一种神经网络模型进行语音评测的流程示意图；

图3示例了另一种神经网络模型进行语音评测的流程示意图；

图4为本申请实施例公开的一种语音评测装置结构示意图；

图5为本申请实施例公开的一种语音评测设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有口语测评依靠人工，导致评测结果受人为干扰且浪费人力成本的问题，本申请发明人首先提出了一种解决方案，即可以利用语音识别模型对待评测语音进行识别，得到识别文本，并从答案文本中提取关键词，进而计算识别文本对关键词的命中率，根据该命中率确定待评测语音的评测结果，如命中率越高，可以确定评测分数越高。

但是，进一步研究发现，发明人提出的上述解决方案由于需要先将待评测语音识别为文本，该过程会用到语音识别模型。若使用通用的语音识别模型对不同考试场景的待评测语音进行识别，会存在识别准确率低的问题，进而导致评测结果不准确。若针对不同考试场景分别训练语音识别模型，则需要针对每场考试均提前安排人工进行训练数据打分，耗费大量人工成本。

在此基础上，本案发明人进一步研究，最终实现了从主动寻找待评测语音与答案文本的对齐信息的角度出发，实现自动化的语音评测。本申请的语音评测方法可以基于具备数据处理能力的电子设备实现，如智能终端、服务器、云平台等。

本申请的语音评测方案可以适用于口语考试评测场景，以及其它涉及对发音水平进行评测的场景。

接下来，结合附图1对本申请的语音评测方法进行说明，该方法可以包括：

步骤S100、获取待评测语音，及作为评测标准的答案文本。

具体地，以口语考试场景为例，待评测语音可以是考生给出的口语回答录音。对应的，本实施例中可以预先设定作为评测标准的答案文本。以材料阅读口语考试题目为例，作为评测标准的答案文本可以是从阅读材料中提取的文本信息。除此之外，针对其他类型问题的口语考试，作为评测标准的答案文本可以是问题对应的答案内容。

本步骤中，待评测语音的获取方式可以是通过录音设备接收，录音设备可以包括麦克风，如头戴式麦克风。

步骤S110、基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息。

其中，待评测语音的声学特征反映了待评测语音的声学信息。答案文本的文本特征反映了答案文本的文本信息。声学特征的类型可以有多种，同理，文本特征的类型也可以有多种。

本实施例中基于声学特征和文本特征，主动寻找待评测语音与答案文本的对齐信息，该对齐信息反映了待评测语音与答案文本的对齐关系。可以理解的是，对于符合评测标准的待评测语音，其与答案文本的对齐完整度应该也很高，相反，对于不符合评测标准的待评测语音，其与答案文本的对齐完整度很低。

步骤S120、根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果。

根据上述论述可知，对齐信息反映了待评测语音与答案文本的对齐关系，其与待评测语音是否符合评测标准及与评测标准符合程度相关，因此本步骤中可以根据对齐信息，确定待评测语音相对于答案文本的评测结果。

本申请实施例提供的语音评测方法，可以根据对齐信息，实现自动化的确定待评测语音相对于答案文本的评测结果。由于不需要人工进行评测，既避免了人的主观影响对评测结果的干扰，又减少了人工成本的消耗。

进一步地，由于本案从主动寻找待评测语音与答案文本的对齐信息的角度出发，来确定评测结果，其不需要使用语音识别模型对待评测语音进行语音识别，及对识别文本与答案文本关键词命中率的计算，避免了语音识别结果不准确导致的评测结果不准确的问题，其语音评测结果更加准确，且方案可以适用于各种语音评测场景，鲁棒性更强，不需要额外花费人力在不同场景下进行打分以确定训练数据，节省了人力成本。

在本申请的另一个实施例中，介绍了上述步骤S110中所提及的待评测语音的声学特征，及答案文本的文本特征的获取过程。

首先介绍待评测语音的声学特征的获取过程：

一种可选的方式，可以直接获取待评测语音的频谱特征，并将该频谱特征作为待评测语音的声学特征。

其中，频谱特征可以包括梅尔频率倒谱系数(MelFrequency CepstrumCoefficient,MFCC)特征或感知线性预测(PerceptualLinear Predictive，PLP)特征等。

为了便于表述，定义待评测语音包含T帧。

则在获取待评测语音的频谱特征时，可以先对待评测语音进行分帧处理，并对分帧后的待评测语音进行预加重，进而提取每帧语音的频谱特征。

另一种可选的方式，可以获取待评测语音的频谱特征，进一步，获取神经网络模型的隐层对所述频谱特征转换后的隐层特征，作为声学特征。

这里，神经网络模型可以采用多种结构形式，如RNN(Recurrent Neural Network，递归神经网络)、LSTM(Long Short-TermMemory，长短时记忆网络)、GRU(Gated RecurrentUnit，门控循环单元)等。

通过神经网络模型的隐层对频谱特征进行转换，可以对频谱特征进行深层映射，得到的隐层特征相比于频谱特征层级更深，更加能够体现待评测语音的声学特性，因此可以将隐层特征作为声学特征。

声学特征可以通过如下矩阵形式进行表示：

其中，h_t(t＝1,2,…,T)表示第t帧语音的声学特征，且每一帧的声学特征的维度保持不变，定义为m维。

进一步，介绍待评测语音的文本特征的获取过程：

一种可选的方式，可以直接获取答案文本的向量，并将该向量作为答案文本的文本特征。

其中，答案文本的向量可以是组成答案文本的文本单元的词向量的组合，或者，文本单元的词向量经过一定运算处理后的向量结果。示例如，使用神经网络模型对文本单元的词向量提取隐层特征，作为文本单元的向量结果。文本单元的词向量的表示方法可以不做过多限制，如可以使用one-hot或embedding方法来表示词向量。

进一步，答案文本的文本单元可以自由设定，如使用词级、音素级或词根级文本单元。

为了便于表述，定义答案文本包含C个文本单元。

则可以针对答案文本中每一个文本单元，获取其词向量，最终根据C个文本单元的词向量确定答案文本的文本特征。

另一种可选的方式，可以获取答案文本的向量，进一步，获取神经网络模型的隐层对所述向量转换后的隐层特征，作为文本特征。

同上，神经网络模型可以采用多种结构形式，如RNN(Recurrent Neural Network，递归神经网络)、LSTM(Long Short-Term Memory，长短时记忆网络)、GRU(Gated RecurrentUnit，门控循环单元)等。

通过神经网络模型的隐层对答案文本的向量进行转换，可以对答案文本的向量进行深层映射，得到的隐层特征相比于答案文本的向量层级更深，更加能够体现答案文本的文本特性，因此可以将隐层特征作为文本特征。

文本特征可以通过如下矩阵形式进行表示：

其中，s_i(i＝1,2,…,C)表示第i个文本单元的文本特征，且每一个文本单元的文本特征的维度保持不变，定义为n维。

在本申请的又一个实施例中，对上述步骤S110，基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息的过程进行介绍。

本实施例中，可以基于待评测语音的声学特征和答案文本的文本特征，确定帧级注意力矩阵，该帧级注意力矩阵包括：对于答案文本中任意一个文本单元，待测语音中每一帧语音对所述文本单元的对齐概率。

上述确定的帧级注意力矩阵可以作为待评测语音与答案文本的对齐信息。接下来，通过公式来说明上述对齐概率：

e_it＝a(h_t,s_i)＝w^T(Ws_i+Vh_t+b)

其中，e_it表示第i个文本单元的文本特征与第t帧语音的声学特征的对齐信息；a_it表示对于第i个文本单元，第t帧语音对该第i个文本单元的对齐概率；s_i表示第i个文本单元的文本特征，是一个n维向量；h_t表示第t帧语音的声学特征，是一个m维向量；W、V、w、b是四个参数，其中W可以是一个k*n维的矩阵，V可以是一个k*m维的矩阵，w可以是一个k维向量，这三个参数用于特征映射，b是一个偏置，可以是一个k维向量。

上述帧级注意力矩阵可以表示为如下形式：

本实施例中，提供了一种基于注意力机制，通过神经网络模型来确定帧级注意力矩阵的可选实施方式，具体可以包括：

利用神经网络模型的第一全连接层处理所述声学特征和所述文本特征，所述第一全连接层被配置为接收并处理所述声学特征和所述文本特征，以生成帧级注意力矩阵的内部状态表示。

其中，神经网络模型的第一全连接层可以表示为上述e_it和a_it的公式形式。而W、V、w、b四个参数作为第一全连接层的参数。通过迭代训练神经网络模型，可以迭代更新上述四个参数，直至模型训练结束后四个参数固定。

本实施例确定的作为对齐信息的帧级注意力矩阵，包含所述待评测语音中每一帧语音，对答案文本中任意一个文本单元的对齐概率，也即得到了待评测语音的帧级对齐信息，该帧级注意力矩阵与待评测语音相对于评测标准的符合程度相关，因此后续可以基于该帧级注意力矩阵确定待评测语音相对于答案文本的评测结果。

进一步地，考虑到不同用户语速的差异，在表达同一答案文本时不同用户产生的语音时长可能不同，进而导致语音包含的帧数不同。按照上述方案确定的作为对齐信息的帧级注意力矩阵，由于帧数不同导致帧级注意力矩阵也就不同，进而基于帧级注意力矩阵确定的评测结果也会不同。而实际情况中，由于不同用户表达的是同一答案文本，其评测结果理应相同。基于这一问题，本实施例提供了另一种确定对齐信息的方案。

在上述实施例介绍的基于待评测语音的声学特征和答案文本的文本特征，得到帧级注意力矩阵的基础上，本实施例进一步增加如下处理环节：

1、基于所述帧级注意力矩阵和所述声学特征，确定词级声学对齐矩阵，所述词级声学对齐矩阵包括：与所述答案文本中每一个文本单元对齐的声学信息，所述声学信息包括以所述文本单元与每帧语音的对齐概率为权重，对每帧语音的声学特征进行加权求和的结果。

具体地，词级声学对齐矩阵中与第i个文本单元对齐的声学信息的表达方式如下：

其中，a_it和h_t的意义参见前文介绍。

上述词级声学对齐矩阵可以表示为：

其中，c_i(i＝1,2,…,C)表示第i个文本单元的声学对齐信息，c_i为m维。

2、基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵，所述词级注意力矩阵包括：对于所述答案文本中任意一个文本单元的文本特征，所述答案文本中每一个文本单元的声学特征对其对齐概率。

本步骤确定的词级注意力矩阵可以作为待评测语音与答案文本的对齐信息。接下来，通过公式来说明词级注意力矩阵：

其中，K_ij表示第i个文本单元的声学特征与第j个文本单元的文本特征的对齐信息；I_ij表示第i个文本单元的声学信息对第j个文本单元的文本特征的对齐概率；

为s_j的转置，c_i表示第i个文本单元的声学对齐信息；s_j表示第j个文本单元的文本特征，U为参数，用于将词级声学对齐特征映射到文本特征相同维度进行点乘运算。

词级注意力矩阵可以表示为如下形式：

本实施例中，提供了一种基于注意力机制，通过神经网络模型来确定词级注意力矩阵的可选实施方式，具体可以包括：

其中，神经网络模型的第二全连接层可以表示为上述K_ij和I_ij的公式形式。而U这一参数作为第二全连接层的参数。通过迭代训练神经网络模型，可以迭代更新上述参数U，直至模型训练结束参数U固定。

本实施例确定的作为对齐信息的词级注意力矩阵，包含答案文本中每一个文本单元的声学特征，对任意一个文本单元的文本特征的对齐概率，也即得到了词级注意力矩阵，该词级注意力矩阵与待评测语音相对于评测标准的符合程度相关，因此后续可以基于该词级注意力矩阵确定待评测语音相对于答案文本的评测结果。

进一步地，由于词级注意力矩阵与待评测语音包含的帧数无关，也即与用户语速无关，其仅考虑了文本特征与声学特征间的对齐关系，能够解决前述提及的不同语速用户表达同一答案文本时，评测结果不同的缺点，也即使用本实施例的词级注意力矩阵作为对齐信息，其评测准确度更高。

在本申请的又一个实施例中，对上述步骤S120，根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果的过程进行介绍。

可以理解的是，本实施例中所依据的对齐信息，可以是上述帧级注意力矩阵，也可以是上述词级注意力矩阵。则，依据对齐信息，确定评测结果的过程可以包括：

1)、根据所述对齐信息，确定所述待评测语音与所述答案文本的匹配度。

具体地，前述已经确定了对齐信息，其可以是帧级注意力矩阵，或者词级注意力矩阵。基于该对齐信息，可以确定待评测语音与答案文本间的匹配度。

一种可选的方式下，可以利用神经网络模型的卷积单元处理所述对齐信息，所述卷积单元被配置为接收并处理所述对齐信息，以生成所述待评测语音与所述答案文本的匹配度的内部状态表示。

其中，输入神经网络模型的卷积单元的对齐信息，其矩阵大小可以是固定的，可以根据常见的答案文本的长度来确定该矩阵大小，如一般性的答案文本最多不超过20个词，则矩阵大小可以是20*20。对于不足的元素可以用0来填充。

2)、根据所述匹配度，确定所述待评测语音相对于所述答案文本的评测结果。

一种可选的方式下，可以利用神经网络模型的第三全连接层处理所述匹配度，所述第三全连接层被配置为接收并处理所述匹配度，以生成所述待评测语音相对于所述答案文本的评测结果的内部状态表示。

其中，第三全连接层可以表示为：

y＝Fx+g

其中，x为匹配度，y为回归出的评测结果，可以是数值形式，F为特征映射矩阵，g为偏置。

其中，评测结果可以是回归出的一个具体分数，分数的大小表示待评测语音的好坏程度，也即待评测语音与评测标准的符合程度。此外，评测结果还可以是表示待评测语音属于某个分类的概率，这里可以预先设定若干分类，不同分类表示待评测语音与评测标准的不同符合程度，也即表示待评测语音的好坏程度，示例如划分为三个分类，分别为：优、良、差。

需要说明的是，上述各实施例中提及的神经网络模型，可以是同一个神经网络模型，即使用一个神经网络模型的不同层级结构来处理各自的数据，如可以使用神经网络模型的若干隐层对频谱特征进行转换，使用其他若干隐层对词向量进行转换，使用第一全连接层生成帧级注意力矩阵，使用第二全连接层生成词级注意力矩阵，使用卷积单元生成所述待评测语音与所述答案文本的匹配度，使用第三全连接层生成所述待评测语音相对于所述答案文本的评测结果等。基于此，可以预先获取标注有人工评测结果的语音训练数据，及答案文本，对神经网络模型进行训练，通过反向传播算法迭代更新神经网络模型中不同层级的参数，训练完毕后各参数固定。

以评测结果为评测分形式为例进行说明，在对神经网络模型进行训练时，可以基于数据对方式作为目标函数，每个数据对构建方式要求人工评测分有一定的差异，以使得模型学到不同评测分之间的差异，目标函数的表达式如下：

其中，y_i和y_i+1为训练数据中第i和i+1个样本的模型预测分，z_i和z_i+1为训练数据中第i和i+1个样本的人工评测分。

上述目标函数的目的是使得模型预测分与人工评测分的分差最小化，且使得相邻两个样本的模型预测分之差更接近该两个样本的人工评测分之差，从而使得模型学到不同评测分之间的差异。

参见图2和图3，其示例了两种不同结构的神经网络模型进行语音评测的流程示意图。

图2中使用词级注意力矩阵作为对齐信息，并基于该对齐信息确定评测结果。

图3中使用帧级注意力矩阵作为对齐信息，并基于该对齐信息确定评测结果。

如图2所示，其中虚线框部分为神经网络模型内部处理流程，由图2可知，待评测语音提取声学特征，以及答案文本提取文本特征，作为神经网络模型的输入，各自经过一个RNN隐层，分别提取深层声学特征矩阵和深层文本特征矩阵，并通过输入第一全连接层，由第一全连接层输入帧级注意力矩阵，帧级注意力矩阵与深层声学特征矩阵点乘可以得到词级声学对齐矩阵，词级声学对齐矩阵和深层文本特征矩阵作为第二全连接层的输入，由第二全连接层输出级注意力矩阵，词级注意力矩阵输入CNN卷积单元，得到处理后的匹配度向量，并输入至第三全连接层，由第三全连接层回归出评测分数。

该神经网络模型可以通过反向传播算法训练，并迭代更新其中各个层级结构的参数。

图3中虚线框部分为神经网络模型内部处理流程，相比于图2而言，图3示例的神经网络模型缺少了第二全连接层。对应的处理流程上，第一全连接层输出的帧级注意力矩阵直接作为CNN卷积单元的输入，并由CNN卷积单元基于帧级注意力矩阵输出匹配度向量，后续流程一致。相比于图2的流程，图3中省去了通过第二全连接层得到词级注意力矩阵的过程。

同理，该神经网络模型可以通过反向传播算法训练，并迭代更新其中各个层级结构的参数。

进一步需要说明的是，上述各实施例中提及的神经网络模型还可以是多个独立的神经网络模型，且多个独立的神经网络模型之间相互配合，以完成整个语音评测过程。示例如，对频谱特征进行转换，获得深层声学特征的神经网络模型可以是一个独立的模型，如使用语音识别模型作为该独立的神经网络模型，并利用语音识别模型的隐层对频谱特征进行转换，得到转换后的隐层特征作为深层声学特征。

下面对本申请实施例提供的语音评测装置进行描述，下文描述的语音评测装置与上文描述的语音评测方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种语音评测装置结构示意图。如图4所示，该装置可以包括：

数据获取单元11，用于获取待评测语音，及作为评测标准的答案文本；

对齐信息确定单元12，用于基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息；

评测结果确定单元13，用于根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果。

可选的，本申请的装置还可以包括：声学特征获取单元，用于获取待评测语音的声学特征。具体地，声学特征获取单元可以包括：

或，

可选的，本申请的装置还可以包括：文本特征获取单元，用于获取答案文本的文本特征。具体地，文本特征获取单元可以包括：

或，

第二文本特征获取子单元，用于获取所述答案文本的向量；

可选的，所述对齐信息确定单元可以包括：

可选的，所述帧级注意力矩阵确定单元可以包括：

可选的，所述对齐信息确定单元还可以包括：

可选的，所述词级注意力矩阵确定单元可以包括：

可选的，所述评测结果确定单元可以包括：

可选的，所述匹配度确定单元可以包括：

可选的，所述匹配度应用单元可以包括：

本申请实施例提供的语音评测装置可应用于语音评测设备，如PC终端、云平台、服务器及服务器集群等。可选的，图5示出了语音评测设备的硬件结构框图，参照图5，语音评测设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待评测语音，及作为评测标准的答案文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待评测语音，及作为评测标准的答案文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音评测方法，其特征在于，包括：

获取待评测语音，及作为评测标准的答案文本，所述答案文本为评测场景下的题目对应的答案内容；

基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息，所述对齐信息反映了待评测语音与答案文本的对齐关系；

根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果；

所述基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息，包括：

基于所述待评测语音的声学特征和所述答案文本的文本特征，确定帧级注意力矩阵；

基于所述帧级注意力矩阵和所述声学特征，确定词级声学对齐矩阵；

基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵；

所述基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵，包括：

2.根据权利要求1所述的方法，其特征在于，所述待评测语音的声学特征的获取过程，包括：

获取所述待评测语音的频谱特征，作为声学特征；

或，

获取所述待评测语音的频谱特征；

3.根据权利要求1所述的方法，其特征在于，所述答案文本的文本特征的获取过程，包括：

获取所述答案文本的向量，作为文本特征；

或，

获取所述答案文本的向量；

4.根据权利要求1所述的方法，其特征在于，所述帧级注意力矩阵包括：对于所述答案文本中任意一个文本单元，所述待评测语音中每一帧语音对所述文本单元的对齐概率。

5.根据权利要求4所述的方法，其特征在于，所述基于所述待评测语音的声学特征和所述答案文本的文本特征，确定帧级注意力矩阵，包括：

6.根据权利要求4所述的方法，其特征在于，所述词级声学对齐矩阵包括：与所述答案文本中每一个文本单元对齐的声学信息，所述声学信息包括以所述文本单元与每帧语音的对齐概率为权重，对每帧语音的声学特征进行加权求和的结果；

所述词级注意力矩阵包括：对于所述答案文本中任意一个文本单元的文本特征，所述答案文本中每一个文本单元的声学信息对其对齐概率。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述对齐信息，确定所述待评测语音与所述答案文本的匹配度，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据所述匹配度，确定所述待评测语音相对于所述答案文本的评测结果，包括：

10.一种语音评测装置，其特征在于，包括：

数据获取单元，用于获取待评测语音，及作为评测标准的答案文本，所述答案文本为评测场景下的题目对应的答案内容；

对齐信息确定单元，用于基于所述待评测语音的声学特征和所述答案文本的文本特征，确定所述待评测语音与所述答案文本的对齐信息，所述对齐信息反映了待评测语音与答案文本的对齐关系；

评测结果确定单元，用于根据所述对齐信息，确定所述待评测语音相对于所述答案文本的评测结果；

所述对齐信息确定单元包括：

帧级注意力矩阵确定单元，用于基于所述待评测语音的声学特征和所述答案文本的文本特征，确定帧级注意力矩阵；

词级声学对齐矩阵确定单元，用于基于所述帧级注意力矩阵和所述声学特征，确定词级声学对齐矩阵；

词级注意力矩阵确定单元，用于基于所述词级声学对齐矩阵和所述文本特征，确定词级注意力矩阵；

所述词级注意力矩阵确定单元包括：

11.根据权利要求10所述的装置，其特征在于，所述帧级注意力矩阵包括：对于所述答案文本中任意一个文本单元，所述待评测语音中每一帧语音对所述文本单元的对齐概率。

12.根据权利要求11所述的装置，其特征在于，所述词级声学对齐矩阵包括：与所述答案文本中每一个文本单元对齐的声学信息，所述声学信息包括以所述文本单元与每帧语音的对齐概率为权重，对每帧语音的声学特征进行加权求和的结果；

13.根据权利要求10-12任一项所述的装置，其特征在于，所述评测结果确定单元包括：

14.一种语音评测设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-9中任一项所述的语音评测方法的各个步骤。

15.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-9中任一项所述的语音评测方法的各个步骤。