CN109272992B

CN109272992B - 一种口语测评方法、装置及一种生成口语测评模型的装置

Info

Publication number: CN109272992B
Application number: CN201811422784.1A
Authority: CN
Inventors: 夏龙; 高强; 吴凡; 陈冬晓; 马楠; 崔成鹏; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2022-03-18
Anticipated expiration: 2038-11-27
Also published as: CN109272992A

Abstract

本申请提供一种口语测评方法、装置及一种生成口语测评模型的装置，其中口语测评方法，应用于口语测评***的数据处理端包括：获取待测评语音数据；提取待测评语音数据的口语属性特征信息；基于预先生成的口语测评模型根据待测评语音数据的口语属性特征信息得到打分结果。

Description

一种口语测评方法、装置及一种生成口语测评模型的装置

技术领域

本申请涉及语言学习技术领域，特别涉及一种口语测评方法、装置及一种生成口语测评模型的装置、一种计算设备及一种计算机可读存储介质。

背景技术

随着全球经济一体化的发展，英语作为国际通用语言，越来越展示出其重要的作用。商务往来、文化交流、跨国旅游等活动日益频繁，越来越多的人需要学习一门外语，这样口语交际能力的提高已经成为了外语学习的迫切需求。

现有绝大部分口语评测技术都是针对成人的，语音训练数据基本都是成人的。由于幼儿的声道发育不完整，而且有标注的幼儿训练数据很少，这些模型在幼儿口语评测上很难有好的表现。另外一些模型需要大量的示例音频，模型的灵活性很低。

发明内容

有鉴于此，本申请实施例提供了一种口语测评方法、装置及一种生成口语测评模型的装置、一种计算设备及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种口语测评方法，应用于口语测评***的数据处理端，包括：

获取待测评语音数据；

提取所述待测评语音数据的口语属性特征信息；

基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果。

可选地，所述获取待测评语音数据之后，所述提取所述待测评语音数据的口语属性特征信息之前包括：

对所述待测评语音数据进行语音结束检测；

对语音结束检测后的待测评语音数据进行声道长度归一化处理；

对经过声道长度归一化处理的待测评语音数据进行语音识别得到待测评语音数据的语音帧序列以及与语音帧序列对应的转换文本；

将所述转换文本与参考文本进行强制对齐处理，并生成强制对齐信息，所述强制对齐信息包括转换文本的语音帧序列与所述参考文本的语音帧序列的对应关系。

可选地，对所述待测评语音数据进行语音结束检测包括：

对所述待测评语音数据识别，并将识别后的所述待测评语音数据转换为包含时间信息的待结束检测语音文本；

根据所述参考文本与所述待结束检测语音文本进行匹配获取匹配文本时间点；

根据预设的语音活动检测方法及所述匹配文本时间点确定所述待测评语音数据的结束时间点。

可选地，所述口语属性特征信息包括：

发音属性特征信息；

语调属性特征信息；

以及流利度属性特征信息。

可选地，所述口语属性特征信息还包括：单词标注特征信息；

在所述生成强制对齐信息之后还包括：

根据强制对齐信息，判断所述转化文本与所述参考文本是否匹配，若否，则对参考文本中不相匹配的单词添加单词标注特征信息。

可选地，所述获取待测评语音数据中的所述待测评语音数据为分片压缩后的语音数据；

所述获取待测评语音数据包括：

接收分片压缩后的待测评语音数据；

对分片压缩后的待测评语音数据进行解压处理。

可选地，在所述强制对齐处理的过程中，采用带有克林闭包的解码图，用于根据参考文本将待测评语音数据中重复出现的语音数据过滤掉。

可选地，所述获取待测评语音数据，提取所述待测评语音数据的口语属性特征信息包括：

获取初始语音数据；

采用基于深度聚类的语音分离方法，从所述初始语音数据中提取目标语音数据作为待测评语音数据；

提取所述待测评语音数据的口语属性特征信息。

另一方面，本申请还提供一种生成口语测评模型的方法，包括：

根据口语训练样本组生成口语训练样本集，每个所述口语训练样本组包含口语训练样本，每个所述口语训练样本包括口语属性特征信息和所述口语属性特征信息对应的打分结果；

根据所述口语训练样本集对口语测评模型进行训练，所述口语测评模型使得每个所述口语训练样本的口语属性特征信息与对应的打分结果相关联。

可选地，根据所述口语训练样本集对口语测评模型进行训练之前包括：

对所述口语训练样本的语音数据进行声道长度归一化处理，以将所有的口语训练样本组中口语训练样本的声道长度统一化。

可选地，所述口语属性特征信息包括：

发音属性特征信息；

语调属性特征信息；

以及流利度属性特征信息。

另一方面，本申请还提供一种口语测评装置，包括：

语音数据获取模块，被配置为获取待测评语音数据；

属性特征提取模块，被配置为提取所述待测评语音数据的口语属性特征信息；

打分结果生成模块，被配置为基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果。

可选地，所述装置还包括：

语音结束检测模块，被配置为对所述待测评语音数据进行语音结束检测；

声道程度归一化处理模块，被配置为对语音结束检测后的待测评语音数据进行声道长度归一化处理；

语音识别模块，被配置为对经过声道长度归一化处理的待测评语音数据进行语音识别得到待测评语音数据的转换文本；

强制对齐模块，被配置为将所述转换文本与参考文本进行强制对齐处理，并生成强制对齐信息，所述强制对齐信息包括转换文本的语音帧序列与所述参考文本的语音帧序列的对应关系。

可选地，所述语音结束检测模块包括：

识别单元，被配置为对所述待测评语音数据识别，并将识别后的所述待测评语音数据转换为包含时间信息的待结束检测语音文本；

匹配单元，被配置为根据所述参考文本与所述待结束检测语音文本进行匹配获取匹配文本时间点；

确定单元，被配置为根据预设的语音活动检测方法及所述匹配文本时间点确定所述待测评语音数据的结束时间点。

可选地，所述装置还包括：

标记模块，被配置为根据强制对齐信息，判断所述转化文本与所述参考文本是否匹配，若否，则对参考文本中不相匹配的单词添加单词标注特征信息。

可选地，所述语音数据获取模块包括：

第一获取单元，被配置为获取分片压缩后的语音数据；

解压单元，被配置为对分片压缩后的待测评语音数据进行解压处理。

可选地，所述强制对齐模块，采用带有克林闭包的解码图，用于根据参考文本将待测评语音数据中重复出现的语音数据过滤掉。

可选地，所述语音数据获取模块包括：

第二获取单元，被配置为获取初始语音数据；

提取单元，被配置为采用基于深度聚类的语音分离方法，从初始语音数据中提取目标语音数据作为待测评语音数据。

另一方面，本申请还提供一种生成口语测评模型的装置，包括：

训练样本生成模块，被配置为根据口语训练样本组生成口语训练样本集，每个所述口语训练样本组包含口语训练样本，每个所述口语训练样本包括口语属性特征信息和所述口语属性特征信息对应的打分结果；

模型生成模块，被配置为根据所述口语训练样本集对口语测评模型进行训练，得到所述口语测评模型，所述口语测评模型使得每个所述口语训练样本的口语属性特征信息与对应的打分结果相关联。

可选地，所述装置还包括：声道长度归一化处理模块，被配置为对所述口语训练样本的语音数据进行声道长度归一化处理，以将所有的口语训练样本组中口语训练样本的声道长度统一化。

另一方面，本申请还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述口语测评方法或所述生成口语测评模型的方法的步骤。

另一方面，本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述口语测评方法或所述生成口语测评模型的方法的步骤。

本申请提供的一种口语测评方法、装置及一种生成口语测评模型的装置、一种计算设备及一种计算机可读存储介质，通过对口语训练样本进行声道长度归一化处理和模型训练，使得该口语测评方法及装置能够对不同人群进行口语测评，并得到精准的口语测评结果，尤其解决了幼儿口语评测的难题。同时，该口语测评方法中使用语音结束检测提高了整个口语测评的流畅性，降低了用户使用门槛。除此之外，在该方法中使用克林闭包解决了重复跟读的问题；基于深度聚类的语音分离方法有效避免了待检测语音数据叠加或交替现象的出现。

附图说明

图1是本申请一实施例的计算设备的结构框图；

图2是本申请一实施例的口语测评方法的示意性流程图；

图3是本申请一实施例的口语测评方法的示意性流程图

图4是本申请一实施例的生成口语测评模型的示意性流程图；

图5是本申请一实施例的TDNN网络结构示意图；

图6是本申请一实施例的TDNN网络结构的局部结构示意图；

图7是本申请一实施例的口语测评装置的结构示意图；

图8是本申请一实施例的生成口语测评模型的装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了一种口语测评方法、装置及一种生成口语测评模型的装置、一种计算设备及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据，网络160用于接收数据库150存储的数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一实施例中，计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2示出了根据本申请一实施例的口语测评方法的示意性流程图，所述口语测评方法，应用于口语测评***的数据处理端，包括步骤202至步骤206：

步骤202：获取待测评语音数据。

步骤204：提取所述待测评语音数据的口语属性特征信息。

其中，所述口语属性特征信息包括：发音属性特征信息、语调属性特征信息以及流利度属性特征信息；

步骤206：基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果。

在获取待测评语音数据之后，所述口语测评模型能够根据所述待测评语音数据的口语属性特征信息得出打分结果，步骤简单，能够大大缩短用户等待结果的时间。且所述口语测评模型是事先训练好的，无需储备大量的示例音频即可对待测评语音数据进行打分，扩大了该方法的使用范围。

所述口语属性特征信息的内容反映了所述口语测评模型的打分方向，即所述口语测评模型对待测评语音数据的发音、语调以及流利度进行打分，并给出一个分数，以评价待测评语音数据的准确度。

例如所述口语测评模型的给出的分数是按照百分制得出的，向所述口语测评模型输入一段语音后，所述口语测评模型会从该段语音的发音、语调以及流利度三个方面进行打分，并给出打分结果为98分。

参见图3，图3示出了根据本申请一实施例的口语测评方法的示意性流程图；所述口语测评方法步骤包括步骤302至步骤322：

步骤302：获取经过分片压缩后的待测评语音数据，所述待测评语音数据为初始语音数据。

在所述数据处理端为服务器端的情况下，若所述服务器端从客户端直接获取不经过压缩的待测评语音数据，用户需要耗费较大的网络流量，还会带来较大的延迟，同时也会给服务器网络宽带带来压力。对所述待测评语音数据进行分片压缩处理，并进行分片传输。

所述待测评语音数据分片的大小影响着整个口语评测的性能，分片太短，传输延迟低，但是服务器端CPU/GPU利用率低。分片太长，虽然CPU/GPU利用率高，但是网络延迟大。

实际使用中，可以通过大量的实验，确定出每个待测评语音数据的最优切分长度。

音频压缩算法分为无损和有损两大类，无损压缩虽然没有任何信息丢失，但是压缩率太低，有损压缩虽然有部分信息丢失，但是压缩率更高，对语音识别结果几乎没有影响。压缩编码有很多种成熟的方法，本申请一实施例使用AAC(Advanced Audio Coding)格式压缩编码。

步骤304：对分片压缩后的待测评语音数据进行解压处理(AAC的逆变换)。

对分片压缩后的待测评语音数据进行解压处理便于后续对待测评语音数据的处理。

步骤306：采用基于深度聚类的语音分离方法，从所述初始语音数据中提取目标语音数据作为待测评语音数据。

在幼儿有家长陪读的场景下，可能会出现语音叠加或交替的现象。采用深度聚类的语音分离方法能够准确的将幼儿的语音数据从带有家长陪读的语音数据中提取出来，以提高口语测评的精准度。

步骤308：对所述待测评语音数据进行语音结束检测。

在该步骤中，具体的包括以下步骤：

根据所述参考文本与所述待结束检测语音文本进行匹配获取匹配文本时间点，其中匹配文本时间点为参考文本的时间信息中的时间点和待结束检测语音文本中时间信息中的时间点匹配后的时间点；

其中，所述参考文本为包含有用户语音内容及时间信息的文本，所述预设的语音活动检测方法可以包括但不限于VAD(Voice Activity Detection，又称语音端点检测，语音边界检测)。在语音结束检测过程中，通过将VAD和所述匹配文本时间点确定所述待测评语音数据的结束时间点能够准确判断出用户是否已经结束跟读，从而在无人工干预的情况下实现自动检测出用户语音的结束时间点，进而提高了整个口语测评的流畅性，降低了所述方法的使用门槛，使得所述方法特别适用于没有家长陪伴的情况下幼儿独立使用的场景。

传统的基于主频率分量的VAD技术在环境噪音很大的场景中会出现大量的假阳性误判。由于本申请一实施例中的口语训练样本包含了各种各样的真实噪音场景，而且用户跟读的文本为预先设置好的，所以使得基于语音识别的VAD更加鲁棒，假阳性误判率会大大降低。

步骤310：对语音结束检测后的待测评语音数据进行声道长度归一化处理。

在该步骤中，采用VTLN(Vocal Tract Length Normalisation，声道长度归一化)技术来消除声道形状带来的识别性能影响，在保证测评准确度的情况下，扩大了该方法的适用范围。

步骤312：对经过声道长度归一化处理的待测评语音数据进行语音识别得到待测评语音数据的语音帧序列以及与语音帧序列对应的转换文本。

对经过声道长度归一化处理的待测评语音数据进行语音识别能够得到真实的待测评语音数据，便于提高打分的准确度。

步骤314：将所述转换文本与参考文本进行强制对齐处理，并生成强制对齐信息，所述强制对齐信息包括转换文本的语音帧序列与所述参考文本的语音帧序列的对应关系。

在该步骤中，采用Viterbi算法，该算法是一种动态规划算法，其最优子结构如式(1)：

α(t，j)＝b_j(o_t)min_iα(t-1，i)a_ij 式(1)

其中，α(t，j)表示到t时刻为止，隐状态为j的最优路径的概率；b_j(o_t)表示在给定隐状态j下产生o_t的发射概率；a_ij表示从隐状态i到j的转移概率；o_t表示t时刻的观测值。

所述强制对齐信息为用户语音和参考文本语音帧序列的详细对齐信息，为后续的语音评分提供了基础信息。

在所述强制对齐处理的过程中，采用带有克林闭包的解码图，用于根据参考文本将待测评语音数据中重复出现的语音数据过滤掉，其中克林闭包在基于加权有限状态机(weighted finite-state transducer，WFST)解码的语音识别中被广泛使用，用来解决重复跟读的问题。

步骤316：提取所述待测评语音数据的口语属性特征信息。

其中，所述口语属性特征信息包括：发音属性特征信息；

语调属性特征信息；

以及流利度属性特征信息。

所述口语属性特征信息的内容反映了所述口语测评模型的打分方向，即对待测评语音数据的发音、语调以及流利度进行打分。

其中，所述发音属性特征信息由待测评语音数据中每个单词、音节、音素对应的语音识别预测概率组成；所述语调属性特征信息由待测评语音数据中每个单词、音节、音素对应的时长及基音频率决定；流利度属性特征信息由待测评语音数据中每个单词、音节、音素对应的时长、基音频率及语速决定。

步骤318：基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果。

对待测评语音数据进行解压处理、深度聚类的语音分离、强制对齐处理等一系列的预处理，能够提高口语测评模型打分的准确度，并扩大该方法的适用范围，使不同人群都能够使用该方法进行口语测评，并得到精准的打分结果。

参见图4，图4示出了根据本申请一实施例生成口语测评模型的示意性流程图，本申请一实施例中，所述口语测评模型通过步骤3091至步骤3093得到：

步骤3092：根据口语训练样本组生成口语训练样本集，每个所述口语训练样本组包含口语训练样本，每个所述口语训练样本包括口语属性特征信息和所述口语属性特征信息对应的打分结果。

随着用户的使用和口语训练样本的积累，本申请一实施例采用无监督的方法不断地对口语训练样本集进行扩充和模型迭代。这样不许用提供示例音频，即可对用户语音进行测评，使得该方法更加通用、更加鲁棒。

步骤3094：对所述口语训练样本的语音数据进行声道长度归一化处理，以将所有的口语训练样本组中口语训练样本的声道长度统一化。

在该步骤中，采用VTLN(声道长度归一化)技术来消除口语训练样本集不同声道形状带来的识别性能影响，保证了所述口语测评模型对不同声道形状的用户测评的准确度。

步骤3096：根据所述口语训练样本集对口语测评模型进行训练，所述口语测评模型使得每个所述口语训练样本的口语属性特征信息与对应的打分结果相关联。

所述口语测评模型采用了基于次采样的TDNN(时延神经网络)，所述TDNN是一种特殊的卷积网络，可以高效地为长依赖时序关系建模，具有运算量小，识别效果好，适合实时语音识别场景等优点。大量的实验结果表明，使用对称上下文的TDNN效果要优于非对称的TDNN。具体的TDNN网络结构示意图参见图5，其中，1至6为隐含层，7为输出层。

参见图6，图6示出了图5中TDNN网络结构的局部结构500，在从输入层中提取语音帧后经过拼合层进行拼合，拼合出多路输入；之后拼合层将拼合后的语音帧输送至全连接层，全连接层将拼合后的语音帧进行全连接；之后将全连接后的语音帧输送至池化层，池化层减少全连接后的语音帧的输出大小。

步骤320：所述口语属性特征信息还包括：单词标注特征信息；

根据强制对齐信息，判断所述转化文本与所述参考文本是否匹配，若否，则对参考文本中不相匹配的单词添加单词标注特征信息。其中，根据强制对齐信息，判断所述转化文本与所述参考文本是否匹配，若否，对于所述参考文本对应的语音帧序列中存在语音关键帧序列与转化文本对应的语音帧序列中的语音空白帧序列对齐，则判定所述段语音关键帧对应的参考文本的内容为漏读部分，并判定所述参考文本中其余不匹配的内容为错读部分。

根据单词标注特征信息，能够确定用户漏读和错读的单词，使得所述口语测评模型能够根据待测评语音数据的发音、语调、流利度进以及用户漏读和错读的单词进行打分，与根据所述待测评语音数据的发音、语调以及流利度进行打分的口语测评模型相比，打分结果更加准确。

除此之外，所述单词标注特征信息还能够根据单词的不同出错方式即错读、漏读对对应的单词进行不同的标注，以便于后续以不同的方式展示出错读和漏读的单词；其中所述不同方式包括但不限于分别给所述漏读和错读的单词添加不同的字体颜色、字体大小或/和字体种类，以区分哪些为漏读的单词，哪些为错读的单词。

步骤322：根据单词标注特征信息，展示不相匹配的单词，并展示打分结果。

展示不相匹配的单词，并展示打分结果，使得用户不但能够知道最终的打分结果，也能够知道自己漏读和读错的单词。经过声道长度归一化处理不但能够对不同人群进行口语测评，而且还能够得到精准的口语测评结果，尤其解决了幼儿口语评测的难题。

所述口语测评方法通过对口语训练样本进行声道长度归一化处理和模型训练，使得该口语测评方法能够对不同人群进行口语测评，并得到精准的口语测评结果，尤其解决了幼儿口语评测的难题。同时，该口语测评方法中使用语音结束检测提高了整个口语测评的流畅性，降低了用户使用门槛。除此之外，在该方法中使用克林闭包解决了重复跟读的问题；基于深度聚类的语音分离方法有效避免了待检测语音数据叠加或交替现象的出现。

本说明书一实施例还提供了一种口语测评装置，参见图7，图7示出了根据本申请一实施例的口语测评装置700的结构示意图，包括：

语音数据获取模块702，被配置为获取待测评语音数据；

属性特征提取模块704，被配置为提取所述待测评语音数据的口语属性特征信息；

打分结果生成模块706，被配置为基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果；

在获取待测评语音数据之后，属性特征提取模块能够提取所述待测评语音数据的口语属性特征信息，使得打分结果生成模块使用所述口语测评模型，根据所述待测评语音数据的口语属性特征信息得出打分结果，步骤简单，能够大大缩短用户等待结果的时间。且所述口语测评模型是事先训练好的，无需储备大量的示例音频即可对待测评语音数据进行打分，扩大了该装置的使用范围。

本说明书一实施例还提供了一种口语测评装置，包括：

语音数据获取模块，被配置为获取待测评语音数据；

在一个可选的实施例中，所述口语测评装置还包括：

语音识别模块，被配置为对经过声道长度归一化处理的所述待测评语音数据进行语音识别得到待测评语音数据的转换文本；

所述口语测评装置通过对口语训练样本进行声道长度归一化处理和模型训练，使得该口语测评方法能够对不同人群进行口语测评，并得到精准的口语测评结果，尤其解决了幼儿口语评测的难题。同时，该口语测评装置中使用语音结束检测提高了整个口语测评的流畅性，降低了用户使用门槛。除此之外，在该方法中使用克林闭包解决了重复跟读的问题；基于深度聚类的语音分离方法有效避免了待检测语音数据叠加或交替现象的出现。

在一个可选的实施例中，所述语音结束检测模块包括：

在语音结束检测过程中，通过匹配文本时间点确定所述待测评语音数据的结束时间点能够准确判断出用户是否已经完成跟读，从而实现无需人工干预，即可自动检测出发音结束，提高了整个口语测评的流畅性，降低了所述装置的使用门槛，特别适用于没有家长陪伴的情况下幼儿独立使用的场景。

在一个可选的实施例中，所述口语属性特征信息包括：

发音属性特征信息、语调属性特征信息、流利度属性特征信息以及单词标注特征信息。

在一个可选的实施例中，所述口语测评装置还包括：

标记模块，根据强制对齐信息，判断所述转化文本与所述参考文本是否匹配，若否，则对参考文本中不相匹配的单词添加单词标注特征信息。

所述标记模块根据单词标注特征信息，能够确定用户漏读和错读的单词，使得所述口语测评模型能够根据待测评语音数据的发音、语调、流利度进以及用户漏读和错读的单词进行打分，与根据所述待测评语音数据的发音、语调以及流利度进行打分的口语测评模型相比，打分结果更加准确。

除此之外，所述标记模块根据单词标注特征信息还能够对不同出错方式对应的单词进行不同的标注，以便于后续以不同的方式展示出错读和漏读分别对应的单词；其中所述不同方式包括但不限于分别给所述漏读和错读的单词添加不同的字体颜色、字体大小或/和字体种类。

在一个可选的实施例中，所述口语测评装置还包括：

展示模块，被配置为根据单词标注特征信息，展示不相匹配的单词，并展示打分结果。

展示模块展示不相匹配的单词，并展示打分结果，使得用户不但能够知道打分结果，也能够知道自己漏读和读错的单词。经过声道长度归一化处理不但能够对不同人群进行口语测评，而且还能够得到精准的口语测评结果，尤其解决了幼儿口语评测的难题。

在一个可选的实施例中，所述语音数据获取模块包括：

第一获取单元，被配置为获取分片压缩后的语音数据；

第一获取单元能够获取分片压缩后的语音数据，使得所述口语测评装置能接受分片压缩后的语音数据。

解压单元能够对分片压缩后的待测评语音数据进行解压处理，便于后续对待测评语音数据的处理。

在一个可选的实施例中，所述强制对齐模块，采用带有克林闭包的解码图，用于根据参考文本将待测评语音数据中重复出现的语音数据过滤掉。

所述强制对齐模块采用带有克林闭包的解码图能够将待测评语音数据中重复出现的语音数据过滤掉，以解决重复跟读的问题。

在一个可选的实施例中，所述语音数据获取模块包括：

第二获取单元，被配置为获取初始语音数据；

第二获取单元能够获取初始语音数据，使得提取单元能够从初始语音数据中提取目标语音数据作为待测评语音数据，进而能够对待测评语音数据做出真实可靠的打分。

本说明书一实施例还提供了一种生成口语测评模型的装置，参见图8，图8示出了根据本申请一实施例的生成口语测评模型的装置的结构示意图，包括：

训练样本生成模块802，被配置为根据口语训练样本组生成口语训练样本集，每个所述口语训练样本组包含口语训练样本，每个所述口语训练样本包括口语属性特征信息和所述口语属性特征信息对应的打分结果；

模型生成模块804，被配置为根据所述口语训练样本集对口语测评模型进行训练，得到所述口语测评模型，所述口语测评模型使得每个所述口语训练样本的口语属性特征信息与对应的打分结果相关联。

在口语测评模型的训练阶段，将每个口语训练样本的口语属性特征信息与对应的打分结果相关联，使得该口语测评模型能够准确的根据口语属性特征信息，对待测评语音进行评分。其中，口语测评模型可采用多种神经网络模型实现，本实施例中的口语测评模型可以采用TDNN网络模型。

在一个可选的实施例中，生成口语测评模型的装置还包括：声道长度归一化处理模块，被配置为对所述口语训练样本的语音数据进行声道长度归一化处理，以将所有的口语训练样本组中口语训练样本的声道长度统一化。

在一个可选的实施例中，所述口语属性特征信息包括：

发音属性特征信息；

语调属性特征信息；

以及流利度属性特征信息。

对所述口语属性特征信息的内容进行扩展，扩大了口语测评模型的测评的方向多样性，使得口语测评模型的打分结果更加真实可靠。

本说明书一实施例还提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述口语测评方法或所述生成口语测评模型的方法的步骤。

本说明书一实施例还提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述口语测评方法或所述生成口语测评模型的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的所述口语测评方法或所述生成口语测评模型的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述口语测评方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种口语测评方法，应用于口语测评***的数据处理端，其特征在于，包括：

获取待测评语音数据；

对所述待测评语音数据进行语音结束检测；

将所述转换文本与参考文本进行强制对齐处理，并生成强制对齐信息，所述强制对齐信息包括转换文本的语音帧序列与所述参考文本的语音帧序列的对应关系；

提取所述待测评语音数据的口语属性特征信息；

基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果；

所述获取待测评语音数据包括：

获取初始语音数据；其中，所述初始语音数据为出现语音叠加或交替现象的语音数据；

采用基于深度聚类的语音分离方法，从所述初始语音数据中提取目标语音数据作为待测评语音数据。

2.根据权利要求1中所述的口语测评方法，其特征在于，对所述待测评语音数据进行语音结束检测包括：

3.根据权利要求2所述的口语测评方法，其特征在于，

所述口语属性特征信息包括：

发音属性特征信息；

语调属性特征信息；

以及流利度属性特征信息。

4.根据权利要求3所述的口语测评方法，其特征在于，所述口语属性特征信息还包括：单词标注特征信息；

在所述生成强制对齐信息之后，还包括：

根据强制对齐信息，判断所述转换文本与所述参考文本是否匹配，若否，则对参考文本中不相匹配的单词添加单词标注特征信息。

5.根据权利要求1所述的口语测评方法，其特征在于，所述获取待测评语音数据包括：

获取分片压缩后的语音数据；

对分片压缩后的语音数据进行解压处理得到待测评语音数据。

6.根据权利要求1所述的口语测评方法，其特征在于，在所述强制对齐处理的过程中，采用带有克林闭包的解码图将待测评语音数据中重复出现的语音数据进行过滤。

7.一种生成口语测评模型的方法，其特征在于，包括：

根据口语训练样本组生成口语训练样本集，每个所述口语训练样本组包含口语训练样本，每个所述口语训练样本包括口语属性特征信息和所述口语属性特征信息对应的打分结果，其中，所述口语属性特征信息利用权利要求1-6任一项所述口语测评方法得到；

8.根据权利要求7所述的生成口语测评模型的方法，其特征在于，所述根据所述口语训练样本集对口语测评模型进行训练之前包括：

9.一种口语测评装置，其特征在于，包括：

语音数据获取模块，被配置为获取待测评语音数据；

强制对齐模块，被配置为将所述转换文本与参考文本进行强制对齐处理，并生成强制对齐信息，所述强制对齐信息包括转换文本的语音帧序列与所述参考文本的语音帧序列的对应关系；

打分结果生成模块，被配置为基于预先生成的口语测评模型根据所述待测评语音数据的口语属性特征信息得到打分结果；

所述语音数据获取模块包括：

第二获取单元，被配置为获取初始语音数据；其中，所述初始语音数据为出现语音叠加或交替现象的语音数据；

10.根据权利要求9所述的装置，其特征在于，所述语音结束检测模块包括：

11.根据权利要求9所述的装置，其特征在于，还包括：

标记模块，被配置为根据强制对齐信息，判断所述转换文本与所述参考文本是否匹配，若否，则对参考文本中不相匹配的单词添加单词标注特征信息。

12.根据权利要求9所述的装置，其特征在于，所述语音数据获取模块包括：

第一获取单元，被配置为获取分片压缩后的语音数据；

解压单元，被配置为对分片压缩后的语音数据进行解压处理得到待测评语音数据。

13.根据权利要求9所述的装置，其特征在于，所述强制对齐模块，采用带有克林闭包的解码图，用于根据参考文本将待测评语音数据中重复出现的语音数据过滤掉。

14.一种生成口语测评模型的装置，其特征在于，包括：

训练样本生成模块，被配置为根据口语训练样本组生成口语训练样本集，每个所述口语训练样本组包含口语训练样本，每个所述口语训练样本包括口语属性特征信息和所述口语属性特征信息对应的打分结果，其中，所述口语属性特征信息利用权利要求1-6任一项所述口语测评方法得到；

15.根据权利要求14所述的装置，其特征在于，还包括：

声道长度归一化处理模块，被配置为对所述口语训练样本的语音数据进行声道长度归一化处理，以将所有的口语训练样本组中口语训练样本的声道长度统一化。

16.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-8任意一项所述的方法的步骤。

17.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。