CN111951825A

CN111951825A - 一种发音测评方法、介质、装置和计算设备

Info

Publication number: CN111951825A
Application number: CN201910405363.6A
Authority: CN
Inventors: 杨晓飞; 蒋成林; 刘晨晨; 沈欣尧; 张欣; 王治民; 邓雅惠; 高慧朝
Original assignee: Shanghai Liulishuo Information Technology Co ltd
Current assignee: Shanghai Liulishuo Information Technology Co ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-17

Abstract

本发明的实施方式提供了一种发音测评方法、装置、介质和计算设备。该方法包括：从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；获取至少一个音频数据段对应的待测音素特征序列；基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素；若对应时间边界内存在待纠正音素，并且声学似然度大于预设门限，则基于待纠正音素调整对应的得分。本方法可以大大提高对发音音频中混淆音素的识别率，为用户提供更有针对性的发音测评反馈，改善用户体验。

Description

一种发音测评方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及软件领域，更具体地，本发明的实施方式涉及一种发音测评方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在语言学习的过程中，学习正确的口语发音也是非常重要的一部分，然而在之前几年，口语学习只能跟随线下的老师进行，随着技术的发展，线上的口语学习成为一种趋势，近几年口语发音测评打分和纠正主要建立在语音特征的表示上。

然而，现有的发音测评方案大多采用的是沿用由剑桥大学的Silke Witt 在他的博士论文中提出经典的GOP(Goodness of Pronunciation)算法，或者是由其衍生出来的其他方案。这些现有的发音测评方案大多采用CE(交叉熵，Cross Entropy)准则训练的神经网络模型或者更老的GMM模型来计算用户发音的似然度得分，而CE模型对音素识别的准确率低，无法针对用户发音时容易混淆、或误发的音素进行识别纠正。

发明内容

由于现有的发音测评方案采用CE模型来计算用户发音的似然度得分，而CE模型对音素识别的准确率低，无法针对用户发音时容易混淆、或误发的音素进行识别纠正。因此非常需要一种改进的发音测评方法，用以提升音素识别的准确性，解决上述技术问题。

在本上下文中，本发明的实施方式期望提供一种发音测评方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种发音测评方法，包括：从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；获取至少一个音频数据段对应的待测音素特征序列；基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素；若对应时间边界内存在待纠正音素，并且声学似然度大于预设门限，则基于待纠正音素调整对应的得分。

在本发明的再一个实施例中，发音测评方法还包括：基于待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容，其中发音纠错内容用于指示用户对待纠正音素进行改进练习。

在本发明的再一个实施例中，采用音素识别网络来获取至少一个音频数据段对应的待测音素特征序列。

在本发明的再一个实施例中，由测评内容中的至少一个单词、发音词典和混淆音素表构建成音素识别网络；且音素识别网络中每一网络路径的词图权重根据预先录入的开发集进行调整。

在本发明的再一个实施例中，基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素，包括：

获取基于测评内容生成的标准音素特征序列；

根据时间边界将至少一个音频数据段中每一单词对应的待测音素特征序列，与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音素信息；

根据混淆音素表和混淆音素对应的阈值，通过贝叶斯判决模块确定区别音素信息对应的待纠正音素。

在本发明的再一个实施例中，区别音素信息包括与标准音素特征序列不一致的音素处于待测音素特征序列中的位置信息。

在本发明的再一个实施例中，待纠正音素包括与测评内容中标准音素在声学发音上相近的混淆音素。

在本发明的再一个实施例中，采用交叉熵准则CE模型获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

在本发明实施方式的第二方面中，提供了一种发音测评装置，包括：

提取模块，被配置为从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；

第一测评模块，被配置为获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；

第二测评模块，被配置为获取至少一个音频数据段对应的待测音素特征序列；基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素；

调整模块，被配置为若对应时间边界内存在待纠正音素，并且声学似然度大于预设门限，则基于待纠正音素调整对应的得分。

在本发明的再一个实施例中，发音测评装置还包括确定模块，被配置为基于待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容，其中发音纠错内容用于指示用户对待纠正音素进行改进练习。

在本发明的再一个实施例中，第二测评模块还设置有音素识别网络，音素识别网络具体用于获取至少一个音频数据段对应的待测音素特征序列。

在本发明的再一个实施例中，由测评内容中的至少一个单词、发音词典和混淆音素表构建成音素识别网络；进一步的，音素识别网络中每一网络路径的词图根据预先录入的开发集进行调整。

在本发明的再一个实施例中，第二测评模块在基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素时，具体用于：获取基于测评内容生成的标准音素特征序列；根据时间边界将至少一个音频数据段中每一单词对应的待测音素特征序列，与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音素信息；根据混淆音素表和混淆音素对应的阈值，通过贝叶斯判决模块确定区别音素信息对应的待纠正音素。

在本发明的再一个实施例中，第一测评模块设置有交叉熵准则CE模型，CE模型具体用于获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

在本发明实施方式的第三方面中，提供了一种介质，该介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面中任一实施例的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理单元、存储器以及输入/输出(In/Out，I/O)接口；存储器，用于存储处理单元执行的程序或指令；处理单元，用于根据存储器存储的程序或指令，执行第一方面中任一实施例的方法；I/O接口，用于在处理单元的控制下接收或发送数据。

本发明的实施方式提供的技术方案，可以从用户发音音频中识别出与标准音素特征序列不一致的待纠正音素，从而调整用户发音音频对应的得分，大大提高了对发音音频中混淆音素的识别率，为用户提供更有针对性的发音测评反馈，提升用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的一种发音测评场景的结构示意图；

图2示意性地示出了根据本发明实施例的一种发音测评方法的流程示意图；

图3示意性地示出了根据本发明实施例的另一种发音测评场景的结构示意图；

图4A示意性地示出了根据本发明实施例的一种音素序列的结构示意图；

图4B示意性地示出了根据本发明实施例的一种混淆音数据集的结构示意图；

图5示意性地示出了根据本发明实施例的一种发音测评装置的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种发音测评方法、介质、装置和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的发音测评方案大多采用的是沿用经典的GOP 算法，或者是由其衍生出来的其他方案。这些现有的发音测评方案采用 CE模型来计算用户发音的似然度得分，而CE模型对音素识别的准确率低，无法针对用户发音时容易混淆、或误发的音素进行识别纠正。

为了克服技术存在的问题，本发明中提出了一种发音测评方法、装置、介质和计算设备。该方法包括：从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；获取至少一个音频数据段对应的待测音素特征序列；基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素；若对应时间边界内存在待纠正音素，并且声学似然度大于预设门限，则基于待纠正音素调整对应的得分。该方法可以通过从用户发音音频中识别出与标准音素特征序列不一致的待纠正音素，实现对用户发音音频对应得分的调整，从而大大提高了对发音音频中混淆音素的识别率，为用户提供更有针对性的发音测评反馈，提升用户体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，图1是本发明的发音测评方法的应用场景示意图，图 1中用户可以通过终端设备A进行发音测评，所述终端A可以在屏幕上显示待用户发音的测评内容(例如单词或句子或文章等)，并且还可以通过摄像设备(图像采集设备)和/或麦克风(音频采集设备)等数据采集设备采集用户根据所述测评内容发音时的视频和/或音频以通过所述发音测评方法对用户的发音进行测评。

可以理解的是，所述发音测评内容可以是终端A预先获取的，也可以是实时获取的。所述发音测评内容可以是终端A从服务器下载的，并且对终端A采集到的数据进行分析处理(即执行所述发音测评方法)的既可以是终端A也可以是服务器。实际的应用过程中，服务器可以存在多级，也即可以是接收服务器接收终端设备发送的视频和/或音频数据，并将接收到的视频和/或音频数据发送到处理服务器，处理服务器对接收到的视频数据根据本发明的发音测评方法进行处理，得到用户的发音测评结果，并反馈至所述终端设备A进行展示。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的发音测评方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2是本发明实施方式第一方面所述一种发音测评方法的实施例的流程示意图。虽然本发明提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本发明实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

为了清楚起见，下述实施例以具体的一个用户通过移动终端进行发音测评的实施场景进行说明。所述的移动终端可以包括手机、平板电脑，或者其他有视频拍摄功能和数据通信功能的通用或专用设备。所述的移动终端和服务器可以部署有相应的应用模块，如移动终端安装的口语学习APP (应用，application)，以实现相应的数据处理。但是，本领域技术人员能够理解到，可以将本方案的实质精神应用到发音测评的其他实施场景中，如参照图3，移动终端采集数据后，采集到的数据发送至服务器进行处理，并通过所述移动终端反馈给用户。

具体的一种实施例如图2所示，本发明提供的一种发音测评方法的一种实施例中，所述方法可以包括：

S201、从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；

在本实施方式中，测评用户的发音之前，首先获取用户的发音音频，或者从发音视频中提取的发音音频。可选的，所述发音音频为用户针对于测评内容反馈的。一个实施例中，移动终端通过集成的麦克风采集用户发音时的音频。在本实施方式的另一个实施例中，移动终端通过集成的前置摄像头采集用户发音时的视频，并从该视频中获取发音音频。可以理解的是，发音音频也可以不是实时采集的，例如存储在所述移动终端中的本地音频，或从其他移动终端/服务器接收的发音音频。

测评内容包括但不限于单词、短语、句子或文章；可选的，测评内容可以承载于向用户推送的课程文本中，也可以承载于为用户播放的课程视频或其他推送中。一个实施例中，测评内容可以是移动终端在终端界面向用户展示的跟读文本。

在获取到用户的发音音频后，执行S201的一种具体实现步骤包括：可以通过去除无效音频(不包括用户发音过程的音频，即用户发音前/后没有用户发音的音频，以及用户发出的非有效音频，如呼吸声、咳嗽等)或背景噪声的方式提取至少一个音频数据段，具体的，包括：获取所述用户的发音音频的音频信号；基于音频信号的波动，对所述发音音频进行裁剪，去除无效音频和/或环境噪声；并将裁剪后的发音音频进行切分以获取至少一个音频数据段。

实际应用中，音频数据段也可以理解为音频数据帧或音频帧，例如音频数据段可以是长度为10毫秒(ms)的音频帧。一个实施例中，采用CE (交叉熵)准则训练的神经网络模型从用户发音音频中提取至少一个音频数据段。在本实施例中，可以通过音频信号的波动情况确定当前音频是否为有效视频，信号的波动越小，则说明音频画面的变化越小，即音频中包括用户发音的概率越小，因此，可以通过设置合理的门限或滤波器来判断当前的音频是否包括用户发音的有效部分。

在提取至少一个音频数据段后，执行S202，获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；

本步骤的一个实施例中，可以通过CE模型获取至少一个音频数据段对应的时间边界、以及相应所述时间边界内的声学似然度。具体的，利用声学模型(如CE模型)将基于测评内容得到的标准发音音频与用户发音音频中提取出的至少一个音频数据段进行强制对齐(Forced Alignment)得到每一音频数据段的时间边界和声学似然度，其中声学似然度用于衡量用户发音音频与标准发音之间的声学相似度。此处的声学似然度，进一步的，可以是基于时间边界计算一个音频数据段的平均似然度L1，并通过音素级别的识别网络对至少一个音频数据段进行自由识别得到该音频数据段对应的平均似然度L2之后，通过根据L1与L2的差值来确定的。

需要注意的是，除了上述CE模型之外，本发明实施中并不限定采用其他算法或模型获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

在提取至少一个音频数据段之后，可以执行S203，获取至少一个音频数据段对应的待测音素特征序列；

在本步骤中，采用音素识别网络来获取至少一个音频数据段对应的待测音素特征序列。音素识别网络(也即音素识别模型)的一种实施例中，音素识别网络为区分性声学模型，如TDNN链式模型(Chain Model)，这种TDNN链式模型相较于传统的单词级别的声学模型，由于无需额外解码生成单词级别的栅格(lattice)，因此这种TDNN链式模型可以在更小粒度如音素级别上实现音频识别，从而大大降低PER(音素识别错误率， PhonemeError rate)，提升音素识别网络的性能。除了TDNN链式模型之外，还可以采用其他网络或模型，比如MPE(最小音素错误，Minimum Phone Error)准则训练的音素识别网络。

在提取至少一个音频数据段对应的待测音素特征序列之后，可以执行 S204，基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素；

本发明实施例中，区别音素信息包括多种，针对于不同类型的发音错误，区别音素信息的类型可能存在差别。此处以其中一种信息为例，即区别音素信息为与标准音素特征序列不一致的音素处于所述待测音素特征序列中的位置信息时，以图4A示出的音素序列为例，假设上面的音素序列为预先录入的标准音素特征序列，下面的音素序列为待测音素特征序列，则四个双向箭头分别用于表征三种类型的发音错误，其中从左至右的第一个双向箭头用于表征此位置上的用户发音出现替换错误，即标准音素特征序列中此处的音素为ε，待测音素特征序列中此处实际发音对应的音素为

类似的，第三个双向箭头所表征的错误类型也是替换错误；第二个双向箭头所表征的错误类型为删除错误，即用户漏发了音素n；第四个双向箭头所表征的错误类型为***错误，即用户多发了音素e。

待纠正音素包括但不限于与测评内容中标准音素在声学发音上相近的混淆音素。通过上述S204可以确定用户音频包括的待纠正音素，从而有针对性的指出用户发音音频中包括的实际错误，进而有助于为用户提供更有针对的发音测评反馈。进一步的，S204的一种可能实施例包括以下步骤：

子步骤一：获取基于测评内容生成的标准音素特征序列；

需要说明的是，标准音素特征序列可以是预先录入的测试数据集，也可以是通过深度学习网络从测评内容对应的标准发音音频中提取并生成的。

子步骤二：根据时间边界将至少一个音频数据段中每一单词对应的所述待测音素特征序列，与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音素信息；

具体而言，本步骤中，基于单词时间边界将至少一个音频数据段中每一单词对应的所述待测音素特征序列，与该单词对应的标准音素特征序列进行编辑距离对齐，可以是如图4A示出的对齐方式，这样，从编辑距离对齐后的待测音素特征序列和标准音素特征序列中检测出当前发音不一致的位置，并定位到该位置的音素，例如图4A示出的从左至右第一个双向箭头所指示的位置。

子步骤三：根据混淆音素表和混淆音素对应的阈值，通过贝叶斯判决模块确定所述区别音素信息对应的所述待纠正音素；

本步骤中，遍历混淆音素表以选取出与该位置上的用户发音音素差别最小的至少两个混淆音素，根据该至少两个混淆音素、以及该至少两个混淆音素对应的最佳阈值范围，通过贝叶斯判决模型确定该位置上的用户发音音素作为待纠正音素。其中，混淆音素表包括但不限于至少一个混淆音素组，其中至少一个混淆音素组内包括至少两个混淆音素、以及对应的标准发音音频或大数据采集的用户发音音频。例如音素ε和

为一组混淆音素，音素i：和i为一组混淆音素，音素a：和a为一组混淆音素。

仍以上文所述的图4A示出的对齐方式为例，子步骤三中，对于从左至右第一个双向箭头所指示的位置，遍历混淆音素表，选取出与该位置上的用户发音音素差别最小的至少两个混淆音素ε和

根据音素ε、音素

对应的发音音频以及这两个混淆音素对应的最佳阈值范围，通过贝叶斯判决模型确定出用户发音音频中该位置上的音素为

并将该音素

确定为待纠正音素。

需要说明的是，上述S203和S204这两个步骤可以由音素识别网络实现。为了提升音素识别网络的性能，使其对混淆音素的识别能力更为准确，音素识别网络可以由所述测评内容中的至少一个单词、发音词典和所述混淆音素表构成，并根据预先录入的开发集对音素识别网络中每一网络路径的词图进行调整。此处涉及的开发集包括但不限于测评内容、测评内容对应的标准发音音频、或大数据收集的关于至少部分测评内容的发音音频、以及至少对应于部分上述测评内容的音素序列；此处的音素序列可以为预先录入，也可以由深度学习网络输出的，本发明实施例并不限定。

具体的，上述音素识别网络的构建过程中，针对每个音素都有一个 minimal pair(混淆音素表)，该混淆音素表可以是预先录入的基于教研经验制定的，或者可以是由神经网络对大量用户发音数据进行学习后形成的。针对任一音素，根据该混淆音素表和开发集能够搜索出混淆音素对应的最佳阈值，该最佳阈值即为音素识别网络在识别音素时所用到的先验因子。参见以下公式：

其中，h表示是哪个音素，o表示声学信号，p(h_i|o)p(h_j|o)中较大条件概率值所对应的音素h_i or h_j，即为最终音频o实际对应的音素。通过在开发集中添加一个先验因子α_ij，使其在计算输出检测结果时会参考p(h_i|o)与 α_ijp(h_i|o)的大小，α_ij即充当先验概率。这样，通过上述原理使得本发明实施例中的音素识别网更为灵活，并且无需在现有技术的基础上增加单词词典的数据量，即可实现更为准确的混淆音素识别。

以图4B示出的混淆音数据集为例，包括7组声学似然度，假如确定音素i和I(也即i：)的阈值，需要采集或录入一批包含音素I的音频，并获取对应这些音频的音素序列，将这些音频分为发音接近于I和发音接近于i这两类，标记为1(发音接近于I)和0(发音接近于i)。图4B示出的a即为发音接近于I的声学似然度，b即为发音接近于i的声学似然度，然后根据多组a与b的比值确定出发音接近于i的音素的最佳阈值范围，即确定出音素i对应的阈值。

在确定待纠正音素之后，可以执行S205，若对应时间边界内存在待纠正音素，并且声学似然度大于预设门限，则基于待纠正音素调整对应的得分。一个实施例中，声学似然度可以用于确定相应时间边界内的音频数据段的得分，该得分用于指示该音频数据段中用户发音与标准发音之间的相似程度。举例来说，假设对bit这个单词进行发音测评，若该单词对应时间边界内存在一个待纠正音素i：，也就是说用户把短音i发成了混淆音素i：，并且通过CE模型测评出的用户发音音频中该单词的声学似然度大于预设门限，则说明CE模型为用户对该单词的发音测评结果分数较高，但音素识别网络检测出用户发生替换错误，在此情况下，基于音素识别网络检测出的待纠正音素对该单词的得分进行下调。

在S204之后，或者S205之后，基于待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容，其中发音纠错内容用于指示用户对所述待纠正音素进行改进练习。比如向用户推送待纠正音素对应的音标，或者音标课程，或者基于调整后的得分确定的用户发音评分。

通过图2所示的发音测评方法，可以通过从用户发音音频中识别出与标准音素特征序列不一致的待纠正音素，实现对用户发音音频对应得分的调整，从而大大提高了对发音音频中混淆音素的识别率，为用户提供更有针对性的发音测评反馈，提升用户体验。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，介绍本发明提供了示例性实施的装置。本发明提供的发音测评装置可以实现图2对应的实施例提供的方法中任一项执行的方法。参见图5，该发音测评装置至少包括：

可选的，还包括确定模块，被配置为基于待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容，其中发音纠错内容用于指示用户对待纠正音素进行改进练习。

可选的，第二测评模块还设置有音素识别网络，音素识别网络具体用于获取至少一个音频数据段对应的待测音素特征序列。

可选的，由测评内容中的至少一个单词、发音词典和混淆音素表构建成音素识别网络；且音素识别网络中每一网络路径的词图根据预先录入的开发集进行调整。

可选的，第二测评模块在基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素时，具体用于：

获取基于测评内容生成的标准音素特征序列；

可选的，区别音素信息包括与标准音素特征序列不一致的音素处于待测音素特征序列中的位置信息。

可选的，待纠正音素包括与测评内容中标准音素在声学发音上相近的混淆音素。

可选的，第一测评模块设置有交叉熵准则CE模型，CE模型具体用于获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，对本发明示例性实施方式的计算机可读存储介质进行说明，其示出的计算机可读存储介质为光盘，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；获取至少一个音频数据段对应的待测音素特征序列；基于时间边界、混淆音素表和混淆音素对应的阈值，从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素；若对应时间边界内存在待纠正音素，并且声学似然度大于预设门限，则基于待纠正音素调整对应的得分；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，对本发明示例性实施方式的计算设备进行说明，示出了适于用来实现本发明实施方式的示例性计算设备的框图，该计算设备可以是计算机***或服务器。显示的计算设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

计算设备的组件可以包括但不限于：一个或者多个处理器或者处理单元，***存储器，连接不同***组件(包括***存储器和处理单元)的总线。

计算设备典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器。计算设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，ROM可以用于读写不可移动的、非易失性磁介质(图中未显示，通常称为“硬盘驱动器”)。尽管未在图中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线相连。***存储器中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在例如系统存储器中，且这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

计算设备也可以与一个或多个外部设备(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线与计算设备的其它模块(如处理单元等)通信。应当明白，尽管图中未示出，可以结合计算设备使用其它硬件和/或软件模块。

处理单元通过运行存储在***存储器中的程序，从而执行各种功能应用以及数据处理，例如，获取用户的发音视频；从所述发音视频中获取有效视频段；基于所述有效视频段，获取用户的发音口型特征序列；根据用户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发音口型分数。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了发音测评装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元 /模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此：1、一种发音测评方法，其特征在于，包括：

从用户针对于测评内容的待测发音音频中提取至少一个音频数据段；

获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度；

获取至少一个音频数据段对应的待测音素特征序列；

基于所述时间边界、混淆音素表和混淆音素对应的阈值，从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素；

若对应时间边界内存在所述待纠正音素，并且所述声学似然度大于预设门限，则基于所述待纠正音素调整对应的得分。

2.如权利要求1所述的方法，其中，还包括：

基于所述待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容，其中发音纠错内容用于指示用户对所述待纠正音素进行改进练习。

3.如权利要求1或2所述的方法，其中，采用音素识别网络来获取至少一个音频数据段对应的待测音素特征序列。

4.如权利要求3所述的方法，其中，由所述测评内容中的至少一个单词、发音词典和所述混淆音素表构建成所述音素识别网络；且

所述音素识别网络中每一网络路径的词图根据预先录入的开发集进行调整。

5.如权利要求1至4任一所述的方法，其中，所述基于所述时间边界、混淆音素表和混淆音素对应的阈值，从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素，包括：

获取基于所述测评内容生成的标准音素特征序列；

根据所述时间边界将至少一个音频数据段中每一单词对应的所述待测音素特征序列，与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音素信息；

根据混淆音素表和混淆音素对应的阈值，通过贝叶斯判决模块确定所述区别音素信息对应的所述待纠正音素。

6.权利要求5所述的方法，其中，所述区别音素信息包括与标准音素特征序列不一致的音素处于所述待测音素特征序列中的位置信息。

7.如权利要求1至6任一所述的方法，其中，所述待纠正音素包括与所述测评内容中标准音素在声学发音上相近的混淆音素。

8.如权利要求1至7任一所述的方法，其中，采用交叉熵准则CE模型获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

9.一种发音测评装置，其特征在于，包括：

第二测评模块，被配置为获取至少一个音频数据段对应的待测音素特征序列；基于所述时间边界、混淆音素表和混淆音素对应的阈值，从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素；

调整模块，被配置为若对应时间边界内存在所述待纠正音素，并且所述声学似然度大于预设门限，则基于所述待纠正音素调整对应的得分。

10.如权利要求9所述的发音测评装置，其中，还包括确定模块，被配置为基于所述待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容，其中发音纠错内容用于指示用户对所述待纠正音素进行改进练习。

11.如权利要求9或10所述的发音测评装置，其中，所述第二测评模块还设置有音素识别网络，所述音素识别网络具体用于获取至少一个音频数据段对应的待测音素特征序列。

12.如权利要求11所述的发音测评装置，其中，由所述测评内容中的至少一个单词、发音词典和所述混淆音素表构建成所述音素识别网络；且

13.如权利要求9至12任一所述的发音测评装置，其中，所述第二测评模块在基于所述时间边界、混淆音素表和混淆音素对应的阈值，从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素时，具体用于：

获取基于所述测评内容生成的标准音素特征序列；

14.权利要求13所述的发音测评装置，其中，所述区别音素信息包括与标准音素特征序列不一致的音素处于所述待测音素特征序列中的位置信息。

15.如权利要求9至14任一所述的发音测评装置，其中，所述待纠正音素包括与所述测评内容中标准音素在声学发音上相近的混淆音素。

16.如权利要求9至15任一所述的发音测评装置，其中，所述第一测评模块设置有交叉熵准则CE模型，所述CE模型具体用于获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

17.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如权利要求1-8之一所述的方法。

18.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如权利要求1-8之一所述的方法。

Claims

1.一种发音测评方法，其特征在于，包括：

获取至少一个音频数据段对应的待测音素特征序列；

2.如权利要求1所述的方法，其中，还包括：

获取基于所述测评内容生成的标准音素特征序列；

7.如权利要求1至6任一所述的方法，其中，采用交叉熵准则CE模型获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。

8.一种发音测评装置，其特征在于，包括：

9.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如权利要求1-7之一所述的方法。

10.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如权利要求1-7之一所述的方法。