CN114203158A

CN114203158A - 一种儿童中文口语评测和检错纠错方法及装置

Info

Publication number: CN114203158A
Application number: CN202111526653.XA
Authority: CN
Inventors: 郭小娟; 裴善华; 弓吉利; 惠寅华; 孙暐
Original assignee: Suzhou Chivox Information Technology Co ltd
Current assignee: Suzhou Chivox Information Technology Co ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-18

Abstract

本发明公开了一种儿童中文口语评测和检错纠错方法及装置，上述儿童中文口语评测和检错纠错方法包括如下步骤：获取训练声学模型的音频和参考文本,训练儿童声学模型；将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征；获取参考文本音素的id特征向量；拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误；将SVM分类器预测结果为读错的音素进行纠正，本发明通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界，缩短了解码时间；同时使用SVM分类器进行检错和纠错，而非音素级的解码，便于增加新的音素，扩展性好，训练速度快，提高了检错纠错的准确率。

Description

一种儿童中文口语评测和检错纠错方法及装置

技术领域

本发明涉及口语评测和纠错领域，尤其涉及一种儿童中文口语评测和检错纠错方法及装置。

背景技术

为了满足儿童对中文口语学***板电脑和笔记本电脑的普及，越来越多的语言学习者喜欢使用CALL进行语言学习。然而，作为CALL不可或缺的一部分，计算机辅助发音训练(CAPT)旨在评估学习者的发音质量，并高精度地检测或识别发音错误，缺陷，进而纠正发音。

但是目前的计算机辅助发音训练的检错速度较慢，同时纠错率较低，并且无法提供纠错语音，从而无法满足实际的使用需求。

发明内容

本发明目的是为了克服现有技术的不足而提供一种能缩短解码时间，利用SVM分类器进行检错和纠错，扩展性好，训练速度快，提高了检错纠错的准确率，并能提供纠错语音的儿童中文口语评测和检错纠错方法及装置。

为达到上述目的，本发明采用的技术方案是：一种儿童中文口语评测和检错纠错方法及装置，包括如下步骤：

获取训练声学模型的音频和参考文本,训练儿童声学模型；

将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征；

获取参考文本音素的id特征向量；

拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误；

将SVM分类器预测结果为读错的音素进行纠正。

进一步的，将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下：

使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围；

提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。

进一步的，初始化一个n维n列的单位正交矩阵，其中n为评测音素的总个数，每个音素由一个n维向量表示，称为id特征向量。

进一步的，将发音检测结果为错误的音素进行纠错的步骤如下：将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。

进一步的，还包括一打分步骤，用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分。

一种儿童中文口语评测和检错纠错装置，包括：

训练模块，用于获取训练声学模型的音频和参考文本,训练儿童声学模型；

提取模块，用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征；

获取模块，用于获取参考文本音素的id特征向量；

评估模块，用于拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误；

纠错模块，用于将SVM分类器预测结果为读错的音素进行纠正。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明方案的儿童中文口语评测和检错纠错方法及装置，儿童中文口语评测和检错纠错方法及装置，通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界，缩短了解码时间；同时使用SVM分类器进行检错和纠错，而非音素级的解码，便于增加新的音素，扩展性好，而且训练速度快，不需要人工标注大量的数据,并且提高了检错纠错的准确率。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为本发明中儿童中文口语评测和检错纠错方法的流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

请参阅附图1，本发明实施例提供的一种儿童中文口语评测和检错纠错方法，包括如下步骤：S1获取训练声学模型的音频和参考文本,训练儿童声学模型；S2将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征；S3获取参考文本音素的id特征向量；S4拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误；S5将SVM分类器预测结果为读错的音素进行纠正。

其中，本发明的儿童中文口语评测和检错纠错方法只的适用于单字音频。

具体的，在步骤S1中，儿童声学模型是在评测之前训练好的,在评测任务中是作为一个模型使用的,训练声学模型需要用到大量的音频和对应的发音标注,这里使用了1150h的儿童音频,本文中儿童的发音音频是用于评测的音频。

在步骤S2中，将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下：S20使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围；S21提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。

在步骤S3中，初始化一个n维n列的单位正交矩阵，其中n为评测音素的总个数，每个音素由一个n维向量表示，称为id特征。

具体的，在步骤S4中，将声学特征与参考文本对应音素的id特征向量拼接作为自变量，儿童读对(lab＝1)和读错(lab＝0)为因变量，训练SVM分类器，其中，SVM分类器的模型训练时的因变量由人工标注获取，通过对该SVM分类器进行训练得到一个预测发音准确度的SVM分类器模型，从而可以对儿童发音进行检测，将预测结果的概率值映射为百分制得分，用于评估发音质量。

在步骤S5中，将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。

具体的，当SVM分类器认定发音检测结果为错误时，将其对应的声学特征和所有的id特征拼接，放入到分SVM分类器进行判别，并选取后验概率超过预设阈值且概率最高的音素作为纠错音素发出。

另外，本发明还包括一打分步骤，用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分

发明还提供了一种儿童中文口语评测和检错纠错装置，训练模块、提取模块、获取模块、评估模块和纠错模块，训练模块用于获取训练声学模型的音频和参考文本,训练儿童声学模型；提取模块用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征；获取模块用于获取参考文本音素的id特征向量；评估模块用于拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误；纠错模块用于将SVM分类器预测结果为读错的音素进行纠正。

本发明的儿童中文口语评测和检错纠错方法及装置，通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界，缩短了解码时间；同时使用SVM分类器进行检错和纠错，而非音素级的解码，便于增加新的音素，扩展性好，而且训练速度快，不需要人工标注大量的数据,并且提高了检错纠错的准确率。

以上仅是本发明的具体应用范例，对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种儿童中文口语评测和检错纠错方法及装置，其特征在于，包括如下步骤：

获取训练声学模型的音频和参考文本,训练儿童声学模型；

获取参考文本音素的id特征向量；

将SVM分类器预测结果为读错的音素进行纠正。

2.如权利要求1所述的儿童中文口语评测和检错纠错方法，其特征在于，将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下：

3.如权利要求1所述的儿童中文口语评测和检错纠错方法，其特征在于：初始化一个n维n列的单位正交矩阵，其中n为评测音素的总个数，每个音素由一个n维向量表示，称为id特征向量。

4.如权利要求4所述的儿童中文口语评测和检错纠错方法,其特征在于，将发音检测结果为错误的音素进行纠错的步骤如下：将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。

5.如权利要求1所述的儿童中文口语评测和检错纠错方法，其特征在于：还包括一打分步骤，用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分。

6.一种儿童中文口语评测和检错纠错装置，其特征在于，包括：

获取模块，用于获取参考文本音素的id特征向量；