CN101727903A - 基于多特征和多***融合的发音质量评估和错误检测方法 - Google Patents

基于多特征和多***融合的发音质量评估和错误检测方法 Download PDF

Info

Publication number
CN101727903A
CN101727903A CN200810225406A CN200810225406A CN101727903A CN 101727903 A CN101727903 A CN 101727903A CN 200810225406 A CN200810225406 A CN 200810225406A CN 200810225406 A CN200810225406 A CN 200810225406A CN 101727903 A CN101727903 A CN 101727903A
Authority
CN
China
Prior art keywords
phoneme
pronunciation
model
error
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810225406A
Other languages
English (en)
Other versions
CN101727903B (zh
Inventor
徐波
李宏言
梁家恩
高鹏
王士进
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2008102254064A priority Critical patent/CN101727903B/zh
Publication of CN101727903A publication Critical patent/CN101727903A/zh
Application granted granted Critical
Publication of CN101727903B publication Critical patent/CN101727903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于多特征和多***融合的发音质量评估和错误检测方法,利用多种特征参数描述发音质量并使用多种评检***相互融合的方法对发音质量进行评估和错误检测,包括以下步骤:语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错***;多个发音质量评估和检错***的融合;以及对发音质量进行评估和对发音错误进行检测。利用本发明,有效地利用了多种语音特征,充分使用了多种评估和检测***并进行信息融合,从而在最大程度上发挥了各种特征和***的优势,保证了发音评估和检错的准确性和可靠性。

Description

基于多特征和多***融合的发音质量评估和错误检测方法
技术领域
本发明涉及语音识别和多***融合技术在发音质量评估和发音错误检测上的应用技术领域,具体涉及一种基于多特征和多***融合的发音质量评估和错误检测方法。
背景技术
目前,国内英语口语考试仍采用人工评价形式,由于需要在短时间内对大量考生进行测试,其考务组织繁重,测试成本高,且效率低下,同时人工评判的主观性较强,很难保证考试的客观公正性。利用计算机技术对发音质量和发音错误进行自动评估和检测可以有效弥补人工评价手段的不足,并可以为语言辅助教学提供巨大帮助。
现有的发音质量评估和错误检测方法普遍依赖于语音识别的后验概率,并且使用单一的特征或方法进行评检。模式识别和机器学习领域的大量理论和实践都表明,单一的特征和方法很难进一步提高***性能,而使用多种特征并对多个***进行信息融合可以充分发挥不同特征和方法的优势,取得单一特征和***难以达到的效果。
发明内容
(一)要解决的技术问题
有鉴于此,针对现有技术使用单一特征和方法进行发音质量评估和错误检测的不足,本发明的主要目的在于提供一种基于多特征和多***融合的发音质量评估和错误检测方法,以有效利用多种语音特征,充分使用多种评估和检测***并进行信息融合,从而在最大程度上发挥各种特征和***的优势,保证发音评估和检错的准确性和可靠性。
(二)技术方案
为达到上述目的,本发明采用的技术方案如下:
一种基于多特征和多***融合的发音质量评估和错误检测方法,该方法利用多种特征参数描述发音质量并使用多种评检***相互融合的方法对发音质量进行评估和错误检测,包括以下步骤:
语音识别及其自动切分对齐;
提取用于发音质量评估和检错的特征参数;
获取发音质量评估和检错模型训练数据;
训练多个发音质量评估和检错***;
多个发音质量评估和检错***的融合;以及
对发音质量进行评估和对发音错误进行检测。
上述方案中,所述语音识别及其自动切分对齐的步骤,具体包括:
收集发音语料,并对收集的发音语料进行词和音素级的人工标注;
利用收集的发音语料训练语音识别和切分对齐需要的发音模型;
在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。
上述方案中,所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。
上述方案中,所述提取用于发音质量评估和检错的特征参数的步骤,具体包括:
提取语音帧的PLP、Pitch和Formant特征,并将音素边界内所有帧的PLP、Pitch和Formant特征作为GMM评检***的特征;
将语音帧的PLP、Pitch和Formant特征转换为GLDS特征,并将音素边界内所有帧的GLDS特征作为SVM评检***的特征;
提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为MLP评检***的特征。
上述方案中,所述提取语音帧的PLP、Pitch和Formant特征之后,进一步包括:对提取的Pitch(即F0)和Formant特征进行规一化,Formant取F1、F2和F3,同时提供F0、F1、F2和F3的一阶和二阶差分参数。
上述方案中,所述获取发音质量评估和检错模型训练数据的步骤,具体包括:
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,以此作为训练各音素GMM模型的数据;
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以各音素对应的正负样本作为训练各音素SVM模型的数据;
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本和标注结果的对应关系,以此作为训练MLP模型的数据。
上述方案中,所述将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,具体包括:
对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对辅音;
对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对韵母。
上述方案中,所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。
上述方案中,所述训练多个发音质量评估和检错***的步骤,具体包括:
训练GMM评检模型;
训练SVM评检模型;以及
训练MLP评检模型。
上述方案中,所述训练GMM评检模型,具体包括:
针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的GMM模型;
针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的GMM模型。
上述方案中,所述训练SVM评检模型,具体包括:SVM训练的正负样本比例保持在1∶1左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练SVM评检模型。
上述方案中,在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终SVM模型;当某个音素的正样本较少时,通过邻近类别音素合并的手段降低数据量不足对SVM模型精度的影响。
上述方案中,所述训练MLP评检模型,具体包括:利用语音样本和对应的标注结果,使用MLP训练工具训练得到统一的MLP模型。
上述方案中,所述多个发音质量评估和检错***的融合的步骤,具体包括:
1)、利用GMM模型计算当前音素的GOP得分,记为scoregmm
2)、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为scoresvm
3)、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为scoremlp
4)、将scoregmm、scoresvm和scoremlp变换到统一的得分域;
5)、当前音素的最终置信度得分为:score=wgmm·scoregmm+wsvm·scoresvm+wmlp·scoremlp,其中wgmm、wsvm和wmlp为GMM、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。
上述方案中,步骤1)中所述计算当前音素的GOP得分,是将当前音素在自身GMM模型上的对数概率减去在所有GMM模型上的对数概率之和。
上述方案中,所述在计算当前音素的GOP得分的过程中,具体包括:
对于英文,元音的所有GMM模型只计算元音,辅音的所有GMM模型只计算辅音;
对于中文,声母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母。
上述方案中,步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模型进行内积运算获得。
上述方案中,步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。
上述方案中,所述对发音质量进行评估和对发音错误进行检测的步骤,具体包括:
1)、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量评分,并作为不同层次上发音质量评估的指标;
2)、利用学***衡,并根据对检出率和误检率的实际要求调整工作点;
3)、将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果发音质量评分小于门限,则认为音素或词汇发生发音错误。
上述方案中,步骤1)中所述音素、词汇、句子和段落层次的发音质量评分折算方法分别为:
音素层次的发音质量评分即音素的置信度得分;
词汇层次的发音质量评分为词汇内部所有音素发音质量评分的平均值;
句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值;
段落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。
上述方案中,所述在计算词汇、句子和段落层次的发音质量评分时,对针对英文的元音和辅音或者对针对中文的声母和韵母,音素发音质量评分以不同的权重。
上述方案中,步骤2)中所述发音错误检测门限,对于不同音素,其门限值不同。
上述方案中,步骤3)中所述对发音错误进行检测,进一步包括:
将发音质量定义为正确、错误和缺陷三个层次,并通过门限1和门限2将得分域划分为三部分,分别对应错误、缺陷和正确三个层次;
当发音质量评分小于门限1时,认为发音错误,当发音质量评分大于门限1且小于门限2时,认为发音有缺陷,当发音质量评分大于门限2时,认为发音正确。
(三)有益效果
从上述技术方案可以看出,本发明使用多种语音特征提取和多种***融合的方法进行发音质量评估和错误检测,综合利用了PLP、Pitch、Formant、GLDS和TRAP特征,有效地融合了GMM、SVM和MLP评检方法,具有以下有益效果:
1)多种特征可以更加全面地刻画语音的特性和发音的质量,弥补单一特征的不足,具体来说,PLP是识别和发音评估中比较鲁棒的主流特征,Pitch和Formant具有明显的物理意义并增强了对元音(韵母)的描述能力,GLDS将低维特征变换成高维特征以利于提高分类性能,TRAP相对于PLP加强了对语音时序变化的描述并与MLP实现了很好的衔接;
2)GMM是一种统计模型,多用于描述语音特征及其分布,而SVM和MLP作为区分性辨别模型在模式分类方面表现突出,且SVM具有很强的外推能力,多***融合充分利用了上述***的特点,将单个***的优势很好地结合起来;
3)本发明充分利用了积累的大量具有人工标注的语音数据和学习样本库,考虑了不同性别、不同年龄和不同地域的差异性,评检方法具有良好的推广性;
4)本发明涉及的多***融合权重和错误检测门限等参数均可以根据实际情况进行调节,便于用户使用;
5)本发明可以提供面向音素、词汇、句子和段落等多个层次的发音质量评估和错误检测,发明中涉及的特征和评检方法对语种没有限制。
附图说明
图1是本发明发音质量评估和错误检测***框图;
图2是本发明GMM评检模型的训练流程图;
图3是本发明SVM评检模型的训练流程图;
图4是本发明MLP评检模型的训练流程图;
图5是本发明多***融合与评检策略流程图;
图6是本发明第一实施例流程图,词汇发音的质量评估和错误检测;
图7是本发明第二实施例流程图,英语口语考试中段落朗读题型的发音质量评估和错误检测。
具体实施方式
首先,详细介绍本发明涉及的技术术语。
PLP:感知加权线性预测参数(Perceptual Linear Prediction),是一种基于听觉模型的特征,使用经过听觉模型处理后的信号替代传统的线性预测分析,同时加入了消噪技术,对语音识别具有较高的稳健性。
Pitch:即基音频率,是指发音时声带振动引起的周期性,为语音信号最重要的特征之一。
Formant:即共振峰,是指声音在声道内引起的共振特性,共振峰频率和轨迹是区分不同元音或韵母的重要参数。
GLDS:即广义线性判别序列(Generalized Linear DiscriminantSequence),对于SVM,使用多项式映射函数将低维特征转换到高维空间,并与广义线性判别核函数做内积运算。
TRAP:时域模式特征(TempoRAl Patterns),一种用于语音识别和音素识别的语音特征。
GMM:高斯混合模型(Gaussian Mixture Model),是一种使用多维概率密度函数对信号的特性和分布进行描述的方法。
SVM:支持向量机(Support Vector Machine),是基于统计学习理论发展而来的一种较新的模式识别方法。
MLP:多层感知器(Multi-Layer Perceptron),是一种常见的用于模式识别和分类的神经网络。
HTK:即Hidden Markov Tool Kit,是英国剑桥大学提供的用于语音识别领域的开源工具。
本发明的核心内容是:利用多种特征参数描述发音质量并使用多种评检***相互融合的方法对发音质量进行评估和错误检测,包括以下步骤:语音识别及其自动切分对齐;提取用于发音质量评估和检错的特征参数;获取发音质量评估和检错模型训练数据;训练多个发音质量评估和检错***;多个发音质量评估和检错***的融合;以及对发音质量进行评估和对发音错误进行检测。
所述语音识别及其自动切分对齐的步骤,具体包括:收集发音语料,并对收集的发音语料进行词和音素级的人工标注;利用收集的发音语料训练语音识别和切分对齐需要的发音模型;在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。
所述提取用于发音质量评估和检错的特征参数的步骤,具体包括:提取语音帧的PLP、Pitch和Formant特征,并将音素边界内所有帧的PLP、Pitch和Formant特征作为GMM评检***的特征;将语音帧的PLP、Pitch和Formant特征转换为GLDS特征,并将音素边界内所有帧的GLDS特征作为SVM评检***的特征;提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为MLP评检***的特征。
所述提取语音帧的PLP、Pitch和Formant特征之后,进一步包括:对提取的Pitch(即F0)和Formant特征进行规一化,Formant取F1、F2和F3,同时提供F0、F1、F2和F3的一阶和二阶差分参数。
所述获取发音质量评估和检错模型训练数据的步骤,具体包括:利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,以此作为训练各音素GMM模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以各音素对应的正负样本作为训练各音素SVM模型的数据;利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本和标注结果的对应关系,以此作为训练MLP模型的数据。
所述将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,具体包括:对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对辅音;对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对韵母。
所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。
所述训练多个发音质量评估和检错***的步骤,具体包括:训练GMM评检模型;训练SVM评检模型;以及训练MLP评检模型。
所述训练GMM评检模型,具体包括:针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的GMM模型;针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的GMM模型。
所述训练SVM评检模型,具体包括:SVM训练的正负样本比例保持在1∶1左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练SVM评检模型。在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终SVM模型;当某个音素的正样本较少时,通过邻近类别音素合并的手段降低数据量不足对SVM模型精度的影响。
所述训练MLP评检模型,具体包括:利用语音样本和对应的标注结果,使用MLP训练工具训练得到统一的MLP模型。
所述多个发音质量评估和检错***的融合的步骤,具体包括:
1)、利用GMM模型计算当前音素的GOP得分,记为scoregmm
2)、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为scoresvm
3)、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为scoremlp
4)、将scoregmm、scoresvm和scoremlp变换到统一的得分域;
5)、当前音素的最终置信度得分为:score=wgmm·scoregmm+wsvm·scoresvm+wmlp·scoremlp,其中wgmm、wsvm和wmlp为GMM、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。
步骤1)中所述计算当前音素的GOP得分,是将当前音素在自身GMM模型上的对数概率减去在所有GMM模型上的对数概率之和。所述在计算当前音素的GOP得分的过程中,对于英文,元音的所有GMM模型只计算元音,辅音的所有GMM模型只计算辅音;对于中文,声母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母。
步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模型进行内积运算获得。
步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。
所述对发音质量进行评估和对发音错误进行检测的步骤,具体包括:
1)、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量评分,并作为不同层次上发音质量评估的指标;本步骤中所述音素、词汇、句子和段落层次的发音质量评分折算方法分别为:音素层次的发音质量评分即音素的置信度得分;词汇层次的发音质量评分为词汇内部所有音素发音质量评分的平均值;句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值;段落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。所述在计算词汇、句子和段落层次的发音质量评分时,对针对英文的元音和辅音或者对针对中文的声母和韵母,音素发音质量评分以不同的权重。
2)、利用学***衡,并根据对检出率和误检率的实际要求调整工作点;本步骤中所述发音错误检测门限,对于不同音素,其门限值不同。
3)、将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果发音质量评分小于门限,则认为音素或词汇发生发音错误。本步骤中所述对发音错误进行检测,进一步包括:将发音质量定义为正确、错误和缺陷三个层次,并通过门限1和门限2将得分域划分为三部分,分别对应错误、缺陷和正确三个层次,当发音质量评分小于门限1时,认为发音错误,当发音质量评分大于门限1且小于门限2时,认为发音有缺陷,当发音质量评分大于门限2时,认为发音正确。
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
第一实施例
参见图1至图6所示,是本发明第一实施例流程图,是对词汇发音的质量进行评估和错误检测,其步骤为:
步骤101,用户读出需要评估和检错的词汇语音;
步骤102,对原始语音进行预处理,分帧处理以25ms为帧长度,10ms为帧间隔,重复处理直至语音信号结束;
步骤103,在词汇内容已知的情况下对语音进行自动切分对齐,对词汇语音略去语音识别环节。切分对齐使用的发音模型使用大量具有人工标注的中文或英文语料训练得到,英文使用44个音素发音模型(20个元音,24个辅音),中文使用61个音素发音模型(36个韵母,25个声母,包括零声母)。发音模型的训练可以采用剑桥大学的HTK工具(http://htk.eng.cam.ac.uk)。本实施例经过切分对齐后获得各音素的边界信息;
步骤104,提取语音帧的PLP、F0、F1、F2、F3特征以及F0、F1、F2、F3的一阶和二阶差分参数,并对F0、F1、F2、F3进行规一化。将音素边界内所有帧的PLP、Pitch和Formant特征作为音素的GMM特征送入GMM评检***;
步骤105,将步骤104中提取的PLP、Pitch和Formant特征转换为GLDS特征,并将音素边界内所有帧的GLDS特征作为音素的SVM特征送入SVM评检***;
步骤106,提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为词汇的MLP特征送入MLP评检***;
步骤107,准备GMM评检模型训练数据:利用积累的标准发音语料及其人工标注,通过语音识别和切分对齐得到各音素的语音样本并作为训练各音素GMM模型的数据;
步骤108,训练GMM评检模型:对于英文,首先利用所有元音和所有辅音的训练样本分别训练得到元音和辅音的通用背景模型(UBM),然后再利用每个元音和辅音音素的样本分别在元音和辅音UBM基础上训练得到相应的GMM模型。对于中文,首先利用所有声母和所有韵母的训练样本分别训练得到声母和韵母的通用背景模型(UBM),然后再利用每个声母和韵母音素的样本分别在声母和韵母UBM基础上训练得到相应的GMM模型;
步骤109,准备SVM评检模型训练数据:利用积累的具有人工标注的标准发音语料,通过语音识别和切分对齐得到各音素的语音样本,把当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本。对于英文,元音的其他音素只针对元音,辅音的其他音素只针对辅音;对于中文,声母的其他音素只针对声母,韵母的其他音素只针对韵母。将各音素对应的正负样本作为训练各音素SVM模型的数据;
步骤110,训练SVM评检模型:SVM训练的正负样本比例保持在1∶1左右,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终模型,SVM模型使用广义线性核函数;
步骤111,准备MLP评检模型训练数据:将积累的具有人工标注的标准发音语料直接作为训练MLP模型的数据;
步骤112,训练MLP评检模型:利用语音样本和对应的标注结果,使用MLP训练工具训练得到统一的MLP模型;
步骤113,利用GMM模型计算当前音素的GOP得分,记为scoregmm。GOP得分的计算方法是:当前音素在本身GMM模型上的对数概率减去在所有GMM模型上的对数概率之和。对于英文,元音的所有GMM模型只计算元音,辅音的所有GMM模型只计算辅音;对于中文,声母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母;
步骤114,将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为scoresvm。SVM得分的计算方法是:直接通过GLDS特征与SVM模型进行内积运算获得;
步骤115,将当前词所有帧的TRAP特征送入MLP模型后归整得到各音素的MLP得分,记为scoremlp。MLP得分的计算方法是:对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯归整得到的平均得分作为各音素的MLP得分;
步骤116,统一scoregmm、scoresvm和scoremlp的得分域,scoregmm=exp(scoregmm),scoresvm=sigmoid(scoresvm),scoremlp=exp(scoremlp);
步骤117,将各***输出的得分加权得到音素最终的置信度得分,score=wgmm·scoregmm+wsvm·scoresvm+wmlp·scoremlp,其中wgmm、wsvm和wmlp表示GMM、SVM和MLP方法的权重,设置为0.3,0.4,0.3;
步骤118,音素的发音质量评分即音素的置信度得分。词汇的发音质量评分为词汇内部所有音素发音质量评分的加权平均值,对于英文,元音和辅音得分的权重分别为0.6和0.4,对于中文,韵母和声母得分的权重分别为0.6和0.4;
步骤119,利用学习样本库,在音素和词汇发音质量评分的基础上,将检出率90%和误检率10%作为当前工作点,并以此分别设置各音素和词汇的发音错误检测门限;
步骤120,将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果发音质量评分小于门限,则认为音素或词汇的发音错误。
第二实施例
参见图1至图5,以及图7所示,是本发明第二实施例流程图,对英语口语考试中段落朗读题型的发音质量进行评估和错误检测,其步骤为:
步骤201,考生朗读需要评估和检错的英文段落;
步骤202,对原始语音进行预处理,分帧处理以25ms为帧长度,10ms为帧间隔,重复处理直至语音信号结束;
步骤203,在段落内容已知的情况下进行语音识别和自动切分对齐。利用大量具有人工标注的英文语料训练得到发音模型,共44个音素模型(20个元音,24个辅音)。使用带发音变异的BEEP词典,利用已知段落内容脚本生成识别过程中需要的语言模型。模型训练和识别引擎可以采用HTK工具,本发明对此不加以限制。本实施例经过识别和切分后获得各词和音素的边界信息;
步骤204,提取语音帧的PLP、F0、F1、F2、F3特征以及F0、F1、F2、F3的一阶和二阶差分参数,F0、F1、F2、F3进行规一化。将音素边界内所有帧的PLP、Pitch和Formant特征作为音素的GMM特征送入GMM评检***;
步骤205,将步骤204中提取的PLP、Pitch和Formant转换为GLDS特征,并将音素边界内所有帧的GLDS特征作为音素的SVM特征送入SVM评检***;
步骤206,提取语音帧的TRAP特征,并将词汇边界内所有帧的TRAP特征作为词汇的MLP特征送入MLP评检***;
步骤207,准备GMM评检模型训练数据:利用积累的标准发音语料及其人工标注,通过语音识别和切分对齐得到各音素的语音样本并作为训练各音素GMM模型的数据;
步骤208,训练GMM评检模型:首先利用所有元音和所有辅音的训练样本分别训练得到元音和辅音的通用背景模型(UBM),然后再利用每个元音和辅音音素的样本分别在元音和辅音UBM基础上训练得到相应的GMM模型;
步骤209,准备SVM评检模型训练数据:利用积累的具有人工标注的标准发音语料,通过语音识别和切分对齐得到各音素的语音样本,把当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本。元音的其他音素只计算元音,辅音的其他音素只计算辅音。将各音素对应的正负样本作为训练各音素SVM模型的数据;
步骤219,训练SVM评检模型:SVM训练的正负样本比例保持在1∶1左右,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终模型,SVM模型使用广义线性核函数;
步骤211,准备MLP评检模型训练数据:将积累的具有人工标注的标准发音语料直接作为训练MLP模型的数据;
步骤212,训练MLP评检模型:利用语音样本和对应的标注结果,使用MLP训练工具训练得到统一的MLP模型;
步骤213,利用GMM模型计算当前音素的GOP得分,记为scoregmm。GOP得分的计算方法是:当前音素在本身GMM模型上的对数概率减去在所有GMM模型上的对数概率之和,元音的所有GMM模型只计算元音,辅音的所有GMM模型只计算辅音;
步骤214,将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为scoresvm。SVM得分的计算方法是:直接通过GLDS特征与SVM模型进行内积运算获得;
步骤215,将当前词所有帧的TRAP特征送入MLP模型后归整得到各音素的MLP得分,记为scoremlp。MLP得分的计算方法是:对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯归整得到的平均得分作为音素的MLP得分;
步骤216,统一scoregmm、scoresvm和scoremlp的得分域,scoregmm=exp(scoregmm),scoresvm=sigmoid(scoresvm),scoremlp=exp(scoremlp);
步骤217,将各***输出的得分加权得到音素最终的置信度得分,score=wgmm·scoregmm+wsvm·scoresvm+wmlp·scoremlp,其中wgmm、wsvm和wmlp表示GMM、SVM和MLP方法的权重,设置为0.3,0.4,0.3;
步骤218,分别给出音素、词汇、句子和段落层次的发音质量评估。音素层次的发音质量评分即音素的置信度得分,词汇层次的发音质量评分为词汇内部所有音素发音质量评分的平均值,句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值,段落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。在质量评分折算过程中,元音和辅音得分的权重分别为0.6和0.4;
步骤219,利用学习样本库,在音素和词汇发音质量评分的基础上,将检出率90%和误检率10%作为当前工作点,并以此分别设置各音素和词汇的发音错误检测门限;
步骤220,将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果发音质量评分小于门限,则认为音素或词汇的发音错误。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (23)

1.一种基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,该方法利用多种特征参数描述发音质量并使用多种评检***相互融合的方法对发音质量进行评估和错误检测,包括以下步骤:
语音识别及其自动切分对齐;
提取用于发音质量评估和检错的特征参数;
获取发音质量评估和检错模型训练数据;
训练多个发音质量评估和检错***;
多个发音质量评估和检错***的融合;以及
对发音质量进行评估和对发音错误进行检测。
2.根据权利要求1所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述语音识别及其自动切分对齐的步骤,具体包括:
收集发音语料,并对收集的发音语料进行词和音素级的人工标注;
利用收集的发音语料训练语音识别和切分对齐需要的发音模型;
在具备发音模型、发音变异词典、内容脚本以及相应的语言模型的基础上,使用语音识别和自动切分引擎,对输入语音进行识别并输出词级和音素级的对齐信息。
3.根据权利要求2所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述发音变异词典是根据不同地域的语言背景和特点考虑其特定的发音变异情况而形成的词典,所述语言模型是在对应的内容脚本的基础上生成的限制性语言约束关系。
4.根据权利要求1所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述提取用于发音质量评估和检错的特征参数的步骤,具体包括:
提取语音帧的感知加权线性预测参数PLP、基音频率Pitch和共振峰Formant特征,并将音素边界内所有帧的PLP、Pitch和Formant特征作为高斯混合模型GMM评检***的特征;
将语音帧的PLP、Pitch和Formant特征转换为广义线性判别序列GLDS特征,并将音素边界内所有帧的GLDS特征作为支持向量机SVM评检***的特征;
提取语音帧的时域模式特征TRAP,并将词汇边界内所有帧的TRAP特征作为多层感知器MLP评检***的特征。
5.根据权利要求4所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述提取语音帧的PLP、Pitch和Formant特征之后,进一步包括:
对提取的Pitch和Formant特征进行规一化,Pitch即为F0,Formant取F1、F2和F3,同时提供F0、F1、F2和F3的一阶和二阶差分参数。
6.根据权利要求1所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述获取发音质量评估和检错模型训练数据的步骤,具体包括:
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,以此作为训练各音素GMM模型的数据;
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐分别得到各音素的语音样本,将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,以各音素对应的正负样本作为训练各音素SVM模型的数据;
利用收集的标准发音语料及其人工标注,通过语音识别和切分对齐得到语音样本和标注结果的对应关系,以此作为训练MLP模型的数据。
7.根据权利要求6所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述将当前音素的样本作为正样本,其他音素的样本作为当前音素的负样本,具体包括:
对于英文,元音和辅音分开,元音的其他音素只针对元音,辅音的其他音素只针对辅音;
对于中文,声母和韵母分开,声母的其他音素只针对声母,韵母的其他音素只针对韵母。
8.根据权利要求6所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述在训练各音素SVM模型时,所需要的负样本由发音错误样本构成,或者使用将除了当前音素以外的其他音素的样本作为当前音素负样本的策略。
9.根据权利要求1所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述训练多个发音质量评估和检错***的步骤,具体包括:
训练GMM评检模型;
训练SVM评检模型;以及
训练MLP评检模型。
10.根据权利要求9所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述训练GMM评检模型,具体包括:
针对英文,利用所有元辅音的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的GMM模型;
针对中文,利用所有声韵母的训练样本训练得到自身独立的通用背景模型,然后再利用每个音素的样本分别在该通用背景模型基础上训练得到相应的GMM模型。
11.根据权利要求9所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述训练SVM评检模型,具体包括:
SVM训练的正负样本比例保持在1∶1左右,使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,训练SVM评检模型。
12.根据权利要求11所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,在训练SVM模型时,为每个音素随机提供多套负样本数据,即使用SVM训练工具为每个音素训练多个SVM模型,并以多个SVM模型的平均模型作为音素的最终SVM模型;当某个音素的正样本较少时,通过邻近类别音素合并的手段降低数据量不足对SVM模型精度的影响。
13.根据权利要求9所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述训练MLP评检模型,具体包括:
利用语音样本和对应的标注结果,使用MLP训练工具训练得到统一的MLP模型。
14.根据权利要求1所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述多个发音质量评估和检错***的融合的步骤,具体包括:
1)、利用GMM模型计算当前音素的GOP得分,记为scoregmm
2)、将当前音素的GLDS特征送入对应的SVM模型得到其SVM得分,记为scoresvm
3)、将当前词所有帧的TRAP特征送入MLP模型后得到各音素的MLP得分,记为scoremlp
4)、将scoregmm、scoresvm和scoremlp变换到统一的得分域;
5)、当前音素的最终置信度得分为:score=wgmm·scoregmm+wsvm·scoresvm+wmlp·scoremlp,其中wgmm、wsvm和wmlp为GMM、SVM和MLP方法的权重,根据实际情况或学习样本库进行设置。
15.根据权利要求14所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,步骤1)中所述计算当前音素的GOP得分,是将当前音素在自身GMM模型上的对数概率减去在所有GMM模型上的对数概率之和。
16.根据权利要求15所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述在计算当前音素的GOP得分的过程中,具体包括:
对于英文,元音的所有GMM模型只计算元音,辅音的所有GMM模型只计算辅音;
对于中文,声母的所有GMM模型只计算声母,韵母的所有GMM模型只计算韵母。
17.根据权利要求14所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,步骤2)中所述SVM得分的计算方法是,直接通过GLDS特征与SVM模型进行内积运算获得。
18.根据权利要求14所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,步骤3)中所述MLP得分的计算方法是,对当前词所有帧的MLP输出值进行动态规划,以最佳路径回溯规整得到的平均得分作为各音素的MLP得分。
19.根据权利要求1所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述对发音质量进行评估和对发音错误进行检测的步骤,具体包括:
1)、根据音素的置信度得分,分别折算出音素、词汇、句子和段落层次的发音质量评分,并作为不同层次上发音质量评估的指标;
2)、利用学***衡,并根据对检出率和误检率的实际要求调整工作点;
3)、将音素或词汇的发音质量评分与已经确定好的错误检测门限进行比较,如果发音质量评分小于门限,则认为音素或词汇发生发音错误。
20.根据权利要求19所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,步骤1)中所述音素、词汇、句子和段落层次的发音质量评分折算方法分别为:
音素层次的发音质量评分即音素的置信度得分;
词汇层次的发音质量评分为词汇内部所有音素发音质量评分的平均值;
句子层次的发音质量评分为句子内部所有音素发音质量评分的平均值;
段落层次的发音质量评分为段落内部所有音素发音质量评分的平均值。
21.根据权利要求20所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,所述在计算词汇、句子和段落层次的发音质量评分时,对针对英文的元音和辅音或者对针对中文的声母和韵母,音素发音质量评分以不同的权重。
22.根据权利要求19所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,步骤2)中所述发音错误检测门限,对于不同音素,其门限值不同。
23.根据权利要求19所述的基于多特征和多***融合的发音质量评估和错误检测方法,其特征在于,步骤3)中所述对发音错误进行检测,进一步包括:
将发音质量定义为正确、错误和缺陷三个层次,并通过门限1和门限2将得分域划分为三部分,分别对应错误、缺陷和正确三个层次;
当发音质量评分小于门限1时,认为发音错误,当发音质量评分大于门限1且小于门限2时,认为发音有缺陷,当发音质量评分大于门限2时,认为发音正确。
CN2008102254064A 2008-10-29 2008-10-29 基于多特征和多***融合的发音质量评估和错误检测方法 Active CN101727903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102254064A CN101727903B (zh) 2008-10-29 2008-10-29 基于多特征和多***融合的发音质量评估和错误检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102254064A CN101727903B (zh) 2008-10-29 2008-10-29 基于多特征和多***融合的发音质量评估和错误检测方法

Publications (2)

Publication Number Publication Date
CN101727903A true CN101727903A (zh) 2010-06-09
CN101727903B CN101727903B (zh) 2011-10-19

Family

ID=42448694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102254064A Active CN101727903B (zh) 2008-10-29 2008-10-29 基于多特征和多***融合的发音质量评估和错误检测方法

Country Status (1)

Country Link
CN (1) CN101727903B (zh)

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894560A (zh) * 2010-06-29 2010-11-24 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
CN103559892A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及***
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104485115A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 发音评价设备、方法和***
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN105593936A (zh) * 2013-10-24 2016-05-18 宝马股份公司 用于文本转语音性能评价的***和方法
CN105609114A (zh) * 2014-11-25 2016-05-25 科大讯飞股份有限公司 一种发音检测方法及装置
CN105825852A (zh) * 2016-05-23 2016-08-03 渤海大学 一种英语口语朗读考试评分方法
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN105938716A (zh) * 2016-03-30 2016-09-14 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法
CN106448660A (zh) * 2016-10-31 2017-02-22 闽江学院 一种引入大数据分析的自然语言模糊边界确定方法
CN106531185A (zh) * 2016-11-01 2017-03-22 上海语知义信息技术有限公司 基于语音相似度的语音评测方法及***
CN106531189A (zh) * 2016-12-20 2017-03-22 潘奕君 一种智能口语测评方法
CN106683666A (zh) * 2016-12-23 2017-05-17 上海语知义信息技术有限公司 一种基于深度神经网络的领域自适应方法
CN106847308A (zh) * 2017-02-08 2017-06-13 西安医学院 一种英语发音质量评价***
CN107221343A (zh) * 2017-05-19 2017-09-29 北京市农林科学院 一种数据质量的评估方法及评估***
CN107958673A (zh) * 2017-11-28 2018-04-24 北京先声教育科技有限公司 一种口语评分方法及装置
CN108121750A (zh) * 2016-11-30 2018-06-05 西门子公司 一种模型处理方法、装置及机器可读介质
US20180197535A1 (en) * 2015-07-09 2018-07-12 Board Of Regents, The University Of Texas System Systems and Methods for Human Speech Training
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108573713A (zh) * 2017-03-09 2018-09-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109102824A (zh) * 2018-07-06 2018-12-28 北京比特智学科技有限公司 基于人机交互的语音纠错方法和装置
CN109427327A (zh) * 2017-09-05 2019-03-05 ***通信有限公司研究院 音频通话评估方法、评估设备及计算机存储介质
CN109766274A (zh) * 2018-12-28 2019-05-17 河南思维轨道交通技术研究院有限公司 一种测试脚本自动化融合方法、存储介质
CN109872727A (zh) * 2014-12-04 2019-06-11 上海流利说信息技术有限公司 语音质量评价设备、方法和***
CN110010123A (zh) * 2018-01-16 2019-07-12 上海异构网络科技有限公司 英语音标发音学习评价***及方法
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN110415707A (zh) * 2019-04-12 2019-11-05 杭州电子科技大学 一种基于语音特征融合和gmm的说话人识别方法
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别***的用户记录关键字的质量反馈
CN110570873A (zh) * 2019-09-12 2019-12-13 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN110718210A (zh) * 2019-09-25 2020-01-21 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备
CN110825244A (zh) * 2019-11-06 2020-02-21 王一峰 现代沪语输入法
CN110930988A (zh) * 2019-12-13 2020-03-27 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及***
CN111159356A (zh) * 2019-12-31 2020-05-15 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111475708A (zh) * 2019-01-24 2020-07-31 上海流利说信息技术有限公司 一种跟读内容的推送方法、介质、装置和计算设备
CN111694622A (zh) * 2019-03-12 2020-09-22 上海流利说信息技术有限公司 一种跟读内容的展示方法、介质、装置和计算设备
CN112435651A (zh) * 2020-11-20 2021-03-02 昆明学院 一种语音数据自动标注的质量评估方法
CN112562736A (zh) * 2020-12-11 2021-03-26 中国信息通信研究院 一种语音数据集质量评估方法和装置
CN112927696A (zh) * 2019-12-05 2021-06-08 中国科学院深圳先进技术研究院 一种基于语音识别的构音障碍自动评估***和方法
CN113035238A (zh) * 2021-05-20 2021-06-25 北京世纪好未来教育科技有限公司 音频评测方法、装置、电子设备和介质
CN113299278A (zh) * 2021-05-20 2021-08-24 北京大米科技有限公司 一种声学模型性能评估的方法、装置和电子设备
CN114203166A (zh) * 2021-12-10 2022-03-18 零犀(北京)科技有限公司 基于人机对话的训练数据的生成方法、装置和设备
CN115687334A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质
CN115798518A (zh) * 2023-01-05 2023-03-14 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质
CN115798519A (zh) * 2023-02-10 2023-03-14 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
CN101292281A (zh) * 2005-09-29 2008-10-22 独立行政法人产业技术综合研究所 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序
CN101105939B (zh) * 2007-09-04 2012-07-18 安徽科大讯飞信息科技股份有限公司 发音指导方法
CN101246685B (zh) * 2008-03-17 2011-03-30 清华大学 计算机辅助语言学习***中的发音质量评价方法

Cited By (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
CN101894548B (zh) * 2010-06-23 2012-07-04 清华大学 一种用于语种识别的建模方法及装置
CN101894560B (zh) * 2010-06-29 2012-08-15 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN101894560A (zh) * 2010-06-29 2010-11-24 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN105593936A (zh) * 2013-10-24 2016-05-18 宝马股份公司 用于文本转语音性能评价的***和方法
CN103559892B (zh) * 2013-11-08 2016-02-17 科大讯飞股份有限公司 口语评测方法及***
CN103559892A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及***
CN103617799A (zh) * 2013-11-28 2014-03-05 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN103617799B (zh) * 2013-11-28 2016-04-27 广东外语外贸大学 一种适应于移动设备的英语语句发音质量检测方法
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104464757B (zh) * 2014-10-28 2019-01-18 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN105609114B (zh) * 2014-11-25 2019-11-15 科大讯飞股份有限公司 一种发音检测方法及装置
CN105609114A (zh) * 2014-11-25 2016-05-25 科大讯飞股份有限公司 一种发音检测方法及装置
CN104485115B (zh) * 2014-12-04 2019-05-03 上海流利说信息技术有限公司 发音评价设备、方法和***
CN104485115A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 发音评价设备、方法和***
CN109872727A (zh) * 2014-12-04 2019-06-11 上海流利说信息技术有限公司 语音质量评价设备、方法和***
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN104795077B (zh) * 2015-03-17 2018-02-02 北京航空航天大学 一种检验语音标注质量的一致性检测方法
US20180197535A1 (en) * 2015-07-09 2018-07-12 Board Of Regents, The University Of Texas System Systems and Methods for Human Speech Training
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
WO2017088363A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 筛选发音词典有效词条的方法及装置
CN105938716A (zh) * 2016-03-30 2016-09-14 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法
CN105938716B (zh) * 2016-03-30 2019-05-28 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法
CN105825852A (zh) * 2016-05-23 2016-08-03 渤海大学 一种英语口语朗读考试评分方法
CN106448660A (zh) * 2016-10-31 2017-02-22 闽江学院 一种引入大数据分析的自然语言模糊边界确定方法
CN106448660B (zh) * 2016-10-31 2019-09-17 闽江学院 一种引入大数据分析的自然语言模糊边界确定方法
CN106531185A (zh) * 2016-11-01 2017-03-22 上海语知义信息技术有限公司 基于语音相似度的语音评测方法及***
CN108121750B (zh) * 2016-11-30 2022-07-08 西门子公司 一种模型处理方法、装置及机器可读介质
CN108121750A (zh) * 2016-11-30 2018-06-05 西门子公司 一种模型处理方法、装置及机器可读介质
CN106531189A (zh) * 2016-12-20 2017-03-22 潘奕君 一种智能口语测评方法
CN106683666B (zh) * 2016-12-23 2019-11-08 云知声(上海)智能科技有限公司 一种基于深度神经网络的领域自适应方法
CN106683666A (zh) * 2016-12-23 2017-05-17 上海语知义信息技术有限公司 一种基于深度神经网络的领域自适应方法
CN106847308A (zh) * 2017-02-08 2017-06-13 西安医学院 一种英语发音质量评价***
CN108573713B (zh) * 2017-03-09 2022-01-11 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108573713A (zh) * 2017-03-09 2018-09-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别***的用户记录关键字的质量反馈
CN110419078B (zh) * 2017-03-14 2024-01-23 德克萨斯仪器股份有限公司 用于自动语音识别的***和方法
CN107221343A (zh) * 2017-05-19 2017-09-29 北京市农林科学院 一种数据质量的评估方法及评估***
CN109427327A (zh) * 2017-09-05 2019-03-05 ***通信有限公司研究院 音频通话评估方法、评估设备及计算机存储介质
CN109427327B (zh) * 2017-09-05 2022-03-08 ***通信有限公司研究院 音频通话评估方法、评估设备及计算机存储介质
CN107958673A (zh) * 2017-11-28 2018-04-24 北京先声教育科技有限公司 一种口语评分方法及装置
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN110010123A (zh) * 2018-01-16 2019-07-12 上海异构网络科技有限公司 英语音标发音学习评价***及方法
CN109102824A (zh) * 2018-07-06 2018-12-28 北京比特智学科技有限公司 基于人机交互的语音纠错方法和装置
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109766274A (zh) * 2018-12-28 2019-05-17 河南思维轨道交通技术研究院有限公司 一种测试脚本自动化融合方法、存储介质
CN109766274B (zh) * 2018-12-28 2022-03-15 河南思维轨道交通技术研究院有限公司 一种测试脚本自动化融合方法、存储介质
CN111475708A (zh) * 2019-01-24 2020-07-31 上海流利说信息技术有限公司 一种跟读内容的推送方法、介质、装置和计算设备
CN111694622A (zh) * 2019-03-12 2020-09-22 上海流利说信息技术有限公司 一种跟读内容的展示方法、介质、装置和计算设备
CN110415707A (zh) * 2019-04-12 2019-11-05 杭州电子科技大学 一种基于语音特征融合和gmm的说话人识别方法
CN110415707B (zh) * 2019-04-12 2021-11-26 杭州电子科技大学 一种基于语音特征融合和gmm的说话人识别方法
CN110570873B (zh) * 2019-09-12 2022-08-05 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN110570873A (zh) * 2019-09-12 2019-12-13 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN110718210B (zh) * 2019-09-25 2022-06-07 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备
CN110718210A (zh) * 2019-09-25 2020-01-21 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备
CN110825244A (zh) * 2019-11-06 2020-02-21 王一峰 现代沪语输入法
CN112927696A (zh) * 2019-12-05 2021-06-08 中国科学院深圳先进技术研究院 一种基于语音识别的构音障碍自动评估***和方法
CN110930988A (zh) * 2019-12-13 2020-03-27 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及***
CN110930988B (zh) * 2019-12-13 2020-10-20 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及***
CN111159356A (zh) * 2019-12-31 2020-05-15 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111159356B (zh) * 2019-12-31 2023-06-09 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN112435651B (zh) * 2020-11-20 2023-05-02 昆明学院 一种语音数据自动标注的质量评估方法
CN112435651A (zh) * 2020-11-20 2021-03-02 昆明学院 一种语音数据自动标注的质量评估方法
CN112562736A (zh) * 2020-12-11 2021-03-26 中国信息通信研究院 一种语音数据集质量评估方法和装置
CN113035238A (zh) * 2021-05-20 2021-06-25 北京世纪好未来教育科技有限公司 音频评测方法、装置、电子设备和介质
CN113299278A (zh) * 2021-05-20 2021-08-24 北京大米科技有限公司 一种声学模型性能评估的方法、装置和电子设备
CN114203166B (zh) * 2021-12-10 2023-03-31 零犀(北京)科技有限公司 基于人机对话的训练数据的生成方法、装置和设备
CN114203166A (zh) * 2021-12-10 2022-03-18 零犀(北京)科技有限公司 基于人机对话的训练数据的生成方法、装置和设备
CN115798518A (zh) * 2023-01-05 2023-03-14 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质
CN115798518B (zh) * 2023-01-05 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、装置、设备及介质
CN115687334A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质
CN115798519A (zh) * 2023-02-10 2023-03-14 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及***

Also Published As

Publication number Publication date
CN101727903B (zh) 2011-10-19

Similar Documents

Publication Publication Date Title
CN101727903B (zh) 基于多特征和多***融合的发音质量评估和错误检测方法
CN101751919B (zh) 一种汉语口语重音自动检测方法
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与***
Rao et al. Emotion recognition from speech using global and local prosodic features
CN102982811B (zh) 一种基于实时解码的语音端点检测方法
Loukina et al. Rhythm measures and dimensions of durational variation in speech
CN103065626B (zh) 英语口语考试***中的朗读题自动评分方法和设备
CN101740024B (zh) 基于广义流利的口语流利度自动评估方法
Pruthi et al. Acoustic parameters for automatic detection of nasal manner
CN101645271B (zh) 发音质量评估***中的置信度快速求取方法
Wang et al. An acoustic measure for word prominence in spontaneous speech
CN106782603B (zh) 智能语音评测方法及***
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN102122507A (zh) 一种运用人工神经网络进行前端处理的语音检错方法
CN101231848A (zh) 一种基于支持向量机进行发音错误检测的方法
CN107886968B (zh) 语音评测方法及***
CN103366735B (zh) 语音数据的映射方法和装置
CN103366759A (zh) 语音数据的测评方法和装置
Vempada et al. Characterization of infant cries using spectral and prosodic features
Le et al. Automatic Paraphasia Detection from Aphasic Speech: A Preliminary Study.
CN104575495A (zh) 一种采用总变化量因子的语种识别方法及***
CN104572617A (zh) 一种口语考试偏题检测方法及装置
Tong et al. Multi-Task Learning for Mispronunciation Detection on Singapore Children's Mandarin Speech.
Koudounas et al. Italic: An italian intent classification dataset
CN114220419A (zh) 一种语音评价方法、装置、介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ANHUI USTC IFLYTEK CO., LTD.

Free format text: FORMER OWNER: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Effective date: 20120831

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 230088 HEFEI, ANHUI PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20120831

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Anhui USTC iFLYTEK Co., Ltd.

Address before: 100080 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: Anhui USTC iFLYTEK Co., Ltd.