CN107945788A - 一种文本相关的英语口语发音错误检测与质量评分方法 - Google Patents

一种文本相关的英语口语发音错误检测与质量评分方法 Download PDF

Info

Publication number
CN107945788A
CN107945788A CN201711200048.7A CN201711200048A CN107945788A CN 107945788 A CN107945788 A CN 107945788A CN 201711200048 A CN201711200048 A CN 201711200048A CN 107945788 A CN107945788 A CN 107945788A
Authority
CN
China
Prior art keywords
pronunciation
phoneme
calculation formula
score
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711200048.7A
Other languages
English (en)
Other versions
CN107945788B (zh
Inventor
黄桂敏
叶婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201711200048.7A priority Critical patent/CN107945788B/zh
Publication of CN107945788A publication Critical patent/CN107945788A/zh
Application granted granted Critical
Publication of CN107945788B publication Critical patent/CN107945788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种文本相关的英语口语发音错误检测与质量评分方法,该方法是一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理模型。说话人英语朗读的英语口语发音通过该处理模型分析后,最后能够检测出该说话人英语口语发音中的错误并给出其发音质量的分数。本发明的方法解决了说话人英语朗读的英语口语发音错误检测和发音质量自动评分的问题,其处理分析结果比人工的说话人英语朗读的英语口语发音错误检测和发音质量评分的结果更准确。

Description

一种文本相关的英语口语发音错误检测与质量评分方法
技术领域
本发明涉及发音识别技术、信号处理技术和自然语言处理技术,具体是一种利用计算机***对英语文本相关的英语口语发音错误检测与质量评分的方法。
背景技术
根据英语口语发音对应的英语文本是否己知,可以将英语口语发音错误检测与发音质量评分方法分为文本相关和文本无关两大类。其中的文本相关是指在进行英语口语发音错误检测与质量评分时,已知说话人的英语朗读文本,而文本无关表示不知道说话人的英语朗读文本。显然,文本无关的情况比较复杂,需要先对说话人的英语口语发音进行精确的识别,然后将其转换为文本相关的英语口语发音错误检测与质量评分类型。本发明针对的是文本相关的英语口语发音错误检测与质量评分方法。现有的文本相关的英语口语发音错误检测与质量评分方法主要是基于自动发音识别技术,采用后验概率算法或其改进算法得到的音素后验概率值分布不均匀,可操作性差。本发明为了解决上述问题,提供了一种文本相关的英语口语发音错误检测与质量评分方法。
发明内容
本发明的文本相关的英语口语发音错误检测与质量评分方法的总体处理方法如图1所示,其中包括英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块。
其中的英语口语发音预处理模块的处理方法是:第一,读入一句待测发音,对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取;第二,输出待测发音的声学特征,作为该英语口语发音预处理的结果。
其中的英语口语发音错误检测模块的处理方法是:第一,读入待测发音的声学特征,进行发音识别;第二,根据公式计算各发音帧每个音素的发音标准度得分;第三,输出各发音帧每个音素的发音标准度得分,并进行错误判决。
其中的英语口语发音质量评分模块的处理方法是:第一,读入各发音帧每个音素的发音标准度得分和发音识别结果;第二,根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分,并根据识别结果计算语速、段时长和静音时长等评分特征;第三,对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分,输出该句子发音的初始得分;第四,分别建立5类多层感知器神经网络分类器,把调整之后的4个评分特征输入到5类分类器中,计算5类分类器的输出值和该句子发音的最终得分,并输出该句子发音的最终得分和相应评语。
1.本发明方法的基本概念定义如下:
(1)音素
音素是发音的最小单元,一般分为元音和辅音两种。在英语中,一个元音音素可以构成一个音节,也可以由一个元音音素和几个辅音音素结合构成一个音节,而一个或多个音节组成一个英语单词。
(2)隐马尔科夫模型
隐马尔科夫模型根包含一组以一定概率互相转换的状态,在每个状态下会以一定概率观测到某个事件的发生,它用三个概率矩阵集合Π、A、B来表示,其定义如下:
Π=(πi):表示隐马尔科夫模型初始状态的概率分布,其中π是指初始时刻隐马尔科夫模型处于第一个状态的概率,πi表示初始时刻隐马尔科夫模型处于第i个状态的概率。
A=(aij):表示隐马尔科夫模型的状态转移概率矩阵,其中a是指隐马尔科夫模型的状态转移概率,aij表示从第i个状态转移到第j个状态的概率。
B={bi(γ)}:表示隐马尔科夫模型的状态发射概率矩阵,其中b是指隐马尔科夫模型中某个状态出现了一个可观察状态的概率,γ是指隐马尔科夫模型的输出观测矢量,bi(γ)表示进入第i个状态时产生观察到观测矢量γ的概率。
(3)音素段时长
音素段时长是指发音中音素的持续时间,是衡量说话人的发音是否清晰的一个指标。
(4)静音时长
静音时长是指说话人在发音期间出现的停顿时间,是衡量说话人的发音是否连贯的一个指标。
(5)多层感知器神经网络
多层感知器神经网络模型,是一种前向结构的神经网络,由输入层、隐层(一个或多个)、输出层构成,输入层的每个节点对应于输入向量的每一维,它把每一维信号传递给下一层的每个节点,输出层一般只有一个节点,输入层和输出层之间的每一层都称为隐层。本发明使用的多层感知神经网络只有一个隐层,且隐层共有三个神经元即三个节点。
为了使多层感知器神经网络中的连接权值得到充分的训练,本发明分别建立5类多层感知器神经网络分类器,其中,第一类分类器,其索引为1,对应发音错误单词极多、发音极其不流畅的发音数据;第二类分类器,其索引为2,对应发音错误单词较多、发音期间停顿时间较长的发音数据;第三类分类器,其索引为3,对应发音错误单词较少、发音期间有停顿的发音数据;第四类分类器,其索引为4,对应发音错误单词极少、发音较标准且较流畅的发音数据;第五类分类器,其索引为5,对应不存在发音错误的单词、发音标准且流畅的发音数据。
(6)反向传播计算
反向传播计算是调整神经网络输出层与隐层、各个隐层、隐层与输入层之间的连接权值,并使神经网络在所有训练样本上的预测输出值与期望输出值的均方误差最小化。反向传播计算的具体步骤是:第一,初始化神经网络的输入层、隐层、输出层的权值;第二,计算训练样本在神经网络输出层的输出值,然后计算该输出值与期望值之间的误差,不断调整神经网络输出层与隐层之间的连接权值;第三,把该误差传播到神经网络隐层中的各个节点上,根据该误差调整神经网络各个隐层之间的连接权值;第四,把该误差传播到神经网络隐层中的各个节点上,根据该误差调整神经网络隐层与输入层之间的连接权值;第五,使用所有的训练样本不断调整神经网络输出层与隐层、各个隐层、隐层与输入层之间的连接权值,直到训练样本在神经网络输出层的输出值与期望值之间的误差减小到期望值,神经网络在所有训练样本上的预测输出值与期望输出值的均方误差最小。
2.本发明方法的计算公式定义如下:
(1)似然度的计算公式
在计算公式(1)中,似然度是指模型参数与观测数据之间相似性,t1表示音素的起始时间,t2表示音素的结束时间。
(2)音素发音帧的发音标准度得分的计算公式
在计算公式(2)中,各音素发音帧的发音标准度得分是指识别出的发音帧中当前待测音素的概率值,这个概率值反映了当前待测音素的发音标准程度;观察矢量v是指当前待测音素所对应的发音帧的声学特征;似然度是指当前待测音素所对应的发音帧通过隐马尔科夫模型计算得出的条件概率值,由计算公式(1)计算得出。
(3)句子发音标准度得分的计算公式
在计算公式(3)中,句子发音标准度得分是指当前句子中各个音素发音帧的发音标准度得分的平均值,反映了当前句子的发音标准程度;i=1,2,3,…,n,i是指句子中每个音素对应的序号,n是指发音中的音素总数;句子中各音素发音帧i的发音标准度得分是指当前句子中第i个音素发音帧的发音标准度得分,由计算公式(2)计算得出。
(4)语速的计算公式
在计算公式(4)中,语速是指说话人的发音速度。
(5)音素段时长的计算公式
在计算公式(5)中,音素段时长是指发音中音素的持续时间,是衡量说话人的发音是否清晰的指标;i=1,2,3,…,n,i是指句子中包含的每个音素对应的序号,n是指发音包含的音素总数;exp是指以自然常数e为底的指数函数;语速由计算公式(4)计算得出;待测音素i持续时间是指发音中第i个待测音素的持续时间;待测音素i段时长均值是指发音中第i个待测音素的的段时长均值,它是通过将所有标准发音样本中所有音素持续时间的总和与标准发音样本总数相除得到的;待测音素i段时长方差是指发音中第i个待测音素的段时长方差,它是通过将每个标准发音样本中当前待测音素的持续时间减去其对应的段时长均值的平方和,并将该平方和与标准发音样本总数相除得到。
(6)静音时长的计算公式
在计算公式(6)中,静音时长是指说话人在发音期间出现的停顿时间,是衡量说话人的发音是否连贯的一个指标。
(7)调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长的计算公式
在计算公式(7)中,句子发音标准度得分多项式系数、语速多项式系数、音素段时长多项式系数和静音时长多项式系数由计算公式(8)求得;初始句子发音标准度得分通过计算公式(3)计算得到;初始语速通过计算公式(4)计算得到;初始音素段时长通过计算公式(5)计算得到;初始静音时长通过计算公式(6)计算得到。
(8)句子发音标准度得分多项式系数、语速多项式系数、音素段时长多项式系数和静音时长多项式系数的计算公式
在计算公式(8)中,是求偏导的数学符号,r=1,2,3,…,k,r是指训练集中的每个样本的序号,k表示训练集中的样本总数;样本r句子发音标准度得分人工评分是指教师给第r个样本的句子发音标准度打的分数、样本r语速人工评分是指教师给第r个样本的语速打的分数、样本r音素段时长人工评分是指教师给第r个样本的音素段时长打的分数、样本r静音时长人工评分是指教师给第r个样本的静音时长打的分数;样本r调整后句子发音标准度得分、样本r调整后语速、样本r调整后音素段时长和样本r调整后静音时长由计算公式(7)计算得出。
(9)句子发音初始得分的计算公式
句子发音初始得分
=句子发音标准度得分线性回归系数×调整后句子发音标准度得分+语速线性回归系数
×调整后语速+音素段时长线性回归系数×调整后音素段时长+静音时长线性回归系数
×调整后静音时长(9)
在计算公式(9)中,句子发音标准度得分线性回归系数、语速线性回归系数、音素段时长线性回归系数、静音时长线性回归系数由计算公式(10)求得;调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长由计算公式(7)计算得出。
(10)线性回归系数的计算公式
在计算公式(10)中,是求偏导的数学符号,r=1,2,3,…,k,r是指训练集中的每个样本的序号,k表示训练集中的样本总数;样本r句子发音得分人工评分是指教师给第r个样本的句子发音打的分数;样本r句子发音初始得分由计算公式(9)计算得出。
(11)隐层节点输出值的计算公式
在计算公式(11)中,exp是高等数学里以自然常数e为底的指数函数;i=1,2,3,4,i是指输入向量的维数,输入向量为调整后的句子发音标准度得分、语速、音素段时长和静音时长,由计算公式(7)计算得出;输入层节点i是指第i个输入层节点,输入层节点i与隐层第一个节点连接权值是由反向传播计算通过训练样本训练得到;。
(12)神经网络分类输出值的计算公式
在计算公式(12)中,exp是高等数学里以自然常数e为底的指数函数;j=1,2,3,j是指隐层节点的序号;隐层节点j是指第j个隐层节点,隐层节点j到输出层各节点连接权值是由反向传播计算通过训练样本训练得到;隐层节点j输出值由计算公式(11)计算得出。
(13)句子发音最终得分的计算公式
句子发音最终得分=3.3×(神经网络分类最大输出值-0.7)+(神经网络分类最优索引-1) (13)
在计算公式(13)中,神经网络分类最大输出值是通过上述计算公式(12)计算得到的神经网络分类输出值中最大的值;神经网络分类最优索引是指输出值最大的神经网络分类的序号。
具体步骤
本发明分析方法的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块处理方法的步骤如下所述。
(1)所述的英语口语发音预处理模块处理方法的步骤如下,如图2所示:
P201开始;
P202读入待测发音;
P203对待测发音进行预加重;
P204对待测发音进行分帧加窗;
P205读入待测发音对应的文本;
P206加载发音词典和语法模型;
P207将待测发音对应的文本扩展成识别网络;
P208加载声学模型;
P209对分帧加窗后的待测发音进行搜索解码;
P210获取待测发音对应的音素序列及其时间边界;
P211对各音素边界内的发音帧进行离散傅里叶变换;
P212创建一组梅尔滤波器,使经离散傅里叶变换后输出的频率变为梅尔刻度频率,信号频谱经过梅尔滤波器组后得到对应的梅尔谱;
P213取对数,将梅尔谱转化为对数形式;
P214对梅尔谱做离散余弦变换得到梅尔倒谱系数;
P215对梅尔倒谱系数进行差分提取,得到当前倒谱系数的一阶和二阶差分系数,并将其作为当前发音帧的声学特征向量,从而得到当前发音帧的声学特征,输出待测发音的声学特征;
P216结束;
(2)所述的英语口语发音错误检测模块处理方法的步骤如下,如图3所示:
P301开始;
P302读入待测发音的声学特征;
P303加载经最大似然线性回归自适应和最大后验概率自适应调整后的改进型声学模型、发音词典、语法模型;
P304对待测发音的声学特征进行发音识别;
P305加载经最大似然线性回归自适应的声学模型;
P306根据计算公式(1)(2)计算各音素发音帧的发音标准度得分,输出各音素发音帧的发音标准度得分;
P307判断各音素发音帧的发音标准度得分是否大于***阈值,若各音素发音帧的发音标准度得分大于***阈值,转P308操作,否则转P309操作;
P308标记该音素为正确的发音;
P309标记该音素为错误的发音;
P310结束;
(3)所述的英语口语发音质量评分模块处理方法的步骤如下,如图4所示:
P401开始;
P402读入各音素发音帧的发音标准度得分;
P403根据计算公式(3)计算句子发音标准度得分;
P404根据计算公式(4)计算语速;
P405根据计算公式(5)计算音素段时长;
P406根据计算公式(6)计算静音时长;
P407拟合调整句子发音标准度得分、语速、音素段时长、静音时长等评分特征,根据计算公式(7)(8)计算调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长;
P408将调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长融合,并进行映射变换,根据计算公式(9)(10)计算得到句子发音初始得分,输出初始得分;
P409分别建立5类多层感知器神经网络分类器,并把调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长分别输入到5类神经网络分类器中,根据计算公式(11)(12)计算这5类神经网络器的输出值,输出5类神经网络器的输出值;
P410获取5类神经网络器的最大输出值,并将输出值最大的神经网络分类器的序号记为最优索引,输出最大输出值、最优索引;
P411判断最大输出值是否大于0.7,如果最大输出值大于0.7,转P412操作,否则转P413操作;
P412判断初始得分是否小于最优索引减1,如果初始得分小于最优索引减1,转P414操作,否则转P415操作;
P413将初始得分记为句子发音的最终得分;
P414根据计算公式(13)计算句子发音的最终得分;
P415判断初始得分是否大于最优索引,如果初始得分大于最优索引,转P416操作,否则转P413操作;
P416将最优索引记为句子发音的最终得分;
P417得到句子发音的最终得分和相应的评语;
P418结束。
附图说明
图1是本发明方法的总体处理流程图;
图2是本发明方法的英语口语发音预处理模块处理流程图;
图3是本发明方法的英语口语发音错误检测模块处理流程图;
图4是本发明方法的英语口语发音质量评分模块处理流程图。
具体实施方式
本发明的文本相关的英语口语发音错误检测与质量评分方法的具体实施方式包括以下三个步骤。
步骤一:执行“英语口语发音预处理模块”
(1)对待测朗读发音数据进行预处理,其中,待测朗读发音数据包含750个样本,覆盖了不同发音质量水平,样本对应的参考文本如下,由于样本数量较多,下面只列出部分样本对应的参考文本,其余的参考文本用省略号代替:
Not at this particular case,Tom,apologized Whittemore.
Lord,but I'm glad to see you again,Phil.
Will we ever forget it.
God bless'em,I hope I'll go on seeing them forever.
Gad,your letter came just in time.
……
I'm playing a single hand in what looks like a losing game.
Gregson shoved back his chair and rose to his feet.
There was a change now.
Clubs and balls and cities grew to be only memories.
Hardly were our plans made public before we were met by powerfulopposition.
通过对待测朗读发音数据进行预处理,得到每个样本中的每帧发音的声学特征序列,如下所示,由于声学特征序列较多,下面只列出第一帧发音的声学特征序列和最后一帧发音的声学特征序列,其余的声学特征序列用省略号代替:
第一帧发音的声学特征序列如下,共39个元素:
其它帧发音的声学特征序列:
...
最后一帧发音的声学特征序列如下,共39个元素:
步骤二:执行“英语口语发音错误检测模块”
英语口语发音错误检测模块是通过输入上述步骤一的待测发音的声学特征,加载经最大似然线性回归自适应和最大后验概率自适应调整后的改进型声学模型、发音词典和语法模型对输入的声学特征进行发音识别,并根据计算公式(1)(2)计算音素发音帧的发音标准度得分如下,由于数值较多,下面只列出第一句发音中的音素及其对应的发音帧的发音标准度得分和最后一句发音中的音素及其对应的发音帧的发音标准度得分,其余的音素及其对应的发音帧的发音标准度得分用省略号代替:
将以上各音素发音帧的发音标准度得分与***阈值-100000进行比较,若某音素发音帧的发音标准度得分大于***阈值,则该音素是发音正确的音素,否则为发音错误的音素。故发音错误的音素为:s、l、z、m……、i、r、e,通过查找发音字典可以得到分别对应的发音错误的单词为:this、apologized、more……our、before、met。
步骤三:执行“英语口语发音质量评分模块”
本实施例中输入一个待测发音文件“样本1”,它的发音内容是“Not at thisparticular case,Tom,apologized Whittemore.”。英语口语发音质量评分模块是通过输入在步骤二中完成的对待测发音的识别结果和各音素发音帧的发音标准度得分,根据计算公式(3)计算出待测发音的句子发音标准度得分为-56103.336,根据计算公式(4)计算得出待测发音的语速为0.007,根据计算公式(5)计算得出待测发音的音素段时长为-30086.701,根据计算公式(6)计算得出待测发音的静音时长为0.9266667。
根据计算公式(7)(8)拟合调整句子发音标准度得分、语速、音素段时长、静音时长这四个评分特征,得到调整后句子发音标准度得分为2.704、调整后语速为3.368、调整后音素段时长为3.305、调整后静音时长为5.0。
根据计算公式(9)(10)计算得到句子发音初始得分为4.61。
将调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长分别输入到5类多层感知器神经网络分类器中,先通过计算公式(11)计算神经网络分类器的隐层三个节点输出值,再通过计算公式(12)计算5类神经网络分类器的输出值,共得到5个神经网络分类器的输出值,通过比较可以得到神经网络分类器的最大输出值。
以第一类神经网络分类器为例,根据计算公式(11)计算第一类神经网络分类器的隐层3个节点输出值,如下所示:
根据计算公式(12)计算第一类神经网络分类输出值如下所示:
依次进行计算得出第一类神经网络分类输出值为0.105;第二类神经网络分类输出值为0.193;第三类神经网络分类输出值为0.208;第四类神经网络分类输出值为0.441;第五类神经网络分类输出值为0.398;可以看出:最大输出值为0.441,对应的分类器是第四类多层感知器神经网络分类器,则最优索引为4。
由于0.441小于0.7,因此待测句子发音的最终得分与句子发音的初始得分相同,均为4.61分,相应的评语为:发音错误单词极少,发音较标准,较流畅。

Claims (6)

1.一种文本相关的英语口语发音错误检测与质量评分方法,其特征是:包括一个由顺序连接的英语口语发音预处理模块、英语口语发音错误检测模块和英语口语发音质量评分模块组成的处理方法,其具体的处理方法如下:
(1)英语口语发音预处理模块的处理方法是:第一,读入一句待测发音,对它们进行预加重、分帧加窗、解码、离散傅里叶变换、梅尔滤波、取对数、离散余弦变换和差分提取;第二,输出待测发音的声学特征,作为该英语口语发音预处理的结果;
(2)英语口语发音错误检测模块的处理方法是:第一,读入待测发音的声学特征,进行发音识别;第二,根据公式计算各发音帧每个音素的发音标准度得分;第三,输出各发音帧每个音素的发音标准度得分,并进行错误判决;
(3)英语口语发音质量评分模块的处理方法是:第一,读入各发音帧每个音素的发音标准度得分和发音识别结果;第二,根据各发音帧每个音素的发音标准度得分计算整个发音的发音标准度得分,并根据识别结果计算语速、段时长和静音时长等评分特征;第三,对整个发音的发音标准度得分、语速、段时长和静音时长等评分特征进行拟合调整和映射评分,输出该句子发音的初始得分;第四,分别建立5类多层感知器神经网络分类器,把调整之后的4个评分特征输入到5类分类器中,计算5类分类器的输出值和该句子发音的最终得分,并输出该句子发音的最终得分和相应评语。
2.根据权利要求1所述的处理方法,其特征是:所述的英语口语发音预处理模块处理方法的步骤如下:
P201开始;
P202读入待测发音;
P203对待测发音进行预加重;
P204对待测发音进行分帧加窗;
P205读入待测发音对应的文本;
P206加载发音词典和语法模型;
P207将待测发音对应的文本扩展成识别网络;
P208加载声学模型;
P209对分帧加窗后的待测发音进行搜索解码;
P210获取待测发音对应的音素序列及其时间边界;
P211对各音素边界内的发音帧进行离散傅里叶变换;
P212创建一组梅尔滤波器,使经离散傅里叶变换后输出的频率变为梅尔刻度频率,信号频谱经过梅尔滤波器组后得到对应的梅尔谱;
P213取对数,将梅尔谱转化为对数形式;
P214对梅尔谱做离散余弦变换得到梅尔倒谱系数;
P215对梅尔倒谱系数进行差分提取,得到当前倒谱系数的一阶和二阶差分系数,并将其作为当前发音帧的声学特征向量,从而得到当前发音帧的声学特征,输出待测发音的声学特征;
P216结束。
3.根据权利要求1所述的处理方法,其特征是:所述的英语口语发音错误检测模块的计算公式如下:
(1)似然度的计算公式
在计算公式(1)中,似然度是指模型参数与观测数据之间相似性,t1表示音素的起始时间,t2表示音素的结束时间;
(2)音素发音帧的发音标准度得分的计算公式
在计算公式(2)中,各音素发音帧的发音标准度得分是指识别出的发音帧中当前待测音素的概率值,这个概率值反映了当前待测音素的发音标准程度;观察矢量v是指当前待测音素所对应的发音帧的声学特征;似然度是指当前待测音素所对应的发音帧通过隐马尔科夫模型计算得出的条件概率值,由计算公式(1)计算得出。
4.根据权利要求1或3所述的处理方法,其特征是:所述的英语口语发音错误检测模块处理方法的步骤如下:
P301开始;
P302读入待测发音的声学特征;
P303加载经最大似然线性回归自适应和最大后验概率自适应调整后的改进型声学模型、发音词典、语法模型;
P304对待测发音的声学特征进行发音识别;
P305加载经最大似然线性回归自适应的声学模型;
P306根据计算公式(1)和计算公式(2)计算各音素发音帧的发音标准度得分,输出各音素发音帧的发音标准度得分;
P307判断各音素发音帧的发音标准度得分是否大于***阈值,若各音素发音帧的发音标准度得分大于***阈值,转P308操作,否则转P309操作;
P308标记该音素为正确的发音;
P309标记该音素为错误的发音;
P310结束。
5.根据权利要求1所述的处理方法,其特征是:所述的英语口语发音质量评分模块的计算公式如下:
(3)句子发音标准度得分的计算公式
在计算公式(3)中,句子发音标准度得分是指当前句子中各个音素发音帧的发音标准度得分的平均值,反映了当前句子的发音标准程度;i=1,2,3,…,n,i是指句子中每个音素对应的序号,n是指发音中的音素总数;句子中各音素发音帧i的发音标准度得分是指当前句子中第i个音素发音帧的发音标准度得分,由计算公式(2)计算得出;
(4)语速的计算公式
在计算公式(4)中,语速是指说话人的发音速度;
(5)音素段时长的计算公式
在计算公式(5)中,音素段时长是指发音中音素的持续时间,是衡量说话人的发音是否清晰的指标;i=1,2,3,…,n,i是指句子中包含的每个音素对应的序号,n是指发音包含的音素总数;exp是指以自然常数e为底的指数函数;语速由计算公式(4)计算得出;待测音素i持续时间是指发音中第i个待测音素的持续时间;待测音素i段时长均值是指发音中第i个待测音素的的段时长均值,它是通过将所有标准发音样本中所有音素持续时间的总和与标准发音样本总数相除得到的;待测音素i段时长方差是指发音中第i个待测音素的段时长方差,它是通过将每个标准发音样本中当前待测音素的持续时间减去其对应的段时长均值的平方和,并将该平方和与标准发音样本总数相除得到;
(6)静音时长的计算公式
在计算公式(6)中,静音时长是指说话人在发音期间出现的停顿时间,是衡量说话人的发音是否连贯的一个指标;
(7)调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长的计算公式
在计算公式(7)中,句子发音标准度得分多项式系数、语速多项式系数、音素段时长多项式系数和静音时长多项式系数由计算公式(8)求得;初始句子发音标准度得分通过计算公式(3)计算得到;初始语速通过计算公式(4)计算得到;初始音素段时长通过计算公式(5)计算得到;初始静音时长通过计算公式(6)计算得到;
(8)句子发音标准度得分多项式系数、语速多项式系数、音素段时长多项式系数和静音时长多项式系数的计算公式
在计算公式(8)中,是求偏导的数学符号,r=1,2,3,…,k,r是指训练集中的每个样本的序号,k表示训练集中的样本总数;样本r句子发音标准度得分人工评分是指教师给第r个样本的句子发音标准度打的分数、样本r语速人工评分是指教师给第r个样本的语速打的分数、样本r音素段时长人工评分是指教师给第r个样本的音素段时长打的分数、样本r静音时长人工评分是指教师给第r个样本的静音时长打的分数;样本r调整后句子发音标准度得分、样本r调整后语速、样本r调整后音素段时长和样本r调整后静音时长由计算公式(7)计算得出;
(9)句子发音初始得分的计算公式
句子发音初始得分
=句子发音标准度得分线性回归系数×调整后句子发音标准度得分+语速线性回归系数
×调整后语速+音素段时长线性回归系数×调整后音素段时长+静音时长线性回归系数
×调整后静音时长(9)
在计算公式(9)中,句子发音标准度得分线性回归系数、语速线性回归系数、音素段时长线性回归系数、静音时长线性回归系数由计算公式(10)求得;调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长由计算公式(7)计算得出;
(10)线性回归系数的计算公式
在计算公式(10)中,是求偏导的数学符号,r=1,2,3,…,k,r是指训练集中的每个样本的序号,k表示训练集中的样本总数;样本r句子发音得分人工评分是指教师给第r个样本的句子发音打的分数;样本r句子发音初始得分由计算公式(9)计算得出;
(11)隐层节点输出值的计算公式
在计算公式(11)中,exp是高等数学里以自然常数e为底的指数函数;i=1,2,3,4,i是指输入向量的维数,输入向量为调整后的句子发音标准度得分、语速、音素段时长和静音时长,由计算公式(7)计算得出;输入层节点i是指第i个输入层节点,输入层节点i与隐层第一个节点连接权值是由反向传播计算通过训练样本训练得到;
(12)神经网络分类输出值的计算公式
在计算公式(12)中,exp是高等数学里以自然常数e为底的指数函数;j=1,2,3,j是指隐层节点的序号;隐层节点j是指第j个隐层节点,隐层节点j到输出层各节点连接权值是由反向传播计算通过训练样本训练得到;隐层节点j输出值由计算公式(11)计算得出;
(13)句子发音最终得分的计算公式
句子发音最终得分=3.3×(神经网络分类最大输出值-0.7)+(神经网络分类最优索引-1) (13)
在计算公式(13)中,神经网络分类最大输出值是通过上述计算公式(12)计算得到的神经网络分类输出值中最大的值;神经网络分类最优索引是指输出值最大的神经网络分类的序号。
6.根据权利要求1或5所述的处理方法,其特征是:所述的英语口语发音质量评分模块处理方法的步骤如下:
P401开始;
P402读入各音素发音帧的发音标准度得分;
P403根据计算公式(3)计算句子发音标准度得分;
P404根据计算公式(4)计算语速;
P405根据计算公式(5)计算音素段时长;
P406根据计算公式(6)计算静音时长;
P407拟合调整句子发音标准度得分、语速、音素段时长、静音时长等评分特征,根据计算公式(7)和计算公式(8)计算调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长;
P408将调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长融合,并进行映射变换,根据计算公式(9)和计算公式(10)计算得到句子发音初始得分,输出初始得分;
P409分别建立5类多层感知器神经网络分类器,并把调整后句子发音标准度得分、调整后语速、调整后音素段时长和调整后静音时长分别输入到5类神经网络分类器中,根据计算公式(11)和计算公式(12)计算这5类神经网络器的输出值,输出5类神经网络器的输出值;
P410获取5类神经网络器的最大输出值,并将输出值最大的神经网络分类器的序号记为最优索引,输出最大输出值、最优索引;
P411判断最大输出值是否大于0.7,如果最大输出值大于0.7,转P412操作,否则转P413操作;
P412判断初始得分是否小于最优索引减1,如果初始得分小于最优索引减1,转P414操作,否则转P415操作;
P413将初始得分记为句子发音的最终得分;
P414根据计算公式(13)计算句子发音的最终得分;
P415判断初始得分是否大于最优索引,如果初始得分大于最优索引,转P416操作,否则转P413操作;
P416将最优索引记为句子发音的最终得分;
P417得到句子发音的最终得分和相应的评语;
P418结束。
CN201711200048.7A 2017-11-27 2017-11-27 一种文本相关的英语口语发音错误检测与质量评分方法 Active CN107945788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711200048.7A CN107945788B (zh) 2017-11-27 2017-11-27 一种文本相关的英语口语发音错误检测与质量评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711200048.7A CN107945788B (zh) 2017-11-27 2017-11-27 一种文本相关的英语口语发音错误检测与质量评分方法

Publications (2)

Publication Number Publication Date
CN107945788A true CN107945788A (zh) 2018-04-20
CN107945788B CN107945788B (zh) 2021-11-02

Family

ID=61948858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711200048.7A Active CN107945788B (zh) 2017-11-27 2017-11-27 一种文本相关的英语口语发音错误检测与质量评分方法

Country Status (1)

Country Link
CN (1) CN107945788B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和***
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质
CN110047466A (zh) * 2019-04-16 2019-07-23 深圳市数字星河科技有限公司 一种开放性创建语音朗读标准参考模型的方法
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价***
CN110136697A (zh) * 2019-06-06 2019-08-16 深圳市数字星河科技有限公司 一种基于多进程线程并行运算的英语朗读练习***
CN110349453A (zh) * 2019-06-26 2019-10-18 广东粤图之星科技有限公司 一种基于电子资源库的英语学习***及方法
CN111370024A (zh) * 2020-02-21 2020-07-03 腾讯科技(深圳)有限公司 一种音频调整方法、设备及计算机可读存储介质
CN111460794A (zh) * 2020-03-11 2020-07-28 云知声智能科技股份有限公司 一种增加拼写纠错功能的语法纠错方法
CN111627422A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质
CN111653292A (zh) * 2020-06-22 2020-09-11 桂林电子科技大学 一种中国学生英语朗读质量分析方法
CN112185421A (zh) * 2020-09-29 2021-01-05 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
CN112331180A (zh) * 2020-11-03 2021-02-05 北京猿力未来科技有限公司 一种口语评测方法及装置
CN112614510A (zh) * 2020-12-23 2021-04-06 北京猿力未来科技有限公司 一种音频质量评估方法及装置
CN112908360A (zh) * 2021-02-02 2021-06-04 早道(大连)教育科技有限公司 一种在线口语发音评价方法、装置及存储介质
CN112951277A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 评测语音的方法和装置
CN112991394A (zh) * 2021-04-16 2021-06-18 北京京航计算通讯研究所 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
CN113035237A (zh) * 2021-03-12 2021-06-25 平安科技(深圳)有限公司 语音测评方法、装置和计算机设备
CN114327357A (zh) * 2022-01-05 2022-04-12 郑州市金水区正弘国际小学 一种语言学习辅助方法、电子设备和存储介质
WO2022148176A1 (en) * 2021-01-08 2022-07-14 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for english pronunciation assessment
WO2022246782A1 (en) * 2021-05-28 2022-12-01 Microsoft Technology Licensing, Llc Method and system of detecting and improving real-time mispronunciation of words

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN102354495A (zh) * 2011-08-31 2012-02-15 中国科学院自动化研究所 半开放式口语试题的测试方法及***
CN103559894A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及***
KR20150049449A (ko) * 2013-10-30 2015-05-08 에스케이텔레콤 주식회사 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
US20170092262A1 (en) * 2015-09-30 2017-03-30 Nice-Systems Ltd Bettering scores of spoken phrase spotting
CN106847260A (zh) * 2016-12-20 2017-06-13 山东山大鸥玛软件股份有限公司 一种基于特征融合的英语口语自动评分方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN102354495A (zh) * 2011-08-31 2012-02-15 中国科学院自动化研究所 半开放式口语试题的测试方法及***
KR20150049449A (ko) * 2013-10-30 2015-05-08 에스케이텔레콤 주식회사 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
CN103559894A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及***
US20170092262A1 (en) * 2015-09-30 2017-03-30 Nice-Systems Ltd Bettering scores of spoken phrase spotting
CN106847260A (zh) * 2016-12-20 2017-06-13 山东山大鸥玛软件股份有限公司 一种基于特征融合的英语口语自动评分方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S.M WITT: "Phone-level pronunciation scoring and assessment for interactive language learning", 《SCIENCEDIRECT》 *
万林峰: "数字语音评价***研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)·信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和***
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价***
CN110047466A (zh) * 2019-04-16 2019-07-23 深圳市数字星河科技有限公司 一种开放性创建语音朗读标准参考模型的方法
CN110047466B (zh) * 2019-04-16 2021-04-13 深圳市数字星河科技有限公司 一种开放性创建语音朗读标准参考模型的方法
CN110136697B (zh) * 2019-06-06 2021-03-30 深圳市数字星河科技有限公司 一种基于多进程/线程并行运算的英语朗读练习***
CN110136697A (zh) * 2019-06-06 2019-08-16 深圳市数字星河科技有限公司 一种基于多进程线程并行运算的英语朗读练习***
CN110349453A (zh) * 2019-06-26 2019-10-18 广东粤图之星科技有限公司 一种基于电子资源库的英语学习***及方法
CN112951277B (zh) * 2019-11-26 2023-01-13 新东方教育科技集团有限公司 评测语音的方法和装置
CN112951277A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 评测语音的方法和装置
CN111370024A (zh) * 2020-02-21 2020-07-03 腾讯科技(深圳)有限公司 一种音频调整方法、设备及计算机可读存储介质
CN111460794A (zh) * 2020-03-11 2020-07-28 云知声智能科技股份有限公司 一种增加拼写纠错功能的语法纠错方法
CN111627422A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质
CN111653292A (zh) * 2020-06-22 2020-09-11 桂林电子科技大学 一种中国学生英语朗读质量分析方法
CN112185421A (zh) * 2020-09-29 2021-01-05 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
CN112185421B (zh) * 2020-09-29 2023-11-21 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
CN112331180A (zh) * 2020-11-03 2021-02-05 北京猿力未来科技有限公司 一种口语评测方法及装置
CN112614510A (zh) * 2020-12-23 2021-04-06 北京猿力未来科技有限公司 一种音频质量评估方法及装置
CN112614510B (zh) * 2020-12-23 2024-04-30 北京猿力未来科技有限公司 一种音频质量评估方法及装置
WO2022148176A1 (en) * 2021-01-08 2022-07-14 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for english pronunciation assessment
CN112908360A (zh) * 2021-02-02 2021-06-04 早道(大连)教育科技有限公司 一种在线口语发音评价方法、装置及存储介质
CN112908360B (zh) * 2021-02-02 2024-06-07 早道(大连)教育科技有限公司 一种在线口语发音评价方法、装置及存储介质
CN113035237A (zh) * 2021-03-12 2021-06-25 平安科技(深圳)有限公司 语音测评方法、装置和计算机设备
CN112991394A (zh) * 2021-04-16 2021-06-18 北京京航计算通讯研究所 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
CN112991394B (zh) * 2021-04-16 2024-01-19 北京京航计算通讯研究所 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
WO2022246782A1 (en) * 2021-05-28 2022-12-01 Microsoft Technology Licensing, Llc Method and system of detecting and improving real-time mispronunciation of words
CN114327357A (zh) * 2022-01-05 2022-04-12 郑州市金水区正弘国际小学 一种语言学习辅助方法、电子设备和存储介质
CN114327357B (zh) * 2022-01-05 2024-02-02 郑州市金水区正弘国际小学 一种语言学习辅助方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN107945788B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN107945788A (zh) 一种文本相关的英语口语发音错误检测与质量评分方法
CN113439301B (zh) 用于机器学习的方法和***
Shobaki et al. The OGI kids’ speech corpus and recognizers
TWI595478B (zh) 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法
CN101777347B (zh) 一种模型互补的汉语重音识别方法及***
CN113168828A (zh) 基于合成数据训练的会话代理管线
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
US11935523B2 (en) Detection of correctness of pronunciation
CN109658918A (zh) 一种智能英语口语复述题评分方法和***
Ahmed et al. Verification system for Quran recitation recordings
CN115132174A (zh) 一种语音数据处理方法、装置、计算机设备及存储介质
Loukina et al. Automated assessment of pronunciation in spontaneous speech
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
Huang et al. English mispronunciation detection based on improved GOP methods for Chinese students
Khanal et al. Mispronunciation detection and diagnosis for Mandarin accented English speech
KR102274766B1 (ko) 외국어 초보 학습자를 위한 발음 예측 및 평가시스템
Abaskohi et al. Automatic speech recognition for speech assessment of persian preschool children
Wiśniewski et al. Automatic detection and classification of phoneme repetitions using HTK toolkit
Li et al. English sentence pronunciation evaluation using rhythm and intonation
Kyriakopoulos Deep learning for automatic assessment and feedback of spoken english
JP2021085943A (ja) 音声合成装置及びプログラム
Ekpenyong et al. A DNN framework for robust speech synthesis systems evaluation
Li et al. Improvement and Optimization Method of College English Teaching Level Based on Convolutional Neural Network Model in an Embedded Systems Context
Gody et al. Automatic Speech Annotation Using HMM based on Best Tree Encoding (BTE) Feature
CN113035237B (zh) 语音测评方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180420

Assignee: Guilin Ruisen Education Service Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000186

Denomination of invention: A Text dependent Approach to the Detection and Quality Scoring of Spoken English Pronunciation Errors

Granted publication date: 20211102

License type: Common License

Record date: 20221125

Application publication date: 20180420

Assignee: Guilin ruiweisaide Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000190

Denomination of invention: A Text dependent Approach to the Detection and Quality Scoring of Spoken English Pronunciation Errors

Granted publication date: 20211102

License type: Common License

Record date: 20221125