CN106531189A - 一种智能口语测评方法 - Google Patents
一种智能口语测评方法 Download PDFInfo
- Publication number
- CN106531189A CN106531189A CN201611181451.5A CN201611181451A CN106531189A CN 106531189 A CN106531189 A CN 106531189A CN 201611181451 A CN201611181451 A CN 201611181451A CN 106531189 A CN106531189 A CN 106531189A
- Authority
- CN
- China
- Prior art keywords
- feature
- section
- vowel
- consonant
- spectrum energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title abstract 2
- 238000001228 spectrum Methods 0.000 claims description 57
- 239000013598 vector Substances 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 31
- 230000001755 vocal effect Effects 0.000 claims description 28
- 230000003068 static effect Effects 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种智能口语测评方法,使用计算机的录音设备获取用户的口语语音数据信息,提取用户语音数据中的用户语音特征;将用户语音特征与标准语音特征进行对齐,并将用户语音特征中的母音,辅音分别对应与标准语音特征的母音,辅音进行对比,形成对比数据信息;将对比数据信息进行评分;将对比数据信息及评分结果储存至数据库中。使用户能够获悉到自己的口语与标准的口语有哪些词语发音不准确。这样给学习者带来了学习语言的便捷性,提高外语学习的效率,增加用户学习兴趣。
Description
技术领域
本发明涉及语言沟通领域,尤其涉及一种智能口语测评方法。
背景技术
随着全球经济一体化的发展,英语作为国际通用语言,越来越显示出其重要的作用。商务往来、文化交流、跨国旅游等活动日益频繁,越来越多的人需要学习一门外语,这样口语交际能力的提高已经成为了外语学习的迫切需求。如何提高外语的学习效果,更好地满足用户对外语学习的需求,已经成为目前亟待解决的问题。
发明内容
为了克服上述现有技术中的不足,本发明的目的在于,提供一种智能口语测评方法,方法包括:
S1:使用计算机的录音设备获取用户的口语语音数据信息,提取用户语音数据中的用户语音特征;
S2:将用户语音特征与标准语音特征进行对齐,并将用户语音特征中的母音,辅音分别对应与标准语音特征的母音,辅音进行对比,形成对比数据信息;
S3:将对比数据信息进行评分;
S4:将对比数据信息及评分结果储存至数据库中。
优选地,步骤S1之前还包括:设置标准朗读文本,获取标准朗读文本的标准语音特征;
将标准语音特征按时间进行分段,分为n段,以20ms为一时间分段;
将每一时间段标准语音特征分为静态特征及动态特征;
将每一时间段标准语音特征的频谱能量进行分解,分解出每一时间段标准语音特征的母音节的频谱能量分布以及辅音节的频谱能量分布;
设置每一时间段内标准语音特征的母音节MFCC特征向量,辅音节MFCC特征向量;
将每一时间段内标准语音特征的母音节MFCC特征向量,辅音节MFCC特征向量储存至数据库中。
优选地,步骤S1还包括:
S11将用户语音数据按时间进行分段,分为n段,以20ms为一时间分段,对每一时间段用户语音数据加矩形窗,或汉明窗处理得到分段语音信号Xn,n为分段数;
S12对分段语音信号Xn进行短时傅里叶变换,变换为频域信号,将短时时域信号转化为频域信号Yn,并通过Qn=│Yn│2计算其短时能量谱Qn;
S13采用先进先出的方式将短时能量谱Qn从矢量空间S移动至带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x'(k);
S14将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到M个MFCC系数,一般M取13~15个;MFCC系数为:
S15将得到的每一时间段的用户语音MFCC特征作为静态特征,再将所述静态特征做一阶和二阶差分,得到相应的动态特征。
优选地,步骤S1还包括:
获取每一语音段频率范围的频谱能量(fk),该语音段内的频率上限值k1,下限值k2,获取语音段内的频谱能量比值PNn;
优选地,步骤S1还包括:
若语音段内频谱能量(fk)≥第一阈值,该语音段内频谱能量比值PNn≥第二阈值,则判断此语音段为母音节;第一阈值0.1-0.5,第二阈值取60%-85%;
以具有母音节的频谱能量为基准,判断具有母音节的频谱能量之前的频谱能量的过零率是否大于第三阈值,若大于第三阈值,则断定该频谱能量为母音前的辅音节,第三阈值取100;
以具有母音节的频谱能量为基准,判断具有母音节的频谱能量之后的频谱能量的过零率是否大于第三阈值,若大于第三阈值,则判断该频谱能量为母音后的辅音;
若具有母音节的频谱能量之后的频谱能量的过零率大于第三阈值,且该频谱能量为语音段的最后一帧,则判断为鼻尾辅音。
优选地,步骤S2还包括:
设置每一时间段内用户语音特征的母音节MFCC特征向量,辅音节MFCC特征向量;
使用DTW算法,得到一条误差最小的对齐路径以,得到一条误差最小的对齐路径和对应的DTW距离;
基于该对齐路径和对应的DTW距离,将相同时间段内用户语音特征的母音节MFCC特征向量与标准语音特征的母音节MFCC特征向量进行语音比较以及将相同时间段内用户语音特征的辅音节MFCC特征向量与标准语音特征的辅音节MFCC特征向量进行语音比较,得出用户语音特征与标准语音特征之间的发音差别。
优选地,步骤S2还包括:
设置每一时间段内标准语音特征的母音节标准语音特征向量为P1=[p1(1),p1(2),…,p1(R)],一阶差分向量为PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R为标准语音特征的母音节语音长度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;
设置每一时间段内标准语音特征的辅音节标准语音特征向量为P’1=[p’1(1),p’1(2),…,p’1(R)],一阶差分向量为P’Δ1=[p’Δ1(1),p’Δ1(2),…,p’Δ1(R)](R为标准语音特征的语音长度),P’Δ1(n)=|p’1(n)-p’1(n-1)|,n=1,2,…,R,p’1(0)=0;
优选地,步骤S2还包括:
设置每一时间段内用户语音特征的母音节特征向量为P2=[p2(1),p2(2),…,p2(T)],其一阶差分向量为PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T为待评价语音的长度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;
设置每一时间段内用户语音特征的辅音节特征向量为P’2=[p’2(1),p’2(2),…,p’2(T)],其一阶差分向量为P’Δ2=[p’Δ2(1),p’Δ2(2),…,p’Δ2(T)](T为待评价语音的长度),
P’Δ2(n)=|p’2(n)-p’2(n-1)|,n=1,2,…,T,p’2(0)=0;
使用DTW算法,得到一条误差最小的对齐路径以,得到一条误差最小的对齐路径,进行每一时间段内的母音节和辅音节比较;
比较得出母音节的差距dp,以及变化量的差距Δdp,比较得出辅音节的差距d’p,以及变化量的差距Δd’p,来获得用户语音特征与标准语音特征的相似度,即:
dp=|p1(n)-p2(m)|
d’p=|p’1(n)-p’2(m)|
Δdp=|Δp1(n)-Δp2(m)|
Δd’p=|Δp’1(n)-Δp’2(m)|
其中,Δpi(n)=|pi(n)-pi(n-1)|
Δp’i(n)=|p’i(n)-p’i(n-1)|。
优选地,步骤S3还包括:评分s为:
s=ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)
其中,ω1,ω2,ωn分别代表每一语音段的权重;
j代表每一语音段内母音节加辅音节的总数量;
ω11,ω12……ω1j分别代表第一个语音段内音节的权重;
s11,s12……+s1j,代表第一个语音段内的各个音节;
ω21,ω22……ω2j分别代表第二个语音段内音节的权重;
s21,s22……+s2j,代表第二个语音段内的各个音节;
ωn1,ωn2……ωnj分别代表第n个语音段内音节的权重;
sn1,sn2……+snj,代表第n个语音段内的各个音节。
从以上技术方案可以看出,本发明具有以下优点:
智能口语测评方法使得用户与计算机获取同样的一片文本,进行朗读对比,使用户能够获悉到自己的口语与标准的口语有哪些词语发音不准确,还需要在哪些词语进行改进及进一步学习。这样给学习者带来了学习语言的便捷性,提高外语学习的效率,增加用户学习兴趣。
附图说明
图1为智能口语测评方法的流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
本发明提供一种智能口语测评方法,如图1所示,本方法采用一标准朗读文本,计算机先获取该标准朗读文本的内容,并获取标准朗读文本的标准读音。本发明所涉及的方法是基于计算机硬件配合相应的程序实现。这样用户与计算机获取同样的一片文本,进行朗读对比,使得用户能够获悉到自己的口语与标准的口语有哪些词语发音不准确,还需要在哪些词语进行改进及进一步学习。这样给学习者带来了学习语言的便捷性,提高外语学习的效率,增加用户学习兴趣。
方法包括:
S1:使用计算机的录音设备获取用户的口语语音数据信息,提取用户语音数据中的用户语音特征;
S2:将用户语音特征与标准语音特征进行对齐,并将用户语音特征中的母音,辅音分别对应与标准语音特征的母音,辅音进行对比,形成对比数据信息;
S3:将对比数据信息进行评分;
S4:将对比数据信息及评分结果储存至数据库中。
步骤S1之前还包括:设置标准朗读文本,获取标准朗读文本的标准语音特征;
将标准语音特征按时间进行分段,分为n段,以20ms为一时间分段;
将每一时间段标准语音特征分为静态特征及动态特征;
将每一时间段标准语音特征的频谱能量进行分解,分解出每一时间段标准语音特征的母音节的频谱能量分布以及辅音节的频谱能量分布;
设置每一时间段内标准语音特征的母音节MFCC特征向量,辅音节MFCC特征向量;
将每一时间段内标准语音特征的母音节MFCC特征向量,辅音节MFCC特征向量储存至数据库中。
步骤S1还包括:
S11将用户语音数据按时间进行分段,分为n段,以20ms为一时间分段,对每一时间段用户语音数据加矩形窗,或汉明窗处理得到分段语音信号Xn,n为分段数;
S12对分段语音信号Xn进行短时傅里叶变换,变换为频域信号,将短时时域信号转化为频域信号Yn,并通过Qn=│Yn│2计算其短时能量谱Qn;
S13采用先进先出的方式将短时能量谱Qn从矢量空间S移动至带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x'(k);
S14将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到M个MFCC系数,一般M取13~15个;MFCC系数为:
S15将得到的每一时间段的用户语音MFCC特征作为静态特征,再将所述静态特征做一阶和二阶差分,得到相应的动态特征。
本实施例中,步骤S1还包括:
获取每一语音段频率范围的频谱能量(fk),该语音段内的频率上限值k1,下限值k2,获取语音段内的频谱能量比值PNn;
步骤S1还包括:
若语音段内频谱能量(fk)≥第一阈值,该语音段内频谱能量比值PNn≥第二阈值,则判断此语音段为母音节;第一阈值0.1-0.5,第二阈值取60%-85%;
以具有母音节的频谱能量为基准,判断具有母音节的频谱能量之前的频谱能量的过零率是否大于第三阈值,若大于第三阈值,则断定该频谱能量为母音前的辅音,第三阈值取100;
以具有母音节的频谱能量为基准,判断具有母音节的频谱能量之后的频谱能量的过零率是否大于第三阈值,若大于第三阈值,则判断该频谱能量为母音后的辅音;
若具有母音节的频谱能量之后的频谱能量的过零率大于第三阈值,且该频谱能量为语音段的最后一帧,则判断为鼻尾辅音。
将用户的每一语音段进行分解得出母音节,辅音节以及在语音段的最后一帧是否有鼻尾辅音,鼻尾辅音即为鼻音。
在计算机预先设置了标准朗读文本中每一语音段的母音节,辅音节以及在语音段的最后一帧是否有鼻尾辅音,鼻尾辅音即为鼻音。将用户朗读的每一语音段的母音节,辅音节以及在语音段的最后一帧的鼻尾辅音,分别与标准语音特征进行比较。
本实施例中,步骤S2还包括:
设置每一时间段内用户语音特征的母音节MFCC特征向量,辅音节MFCC特征向量;
使用DTW算法,得到一条误差最小的对齐路径以,得到一条误差最小的对齐路径和对应的DTW距离;
基于该对齐路径和对应的DTW距离,将相同时间段内用户语音特征的母音节MFCC特征向量与标准语音特征的母音节MFCC特征向量进行语音比较以及将相同时间段内用户语音特征的辅音节MFCC特征向量与标准语音特征的辅音节MFCC特征向量进行语音比较,得出用户语音特征与标准语音特征之间的发音差别。
本实施例中,步骤S2还包括:
设置每一时间段内标准语音特征的母音节标准语音特征向量为P1=[p1(1),p1(2),…,p1(R)],一阶差分向量为PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R为标准语音特征的母音节语音长度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;
设置每一时间段内标准语音特征的辅音节标准语音特征向量为P’1=[p’1(1),p’1(2),…,p’1(R)],一阶差分向量为P’Δ1=[p’Δ1(1),p’Δ1(2),…,p’Δ1(R)](R为标准语音特征的语音长度),P’Δ1(n)=|p’1(n)-p’1(n-1)|,n=1,2,…,R,p’1(0)=0;
步骤S2还包括:
设置每一时间段内用户语音特征的母音节特征向量为P2=[p2(1),p2(2),…,p2(T)],其一阶差分向量为PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T为待评价语音的长度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;
设置每一时间段内用户语音特征的辅音节特征向量为P’2=[p’2(1),p’2(2),…,p’2(T)],其一阶差分向量为P’Δ2=[p’Δ2(1),p’Δ2(2),…,p’Δ2(T)](T为待评价语音的长度),
P’Δ2(n)=|p’2(n)-p’2(n-1)|,n=1,2,…,T,p’2(0)=0;
使用DTW算法,得到一条误差最小的对齐路径以,得到一条误差最小的对齐路径,进行每一时间段内的母音节和辅音节比较;
比较得出母音节的差距dp,以及变化量的差距Δdp,比较得出辅音节的差距d’p,以及变化量的差距Δd’p,来获得用户语音特征与标准语音特征的相似度,即:
dp=|p1(n)-p2(m)|
d’p=|p’1(n)-p’2(m)|
Δdp=|Δp1(n)-Δp2(m)|
Δd’p=|Δp’1(n)-Δp’2(m)|
其中,Δpi(n)=|pi(n)-pi(n-1)|
Δp’i(n)=|p’i(n)-p’i(n-1)|。
步骤S3还包括:评分s为:
s=ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)
其中,ω1,ω2,ωn分别代表每一语音段的权重;
j代表每一语音段内母音节加辅音节的总数量;
ω11,ω12……ω1j分别代表第一个语音段内音节的权重;
s11,s12……+s1j,代表第一个语音段内的各个音节;
在第一个语音段内如果第一个音节是辅音节则s11为辅音节,如果第一个音节是母音节则s11为母音节;如果第一个音节是辅音节则s12为辅音节,如果第一个音节是母音节则s12为母音节;每一个语音段以此类推。
ω21,ω22……ω2j分别代表第二个语音段内音节的权重;
s21,s22……+s2j,代表第二个语音段内的各个音节;
ωn1,ωn2……ωnj分别代表第n个语音段内音节的权重;
sn1,sn2……+snj,代表第n个语音段内的各个音节。
各个权重参数,是经由大量的实验得出,也可以由每一语音段的权重比例分配得知。也可以根据每一语音段对于文本的重要性设定。也可以由研发人员基于大量实验后得出最佳效果进行设定。
Claims (9)
1.一种智能口语测评方法,其特征在于,方法包括:
S1:使用计算机的录音设备获取用户的口语语音数据信息,提取用户语音数据中的用户语音特征;
S2:将用户语音特征与标准语音特征进行对齐,并将用户语音特征中的母音,辅音分别对应与标准语音特征的母音,辅音进行对比,形成对比数据信息;
S3:将对比数据信息进行评分;
S4:将对比数据信息及评分结果储存至数据库中。
2.根据权利要求1所述的智能口语测评方法,其特征在于,方法包括:
步骤S1之前还包括:设置标准朗读文本,获取标准朗读文本的标准语音特征;
将标准语音特征按时间进行分段,分为n段,以20ms为一时间分段;
将每一时间段标准语音特征分为静态特征及动态特征;
将每一时间段标准语音特征的频谱能量进行分解,分解出每一时间段标准语音特征的母音节的频谱能量分布以及辅音节的频谱能量分布;
设置每一时间段内标准语音特征的母音节MFCC特征向量,辅音节MFCC特征向量;
将每一时间段内标准语音特征的母音节MFCC特征向量,辅音节MFCC特征向量储存至数据库中。
3.根据权利要求1所述的智能口语测评方法,其特征在于,方法包括:
步骤S1还包括:
S11将用户语音数据按时间进行分段,分为n段,以20ms为一时间分段,对每一时间段用户语音数据加矩形窗,或汉明窗处理得到分段语音信号Xn,n为分段数;
S12对分段语音信号Xn进行短时傅里叶变换,变换为频域信号,将短时时域信号转化为频域信号Yn,并通过Qn=│Yn│2计算其短时能量谱Qn;
S13采用先进先出的方式将短时能量谱Qn从矢量空间S移动至带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x'(k);
S14将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到M个MFCC系数,一般M取13~15个;MFCC系数为:
S15将得到的每一时间段的用户语音MFCC特征作为静态特征,再将所述静态特征做一阶和二阶差分,得到相应的动态特征。
4.根据权利要求1所述的智能口语测评方法,其特征在于,方法包括:
步骤S1还包括:
获取每一语音段频率范围的频谱能量(fk),该语音段内的频率上限值k1,下限值k2,获取语音段内的频谱能量比值PNn;
5.根据权利要求4所述的智能口语测评方法,其特征在于,方法包括:
步骤S1还包括:
若语音段内频谱能量(fk)≥第一阈值,该语音段内频谱能量比值PNn≥第二阈值,则判断此语音段为母音节;第一阈值0.1-0.5,第二阈值取60%-85%;
以具有母音节的频谱能量为基准,判断具有母音节的频谱能量之前的频谱能量的过零率是否大于第三阈值,若大于第三阈值,则断定该频谱能量为母音前的辅音节,第三阈值取100;
以具有母音节的频谱能量为基准,判断具有母音节的频谱能量之后的频谱能量的过零率是否大于第三阈值,若大于第三阈值,则判断该频谱能量为母音后的辅音;
若具有母音节的频谱能量之后的频谱能量的过零率大于第三阈值,且该频谱能量为语音段的最后一帧,则判断为鼻尾辅音。
6.根据权利要求5所述的智能口语测评方法,其特征在于,方法包括:
步骤S2还包括:
设置每一时间段内用户语音特征的母音节MFCC特征向量,辅音节MFCC特征向量;
使用DTW算法,得到一条误差最小的对齐路径以,得到一条误差最小的对齐路径和对应的DTW距离;
基于该对齐路径和对应的DTW距离,将相同时间段内用户语音特征的母音节MFCC特征向量与标准语音特征的母音节MFCC特征向量进行语音比较以及将相同时间段内用户语音特征的辅音节MFCC特征向量与标准语音特征的辅音节MFCC特征向量进行语音比较,得出用户语音特征与标准语音特征之间的发音差别。
7.根据权利要求5所述的智能口语测评方法,其特征在于,方法包括:
步骤S2还包括:
设置每一时间段内标准语音特征的母音节标准语音特征向量为P1=[p1(1),p1(2),…,p1(R)],一阶差分向量为PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R为标准语音特征的母音节语音长度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;
设置每一时间段内标准语音特征的辅音节标准语音特征向量为P’1=[p’1(1),p’1(2),…,p’1(R)],一阶差分向量为P’Δ1=[p’Δ1(1),p’Δ1(2),…,p’Δ1(R)](R为标准语音特征的语音长度),P’Δ1(n)=|p’1(n)-p’1(n-1)|,n=1,2,…,R,p’1(0)=0。
8.根据权利要求7所述的智能口语测评方法,其特征在于,方法包括:
步骤S2还包括:
设置每一时间段内用户语音特征的母音节特征向量为P 2=[p2(1),p2(2),…,p2(T)],其一阶差分向量为PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T为待评价语音的长度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;
设置每一时间段内用户语音特征的辅音节特征向量为P’2=[p’2(1),p’2(2),…,p’2(T)],其一阶差分向量为P’Δ2=[p’Δ2(1),p’Δ2(2),…,p’Δ2(T)](T为待评价语音的长度),
P’Δ2(n)=|p’2(n)-p’2(n-1)|,n=1,2,…,T,p’2(0)=0;
使用DTW算法,得到一条误差最小的对齐路径以,得到一条误差最小的对齐路径,进行每一时间段内的母音节和辅音节比较;
比较得出母音节的差距dp,以及变化量的差距Δdp,比较得出辅音节的差距d’p,以及变化量的差距Δd’p,来获得用户语音特征与标准语音特征的相似度,即:
dp=|p1(n)-p2(m)|
d’p=|p’1(n)-p’2(m)|
Δdp=|Δp1(n)-Δp2(m)
Δd’p=|Δp’1(n)-Δp’2(m)|
其中,Δpi(n)=|pi(n)-pi(n-1)|
Δp’i(n)=|p’i(n)-pp’i(n-1)|。
9.根据权利要求1所述的智能口语测评方法,其特征在于,方法包括:
步骤S3还包括:评分s为:
s=ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)
其中,ω1,ω2,ωn分别代表每一语音段的权重;
j代表每一语音段内母音节加辅音节的总数量;
ω11,ω12……ω1j分别代表第一个语音段内音节的权重;
s11,s12……+s1j,代表第一个语音段内的各个音节;
ω21,ω22……ω2j分别代表第二个语音段内音节的权重;
s21,s22……+s2j,代表第二个语音段内的各个音节;
ωn1,ωn2……ωnj分别代表第n个语音段内音节的权重;
sn1,sn2……+snj,代表第n个语音段内的各个音节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611181451.5A CN106531189A (zh) | 2016-12-20 | 2016-12-20 | 一种智能口语测评方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611181451.5A CN106531189A (zh) | 2016-12-20 | 2016-12-20 | 一种智能口语测评方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106531189A true CN106531189A (zh) | 2017-03-22 |
Family
ID=58340401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611181451.5A Pending CN106531189A (zh) | 2016-12-20 | 2016-12-20 | 一种智能口语测评方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106531189A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767862A (zh) * | 2017-11-06 | 2018-03-06 | 深圳市领芯者科技有限公司 | 语音数据处理方法、***及存储介质 |
CN108470476A (zh) * | 2018-05-15 | 2018-08-31 | 黄淮学院 | 一种英语发音匹配纠正*** |
CN109300484A (zh) * | 2018-09-13 | 2019-02-01 | 广州酷狗计算机科技有限公司 | 音频对齐方法、装置、计算机设备以及可读存储介质 |
CN109300474A (zh) * | 2018-09-14 | 2019-02-01 | 北京网众共创科技有限公司 | 一种语音信号处理方法及装置 |
CN109727608A (zh) * | 2017-10-25 | 2019-05-07 | 香港中文大学深圳研究院 | 一种基于中文语音的病态嗓音评估方法 |
CN110825244A (zh) * | 2019-11-06 | 2020-02-21 | 王一峰 | 现代沪语输入法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040073291A (ko) * | 2004-01-08 | 2004-08-19 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 그 평가 방법 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多***融合的发音质量评估和错误检测方法 |
CN101996635A (zh) * | 2010-08-30 | 2011-03-30 | 清华大学 | 基于重音突显度的英语发音质量评价方法 |
-
2016
- 2016-12-20 CN CN201611181451.5A patent/CN106531189A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040073291A (ko) * | 2004-01-08 | 2004-08-19 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 그 평가 방법 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多***融合的发音质量评估和错误检测方法 |
CN101996635A (zh) * | 2010-08-30 | 2011-03-30 | 清华大学 | 基于重音突显度的英语发音质量评价方法 |
Non-Patent Citations (1)
Title |
---|
周晓兰: "计算机辅助普通话水平测试中的语音", 《农村经济与科技》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109727608A (zh) * | 2017-10-25 | 2019-05-07 | 香港中文大学深圳研究院 | 一种基于中文语音的病态嗓音评估方法 |
CN107767862A (zh) * | 2017-11-06 | 2018-03-06 | 深圳市领芯者科技有限公司 | 语音数据处理方法、***及存储介质 |
CN107767862B (zh) * | 2017-11-06 | 2024-05-21 | 深圳市领芯者科技有限公司 | 语音数据处理方法、***及存储介质 |
CN108470476A (zh) * | 2018-05-15 | 2018-08-31 | 黄淮学院 | 一种英语发音匹配纠正*** |
CN108470476B (zh) * | 2018-05-15 | 2020-06-30 | 黄淮学院 | 一种英语发音匹配纠正*** |
CN109300484A (zh) * | 2018-09-13 | 2019-02-01 | 广州酷狗计算机科技有限公司 | 音频对齐方法、装置、计算机设备以及可读存储介质 |
CN109300484B (zh) * | 2018-09-13 | 2021-07-02 | 广州酷狗计算机科技有限公司 | 音频对齐方法、装置、计算机设备以及可读存储介质 |
CN109300474A (zh) * | 2018-09-14 | 2019-02-01 | 北京网众共创科技有限公司 | 一种语音信号处理方法及装置 |
CN109300474B (zh) * | 2018-09-14 | 2022-04-26 | 北京网众共创科技有限公司 | 一种语音信号处理方法及装置 |
CN110825244A (zh) * | 2019-11-06 | 2020-02-21 | 王一峰 | 现代沪语输入法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106531189A (zh) | 一种智能口语测评方法 | |
CN103065626B (zh) | 英语口语考试***中的朗读题自动评分方法和设备 | |
CN106782609A (zh) | 一种口语比对方法 | |
CN110457432A (zh) | 面试评分方法、装置、设备及存储介质 | |
CN103617799A (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN106847260A (zh) | 一种基于特征融合的英语口语自动评分方法 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN102723077B (zh) | 汉语教学语音合成方法及装置 | |
CN107886968A (zh) | 语音评测方法及*** | |
Hirson et al. | Glottal fry and voice disguise: a case study in forensic phonetics | |
Sabu et al. | Automatic Assessment of Children's L2 Reading for Accuracy and Fluency. | |
Dai | [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model | |
CN112767961B (zh) | 一种基于云端计算的口音矫正方法 | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
Dumpala et al. | Analysis of the Effect of Speech-Laugh on Speaker Recognition System. | |
CN103021226B (zh) | 一种基于发音节奏的语音评测方法及装置 | |
Luo et al. | Investigation of the effects of automatic scoring technology on human raters' performances in L2 speech proficiency assessment | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation | |
Yu | Evaluation of English Pronunciation Quality Based on Decision Tree Algorithm | |
Suzuki et al. | Sub-structure-based estimation of pronunciation proficiency and classification of learners | |
Liu | Application of speech recognition technology in pronunciation correction of college oral English teaching | |
NAGy | Measuring and Improving Children’s Reading Aloud Attributes by Computers | |
Jambi et al. | An Empirical Performance Analysis of the Speak Correct Computerized Interface | |
Pakhomov et al. | Forced-alignment and edit-distance scoring for vocabulary tutoring applications | |
Necibi et al. | A statistical-based decision for arabic pronunciation assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170322 |