CN102426834B - 测试英文口语韵律水平的方法 - Google Patents
测试英文口语韵律水平的方法 Download PDFInfo
- Publication number
- CN102426834B CN102426834B CN2011102527792A CN201110252779A CN102426834B CN 102426834 B CN102426834 B CN 102426834B CN 2011102527792 A CN2011102527792 A CN 2011102527792A CN 201110252779 A CN201110252779 A CN 201110252779A CN 102426834 B CN102426834 B CN 102426834B
- Authority
- CN
- China
- Prior art keywords
- rhythm
- fundamental frequency
- duration
- variance
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 171
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012360 testing method Methods 0.000 title claims abstract description 47
- 239000000284 extract Substances 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 230000001154 acute effect Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000010998 test method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 2
- YLRFCQOZQXIBAB-RBZZARIASA-N fluoxymesterone Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@]2(F)[C@@H]1[C@@H]1CC[C@](C)(O)[C@@]1(C)C[C@@H]2O YLRFCQOZQXIBAB-RBZZARIASA-N 0.000 claims 9
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种测试英文口语韵律水平的方法。该方法包括:步骤A,对原始英语语音信号进行预处理;步骤B,在进行预处理后的原始英语语音信号中提取用于韵律测试的多知识源特征参数,该多知识源特征参数包括韵律表现特征、韵律产生特征和韵律影响特征;步骤C,由多数多知识源特征参数获取所述原始英语语音的韵律水平测试分数。本发明测试英文口语韵律水平的方法,以使用多知识源信息进行细化并融合的策略取得更佳的测试效果,提高测试的客观性和准确性。
Description
技术领域
本发明涉及人工智能行业语音信号处理与模式识别技术领域,尤其涉及一种测试英文口语韵律水平的方法。
背景技术
韵律是针对言语这一人类的行为提出来的,言语交流的媒介是声音,所以说者要传达的信息以及听者能够听到的信息都包含在声波中。在计算机辅助语言学习中,韵律表现好比语言学习者表达境界“信、达、雅”中的“雅”,是言语中最高级的一环,它通过复杂的物理和声学模式在言语上进行作用,以表征说话者的语气、态度、意图和情感等超音段特性。可以说,学习者在表达过程中,只是会读并不一定代表对语言已经掌握,而真正对所述内容的融会贯通在很大程度上取决于其韵律的表现程度。
韵律水平测试是计算机辅助自动口语测试***中的一个重要组成部分,本发明所述的韵律测试和以往针对语音合成领域的韵律生成和测试是有着本质区别的。以往针对语音合成领域的韵律生成和测试,其所关注的是如何有效提高所合成出语音的韵律性和自然度。而本发明的韵律测试则是关注测试人群的真实口语发音的韵律掌握水平。本发明更为关注口语水平较高的测试人群,即在内容表达比较完整、发音准确度较高以及流利程度较高的口语测试人群中,通过对韵律水平的测试,达到进一步“好中取优”之目的。
韵律感知的基本声学相关物是基频、时长和能量,而从人感知的角度来看,通常从语调和节奏两个方面去衡量某个句子或段落的韵律水平。语调主要反映主观听感中的“抑”和“扬”,在声学特征层面,则是通过语音中的基频随时间的变化,去反映语调、语气和情感的变化。节奏则包括重音、停顿、语流控制等层面,重音主要反映主观听感中对表达内容的轻重、偏颇和加重,英语是一种典型的重音节奏语言,正是依靠这种重音变化才在听觉上带来强烈的节奏感。停顿主要反映主观听感节奏中的错落感,多由意群、语义或内容转换的间隙而产生。语流控制则主要反映主观听感节奏中对整个语流中各音段时长的宏观分布的总体把握情况。
从人机通讯的角度来看,言语交际实质上就是一个对于说者是编码、对于听者是解码的过程,而韵律测试正是利用机器对言语进行自动化解码过程的重要一环。而从语音心理学角度来说,对于人在感知上为什么会觉得一段语音的韵律比另一段好,至今并没有形成普遍的认识和共识。目前,面向语音合成任务的韵律分析的研究较多,而针对教育测量目标的韵律测试的研究相对较少,但其应用需求呈现递增趋势。
现有的韵律测试方法普遍采用直接使用单纯的基频、时长和能量特征的方式,没有对特征本身进行深入加工,也没有针对性地引入与韵律表现、韵律产生以及韵律影响相关联的多知识源模型。而教育测量和模式识别领域的大量研究实践表明,单纯笼统地使用韵律特征很难进一步提高测试性能。
发明内容
(一)要解决的技术问题
为解决上述的一个或多个问题,本发明提供了一种测试英文口语韵律水平的方法,以使用多知识源信息进行细化并融合的策略取得更佳的测试效果,提高测试的客观性和准确性。
(二)技术方案
根据本发明的一个方面,提供了一种测试英语口语韵律水平的方法。该方法包括:步骤A,对原始英语语音信号进行预处理;步骤B,在进行预处理后的原始英语语音信号中提取用于韵律测试的多知识源特征参数,多知识源特征参数包括:韵律表现特征;韵律产生特征;韵律影响特征;步骤C,由多知识源特征参数获取原始英语语音的韵律水平测试分数。
优选地,本发明英语口语韵律水平的方法中,步骤A包括:步骤A1,对原始英语语音信号进行有效语音段检测,滤除噪音段和过长的停顿段,保留有效语音段信号;步骤A2,对有效语音段信号进行分帧处理;步骤A3,使用语音识别器对进行分帧处理后的有效语音段信号和对应文本进行自动对齐,获得音素、音节、单词和句子的边界点信息。
优选地,本发明英语口语韵律水平的方法中,步骤A2中,以25ms为帧长度,10ms为帧间隔。
优选地,本发明英语口语韵律水平的方法中,步骤B中在进行预处理后的原始英语语音信号中提取用于韵律测试的韵律表现特征包括:步骤B1a,提取各语音帧的基音频率和能量,形成基频序列和能量序列,计算基频序列的基频平均值和基频方差值,计算能量序列的能量平均值和能量方差值。将基频平均值、基频方差值、能量平均值、能量方差值作为4维韵律特征;步骤B1b,提取各辅音段时长、各元音段时长、各音节段时长以及各单词停顿段时长,分别计算辅音段平均时长和辅音段时长方差,分别计算元音段平均时长和元音段时长方差,分别计算音节段平均时长和音节段时长方差,分别计算单词停顿段平均时长和单词停顿段时长方差。将辅音段平均时长、辅音段时长方差、元音段平均时长、元音段时长方差、音节段平均时长、音节段时长方差、单词停顿段平均时长、单词停顿段时长方差作为8维韵律特征;步骤B1c,将步骤B1a提取出的4维韵律特征和步骤B1b提取出的8维韵律特征拼接为一起,作为基于韵律表现知识源的12维韵律特征。
优选地,本发明英语口语韵律水平的方法中,步骤B中在进行预处理后的原始英语语音信号中提取用于韵律测试的韵律产生特征包括:步骤B2a,提取各语音帧的基频序列,并对该基频序列进行鲁棒性处理;步骤B2b,以经过鲁棒性处理后的基频序列为对象,提取出对应的重读部件,提取源于重读部件的阶跃个数、平均阶跃时间、阶跃时间方差,形成共3维韵律特征;步骤B2c,以经过鲁棒性处理后的基频序列为对象,提取出对应的基准基频,提取源于基准基频的基准基频特征;步骤B2d,以经过鲁棒性处理后的基频序列为对象,提取出对应的短语部件,提取源于短语部件的冲激个数、平均冲激幅度、冲激幅度方差,形成共3维韵律特征;步骤B2e,将步骤B2b提取出的3维韵律特征、步骤B2c提取出的1维基准基频特征、步骤B2d提取出的3维韵律特征进行拼接,作为基于韵律产生模型的7维韵律特征。
优选地,本发明英语口语韵律水平的方法中,步骤B2a中对已经提取出的基频序列进行鲁棒性处理包括:对已经提取出的基频序列去除半频和倍频干扰;对去除半频和倍频干扰后的基频序列进行平滑操作;对进行平滑操作后的基频序列进行风格化处理。
优选地,本发明英语口语韵律水平的方法中,步骤B2b包括:对经过鲁棒性处理的基频序列进行高通滤波,利用梯度法自动提取出其中曲率变化剧烈的极大值和极小值部分;计算高通滤波后的基频序列的曲率剧烈变化部分的数量,作为基频序列的阶跃个数特征;计算高通滤波后的基频序列的曲率剧烈变化部分的平均持续时间和方差变化,作为基频序列的平均阶跃时间和阶跃时间方差特征;将上述提取出的阶跃个数、平均阶跃时间、阶跃时间方差作为源于重读部件的3维韵律特征。
优选地,本发明英语口语韵律水平的方法中,步骤B2d包括:用步骤B2a处理后的基频序列减去步骤B2c提取出的基准基频,形成反映短语部件的基频序列曲线;计算反映短语部件的基频序列中的曲率剧烈变化部分的数量,作为基频序列的冲激个数特征;计算反映短语部件的基频序列中的曲率剧烈变化部分的平均冲激幅度和幅度方差,作为基频序列的平均冲激幅度和冲激幅度方差特征;将上述提取出的冲激个数、平均冲激幅度、冲激幅度方差作为源于短语部件的3维韵律特征。
优选地,本发明英语口语韵律水平的方法中,步骤B中在进行预处理后的原始英语语音信号中提取用于韵律测试的韵律影响特征包括:步骤B3a,由公式一提取辅音段基频PVI特征、元音段基频PVI特征、音节段基频PVI特征,形成共3维基于基频PVI的韵律特征;步骤B3b,由公式一提取辅音段时长PVI特征、元音段时长PVI特征、音节段时长PVI特征,形成共3维基于时长PVI的韵律特征,其中,公式一的表达式为:连续语音段分为xk和xk+1两个部分,并分别代表第k个和第k+1个语音段的基频值或时长值,m代表连续语音段的数目。这里的语音段可以是辅音段、元音段或音节段。
优选地,本发明英语口语韵律水平的方法中,步骤C之前还包括:步骤C′1,收集语音数据样本作为开发集,并对语音数据样本进行人工韵律分数的标注;步骤C′2,选择韵律分数拟合器模型;步骤C′3,将各个语音数据样本的韵律特征,作为韵律分数拟合器模型的前端输入参数,将各个语音数据样本的人工韵律分数,作为韵律分数拟合器模型的后端输出结果;步骤C′4,利用韵律分数拟合器模型所对应的模型训练算法,训练韵律分数拟合器模型,获取韵律分数拟合器模型的模型参数。所述步骤C包括:将所述原始英语语音信号对应的多知识源特征参数输入训练后的韵律分数拟合器,从而获取所述原始英语语音的韵律水平评价测试分数。
优选地,本发明英语口语韵律水平的方法中,韵律分数拟合器模型为以下模型中的一种:混合高斯模型、支撑向量机模型、多层感知器网络模型。
(三)有益效果
本发明测试英文口语韵律水平的方法具有下列有益效果:
①本发明中,用于韵律测试的多知识源特征是从韵律表现、韵律产生和韵律影响三个层面获取的。由于充分利用了多知识源的韵律信息,本发明可以有效提高韵律测试***的准确性和可靠性;
②通过本发明,可以积累针对不同性别、不同年龄和不同地域的差异性的具有人工标注分数的语音数据和学习样本库,利用该语音数据和学习样本库来训练针对不同性别、不同年龄和不同地域的韵律分数拟合器模型,从而使本发明测试方法具有良好的推广性。
附图说明
图1是本发明实施例测试英文口语韵律水平方法的总体流程框图;
图2是本发明实施例测试英文口语韵律水平方法中提取韵律产生特征的流程图;
图3是本发明实施例测试英文口语韵律水平方法中训练韵律分数拟合器的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明实施例测试英文口语韵律水平方法的总体流程框图。如图1所示,测试英文口语韵律水平方法的步骤为:
步骤A′,获取用户读出的需要进行韵律水平测试的原始语音信号。
步骤A,对原始语音信号进行预处理。
步骤A-1,对原始语音进行有效语音段检测(简称VAD检测),过滤掉噪音段和过长的停顿段,保留语音段作为下一步骤之用。
步骤A-2,对有效语音段信号进行分帧处理,优选地,以25ms为帧长度,10ms为帧间隔,重复处理直至语音信号结束。
步骤A-3,使用语音识别器对进行分帧处理后的有效语音段信号进行自动对齐,获得音素、音节、单词和句子的信号边界信息。
需要说明的是,上述A-1,A-2,A-3的执行是有固定顺序的,其顺序不可以打乱或颠倒。
步骤B,提取用于韵律测试的多知识源韵律特征。
鉴于韵律测试技术的现状和不足,本发明尽可能考虑韵律的表现、韵律的产生和韵律的影响等诸多方面,分别提取其有效和鲁棒的表征参数,然后使用分数拟合器去模拟人的加工处理机制,并对各知识源模型进行进一步的融合,以实现对韵律水平的客观测试。具体言之,用于韵律测试的多知识源特征是从韵律表现、韵律产生和韵律影响三个层面获取的。三种基本韵律特征可以衍化出多种特征,如何衡量哪些特征对韵律测试有效,到目前为止还没有统一的认识。
本发明在预研阶段采用了贪婪算法的思路,广泛地提取出各种特征,然后进行筛选,以便沉淀出对韵律测试帮助最大的特征组合。而本发明后续具体实施方式中所涉及的特征均是经过特征筛选后的优良特征。
并且,以上所有提取出的韵律特征,均以性别为单位进行归一化处理,并且在词汇、句子层面进行相应的归一化处理。本发明涉及的所有韵律特征均无需人工标注,能够通过计算机程序自动生成。此外,上述特征提取过程不区分先后,全部特征提取完毕后,将全部特征合并为最终使用的韵律特征。以下将对特征的提取过程进行详细说明:
步骤B-1,提取韵律表现特征(基于韵律表现知识源的韵律特征)。
对于基于韵律表现知识源的韵律特征,包括最基本的基频、时长和能量特征,以及这三种基本声学特征所衍化出的特征,这些韵律特征能够反映学习者在词法和句法层面对于语言组织、表达和驾驭的能力,也是目前研究者最广泛使用的特征。
步骤B-1-a,提取各语音帧的基音频率和能量,形成基频序列和能量序列,计算基频序列的基频平均值和基频方差值,计算能量序列的能量平均值和能量方差值。将基频平均值、基频方差值、能量平均值、能量方差值作为4维韵律特征。
步骤B-1-b,提取各辅音段时长、各元音段时长、各音节段时长以及各单词停顿段时长,分别计算辅音段平均时长和辅音段时长方差,分别计算元音段平均时长和元音段时长方差,分别计算音节段平均时长和音节段时长方差,分别计算单词停顿段平均时长和单词停顿段时长方差。将辅音段平均时长、辅音段时长方差、元音段平均时长、元音段时长方差、音节段平均时长、音节段时长方差、单词停顿段平均时长、单词停顿段时长方差作为8维韵律特征。
步骤B-1-c,将步骤B-1-a提取出的4维韵律特征和步骤B-1-b提取出的8维韵律特征拼接为一起,作为基于韵律表现知识源的12维韵律特征。
步骤B-2,参考附图2,提取韵律产生特征(基于韵律产生模型的韵律特征)。
对于基于韵律产生知识集的韵律特征,是对语音合成中的韵律产生模型进行反向考虑。通常情况下,我们提取出的基频轨迹特征只是人的言语行为通过韵律模型作用后所产生的一种针对韵律变化的观测现象。而对这种观测现象进行挖掘,获取更深入韵律产生知识的方法就是回溯其韵律产生的机理。一般认为,韵律中的语调和节奏之间的关系,就好比“波浪”和“涟漪”之间层层叠加的关系,可以用简单的代数和表示,相位相等时互相加成,相位相反时互相抵消。日本学者Fujisaki提出的超音段韵律模型,对基频曲线中的“大波浪、小涟漪”关系进行了很好的建模,且在生理学、物理学和声学上都有很好的解释。
Fujisaki模型认为看似不规则的基频曲线可以由三个不同部件参数构成,并能够找到对应发声器官的物理特性来进行解释。此三种韵律部件分别是短语部件、重读部件和基准频率部件,分别对应着对语调、节奏和基本音高的描述。本发明的目标就是提取出这三种部件所对应的特征参数,以获取韵律产生角度的知识。
步骤B-2-a,提取各语音帧的基频序列,并对该基频序列进行鲁棒性处理。鲁棒性处理包括三个步骤,首先是去除半频和倍频干扰,然后是对基频序列进行平滑操作,最后是进行风格化处理。
步骤B-2-b,提取重读部件参数。对经过步骤B-2-a处理过的基频序列进行高通滤波,利用梯度法自动提取出其中曲率变化剧烈的极大值和极小值部分。计算剧烈变化部分的数量,作为阶跃个数特征。计算剧烈变化部分的平均持续时间和方差变化,作为平均阶跃时间和阶跃时间方差特征。将阶跃个数、平均阶跃时间、阶跃时间方差作为源于重读部件的3维韵律特征。
步骤B-2-c,提取基准基音频率。对于经过步骤3-2-a处理过的基频序列,去除步骤B-2-b提取的高频部分,以形成低通的基频序列。找出此低通基频序列的最低点,以此作为基准基频特征。
步骤B-2-d,提取短语部件参数。将步骤B2a处理后的基频序列减去步骤B-2-c提取出的基准基频,形成反映短语部件的基频序列曲线。计算剧烈变化部分的数量,作为冲激个数特征。计算剧烈变化部分的平均冲激幅度和幅度方差,作为平均冲激幅度和冲激幅度方差特征。将冲激个数、平均冲激幅度、冲激幅度方差作为源于短语部件的3维韵律特征。
步骤B-2-e,将步骤B-2-b提取出的3维韵律特征、步骤B-2-c提取出的1维基准基频特征、步骤B-2-d提取出的3维韵律特征进行拼接,作为基于韵律产生模型的7维韵律特征。
步骤B-3,提取韵律影响特征。
针对基于韵律影响知识源的韵律特征,其所关注的是语言学习者对于英语和自身母语的关联程度,即英语口语的纯正度。一般来说,对英语纯正度掌握较好的人,通常在口语中会出现起伏而错落有致的韵律变化。基频和时长特征,尤其是基频和时长的变化特性,在英语纯正度表现中起着关键作用。PVI(Pairwise Variability Index)算子在区分不同语言种类的工作中取得了显著性能,本发明在韵律测试中将其扩展到不同音段层次,将PVI分别在连续辅音、元音和音节三个音段层次进行计算,以获取基于韵律影响知识源的韵律特征。
步骤B-3-a,分别提取辅音段、元音段和音节段的基频PVI特征,计算方法如下:
上式中,连续语音段分为pk和pk+1两个部分,并分别代表第k个和第k+1个语音段的基频平均值,m代表连续语音段的数目。这里的语音段可以是辅音段、元音段或音节段。
步骤B-3-b,分别提取辅音段、元音段和音节段的时长PVI特征,计算方法如下:
上式中,连续语音段分为dk和dk+1两个部分,并分别代表第k个和第k+1个语音段的时长值,m代表连续语音段的数目。这里的语音段可以是辅音段、元音段或音节段。
步骤B-3-c,将步骤B-3-a提取出的辅音段基频PVI特征、元音段基频PVI特征、音节段基频PVI特征,以及步骤B-3-b提取出的辅音段时长PVI特征、元音段时长PVI特征、音节段时长PVI特征,进行合并后作为基于韵律影响知识源的6维韵律特征。
步骤B4,韵律特征合并。将步骤B-1提取出的12维韵律特征、步骤B-2提取出的7维韵律特征以及步骤B-3提取出的6维韵律特征,合并为最终的25维韵律特征。
步骤C′,训练分数拟合器。
对于特征到分数的映射,本发明将利用开发集数据进行训练以获取拟合器。开发集数据具有专家标注出的韵律等级分数,将开发集数据中每个语音样本的每一部分特征作为拟合器的输入,人工标注分数作为拟合器的输出,通过拟合器训练算法获取拟合器参数,以完成分数拟合器的训练过程。
参照附图3,训练韵律分数拟合器的具体步骤是:
步骤C′-1,收集语音数据作为开发集,并对语音样本进行人工韵律分数的标注。
步骤C′-2,选择合适的韵律分数拟合器,本发明不限制具体类型,可以是常见分类器模型中的一种,例如混合高斯模型(GMM)、支撑向量机(SVM)、多层感知器网络(MLP)等。
步骤C′-3,通过步骤B提取出各个语音样本的韵律特征,并作为分数拟合器的输入参数。将各个语音样本的人工韵律分数,作为韵律分数拟合器的输出结果。
步骤C′-4,在步骤C′-3的基础上,利用相应的模型训练算法,训练韵律分数拟合器,最终获取韵律分数拟合器的模型参数。
步骤C,将待评英文口语的多数多知识源特征参数输入韵律分数拟合器,获取韵律水平测试分数,以此作为对该测试语音样本的韵律水平的客观测试。
需要说明的是,以上韵律测试的步骤适于对句子和段落层次,具体测试层次依据实际情况而定。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种测试英语口语韵律水平的方法,其特征在于,包括:
步骤A,对原始英语语音信号进行预处理;
步骤B,在预处理后的原始英语语音信号中提取用于韵律测试的多知识源特征参数,该多知识源特征参数包括韵律表现特征、韵律产生特征和韵律影响特征;
步骤C,由所述多知识源特征参数获取所述原始英语语音的韵律水平测试分数;
其中,所述步骤B中在预处理后的原始英语语音信号中提取用于韵律测试的韵律表现特征包括:
步骤B1a,提取各语音帧的基音频率和能量,形成基频序列和能量序列,计算基频序列的基频平均值和基频方差值,计算能量序列的能量平均值和能量方差值;将基频平均值、基频方差值、能量平均值、能量方差值作为4维韵律特征;
步骤B1b,提取各辅音段时长、各元音段时长、各音节段时长以及各单词停顿段时长,分别计算辅音段平均时长和辅音段时长方差,分别计算元音段平均时长和元音段时长方差,分别计算音节段平均时长和音节段时长方差,分别计算单词停顿段平均时长和单词停顿段时长方差;将辅音段平均时长、辅音段时长方差、元音段平均时长、元音段时长方差、音节段平均时长、音节段时长方差、单词停顿段平均时长、单词停顿段时长方差作为8维韵律特征;
步骤B1c,将步骤B1a提取出的4维韵律特征和步骤B1b提取出的8维韵律特征拼接为一起,作为基于韵律表现知识源的12维韵律表现特征。
2.根据权利要求1所述的测试英语口语韵律水平的方法,其特征在于,所述步骤A包括:
步骤A1,对原始英语语音信号进行有效语音段检测,滤除噪音段和过长的停顿段,保留有效语音段信号;
步骤A2,对有效语音段信号进行分帧处理;
步骤A3,使用语音识别器对进行分帧处理后的有效语音段信号和对应文本进行自动对齐,获得音素、音节、单词和句子的边界点信息。
3.根据权利要求2所述的测试英语口语韵律水平的方法,其特征在于,所述步骤A2中,以25ms为帧长度,10ms为帧间隔。
4.根据权利要求1所述的测试英语口语韵律水平的方法,其特征在于,所述步骤B中在进行所述预处理后的原始英语语音信号中提取用于韵律测试的韵律产生特征包括:
步骤B2a,提取各语音帧的基频序列,并对该基频序列进行鲁棒性处理;
步骤B2b,以经过鲁棒性处理后的基频序列为对象,提取出对应的重读部件,提取源于重读部件的阶跃个数、平均阶跃时间、阶跃时间方差,形成共3维韵律特征;
步骤B2c,以经过鲁棒性处理后的基频序列为对象,提取出对应的基准基频,提取源于基准基频的基准基频特征;
步骤B2d,以经过鲁棒性处理后的基频序列为对象,提取出对应的短语部件,提取源于短语部件的冲激个数、平均冲激幅度、冲激幅度方差,形成共3维韵律特征;
步骤B2e,将步骤B2b提取出的3维韵律特征、步骤B2c提取出的1维基准基频特征、步骤B2d提取出的3维韵律特征进行拼接,作为基于韵律产生模型的7维韵律产生特征。
5.根据权利要求4所述的测试英语口语韵律水平的方法,其特征在于,所述步骤B2a中对已经提取出的基频序列进行鲁棒性处理包括:
对已经提取出的基频序列去除半频和倍频干扰;
对去除半频和倍频干扰后的基频序列进行平滑操作;
对进行平滑操作后的基频序列进行风格化处理。
6.根据权利要求4所述的测试英语口语韵律水平的方法,其特征在于,所述步骤B2b包括:
对经过鲁棒性处理的基频序列进行高通滤波,利用梯度法自动提取出其中曲率变化剧烈的极大值和极小值部分;
计算高通滤波后的基频序列的曲率剧烈变化部分的数量,作为基频序列的阶跃个数特征;
计算高通滤波后的基频序列的曲率剧烈变化部分的平均持续时间和方差变化,作为基频序列的平均阶跃时间和阶跃时间方差特征;
将上述提取出的阶跃个数、平均阶跃时间、阶跃时间方差作为源于重读部件的3维韵律产生特征。
7.根据权利要求4所述的测试英语口语韵律水平的方法,其特征在于,所述步骤B2d包括:
用步骤B2a处理后的基频序列减去步骤B2c提取出的基准基频,形成反映短语部件的基频序列曲线;
计算反映短语部件的基频序列中的曲率剧烈变化部分的数量,作为基频序列的冲激个数特征;
计算反映短语部件的基频序列中的曲率剧烈变化部分的平均冲激幅度和幅度方差,作为基频序列的平均冲激幅度和冲激幅度方差特征;
将上述提取出的冲激个数、平均冲激幅度、冲激幅度方差作为源于短语部件的3维韵律产生特征。
8.根据权利要求1所述的测试英语口语韵律水平的方法,其特征在于,所述步骤B中在进行所述预处理后的原始英语语音信号中提取用于韵律测试的韵律影响特征包括:
步骤B3a,由公式一提取辅音段基频PVI特征、元音段基频PVI特征、音节段基频PVI特征,形成共3维基于基频PVI的韵律特征;
步骤B3b,由公式一提取辅音段时长PVI特征、元音段时长PVI特征、音节段时长PVI特征,形成共3维基于时长PVI的韵律影响特征,
其中,公式一的表达式为: 连续语音段分为xk和xk+1两个部分,并分别代表第k个和第k+1个语音段的基频值或时长值,m代表连续语音段的数目;这里的语音段是辅音段、元音段或音节段。
9.根据权利要求1所述的测试英语口语韵律水平的方法,其特征在于,
所述步骤C之前还包括:步骤C′1,收集语音数据训练样本作为开发集,并对所述语音数据训练样本进行人工韵律分数的标注;步骤C′2,选择韵律分数拟合器模型;步骤C′3,将各个语音数据训练样本的多知识源特征参数作为所述韵律分数拟合器模型的前端输入参数,将各个语音数据训练样本的人工韵律分数作为韵律分数拟合器模型的后端输出结果;步骤C′4,利用所述韵律分数拟合器模型所对应的模型训练算法,训练所述韵律分数拟合器模型,获取所述韵律分数拟合器模型的模型参数;
所述步骤C包括:将所述原始英语语音信号对应的多知识源特征参数输入训练后的韵律分数拟合器,从而获取所述原始英语语音的韵律水平评价测试分数。
10.根据权利要求9所述的测试英语口语韵律水平的方法,其特征在于,所述韵律分数拟合器模型为以下模型中的一种:混合高斯模型、支撑向量机模型、多层感知器网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102527792A CN102426834B (zh) | 2011-08-30 | 2011-08-30 | 测试英文口语韵律水平的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102527792A CN102426834B (zh) | 2011-08-30 | 2011-08-30 | 测试英文口语韵律水平的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102426834A CN102426834A (zh) | 2012-04-25 |
CN102426834B true CN102426834B (zh) | 2013-05-08 |
Family
ID=45960808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102527792A Active CN102426834B (zh) | 2011-08-30 | 2011-08-30 | 测试英文口语韵律水平的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102426834B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575518B (zh) * | 2013-10-17 | 2018-10-02 | 清华大学 | 韵律事件检测方法和装置 |
US20150179167A1 (en) * | 2013-12-19 | 2015-06-25 | Kirill Chekhter | Phoneme signature candidates for speech recognition |
CN104464751B (zh) * | 2014-11-21 | 2018-01-16 | 科大讯飞股份有限公司 | 发音韵律问题的检测方法及装置 |
CN104361896B (zh) * | 2014-12-04 | 2018-04-13 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和*** |
CN108206026B (zh) * | 2017-12-05 | 2021-12-03 | 北京小唱科技有限公司 | 确定音频内容音高偏差的方法及装置 |
CN110992986B (zh) * | 2019-12-04 | 2022-06-07 | 南京大学 | 单词音节重读检错方法、装置、电子设备和存储介质 |
CN111243625B (zh) * | 2020-01-03 | 2023-03-24 | 合肥讯飞数码科技有限公司 | 设备的清晰度测试方法、装置、设备及可读存储介质 |
CN111312231B (zh) * | 2020-05-14 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 音频检测方法、装置、电子设备及可读存储介质 |
CN112289298A (zh) * | 2020-09-30 | 2021-01-29 | 北京大米科技有限公司 | 合成语音的处理方法、装置、存储介质以及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习*** |
CN101727903B (zh) * | 2008-10-29 | 2011-10-19 | 中国科学院自动化研究所 | 基于多特征和多***融合的发音质量评估和错误检测方法 |
-
2011
- 2011-08-30 CN CN2011102527792A patent/CN102426834B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102426834A (zh) | 2012-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
Gobl et al. | 11 voice source variation and its communicative functions | |
CN103928023B (zh) | 一种语音评分方法及*** | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
Kourkounakis et al. | Fluentnet: End-to-end detection of stuttered speech disfluencies with deep learning | |
US20200294509A1 (en) | Method and apparatus for establishing voiceprint model, computer device, and storage medium | |
CN102354495B (zh) | 半开放式口语试题的测试方法及*** | |
CN106128450A (zh) | 一种汉藏双语跨语言语音转换的方法及其*** | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价***及方法 | |
Yap | Speech production under cognitive load: Effects and classification | |
CN101739867A (zh) | 运用计算机对口语翻译质量进行评分的方法 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN103366759A (zh) | 语音数据的测评方法和装置 | |
CN101996635A (zh) | 基于重音突显度的英语发音质量评价方法 | |
CN106205603A (zh) | 一种声调评估方法 | |
Prom-on et al. | Identifying underlying articulatory targets of Thai vowels from acoustic data based on an analysis-by-synthesis approach | |
CN102880906B (zh) | 一种基于diva神经网络模型的汉语元音发音方法 | |
Prom-on et al. | Functional Modeling of Tone, Focus and Sentence Type in Mandarin Chinese. | |
CN202758611U (zh) | 语音数据的测评装置 | |
Yin | Training & evaluation system of intelligent oral phonics based on speech recognition technology | |
Sun et al. | Unsupervised Inference of Physiologically Meaningful Articulatory Trajectories with VocalTractLab. | |
Wang et al. | Research on correction method of spoken pronunciation accuracy of AI virtual English reading | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |