CN115240710A - 基于神经网络的多尺度融合的发音评测模型优化方法 - Google Patents

基于神经网络的多尺度融合的发音评测模型优化方法 Download PDF

Info

Publication number
CN115240710A
CN115240710A CN202210772121.2A CN202210772121A CN115240710A CN 115240710 A CN115240710 A CN 115240710A CN 202210772121 A CN202210772121 A CN 202210772121A CN 115240710 A CN115240710 A CN 115240710A
Authority
CN
China
Prior art keywords
neural network
score
features
gop
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210772121.2A
Other languages
English (en)
Inventor
张句
贡诚
王宇光
关昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhiyan Information Technology Co ltd
Original Assignee
Suzhou Zhiyan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhiyan Information Technology Co ltd filed Critical Suzhou Zhiyan Information Technology Co ltd
Priority to CN202210772121.2A priority Critical patent/CN115240710A/zh
Publication of CN115240710A publication Critical patent/CN115240710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明是语音发音评测领域,具体涉及基于神经网络的多尺度融合的发音评测模型优化方法,利用神经网络和多尺度融合技术对发音评测***进行优化。主要包括:声学模型模型设计与选取、基于神经网络的GOP分数的计算、多尺度卷积神经网络的构造以及基于注意力机制的多特征融合,最后语音评测。考虑韵律信息的全局性和局部性,采用不同尺度的CNN网络,对不同粒度的韵律相关的发音特征进行了挖掘。采取注意力机制模型对不同尺度的发音特征和后验概率相关的特征进行融合,实现多尺度融合的发音特征。

Description

基于神经网络的多尺度融合的发音评测模型优化方法
技术领域
本发明是语音发音评测领域,具体涉及基于神经网络的多尺度融合的发音评测模型优化方法,利用神经网络和多尺度融合技术对发音评测***进行优化。
背景技术
英文发音自动评测是受测者根据指定英文文本发音,计算机根据受试者发音质量给出测评分数的技术,通过计算机对受试者英文发音水平进行公正、客观、高效的自动评测,辅助英文语言学***。随着全球经济的飞速发展,不同国家之间在政治、经济、文化教育等各个方面的交流与合作越发频繁。越来越多的人开始学习除母语之外的第二种语言。掌握一门交流语言,口语学习至关重要。然而,师生之间一对一的学习、面对面的互动交流等往往会受到时空和经济条件的限制,因此,在线教育越来越受欢迎,通过计算机自动评测学习者的发音以及纠正口音错误的发音评测技术与应用也得到广大学习者的青睐。
目前,国内外研究中,韵律发音质量自动评测大多是从整体听感质量的角度进行评测,而针对具体子项的发音质量评测,比如重音发音质量评测、节奏发音质量评测等,仍相对较少。人们在进行言语交流时,相互之间传递的不仅仅是语言文字信息,还包含着丰富的韵律信息。韵律信息属于超音段信息,主要反映着说话人发音的抑扬顿挫(节奏),强调(重音),语调和语气等。一方面,韵律信息有助于说话人更清楚、准确地表达所要表达的信息,提升语言的自然度水平和可理解程度;另一方面,韵律信息有助于听话者更清楚、准确地理解所听到的信息,甚至包含对说话人意图、情感、态度、语气等多个方面的把握和理解。在发音质量自动评测任务中,对韵律发音质量进行评测是非常必要,也是非常重要的。
近年来,深度学习,作为一种新的机器学习的方法,在人工智能各个领域都得到了广泛的应用,在这一背景下,本专利针对上述发音评测所存在的不足,提出了一种基于神经网络的多尺度融合的发音评测模型,采用基于神经网络的语音识别模型作为声学模型,并设置多个不同尺度的CNN网络对评价特征进行卷积,挖掘不同尺度的韵律信息,此外使用注意力机制模型
发明内容
本发明为解决背景技术中提出的技术问题,采用一种基于神经网络的多尺度融合的发音评测模型优化方法。
本发明的技术方案是基于神经网络的多尺度融合的发音评测模型优化方法,包括如下步骤:
步骤一,声学模型模型设计与选取:选择端到端语音识别模型作为声学模型,用来计算待评测音频的GOP分数;此外,需要设计构造发音评测训练数据集,用于后续模型的训练。
步骤二,基于神经网络的GOP分数的计算:在完成步骤一所述的语音识别模型之后,用步骤一的语音识别模型对待评测的语音进行识别,并利用神经网络的输出计算GOP分数:
Figure BDA0003724594080000021
公式(1)将神经网络输出所构造的平均帧级别的后验概率作为GOP评分;这里的P(st,Ot)是神经网络模型最后一层softmax层的输出,其中O指的是语音的观测序列,Ot是对应t时刻语音帧的观测序列,ts和te分别表示音素P的开始帧和结束帧,st是通过强制对齐后帧t的状态标签;
步骤三,多尺度卷积神经网络的构造
3)韵律相关特征的提取:提取每一帧的上述相关的韵律声学特征,并作为卷积神经网络的输入。假设待评测语音分给为N帧,且每一帧包含上述M维相关的韵律相关特征,则输入为N*M的矩阵;
4)多尺度神经网络构造,采用一维卷积来对原始的卷积特征进行分析和提取:
设置T(1,2,…,T)个不同尺度的卷积神经网络,每一个卷积网络的卷积核大小为C1*1,C2*1,…,CT*1,其中每个卷积核的个数都为M;
步骤四,基于注意力机制的多特征融合:
1)对于步骤三所学习到的T个不同尺度的韵律特征,假设这T个特征表示为S=[s1,s2,…,st],按照以下公式(2)的注意力机制,可以计算得到的最后特征表示E:
Q=Q’Wq,K=SWk,V=SWv
Figure BDA0003724594080000031
其中,Q’是神经网络随机初始化的向量,Wq,Wk,Wv是神经网络随机初始的矩阵用于对Q′和S进行线性变换,线性变换后将会得到查询向量Q,比较向量K和内容向量V,f是指对向量的维度进行缩减,dm指的是向量的维度,A指的是注意力机制的评分函数,本发明采用softmax激活作为评分函数,用来将结果固定到0-1的区间之内,随着神经网络的不断学习进行更新,最终可以实现对不同的尺度的特征进行融合;
2)将融合特征计算得到的评分scoree和GOP评分进行进一步融合,如下公式(3)所示:
scorefinal=α*scoree+(1-α)*GOP
α=sigmod(Wαst+1+bα) (3)
其中,st+1为步骤一所用的基于神经网络识别模型的softmax前的输出,Wα和bα也是在评测模型中随机初始的矩阵用来进行线性变换,α是scoree对应的权重,(1-α)则是GOP评分对应的权重,最后得到的scorefinal则是综合考虑了不同的韵律声学特征以及GOP的最终评测结果,sigmod为激活函数,用来保证α是处于0-1之间的权重值。
进一步,评测步骤:
1)接收待评测音频,通过步骤一计算得到GOP分数和识别模型softmax前的输出st+1
2)提取韵律相关特征,并经过不同尺度的CNN提取相应的深层特征;
3)通过注意力机制融合不同尺度的特征;
4)将融合特征得分和原始GOP分数融合得到最终的评分。
有益效果:
本发明的技术方案可以实现:
1)将传统的发音质量评估(GOP)算法与韵律相关的多个发音特征结合,实现了一种基于神经网络的发音评测模型。
2)考虑韵律信息的全局性和局部性,采用了不同尺度的CNN网络,对不同粒度的韵律相关的发音特征进行了挖掘。
3)采取了注意力机制模型对不同尺度的发音特征和后验概率相关的特征进行融合,实现多尺度融合的发音特征。
附图说明
图1一维卷积神经网络示意图;
图2发音评测***流程图。
具体实施方式
以下结合附图来对本发明做进一步的说明。
本发明为解决背景技术中提出的技术问题,采用一种基于神经网络的多尺度融合的发音评测模型优化方法,主要设计了以下三个方面:
1)采用基于神经网络的语音识别模型作为声学模型,并用神经网络的输出作为发音正确性的评测依据。
2)采用了不同尺度的卷积神经网络,挖掘不同尺度的韵律相关的特征,考虑了,强调、语气、重音等韵律信息。
3)采用注意力机制的方法,学习不同尺度和GOP相关特征的权重,实现融合多种信息的发音评测***。
步骤一,声学模型模型设计与选取。
1)声学模型模型设计与选取,本发明选择通用的端到端语音识别模型作为声学模型,用来计算待评测音频的GOP分数。其中,基于神经网络的端到端声学模型,需要进行预训练。
2)构造发音评测训练数据集,并拟邀请邀请3位经验丰富的英语教师,从发音准确度、流利度和完整度3个方面对这些语音的整体发音质量进行0~5打分,0分最低,5分最高,最后以3位教师打分均值为每份语音数据的人工打分。
步骤二,基于神经网络的GOP分数的计算。
在完成步骤一所述的语音识别模型之后,可以用步骤一所用的语音识别模型对待评测的语音进行识别,并利用神经网络的输出计算GOP分数:
Figure BDA0003724594080000041
公式(1)将神经网络输出所构造的平均帧级别的后验概率作为GOP评分;这里的P(st,Ot)是神经网络模型最后一层softmax层的输出,其中O指的是语音的观测序列,Ot是对应t时刻语音帧的观测序列,ts和te分别表示音素P的开始帧和结束帧,st是通过强制对齐后帧t的状态标签;
步骤三,多尺度卷积神经网络的构造。
1)韵律相关特征的提取
与韵律感知相关的三个最常用的声学特征是音高、音强和音长,以及与其对应的统计特征和动态特征,因此首先提取每一帧的上述相关的韵律声学特征,并作为卷积神经网络的输入。假设待评测语音分给为N帧,且每一帧包含上述M维相关的韵律相关特征,则输入为N*M的矩阵。
2)多尺度神经网络构造
因为不同的声学特征在不同的时间尺度上的表现特性不同,所以如果只从一个粒度对声学特征进行分析,可能会忽略某些局部信息,例如对于句子整体的句调或语调,往往需要在较长时间的窗口分析才能发现相应的统计特性和规律,而对于固定卷积核的卷积网络,却只能从一个尺度的时间窗口上来进行特征的分析,忽略了其他尺度的韵律信息。
卷积神经网络的研究起源于生物学中对视觉***的研究,1962年Hubel和Wiesel在研究猫脑视觉皮层时发现一种对视觉输入空间局部区域敏感的细胞,将其定义为“感受野”。感受野以某种方式覆盖整个视觉域,能够更好地获取图像中的局部空间相关性。因此,学者们将这一结构特性加以拓展,应用到神经网络中,用以提取输入层的局部特征。卷积神经网络包括输入层(Input Layer)、卷积层(Convolutional layer)、池化层(Poolinglayer)、全连接层(Fully-Connected Layer)以及输出层(Output Layer)等结构。在CNN中最核心的层结构是卷积层和池化,本发明采用一维卷积如下图1所示来对原始的卷积特征进行分析和提取:
本专利设置T(1,2,…,T)个不同尺度的卷积神经网络,每一个卷积网络的卷积核大小为C1*1,C2*1,…,CT*1,其中每个卷积核的个数都为M。
步骤四,基于注意力机制的多特征融合
1)对于步骤三所学习到的T个不同尺度的韵律特征,假设这T个特征表示为S=[s1,s2,…,st],采用注意力机制最后计算得到的最后特征表示E和计算过程如下公式所示:
Q=Q’Wq,K=SWk,V=SWv
Figure BDA0003724594080000061
其中,Q’是神经网络随机初始化的向量,Wq,Wk,Wv是神经网络随机初始的矩阵用于对Q′和S进行线性变换,线性变换后将会得到查询向量Q,比较向量K和内容向量V,f是指对向量的维度进行缩减,dm指的是向量的维度,A指的是注意力机制的评分函数,本发明采用softmax激活作为评分函数,用来将结果固定到0-1的区间之内,随着神经网络的不断学习进行更新,最终可以实现对不同的尺度的特征进行融合;
2)虽然可以利用融合后的特征E来计算最后的评测得分scorefinal,但是考虑到GOP评分的权威性,本专利考虑将融合特征计算得到的评分(scoree)和GOP评分进行进一步融合,如下公式所示:
scorefinal=α*scoree+(1-α)*GOP
α=sigmod(Wαst+1+bα) (3)
其中,st+1为步骤一所用的基于神经网络识别模型的softmax前的输出,Wα和bα也是在评测模型中随机初始的权重,最后得到的scorefinal则是综合考虑了不同的韵律声学特征以及GOP的最终评测结果。
评测步骤:
1)接收待评测音频,通过步骤一计算得到GOP分数和识别模型softmax前的输出st+1
2)提取韵律相关特征,并经过不同尺度的CNN提取相应的深层特征;
3)通过注意力机制融合不同尺度的特征;
4)将融合特征得分和原始GOP分数融合得到最终的评分。

Claims (2)

1.基于神经网络的多尺度融合的发音评测模型优化方法,其特征在于,包括如下步骤:
步骤一,声学模型模型设计与选取:选择端到端语音识别模型作为声学模型,用来计算待评测音频的GOP分数;此外,需要设计构造发音评测训练数据集,用于后续模型的训练;
步骤二,基于神经网络的GOP分数的计算:在完成步骤一所述的语音识别模型之后,用步骤一的语音识别模型对待评测的语音进行识别,并利用神经网络的输出计算GOP分数:
Figure FDA0003724594070000011
公式(1)将神经网络输出所构造的平均帧级别的后验概率作为GOP评分;这里的P(st,Ot)是神经网络模型最后一层softmax层的输出,其中O指的是语音的观测序列,Ot是对应t时刻语音帧的观测序列,ts和te分别表示音素P的开始帧和结束帧,st是通过强制对齐后帧t的状态标签;
步骤三,多尺度卷积神经网络的构造
1)韵律相关特征的提取:提取每一帧的上述相关的韵律声学特征,并作为卷积神经网络的输入,假设待评测语音分给为N帧,且每一帧包含上述M维相关的韵律相关特征,则输入为N*M的矩阵;
2)多尺度神经网络构造,采用一维卷积来对原始的卷积特征进行分析和提取:
设置T(1,2,…,T)个不同尺度的卷积神经网络,每一个卷积网络的卷积核大小为C1*1,C2*1,…,CT*1,其中每个卷积核的个数都为M;
步骤四,基于注意力机制的多特征融合:
1)对于步骤三所学习到的T个不同尺度的韵律特征,假设这T个特征表示为S=[s1,s2,…,st],按照以下公式(2)的注意力机制,可以计算得到的最后特征表示E:
Q=Q′Wq,K=SWk,V=SWv
Figure FDA0003724594070000012
其中,Q’是神经网络随机初始化的向量,Wq,Wk,Wv是神经网络随机初始的矩阵用于对Q′和S进行线性变换,线性变换后将会得到查询向量Q,比较向量K和内容向量V,f是指对向量的维度进行缩减,dm指的是向量的维度,A指的是注意力机制的评分函数,本发明采用softmax激活作为评分函数,用来将结果固定到0-1的区间之内,随着神经网络的不断学习进行更新,最终可以实现对不同的尺度的特征进行融合;
2)将融合特征计算得到的评分scoree和GOP评分进行进一步融合,如下公式(3)所示:
scorefinal=α*scoree+(1-α)*GOP
α=sigmod(Wαst+1+bα) (3)
其中,st+1为步骤一所用的基于神经网络识别模型的softmax前的输出,Wα和bα也是在评测模型中随机初始的矩阵用来进行线性变换,α是scoree对应的权重,(1-α)则是GOP评分对应的权重,最后得到的scorefinal则是综合考虑了不同的韵律声学特征以及GOP的最终评测结果,sigmod为激活函数,用来保证α是处于0-1之间的权重值。
2.根据权利要求1所述的优化方法,其特征在于,评测步骤:
1)接收待评测音频,通过步骤一计算得到GOP分数和识别模型softmax前的输出st+1
2)提取韵律相关特征,并经过不同尺度的CNN提取相应的深层特征;
3)通过注意力机制融合不同尺度的特征;
4)将融合特征得分和原始GOP分数融合得到最终的评分。
CN202210772121.2A 2022-06-30 2022-06-30 基于神经网络的多尺度融合的发音评测模型优化方法 Pending CN115240710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210772121.2A CN115240710A (zh) 2022-06-30 2022-06-30 基于神经网络的多尺度融合的发音评测模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210772121.2A CN115240710A (zh) 2022-06-30 2022-06-30 基于神经网络的多尺度融合的发音评测模型优化方法

Publications (1)

Publication Number Publication Date
CN115240710A true CN115240710A (zh) 2022-10-25

Family

ID=83672362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210772121.2A Pending CN115240710A (zh) 2022-06-30 2022-06-30 基于神经网络的多尺度融合的发音评测模型优化方法

Country Status (1)

Country Link
CN (1) CN115240710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798519A (zh) * 2023-02-10 2023-03-14 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798519A (zh) * 2023-02-10 2023-03-14 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及***

Similar Documents

Publication Publication Date Title
Agarwal et al. A review of tools and techniques for computer aided pronunciation training (CAPT) in English
CN105741832B (zh) 一种基于深度学习的口语评测方法和***
Saz et al. Tools and technologies for computer-aided speech and language therapy
CN108766415B (zh) 一种语音测评方法
CN110797010A (zh) 基于人工智能的问答评分方法、装置、设备及存储介质
CN109697988B (zh) 一种语音评价方法及装置
CN110598208A (zh) Ai/ml增强发音课程设计和个性化练习计划方法
CN111915940A (zh) 一种口语发音评测和教学方法、***、终端及存储介质
CN115240710A (zh) 基于神经网络的多尺度融合的发音评测模型优化方法
CN109119064A (zh) 一种适用于翻转课堂的英语口语教学***的实现方法
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
Brena et al. Automated evaluation of foreign language speaking performance with machine learning
Zhao Study on the effectiveness of the asr-based english teaching software in helping college students’ listening learning
KR102395702B1 (ko) 문장을 이루는 단위를 단계별 확장하여 스텝화한 영어 교육 서비스 제공 방법
Leppik et al. Estoñol, a computer-assisted pronunciation training tool for Spanish L1 speakers to improve the pronunciation and perception of Estonian vowels
Yang Machine learning for English teaching: a novel evaluation method
WO2012152290A1 (en) A mobile device for literacy teaching
Ungureanu et al. pROnounce: Automatic Pronunciation Assessment for Romanian
CN111179902B (zh) 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
Idushan et al. Sinhala Sign Language Learning System for Hearing Impaired Community
Li Modular design of English pronunciation proficiency evaluation system based on Speech Recognition Technology
Duan et al. An English pronunciation and intonation evaluation method based on the DTW algorithm
KR20240029172A (ko) 음소 인식 기반 증강현실 언어 재활 시스템 및 방법
KR102550406B1 (ko) 온라인 쌍방향 실시간 영어 스피킹 강의 플랫폼 서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination