CN115440193A - 一种基于深度学习的发音评测打分方法 - Google Patents
一种基于深度学习的发音评测打分方法 Download PDFInfo
- Publication number
- CN115440193A CN115440193A CN202211085643.1A CN202211085643A CN115440193A CN 115440193 A CN115440193 A CN 115440193A CN 202211085643 A CN202211085643 A CN 202211085643A CN 115440193 A CN115440193 A CN 115440193A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- phonemes
- score
- pronunciation
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000013077 scoring method Methods 0.000 title claims abstract description 14
- 238000011156 evaluation Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000007704 transition Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音评测技术领域,具体涉及一种基于深度学习的发音评测打分方法。本发明通过语音识别的模型,用它来识别出音频的真实文本结果。然后是通过HMM‑DNN模型,用它来获取音频的后验概率。最后是通过打分模型,用它来对音素进行打分。在强制对齐前,使用语音识别模型,识别出音频的正确文本,避免了在强制对齐过程中,音频与文本不一致时,无法对齐到正确位置。同时使用深度神经网络构建打分模型,可拟合后验概率、元辅音、词性、声调、发音时长等多种信息,使得音素打分更加合理,更加准确。
Description
技术领域
本发明涉及语音评测技术领域,具体涉及一种基于深度学习的发音评测打分方法,利用深度学习方法来实现发音评测过程中对音素的打分机制,使发音评测中的音素打分更加合理,更加准确。
背景技术
口语在语言教育课程中越来越受到重视,师生一对一的交流与教学是提高英语口语最有效的方式,但很难满足众多口语学***,有效提高学生的口语学***。
发音评测目前的主流方法是基于隐马尔科夫-深度神经网络(HMM-DNN)模型获取语音的后验概率,然后与评测文本进行强制对齐后,使用GOP方法进行打分。
强制对齐方法可以达到很高的准确度,但这必须要满足一个前提:给定的文本和音频必须是匹配的。如果一个用户将I am a teacher读成了I was a teacher,在处理was所对应的音频片段时,会错误地将它和am对应的音素进行比对,那么很有可能造成后续的a和teacher也无法对齐到正确的位置,从而影响打分的准确性。
发明内容
为了解决上述问题,本发明提出一种基于深度学习的语音评测打分方法。首先通过一个语音识别模型,识别出该音频的文本,然后使用识别出的文本去进行强制对齐,这样对齐的结果会更加的准确。最后通过一个深度神经网络构建的打分模型,预测音素的得分,根据音素的得分计算出单词和句子的得分。
本文提出了一种基于深度学习的发音评测打分方法,首先通过语音识别的模型,用它来识别出音频的真实文本结果。其次是通过HMM-DNN模型,用它来获取音频的后验概率。然后是使用音频的识别文本结果和音频的后验概率进行强制对齐,确定每一个音素的时间边界。最后是通过打分模型,用它来对音素进行打分。
具体的技术方案如下:
步骤一,对待评测语音提取声学特征,送入到语音识别模型中,识别出待评测语音的真实文本结果。
步骤二,将步骤一中提取的待评测语音的声学特征,送入到HMM-DNN模型中,预测出每一帧的后验概率。
步骤三,根据步骤一中识别出的文本结果和步骤二中得到的每一帧的后验概率,进行强制对齐,确定每一个音素的时间边界。
步骤四,根据步骤三得到的每一个音素的时间边界和步骤二得到的每一帧的后验概率,计算出每一个音素的后验概率的平均值,然后将该音素的后验概率的平均值和该音素的元辅音、词性、声调、发音时长等特征信息拼接在一起,送入到打分模型中,得到该音素的打分。
步骤五,根据步骤一中识别出的文本结果和参考文本,进行音素对齐,确定哪些音素是多读和漏读的。
步骤六,计算最终的得分,根据步骤五的多读和漏读情况计算出单词的得分和整个句子的得分。
有益效果
本发明通过在强制对齐前,使用语音识别模型,识别出音频的正确文本,避免了在强制对齐过程中,音频与文本不一致时,无法对齐到正确位置。同时使用深度神经网络构建打分模型,可以拟合后验概率、元辅音、词性、声调、发音时长等多种信息,使得音素打分更加合理,更加准确。
1.使用语音识别模型,识别出音频的正确文本,避免了在强制对齐过程中,音频与文本不一致时,无法对齐到正确位置。
2.使用深度神经网络构建打分模型,可以拟合后验概率、元辅音、词性、声调、发音时长等多种信息,使得音素打分更加合理,更加准确。
附图说明
图1是流程示意图。
具体实施方式
下面结合附图对本发明做进一步详细地描述。
图1是本发明基于深度学习的发音评测方法的流程示意图。如图1所示,主要包含以下几个步骤:
步骤一,对待评测语音提取声学特征,提取的声学特征可以是Fbank特征,提取Fbank特征时,采样频率是16000,窗长设置为25ms,帧移设置为10ms。提取完特征后,送入到语音识别模型中,语音识别模型可以使用wenet模型,识别出待评测语音的真实文本结果。
步骤二,将步骤一中提取的待评测语音的声学特征,如Fbank特征,送入到HMM-DNN模型中,预测出每一帧的后验概率。假设一共有m帧,n个音素,最终会生成一个m*n的后验概率矩阵。
步骤三,根据步骤一中识别出的文本结果和步骤二中得到的每一帧的后验概率,进行强制对齐,强制对齐采用贪心或者Viterbi算法进行,找出一条概率最大的路径,最终确定每一个音素的时间边界。
步骤四,根据步骤三得到的每一个音素的时间边界和步骤二得到的每一帧的后验概率,可以计算出每一个音素的后验概率的平均值。
之后需要获取每一个音素的特征信息,如元辅音、词性、声调、发音时长等特征。
1、元辅音特征,判断当前音素是否是元音还是辅音,针对音素类型的不同,元音和辅音的打分会不同,元音会更加重要。
2、词性特征,判断当前音素所在单词的词性,根据单词词性的重要性,打分结果会不同,动词、名词等实词的重要性要高于虚词。
3、音调特征,判断当前音素是否含有音调,参考文本中若标出音调信息,但音频中未读出音调,会降低最终的得分。
4、发音时长特征,计算当前音素的持续时长,并跟标准音素的发音时长做归一化处理,
若归一化后的发音时长特征较低或较高都会导致分数降低。
最后将该音素的后验概率的平均值和该音素的元辅音、词性、声调、发音时长等特征信息拼接在一起,送入到打分模型中,得到该音素的打分。
打分模型可采用DNN进行建模,使用三层深度神经网络DNN,隐藏层的维度设置为128,最后一层维度设置为1,输出最后的打分结果。
通过使用深度神经网络DNN来对音素的各种特征进行建模,拟合出一个复杂的函数来对音素进行打分,使得音素的打分更加合理和准确。
步骤五,根据步骤一中识别出的文本结果和参考文本,进行音素对齐,确定哪些音素是多读音素、漏读音素和正常音素。
对齐方法可使用计算编辑距离的方式来实现,首先将识别出的文本结果转换成对应的音素字符串列表X[1,…,n],参考文本转换成对应的音素字符串列表Y[1,…,m],定义距离D(i,j)为X[1,…,i]和Y[1,…,j]的距离,那么X和Y的编辑距离就是D(n,m)。使用动态规划的方法进行求解,状态转移方程为:
D(i,0)=i
D(0,j)=j
其中,insert表示多读音素,delete表示漏读音素,norm表示正常音素。
通过记录每个子结果是由哪个子问题解得的,可以对结果进行回溯,最后可以得到两个字符串的对齐结果。
步骤六,计算最终的得分,根据步骤五的多读和漏读情况计算出单词的得分和整个句子的得分。
单词的得分与单词内所有正常音素的得分和多读漏读比例有关。句子的得分不仅与句子内所有正常音素的得分和多读漏读比例有关,同时与单词的持续帧数和单词间静音帧数有关,单词间静音帧数只计算大于正常停顿时间的静音帧数。
计算单词的得分,可采用以下公式:
其中,scorenorm_phone表示单词内正常音素的得分,n表示参考文本中所有音素的个数,norncnt表示正常音素的个数,inscnt表示多读音素的个数,delcnt表示漏读音素的个数。
计算句子的得分,可采用以下公式:
其中,scorenorm_phone表示句子内正常音素的得分,n表示参考文本中所有音素的个数,norncnt表示正常音素的个数,inscnt表示多读音素的个数,delcnt表示漏读音素的个数。frameword表示所有单词所占的帧数,framesil表示单词之间的静音帧数。
Claims (8)
1.一种基于深度学习的发音评测打分方法,其特征在于,包括如下步骤:
首先通过语音识别的模型识别出音频的真实文本结果;
其次是通过HMM-DNN模型获取音频的后验概率;
然后是使用音频的识别文本结果和音频的后验概率进行强制对齐,确定每一个音素的时间边界;
最后是通过一个打分模型对音素进行打分;
具体如下:
步骤一,对待评测语音提取声学特征,送入到语音识别模型中,识别出待评测语音的真实文本结果;
步骤二,将步骤一中提取的待评测语音的声学特征,送入到HMM-DNN模型中,预测出每一帧的后验概率;
步骤三,根据步骤一中识别出的文本结果和步骤二中得到的每一帧的后验概率,进行强制对齐,确定每一个音素的时间边界;
步骤四,根据步骤三得到的每一个音素的时间边界和步骤二得到的每一帧的后验概率,计算出每一个音素的后验概率的平均值,然后将该音素的后验概率的平均值和该音素的元辅音、词性、声调、发音时长特征信息拼接在一起,送入到打分模型中,得到该音素的打分;
步骤五,根据步骤一中识别出的文本结果和参考文本,进行音素对齐,确定哪些音素是多读和漏读的;
步骤六,计算最终的得分,根据步骤五的多读和漏读情况计算出单词的得分和整个句子的得分。
2.根据权利要求1所述的一种基于深度学习的发音评测打分方法,其特征在于,步骤一提取的声学特征为Fbank特征。
3.根据权利要求1所述的一种基于深度学习的发音评测打分方法,其特征在于,步骤一语音识别模型使用wenet模型。
4.根据权利要求1所述的一种基于深度学习的发音评测打分方法,其特征在于,步骤三进行强制对齐使用的是步骤一识别出的文本结果。
5.根据权利要求1所述的一种基于深度学习的发音评测打分方法,其特征在于,步骤三采用贪心或者Viterbi算法进行,找出一条概率最大的路径,最终确定每一个音素的时间边界。
6.根据权利要求1所述的一种基于深度学***均值和该音素的元辅音、词性、声调、发音时长特征。
8.根据权利要求1所述的一种基于深度学习的发音评测打分方法,其特征在于,计算单词的得分,采用以下公式:
其中,scorenorm_phone表示单词内正常音素的得分,n表示参考文本中所有音素的个数,norncnt表示正常音素的个数,inscnt表示多读音素的个数,delcnt表示漏读音素的个数;
计算句子的得分,可采用以下公式:
其中,scorenorm_phone表示句子内正常音素的得分,n表示参考文本中所有音素的个数,norncnt表示正常音素的个数,inscnt表示多读音素的个数,delcnt表示漏读音素的个数,frameword表示所有单词所占的帧数,framesil表示单词之间的静音帧数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211085643.1A CN115440193A (zh) | 2022-09-06 | 2022-09-06 | 一种基于深度学习的发音评测打分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211085643.1A CN115440193A (zh) | 2022-09-06 | 2022-09-06 | 一种基于深度学习的发音评测打分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115440193A true CN115440193A (zh) | 2022-12-06 |
Family
ID=84247794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211085643.1A Pending CN115440193A (zh) | 2022-09-06 | 2022-09-06 | 一种基于深度学习的发音评测打分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115440193A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403604A (zh) * | 2023-06-07 | 2023-07-07 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和*** |
-
2022
- 2022-09-06 CN CN202211085643.1A patent/CN115440193A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403604A (zh) * | 2023-06-07 | 2023-07-07 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和*** |
CN116403604B (zh) * | 2023-06-07 | 2023-11-03 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112397091B (zh) | 中文语音综合评分及诊断***和方法 | |
US7266495B1 (en) | Method and system for learning linguistically valid word pronunciations from acoustic data | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
CN101551947A (zh) | 辅助口语语言学习的计算机*** | |
US20090258333A1 (en) | Spoken language learning systems | |
CN111862954B (zh) | 一种语音识别模型的获取方法及装置 | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
Gao et al. | A study on robust detection of pronunciation erroneous tendency based on deep neural network. | |
US7280963B1 (en) | Method for learning linguistically valid word pronunciations from acoustic data | |
US11935523B2 (en) | Detection of correctness of pronunciation | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
Lee | Language-independent methods for computer-assisted pronunciation training | |
KR20090060631A (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
Ibrahim et al. | Improve design for automated Tajweed checking rules engine of Quranic verse recitation: a review | |
CN115440193A (zh) | 一种基于深度学习的发音评测打分方法 | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Luo et al. | Automatic pronunciation evaluation of language learners' utterances generated through shadowing. | |
CN111508522A (zh) | 一种语句分析处理方法及*** | |
JP2006084966A (ja) | 発話音声の自動評定装置およびコンピュータプログラム | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models | |
CN111429886B (zh) | 一种语音识别方法及*** | |
Mote et al. | Tactical language detection and modeling of learner speech errors: The case of Arabic tactical language training for American English speakers | |
JPH08123470A (ja) | 音声認識装置 | |
Tamgno et al. | Wolof speech recognition model of digits and limited-vocabulary based on hmm and toolkit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |