CN114203158A - 一种儿童中文口语评测和检错纠错方法及装置 - Google Patents
一种儿童中文口语评测和检错纠错方法及装置 Download PDFInfo
- Publication number
- CN114203158A CN114203158A CN202111526653.XA CN202111526653A CN114203158A CN 114203158 A CN114203158 A CN 114203158A CN 202111526653 A CN202111526653 A CN 202111526653A CN 114203158 A CN114203158 A CN 114203158A
- Authority
- CN
- China
- Prior art keywords
- child
- pronunciation
- acoustic
- acoustic model
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 title claims description 29
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000001419 dependent effect Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种儿童中文口语评测和检错纠错方法及装置,上述儿童中文口语评测和检错纠错方法包括如下步骤:获取训练声学模型的音频和参考文本,训练儿童声学模型;将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;获取参考文本音素的id特征向量;拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误;将SVM分类器预测结果为读错的音素进行纠正,本发明通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界,缩短了解码时间;同时使用SVM分类器进行检错和纠错,而非音素级的解码,便于增加新的音素,扩展性好,训练速度快,提高了检错纠错的准确率。
Description
技术领域
本发明涉及口语评测和纠错领域,尤其涉及一种儿童中文口语评测和检错纠错方法及装置。
背景技术
为了满足儿童对中文口语学***板电脑和笔记本电脑的普及,越来越多的语言学习者喜欢使用CALL进行语言学习。然而,作为CALL不可或缺的一部分,计算机辅助发音训练(CAPT)旨在评估学习者的发音质量,并高精度地检测或识别发音错误,缺陷,进而纠正发音。
但是目前的计算机辅助发音训练的检错速度较慢,同时纠错率较低,并且无法提供纠错语音,从而无法满足实际的使用需求。
发明内容
本发明目的是为了克服现有技术的不足而提供一种能缩短解码时间,利用SVM分类器进行检错和纠错,扩展性好,训练速度快,提高了检错纠错的准确率,并能提供纠错语音的儿童中文口语评测和检错纠错方法及装置。
为达到上述目的,本发明采用的技术方案是:一种儿童中文口语评测和检错纠错方法及装置,包括如下步骤:
获取训练声学模型的音频和参考文本,训练儿童声学模型;
将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;
获取参考文本音素的id特征向量;
拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误;
将SVM分类器预测结果为读错的音素进行纠正。
进一步的,将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下:
使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围;
提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。
进一步的,初始化一个n维n列的单位正交矩阵,其中n为评测音素的总个数,每个音素由一个n维向量表示,称为id特征向量。
进一步的,将发音检测结果为错误的音素进行纠错的步骤如下:将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。
进一步的,还包括一打分步骤,用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分。
一种儿童中文口语评测和检错纠错装置,包括:
训练模块,用于获取训练声学模型的音频和参考文本,训练儿童声学模型;
提取模块,用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;
获取模块,用于获取参考文本音素的id特征向量;
评估模块,用于拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误;
纠错模块,用于将SVM分类器预测结果为读错的音素进行纠正。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明方案的儿童中文口语评测和检错纠错方法及装置,儿童中文口语评测和检错纠错方法及装置,通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界,缩短了解码时间;同时使用SVM分类器进行检错和纠错,而非音素级的解码,便于增加新的音素,扩展性好,而且训练速度快,不需要人工标注大量的数据,并且提高了检错纠错的准确率。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为本发明中儿童中文口语评测和检错纠错方法的流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。
请参阅附图1,本发明实施例提供的一种儿童中文口语评测和检错纠错方法,包括如下步骤:S1获取训练声学模型的音频和参考文本,训练儿童声学模型;S2将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;S3获取参考文本音素的id特征向量;S4拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误;S5将SVM分类器预测结果为读错的音素进行纠正。
其中,本发明的儿童中文口语评测和检错纠错方法只的适用于单字音频。
具体的,在步骤S1中,儿童声学模型是在评测之前训练好的,在评测任务中是作为一个模型使用的,训练声学模型需要用到大量的音频和对应的发音标注,这里使用了1150h的儿童音频,本文中儿童的发音音频是用于评测的音频。
在步骤S2中,将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下:S20使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围;S21提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。
在步骤S3中,初始化一个n维n列的单位正交矩阵,其中n为评测音素的总个数,每个音素由一个n维向量表示,称为id特征。
具体的,在步骤S4中,将声学特征与参考文本对应音素的id特征向量拼接作为自变量,儿童读对(lab=1)和读错(lab=0)为因变量,训练SVM分类器,其中,SVM分类器的模型训练时的因变量由人工标注获取,通过对该SVM分类器进行训练得到一个预测发音准确度的SVM分类器模型,从而可以对儿童发音进行检测,将预测结果的概率值映射为百分制得分,用于评估发音质量。
在步骤S5中,将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。
具体的,当SVM分类器认定发音检测结果为错误时,将其对应的声学特征和所有的id特征拼接,放入到分SVM分类器进行判别,并选取后验概率超过预设阈值且概率最高的音素作为纠错音素发出。
另外,本发明还包括一打分步骤,用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分
发明还提供了一种儿童中文口语评测和检错纠错装置,训练模块、提取模块、获取模块、评估模块和纠错模块,训练模块用于获取训练声学模型的音频和参考文本,训练儿童声学模型;提取模块用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;获取模块用于获取参考文本音素的id特征向量;评估模块用于拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误;纠错模块用于将SVM分类器预测结果为读错的音素进行纠正。
本发明的儿童中文口语评测和检错纠错方法及装置,通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界,缩短了解码时间;同时使用SVM分类器进行检错和纠错,而非音素级的解码,便于增加新的音素,扩展性好,而且训练速度快,不需要人工标注大量的数据,并且提高了检错纠错的准确率。
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。
Claims (6)
1.一种儿童中文口语评测和检错纠错方法及装置,其特征在于,包括如下步骤:
获取训练声学模型的音频和参考文本,训练儿童声学模型;
将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;
获取参考文本音素的id特征向量;
拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误;
将SVM分类器预测结果为读错的音素进行纠正。
2.如权利要求1所述的儿童中文口语评测和检错纠错方法,其特征在于,将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下:
使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围;
提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。
3.如权利要求1所述的儿童中文口语评测和检错纠错方法,其特征在于:初始化一个n维n列的单位正交矩阵,其中n为评测音素的总个数,每个音素由一个n维向量表示,称为id特征向量。
4.如权利要求4所述的儿童中文口语评测和检错纠错方法,其特征在于,将发音检测结果为错误的音素进行纠错的步骤如下:将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。
5.如权利要求1所述的儿童中文口语评测和检错纠错方法,其特征在于:还包括一打分步骤,用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分。
6.一种儿童中文口语评测和检错纠错装置,其特征在于,包括:
训练模块,用于获取训练声学模型的音频和参考文本,训练儿童声学模型;
提取模块,用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;
获取模块,用于获取参考文本音素的id特征向量;
评估模块,用于拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误;
纠错模块,用于将SVM分类器预测结果为读错的音素进行纠正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526653.XA CN114203158A (zh) | 2021-12-14 | 2021-12-14 | 一种儿童中文口语评测和检错纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526653.XA CN114203158A (zh) | 2021-12-14 | 2021-12-14 | 一种儿童中文口语评测和检错纠错方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114203158A true CN114203158A (zh) | 2022-03-18 |
Family
ID=80653603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111526653.XA Pending CN114203158A (zh) | 2021-12-14 | 2021-12-14 | 一种儿童中文口语评测和检错纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114203158A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858776A (zh) * | 2022-10-31 | 2023-03-28 | 北京数美时代科技有限公司 | 一种变体文本分类识别方法、***、存储介质和电子设备 |
-
2021
- 2021-12-14 CN CN202111526653.XA patent/CN114203158A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858776A (zh) * | 2022-10-31 | 2023-03-28 | 北京数美时代科技有限公司 | 一种变体文本分类识别方法、***、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10395656B2 (en) | Method and device for processing speech instruction | |
CN110782921B (zh) | 语音测评方法和装置、存储介质及电子装置 | |
JP4778008B2 (ja) | 混同音の生成および検知の方法およびシステム | |
CN110276077A (zh) | 中文纠错的方法、装置及设备 | |
CN111310447B (zh) | 语法纠错方法、装置、电子设备和存储介质 | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN103761975A (zh) | 一种口语评测方法及装置 | |
CN110555096A (zh) | 用户意图识别方法、***、终端及介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN110826301B (zh) | 标点符号添加方法、***、移动终端及存储介质 | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
CN114203158A (zh) | 一种儿童中文口语评测和检错纠错方法及装置 | |
CN114386399A (zh) | 一种文本纠错方法及装置 | |
CN110046354B (zh) | 诵读引导方法、装置、设备及存储介质 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN112528628A (zh) | 一种文本处理的方法、装置及电子设备 | |
CN116704508A (zh) | 信息处理方法及装置 | |
KR20180062859A (ko) | 음성 인식 장치 및 방법 | |
CN113053414A (zh) | 一种发音评测方法及装置 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
CN115358219A (zh) | 一种融合无监督学习和自监督学习的中文拼写纠错方法 | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
CN115099222A (zh) | 标点符号误用检测纠正方法、装置、设备及存储介质 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |