CN112397056A - 语音评测方法及计算机存储介质 - Google Patents
语音评测方法及计算机存储介质 Download PDFInfo
- Publication number
- CN112397056A CN112397056A CN202110072627.8A CN202110072627A CN112397056A CN 112397056 A CN112397056 A CN 112397056A CN 202110072627 A CN202110072627 A CN 202110072627A CN 112397056 A CN112397056 A CN 112397056A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- phoneme
- speech
- word
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 176
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供一种语音评测方法及计算机存储介质。其中,所述方法包括:确定用于对待评测的语音数据进行语音评测的参考文本;若检测到参考文本中的词语具有自定义的发音标注,则对词语的自定义的发音标注进行转换,以获得词语的发音音素;若检测到词语不具有自定义的发音标注,则根据词语,对预先配置的发音字典进行检索,以检索出词语的发音音素;若在发音字典中未检索到词语,则对词语进行虚拟发音,以获得词语的发音音素;根据词语的发音音素构成的参考文本的发音音素序列,对待评测的语音数据进行语音评测,以获得待评测的语音数据的语音评测结果。通过本发明实施例,能够简便灵活地满足语音评测业务中个性化的评测发音需求。
Description
技术领域
本发明实施例涉及语音技术领域,尤其涉及一种语音评测方法及计算机存储介质。
背景技术
在线教学越来越普及,为了更好地提升在线教学过程中的互动体验和教学效果,语音技术参与到在线教学的互动环节中。尤其是在线上语言教学中,口语发音是教学中的核心环节之一,课上的口语发音学习、课后的口语发音练习,均需要大量的口语发音评测作为学习效果的反馈。此外,随着在线教学的学生群体的低龄化,对于尚未掌握足够词汇量的儿童群体,越来越多的交互更加倾向于语音方式,比如,语音答题等。
无论是口语发音评测还是语音答题,均需要用到语音评测技术。通常在用户进行语音评测时,语音评测***先默认进行***的初始化,具体地,语音评测***加载原始的输入资源文件,如发音字典、声学模型等。然后,语音评测***加载用户输入的用于语音评测的参考文本,并根据发音字典和参考文本,对用户的语音进行评测,得到用户的语音的评测结果。
然而,在实际的教学评测活动中,不同的语音评测业务,可能会产生更加个性化的评测发音需求,从而导致语音评测***在初始化阶段加载的发音字典可能出现两种特殊的情况。一种情况是发音字典中不存在参考文本中的词语,另一种情况是虽然发音字典中存在参考文本中的词语,但是用户要求个性化的词语发音,因此,发音字典无法满足语音评测业务中个性化的评测发音需求。
在现有技术中,主要的解决方案是将要求个性化词语发音的词语的发音添加到发音字典中,但是需要人工将要求个性化词语发音的词语的发音添加到发音字典中。具体地,对语音评测***加载的原始资源包进行解压,得到发音字典,然后,将要求个性化词语发音的词语的发音添加到发音字典中,再对添加发音后的发音字典重新打包封装,给到语音评测***。最后,通过添加发音后的发音字典,对用户的语音进行评测,整个过程非常繁琐且不灵活。
由此可见,如何简便灵活地满足语音评测业务中个性化的评测发音需求成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种语音评测方法及计算机存储介质,用以解决上述技术问题至少之一。
本发明实施例提供一种语音评测方法,所述方法包括:确定用于对待评测的语音数据进行语音评测的参考文本;若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素;若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素;若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素;根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。
本发明实施例还提供一种计算机可读介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于确定用于对待评测的语音数据进行语音评测的参考文本的指令;用于若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素的指令;用于若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素的指令;用于若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素的指令;用于根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令。
根据本发明实施例提供的语音评测方案,确定用于对待评测的语音数据进行语音评测的参考文本;若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素,若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素,根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,与现有的其它方式相比,首先检测参考文本中的词语是否具有根据个性化的评测发音需求自定义的发音标注,若具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若不具有自定义的发音标注,则结合发音字典和虚拟发音,获得参考文本中的词语的发音音素,因此,能够简便灵活地满足语音评测业务中个性化的评测发音需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例一的一种语音评测方法的步骤流程图;
图2示出了根据本发明实施例二的一种语音评测方法的步骤流程图;
图3示出了根据本发明实施例二的一种语音评测方法的示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例一的一种语音评测方法的步骤流程图。本发明实施例提供的一种语音评测方法包括以下步骤:
在步骤S101中,确定用于对待评测的语音数据进行语音评测的参考文本。
在本实施例中,所述待评测的语音数据可理解为用户对照所述参考文本发音形成的语音数据。所述参考文本可为汉语文本、英文文本、法语文本、德语文本、西班牙语文本等。所述参考文本中的词语可为英语单词、汉语词语、法语单词、德语单词、西班牙语单词等。所述自定义的发音标注可理解为根据个性化的评测发音需求自定义的发音标注。所述自定义的发音标注可为英语、法语、德语、西班牙语等的音标,还可为汉语的拼音。所述发音音素是提据语音的自然属性划分出来的最小语音单位。从声学性质来看,发音音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个发音音素。例如,英语的发音音素可以分为元音和辅音两大类。英语包括48个发音音素,其中包括/i:/、/I/和/e/等20个元音音素,以及/p/、/t/、/k/、和/f/等28个辅音音素。又例如,汉语拼音中的“a o e b p m”等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在确定用于对待评测的语音数据进行语音评测的参考文本时,可通过电子设备中的语音评测***,生成用于对所述待评测的语音数据进行语音评测的参考文本;或者,可通过电子设备中的语音评测***,接收输入的用于对所述待评测的语音数据进行语音评测的参考文本。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S102中,若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素。
在一个具体的例子中,可通过检测所述参考文本中的词语是否具有自定义选项,来确定所述参考文本中的词语是否具有自定义的发音标注。若检测到所述参考文本中的词语具有自定义选项,则确定所述参考文本中的词语具有自定义的发音标注。若检测到所述参考文本中的词语不具有自定义选项,则确定所述参考文本中的词语不具有自定义的发音标注。若确定所述参考文本中的词语具有自定义的发音标注,则根据所述参考文本所属的语音对应的发音音素,对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素。例如,英语单词“aunt”的英式发音的音标为“[ɑːnt]”,英语单词“aunt”的美式发音的音标为“[ænt]”,音标转换之后获得的发音音素为“AE N T”,如果用户对英语单词“aunt”的个性化评测发音需求为自定义的音标“[ɒnt]”,自定义的音标转换之后获得的发音音素为“AO N T”。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S103中,若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素。
在本实施例中,所述发音字典可理解为描述词语和其发音标注之间的对应关系的集合,根据字典中记录的发音标注可确定每个词语的发音,例如,汉字“我”对应的发音标注为[wǒ],从而可以得到汉字“我”对应的发音音素为“w”和“o”。又例如,英语单词“good”对应的发音音标为/gud/,从而可以得到英语单词“good”对应的发音音素为“/g/”、“/u/”和“/d/”等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S104中,若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素。
在本实施例中,所述虚拟发音可理解为在所述发音字典中不存在所述参考文本中的词语,并且未自定义所述参考文本中的词语的发音的情况下,语音评测***对所述参考文本中的词语进行虚拟的发音。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在对所述词语进行虚拟发音时,根据预先配置的词语与发音音素的映射关系,对所述词语进行虚拟发音,以获得所述词语的发音音素。籍此,通过预先配置的词语与发音音素的映射关系,能够准确地对所述词语进行虚拟发音。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,可以根据预先配置的单词中的字母与发音音素的映射关系,对所述单词进行虚拟发音,以获得所述单词的发音音素。此外,还可以根据预先配置的汉语词语中的汉字与发音音素的映射关系,对所述汉语词语进行虚拟发音,以获得所述汉语词语的发音音素。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S105中,根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。
在本实施例中,根据所述词语在所述参考文本中的位置顺序,对所述词语的发音音素进行排序,可获得所述词语的发音音素构成的所述参考文本的发音音素序列。然后,可以根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述词语的发音音素构成的所述参考文本的发音音素序列,对待评测的语音数据进行语音评测时,获取所述发音音素序列中的发音音素对应的隐马尔科夫模型,其中,所述隐马尔科夫模型为针对所述发音音素序列中的发音音素预先训练好的隐马尔科夫模型;根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。籍此,通过所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,能够准确地获得所述待评测的语音数据的语音评测结果。其中,针对所述发音音素序列中的发音音素预先训练好的隐马尔科夫模型可理解为针对所述发音音素序列中的发音音素且模型参数已知的隐马尔科夫模型,所述模型参数可包括隐马尔科夫模型中的状态转移概率和每个状态下的观测概率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述隐马尔科夫模型标注有对应的所述发音音素序列中的发音音素的标识。在获取所述发音音素序列中的发音音素对应的隐马尔科夫模型时,根据预先配置的单音素字典,对所述发音音素序列中的发音音素进行映射,以获得所述发音音素序列中的发音音素的标识;根据所述发音音素序列中的发音音素的标识,获得所述发音音素序列中的发音音素对应的隐马尔科夫模型。籍此,通过所述参考文本的所述发音音素序列中的发音音素的标识,能够准确地获得所述发音音素序列中的发音音素对应的隐马尔科夫模型。其中,所述单音素字典可理解为描述发音音素和其标识之间的对应关系的集合。所述发音音素的标识可为所述发音音素的编号或者序列号等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果时,对所述发音音素序列中的发音音素对应的隐马尔科夫模型进行串联,以获得所述参考文本对应的隐马尔科夫模型;根据所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。籍此,通过对所述发音音素序列中的发音音素对应的隐马尔科夫模型进行串联,能够准确地获得所述参考文本对应的隐马尔科夫模型。此外,通过所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,能够准确地获得所述待评测的语音数据的语音评测结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测时,对所述待评测的语音数据中的语音数据帧进行声学特征提取,以获得所述语音数据帧的声学特征数据;根据所述语音数据帧的声学特征数据和所述参考文本对应的隐马尔科夫模型,确定所述发音音素序列中的发音音素对应的所述语音数据帧;对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果。籍此,通过对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,能够准确地获得所述待评测的语音数据的语音评测结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,声学特征数据为可以区分语音的有效信息,例如时域分辨率、或者频域分辨率等。具体地,声学特征数据可以包括梅尔频率倒谱系数(MFCC,MelFrequency Cepstral Coefficient)、或者线性预测倒谱系数(LPCC,Linear PredictionCepstral Coefficient)等。其中,MFCC特征是基于人耳特性提取出来的声学特征,MFCC特征与频率成非线性对应关系,基于该非线性对应关系,可以计算得到语音数据的频谱特征。形成声学特征序列可以有多种方法。以提取梅尔频率倒普系数(MFCC,Mel FrequencyCepstral Coefficient)作为声学特征为例,提取待评测的语音数据的MFCC特征序列的步骤可以包括:采用预加重(Pre-emphasis)技术平衡待评测的语音数据的高低频分量;对待评测的语音数据进行采样,将待评测的语音数据划分为多个语音数据帧;将每个语音数据帧乘以汉明窗,以增加语音数据帧左端和右端的连续性并将语音数据帧的时域信号通过离散傅里叶变换(DFT,Discrete Fourier Transform)转换到频域信号;使用梅尔滤波器将频域信号进行平滑化处理并消除谐波的作用;将经过梅尔滤波器滤波后的频域信号的M个能量值取对数之后,生成M维的特征向量;再对M维的特征向量做离散余弦变换(DCT,DiscreteCosine Transform),得到每个语音数据帧的MFCC特征;根据待评测的语音数据的所有语音数据帧的MFCC特征,形成待评测的语音数据的MFCC特征序列,即声学特征序列。需要说明的是,本实施例中也可以采用其它声学特征,例如线性预测倒谱系数(LPCC,LinearPrediction Cepstral Coefficient)等等,提取其它声学特征的方法可采用本领域的通用方法,在此就不再赘述。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,通常认为每个发音音素的发音过程是由发声器官的形变产生的,发声器官的每种形状对应隐马尔科夫模型的一个隐含状态(一般采用3~5个隐含状态建模),发声器官在每种形状(隐含状态)下,会以一定概率产生具体的声音(声学特征)。虽然我们无法直接观测到发声器官的形状(隐含状态),但我们能够看到具体的声学特征(观测值)。因此,当发音音素对应的隐马尔科夫模型的模型参数已知时(即线下针对发音音素预先训练好隐马尔科夫模型),就可以根据声学特征序列来计算最可能的音素状态序列。此外,发音音素对应的隐马尔科夫模型可以串联(由其模型特点决定,在此不详细解释),即当前发音音素的结束状态可以跳转到下一个发音音素的起始状态,因此,我们可以将一个已知音素序列(例如Hello World[hɛlowɝld])中8个发音音素的隐马尔科夫模型串联起来形成一个大的隐马尔科夫模型,这个大的隐马尔科夫模型就描述了“Hello World”整句话的发音过程。根据观测到的整个声学特征序列和这个隐马尔科夫模型的模型参数,我们就可以计算在“Hello World”这个隐马尔科夫模型下当前语音数据最可能的音素状态序列,即每一语音数据帧属于哪个发音音素。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述语音数据帧的声学特征数据和所述参考文本对应的隐马尔科夫模型,确定所述发音音素序列中的发音音素对应的所述语音数据帧时,通过声学模型,对所述语音数据帧的声学特征数据进行识别,以获得所述语音数据帧被识别为任一发音音素的条件概率;通过解码器,根据所述语音数据帧被识别为任一发音音素的条件概率和所述参考文本对应的隐马尔科夫模型进行路径搜索,以获得所述发音音素序列中的发音音素对应的所述语音数据帧。籍此,根据所述语音数据帧被识别为任一发音音素的条件概率和所述参考文本对应的隐马尔科夫模型进行路径搜索,能够准确地获得所述发音音素序列中的发音音素对应的所述语音数据帧。其中,所述声学模型可理解为将语音的声学特征分类对应到音素的模型,例如,DNN(Deep Neural Network,深度神经网络)-HMM(Hidden Markov Model,隐马尔科夫)模型,CNN(卷积神经网络,Convolutional NeuralNetworks) +LSTM(Long Short-Term Memory,长短期记忆网络)。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,将待评测的语音数据的语音数据帧的声学特征数据输入声学模型,得到条件概率矩阵,条件概率矩阵描述了各个语音数据帧被识别为任一发音音素的条件概率,其中,针对一个语音数据帧,条件概率矩阵给出了该语音数据帧与多个发音音素之间的条件概率,例如,可包括一个语音数据帧被识别为[g]的条件概率和一个语音数据帧被识别为[s]的条件概率,然后,将条件概率矩阵输入解码器,解码器采用维特比算法进行路径搜索,将所述参考文本对应的隐马尔科夫模型作为路径搜索时的限制条件,得到参考文本对应的发音音素序列中的每个发音音素对应的语音数据帧,一般一个发音音素对应待评测的语音数据中的多个连续的语音数据帧。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测时,根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度;根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,确定所述待评测的语音数据的发音准确度。籍此,通过所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,能够准确地确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度。进而,可通过所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,能够准确地确定所述待评测的语音数据的发音准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,可通过以下公式计算所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度:
其中,p为所述发音音素序列中的发音音素,P(p|o)为所述发音音素序列中的发音音素p对应的所述语音数据帧被识别为所述发音音素序列中的发音音素p的条件概率,NF(p)为所述发音音素序列中的发音音素p对应的所述语音数据帧的数量,o为所述发音音素序列中的发音音素p对应的所述语音数据帧,GOP为所述发音音素序列中的发音音素p对应的所述语音数据帧的发音准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,确定所述待评测的语音数据的发音准确度时,计算所述发音音素序列中的所有发音音素对应的所述语音数据帧的发音准确度的平均值;确定所述平均值为所述待评测的语音数据的发音准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测时,根据所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长和所述发音音素序列中的发音音素对应的标准发音时长,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度;根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,确定所述待评测的语音数据的发音流利度。其中,所述发音音素序列中的发音音素对应的标准发音时长是预先配置的或者预先计算得到的。籍此,通过所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长和所述发音音素序列中的发音音素对应的标准发音时长,能够准确地确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度。进而,可通过所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,能够准确地确定所述待评测的语音数据的发音流利度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,可通过以下公式计算所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度:
其中,T0为所述发音音素序列中的发音音素对应的标准发音时长,T为所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长,F为所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长越接近所述发音音素序列中的发音音素对应的标准发音时长,则说明用户在读所述发音音素序列中的发音音素时的流利度越高。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,实际发音时长可根据所述发音音素序列中的发音音素对应的语音数据帧的数量以及一帧语音数据帧的时长确定。例如,所述发音音素序列中的发音音素[g]对应30帧语音数据帧,每一帧语音数据帧的时长为20ms,则所述发音音素序列中的发音音素[g]对应的语音数据帧的实际发音时长为600ms,假设所述发音音素序列中的发音音素[g]的标准发音时长为400ms,则所述发音音素序列中的发音音素[g]对应的语音数据帧的流利度为0.667。又例如,所述发音音素序列中的发音音素[i:]对应30帧语音数据帧,每一帧语音数据帧的时长为20ms,则所述发音音素序列中的发音音素[i:]对应的语音数据帧的实际发音时长为600ms,假设所述发音音素序列中的发音音素[i:]的标准发音时长为1000ms,则所述发音音素序列中的发音音素[i:]对应的语音数据帧的流利度为0.6。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,确定所述待评测的语音数据的发音流利度时,计算所述发音音素序列中的所有发音音素对应的所述语音数据帧的发音流利度的平均值;确定所述平均值为所述待评测的语音数据的发音流利度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测时,根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中被发音的发音音素的数量;根据所述发音音素序列中被发音的发音音素的数量和所述发音音素序列中的发音音素的数量,确定所述待评测的语音数据的发音完整度。籍此,通过所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,能够准确地确定所述发音音素序列中被发音的发音音素的数量。进而,可通过所述发音音素序列中被发音的发音音素的数量,能够准确地确定所述待评测的语音数据的发音完整度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在确定所述发音音素序列中被发音的发音音素的数量时,将所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率与预设的条件概率阈值进行比较,获得比较结果;若根据所述比较结果确定所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率大于或者等于预设的条件概率阈值,则确定所述发音音素序列中的发音音素被发音,进而可确定所述发音音素序列中被发音的发音音素的数量。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在确定所述待评测的语音数据的发音完整度时,将所述发音音素序列中被发音的发音音素的数量除以所述发音音素序列中的发音音素的数量,以获得所述待评测的语音数据的发音完整度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测之后,所述方法还包括:对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音识别,以获得所述语音数据帧的实际发音音素;若所述语音数据帧的实际发音音素与所述语音数据帧对应的发音音素不相同,则输出所述语音数据帧对应的发音音素的发音错误信息和所述语音数据帧的实际发音音素。籍此,在所述语音数据帧的实际发音音素与所述语音数据帧对应的发音音素不相同时,输出所述语音数据帧对应的发音音素的发音错误信息和所述语音数据帧的实际发音音素,能够向用户展示所述语音数据帧对应的发音音素的发音错误信息和所述语音数据帧的实际发音音素,从而帮助用户逐步提高发音水平。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在没有任何关于发音音素的限制条件下,可通过隐马尔科夫模型,直接对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音识别,获得所述语音数据帧的实际发音音素。也就是说,从所有音素列表中选出了最符合用户发音的发音音素。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
根据本发明实施例提供的语音评测方法,确定用于对待评测的语音数据进行语音评测的参考文本;若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素,若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素,根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,与现有的其它方式相比,首先检测参考文本中的词语是否具有根据个性化的评测发音需求自定义的发音标注,若具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若不具有自定义的发音标注,则结合发音字典和虚拟发音,获得参考文本中的词语的发音音素,因此,能够简便灵活地满足语音评测业务中个性化的评测发音需求。
本实施例提供的语音评测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例二
参照图2,示出了根据本发明实施例二的一种语音评测方法的步骤流程图。本发明实施例提供的一种语音评测方法包括以下步骤:
在步骤S201中,确定用于对待评测的语音数据进行语音评测的参考文本。
由于该步骤S201的具体实施方式与上述实施例一中的步骤S101的具体实施方式类似,在此不再赘述。
在步骤S202中,若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素。
由于该步骤S202的具体实施方式与上述实施例一中的步骤S102的具体实施方式类似,在此不再赘述。
在步骤S203中,若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素。
由于该步骤S203的具体实施方式与上述实施例一中的步骤S103的具体实施方式类似,在此不再赘述。
在步骤S204中,若在所述发音字典中未检索到所述词语,则通过虚拟发音模型,对所述词语进行虚拟发音,以获得所述词语的发音音素。
在本实施例中,所述虚拟发音模型可为用于虚拟发音的循环神经网络或者长短时记忆网络等。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在通过虚拟发音模型,对所述词语进行虚拟发音之前,所述方法还包括:根据词语样本的发音音素标注数据,对待训练的所述虚拟发音模型进行训练,以获得训练后的所述虚拟发音模型。籍此,通过训练后的所述虚拟发音模型,对所述词语进行虚拟发音,能够准确地对所述词语进行虚拟发音。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在根据词语样本的发音音素标注数据,对待训练的所述虚拟发音模型进行训练时,通过待训练的所述虚拟发音模型,对所述词语样本进行虚拟发音,以获得所述词语样本的发音音素检测数据;根据所述词语样本的发音音素检测数据和发音音素标注数据,对待训练的所述虚拟发音模型进行训练,以获得训练后的所述虚拟发音模型。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在根据所述词语样本的发音音素检测数据和发音音素标注数据,对待训练的所述虚拟发音模型进行训练时,通过目标损失函数,确定所述发音音素检测数据和所述发音音素标注数据的差异值;基于所述差异值,调整所述虚拟发音模型的模型参数。其中,所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述虚拟发音模型的模型参数时,可采用反向传播算法,或者随机梯度下降算法来调整所述虚拟发音模型的模型参数。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,通过确定所述发音音素检测数据和所述发音音素标注数据之间的差异值,对当前获得的所述发音音素检测数据进行评估,以作为后续训练所述虚拟发音模型的依据。具体地,可将所述差异值反向传输给所述虚拟发音模型,从而迭代地训练所述虚拟发音模型。所述虚拟发音模型的训练是一个迭代的过程,本申请实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对所述虚拟发音模型的每次训练都可采用该训练方式,直至完成所述虚拟发音模型的训练。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S205中,根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。
由于该步骤S205的具体实施方式与上述实施例一中的步骤S105的具体实施方式类似,在此不再赘述。
在一个具体的例子中,如图3所示,语音评测***加载初始化资源,包括发音字典、单音素字典、声学模型、待评测的语音数据、用于语音评测的参考文本、自定义的发音标注。然后,语音评测***对待评测的语音数据进行语音评测。具体的语音评测过程如下:若检测到用于语音评测的参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素;若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素;若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素。在获得所述参考文本中所有词语的发音音素之后,根据所述参考文本中所有词语的发音音素,确定所述参考文本的发音音素序列。然后,根据预先配置的单音素字典,对所述发音音素序列中的发音音素进行映射,以获得所述发音音素序列中的发音音素的标识,并根据所述发音音素序列中的发音音素的标识,获得所述发音音素序列中的发音音素对应的隐马尔科夫模型,再根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,确定所述参考文本对应的隐马尔科夫模型(文本构图)。在确定所述参考文本对应的隐马尔科夫模型之后,对所述待评测的语音数据中的语音数据帧进行声学特征提取,以获得所述语音数据帧的声学特征数据,并通过声学模型,对所述语音数据帧的声学特征数据进行识别,以获得所述语音数据帧被识别为任一发音音素的条件概率,再通过解码器,根据所述语音数据帧被识别为任一发音音素的条件概率和所述参考文本对应的隐马尔科夫模型进行路径搜索,以获得所述发音音素序列中的发音音素对应的所述语音数据帧。在获得所述发音音素序列中的发音音素对应的所述语音数据帧之后,根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,并根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,确定所述待评测的语音数据的发音准确度(语音评测)。或者,根据所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长和所述发音音素序列中的发音音素对应的标准发音时长,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,并根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,确定所述待评测的语音数据的发音流利度(语音评测)。再或者,根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中被发音的发音音素的数量,并根据所述发音音素序列中被发音的发音音素的数量和所述发音音素序列中的发音音素的数量,确定所述待评测的语音数据的发音完整度(语音评测)。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
根据本发明实施例提供的语音评测方法,确定用于对待评测的语音数据进行语音评测的参考文本;若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素,若在所述发音字典中未检索到所述词语,则通过虚拟发音模型,对所述词语进行虚拟发音,以获得所述词语的发音音素,根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,与现有的其它方式相比,首先检测参考文本中的词语是否具有根据个性化的评测发音需求自定义的发音标注,若具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若不具有自定义的发音标注,则结合发音字典和虚拟发音,获得参考文本中的词语的发音音素,因此,能够简便灵活地满足语音评测业务中个性化的评测发音需求。
本实施例提供的语音评测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例三
本发明实施例还提供一种计算机可读介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于确定用于对待评测的语音数据进行语音评测的参考文本的指令;用于若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素的指令;用于若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素的指令;用于若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素的指令;用于根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令。
可选地,所述用于对所述词语进行虚拟发音,以获得所述词语的发音音素的指令,包括:用于根据预先配置的词语与发音音素的映射关系,对所述词语进行虚拟发音,以获得所述词语的发音音素的指令。
可选地,所述用于对所述词语进行虚拟发音,以获得所述词语的发音音素的指令,包括:用于通过虚拟发音模型,对所述词语进行虚拟发音,以获得所述词语的发音音素的指令。
可选地,所述用于根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令,包括:用于获取所述发音音素序列中的发音音素对应的隐马尔科夫模型的指令,其中,所述隐马尔科夫模型为针对所述发音音素序列中的发音音素预先训练好的隐马尔科夫模型;用于根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令。
可选地,所述隐马尔科夫模型标注有对应的所述发音音素序列中的发音音素的标识。所述用于获取所述发音音素序列中的发音音素对应的隐马尔科夫模型的指令,包括:用于根据预先配置的单音素字典,对所述发音音素序列中的发音音素进行映射,以获得所述发音音素序列中的发音音素的标识的指令;用于根据所述发音音素序列中的发音音素的标识,获得所述发音音素序列中的发音音素对应的隐马尔科夫模型的指令。
可选地,所述用于根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令,包括:用于对所述发音音素序列中的发音音素对应的隐马尔科夫模型进行串联,以获得所述参考文本对应的隐马尔科夫模型的指令;用于根据所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令。
可选地,所述用于根据所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令,包括:用于对所述待评测的语音数据中的语音数据帧进行声学特征提取,以获得所述语音数据帧的声学特征数据的指令;用于根据所述语音数据帧的声学特征数据和所述参考文本对应的隐马尔科夫模型,确定所述发音音素序列中的发音音素对应的所述语音数据帧的指令;用于对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令。
可选地,所述用于根据所述语音数据帧的声学特征数据和所述参考文本对应的隐马尔科夫模型,确定所述发音音素序列中的发音音素对应的所述语音数据帧的指令,包括:用于通过声学模型,对所述语音数据帧的声学特征数据进行识别,以获得所述语音数据帧被识别为任一发音音素的条件概率的指令;用于通过解码器,根据所述语音数据帧被识别为任一发音音素的条件概率和所述参考文本对应的隐马尔科夫模型进行路径搜索,以获得所述发音音素序列中的发音音素对应的所述语音数据帧的指令。
可选地,所述用于对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令,包括:用于根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度的指令;用于根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,确定所述待评测的语音数据的发音准确度的指令。
可选地,所述用于对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令,包括:用于根据所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长和所述发音音素序列中的发音音素对应的标准发音时长,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度的指令;用于根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,确定所述待评测的语音数据的发音流利度的指令。
可选地,所述用于对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令,包括:用于根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中被发音的发音音素的数量的指令;用于根据所述发音音素序列中被发音的发音音素的数量和所述发音音素序列中的发音音素的数量,确定所述待评测的语音数据的发音完整度的指令。
可选地,所述用于对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测的指令之后,所述可读程序还包括:用于对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音识别,以获得所述语音数据帧的实际发音音素的指令;用于若所述语音数据帧的实际发音音素与所述语音数据帧对应的发音音素不相同,则输出所述语音数据帧对应的发音音素的发音错误信息和所述语音数据帧的实际发音音素的指令。
通过本申请实施例提供的计算机可读介质,确定用于对待评测的语音数据进行语音评测的参考文本;若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素,若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素,根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,与现有的其它方式相比,首先检测参考文本中的词语是否具有根据个性化的评测发音需求自定义的发音标注,若具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素,若不具有自定义的发音标注,则结合发音字典和虚拟发音,获得参考文本中的词语的发音音素,因此,能够简便灵活地满足语音评测业务中个性化的评测发音需求。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的语音评测方法。此外,当通用计算机访问用于实现在此示出的语音评测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的语音评测方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (13)
1.一种语音评测方法,其特征在于,所述方法包括:
确定用于对待评测的语音数据进行语音评测的参考文本;
若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素;
若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素;
若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素;
根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。
2.根据权利要求1所述的语音评测方法,其特征在于,所述对所述词语进行虚拟发音,以获得所述词语的发音音素,包括:
根据预先配置的词语与发音音素的映射关系,对所述词语进行虚拟发音,以获得所述词语的发音音素。
3.根据权利要求1所述的语音评测方法,其特征在于,所述对所述词语进行虚拟发音,以获得所述词语的发音音素,包括:
通过虚拟发音模型,对所述词语进行虚拟发音,以获得所述词语的发音音素。
4.根据权利要求1所述的语音评测方法,其特征在于,所述根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,包括:
获取所述发音音素序列中的发音音素对应的隐马尔科夫模型,其中,所述隐马尔科夫模型为针对所述发音音素序列中的发音音素预先训练好的隐马尔科夫模型;
根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。
5.根据权利要求4所述的语音评测方法,其特征在于,所述隐马尔科夫模型标注有对应的所述发音音素序列中的发音音素的标识,
所述获取所述发音音素序列中的发音音素对应的隐马尔科夫模型,包括:
根据预先配置的单音素字典,对所述发音音素序列中的发音音素进行映射,以获得所述发音音素序列中的发音音素的标识;
根据所述发音音素序列中的发音音素的标识,获得所述发音音素序列中的发音音素对应的隐马尔科夫模型。
6.根据权利要求4所述的语音评测方法,其特征在于,所述根据所述发音音素序列中的发音音素对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,包括:
对所述发音音素序列中的发音音素对应的隐马尔科夫模型进行串联,以获得所述参考文本对应的隐马尔科夫模型;
根据所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果。
7.根据权利要求6所述的语音评测方法,其特征在于,所述根据所述参考文本对应的隐马尔科夫模型,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果,包括:
对所述待评测的语音数据中的语音数据帧进行声学特征提取,以获得所述语音数据帧的声学特征数据;
根据所述语音数据帧的声学特征数据和所述参考文本对应的隐马尔科夫模型,确定所述发音音素序列中的发音音素对应的所述语音数据帧;
对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果。
8.根据权利要求7所述的语音评测方法,其特征在于,所述根据所述语音数据帧的声学特征数据和所述参考文本对应的隐马尔科夫模型,确定所述发音音素序列中的发音音素对应的所述语音数据帧,包括:
通过声学模型,对所述语音数据帧的声学特征数据进行识别,以获得所述语音数据帧被识别为任一发音音素的条件概率;
通过解码器,根据所述语音数据帧被识别为任一发音音素的条件概率和所述参考文本对应的隐马尔科夫模型进行路径搜索,以获得所述发音音素序列中的发音音素对应的所述语音数据帧。
9.根据权利要求7所述的语音评测方法,其特征在于,所述对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果,包括:
根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度;
根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音准确度,确定所述待评测的语音数据的发音准确度。
10.根据权利要求7所述的语音评测方法,其特征在于,所述对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果,包括:
根据所述发音音素序列中的发音音素对应的所述语音数据帧的实际发音时长和所述发音音素序列中的发音音素对应的标准发音时长,确定所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度;
根据所述发音音素序列中的发音音素对应的所述语音数据帧的发音流利度,确定所述待评测的语音数据的发音流利度。
11.根据权利要求7所述的语音评测方法,其特征在于,所述对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测,以获得所述待评测的语音数据的语音评测结果,包括:
根据所述发音音素序列中的发音音素对应的所述语音数据帧被识别为所述发音音素序列中的发音音素的条件概率,确定所述发音音素序列中被发音的发音音素的数量;
根据所述发音音素序列中被发音的发音音素的数量和所述发音音素序列中的发音音素的数量,确定所述待评测的语音数据的发音完整度。
12.根据权利要求7所述的语音评测方法,其特征在于,所述对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音评测之后,所述方法还包括:
对所述发音音素序列中的发音音素对应的所述语音数据帧进行语音识别,以获得所述语音数据帧的实际发音音素;
若所述语音数据帧的实际发音音素与所述语音数据帧对应的发音音素不相同,则输出所述语音数据帧对应的发音音素的发音错误信息和所述语音数据帧的实际发音音素。
13.一种计算机可读介质,其特征在于,所述计算机存储介质存储有可读程序,所述可读程序包括:
用于确定用于对待评测的语音数据进行语音评测的参考文本的指令;
用于若检测到所述参考文本中的词语具有自定义的发音标注,则对所述词语的自定义的发音标注进行转换,以获得所述词语的发音音素的指令;
用于若检测到所述词语不具有自定义的发音标注,则根据所述词语,对预先配置的发音字典进行检索,以检索出所述词语的发音音素的指令;
用于若在所述发音字典中未检索到所述词语,则对所述词语进行虚拟发音,以获得所述词语的发音音素的指令;
用于根据所述词语的发音音素构成的所述参考文本的发音音素序列,对所述待评测的语音数据进行语音评测,以获得所述待评测的语音数据的语音评测结果的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110072627.8A CN112397056B (zh) | 2021-01-20 | 2021-01-20 | 语音评测方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110072627.8A CN112397056B (zh) | 2021-01-20 | 2021-01-20 | 语音评测方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112397056A true CN112397056A (zh) | 2021-02-23 |
CN112397056B CN112397056B (zh) | 2021-04-09 |
Family
ID=74625554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110072627.8A Active CN112397056B (zh) | 2021-01-20 | 2021-01-20 | 语音评测方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112397056B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802456A (zh) * | 2021-04-14 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种语音评测打分方法、装置、电子设备及存储介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN112992184A (zh) * | 2021-04-20 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 一种发音评测方法、装置、电子设备和存储介质 |
CN113793593A (zh) * | 2021-11-18 | 2021-12-14 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103985391A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN110085257A (zh) * | 2019-03-29 | 2019-08-02 | 语文出版社有限公司 | 一种基于国学经典学习的韵律自动评价*** |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
US10395640B1 (en) * | 2014-07-23 | 2019-08-27 | Nvoq Incorporated | Systems and methods evaluating user audio profiles for continuous speech recognition |
CN111916108A (zh) * | 2020-07-24 | 2020-11-10 | 北京声智科技有限公司 | 一种语音评测方法及装置 |
-
2021
- 2021-01-20 CN CN202110072627.8A patent/CN112397056B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103985391A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法 |
US10395640B1 (en) * | 2014-07-23 | 2019-08-27 | Nvoq Incorporated | Systems and methods evaluating user audio profiles for continuous speech recognition |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN110085257A (zh) * | 2019-03-29 | 2019-08-02 | 语文出版社有限公司 | 一种基于国学经典学习的韵律自动评价*** |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
CN111916108A (zh) * | 2020-07-24 | 2020-11-10 | 北京声智科技有限公司 | 一种语音评测方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN112802494B (zh) * | 2021-04-12 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN112802456A (zh) * | 2021-04-14 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种语音评测打分方法、装置、电子设备及存储介质 |
CN112992184A (zh) * | 2021-04-20 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 一种发音评测方法、装置、电子设备和存储介质 |
CN113793593A (zh) * | 2021-11-18 | 2021-12-14 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112397056B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113439301B (zh) | 用于机器学习的方法和*** | |
CN113168828B (zh) | 基于合成数据训练的会话代理管线 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN108766415B (zh) | 一种语音测评方法 | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN111862954A (zh) | 一种语音识别模型的获取方法及装置 | |
CN111369974A (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
Al-Bakeri et al. | ASR for Tajweed rules: integrated with self-learning environments | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
CN114420159A (zh) | 音频评测方法及装置、非瞬时性存储介质 | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 | |
CN113707178B (zh) | 音频评测方法及装置、非瞬时性存储介质 | |
CN114420086B (zh) | 语音合成方法和装置 | |
CN117765922A (zh) | 一种文本转语音方法及模型训练方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |