CN113990351A - 纠音方法、纠音装置及非瞬时性存储介质 - Google Patents
纠音方法、纠音装置及非瞬时性存储介质 Download PDFInfo
- Publication number
- CN113990351A CN113990351A CN202111283587.8A CN202111283587A CN113990351A CN 113990351 A CN113990351 A CN 113990351A CN 202111283587 A CN202111283587 A CN 202111283587A CN 113990351 A CN113990351 A CN 113990351A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- standard
- pronunciation
- phonemes
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000001052 transient effect Effects 0.000 title abstract description 3
- 238000003745 diagnosis Methods 0.000 claims abstract description 125
- 230000004044 response Effects 0.000 claims description 31
- 238000013145 classification model Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000002452 interceptive effect Effects 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种纠音方法、纠音装置及非瞬时性存储介质。纠音方法包括:获取单词和第一音频数据;基于单词,对第一音频数据进行发音诊断操作,以生成发音诊断结果。单词的标准发音包括至少一个标准音素,发音诊断操作包括:基于第一声学模型,对第一音频数据与标准发音进行对齐操作,以得到每个标准音素的时间边界;根据每个标准音素的时间边界,确定每个标准音素的评分;基于第二声学模型,对第一音频数据进行识别操作,以得到解码音素序列和每个解码音素的时间边界;根据每个解码音素的时间边界,确定每个解码音素的评分;确定各个标准音素与各个解码音素之间的对应关系;以及基于对应关系、各个标准音素的评分和各个解码音素的评分,生成发音诊断结果。
Description
技术领域
本公开的实施例涉及一种纠音方法、纠音装置及非瞬时性存储介质。
背景技术
随着科学技术的发展,越来越多的语言学习者使用语言学习类应用程序(APP)辅助语言学习。在一些语言学习类应用程序中,应用程序提供商通过互联网将学习材料发送到客户端,用户经由客户端获取学习材料,进行对应的学习。除了学习语法和词汇之外,提升发音能力也是语言学习过程中极为重要的一部分。通常情况下,用户会通过朗读、跟读等方式来提升自身的发音能力。然而,多数情况下用户无法得知自身发音是否准确。
发明内容
本公开至少一些实施例提供一种纠音方法。该纠音方法包括:获取单词和第一音频数据;基于所述单词,对所述第一音频数据进行发音诊断操作,以生成发音诊断结果;其中,所述单词的标准发音包括至少一个标准音素;基于所述单词,对所述第一音频数据进行所述发音诊断操作,以生成所述发音诊断结果,包括:基于第一声学模型,对所述第一音频数据与所述标准发音进行对齐操作,以得到所述标准发音中的每个标准音素在所述第一音频数据中的时间边界;根据所述每个标准音素的时间边界确定的音频段,确定所述每个标准音素的评分;基于第二声学模型,对所述第一音频数据进行识别操作,以得到解码音素序列和所述解码音素序列中的每个解码音素在所述第一音频数据中的时间边界,其中,所述解码音素序列包括至少一个解码音素;根据所述每个解码音素的时间边界确定的音频段,确定所述每个解码音素的评分;确定所述标准发音中的各个标准音素与所述解码音素序列中的各个解码音素之间的对应关系;以及基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果。
例如,在本公开一些实施例提供的纠音方法中,确定所述标准发音中的各个标准音素与所述解码音素序列中的各个解码音素之间的对应关系,包括:以音素作为编辑元素,对所述标准发音与所述解码音素序列进行编辑距离操作,以确定所述对应关系。
例如,在本公开一些实施例提供的纠音方法中,所述编辑距离操作包括音素替换操作,不同音素之间的音素替换操作的权重至少不完全相同。
例如,在本公开一些实施例提供的纠音方法中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,包括:响应于任一标准音素有与之对应的解码音素,判断所述任一标准音素的评分是否低于第一分数阈值;响应于所述任一标准音素的评分低于所述第一分数阈值,根据所述任一标准音素的时间边界以及对应于所述任一标准音素的解码音素的时间边界,计算所述任一标准音素与对应于所述任一标准音素的解码音素之间的边界重合度;以及,响应于所述任一标准音素与对应于所述任一标准音素的解码音素不同且所述任一标准音素与对应于所述任一标准音素的解码音素之间的边界重合度不小于重合度阈值,在所述发音诊断结果中指明对于所述任一标准音素发生了误读情况。
例如,在本公开一些实施例提供的纠音方法中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,还包括:判断对应于所述任一标准音素的解码音素的评分与所述任一标准音素的评分之差是否不小于第二分数阈值;以及,响应于对应于所述任一标准音素的解码音素的评分与所述任一标准音素的评分之差不小于所述第二分数阈值,在所述误读情况中指明将所述任一标准音素误读成对应于所述任一标准音素的解码音素。
例如,在本公开一些实施例提供的纠音方法中,根据下述公式计算边界重合度:
其中,BC表示所述边界重合度,x1和y1分别表示一个标准音素的起始时间边界和结束时间边界,x2和y2分别表示一个解码音素的起始时间边界和结束时间边界,min()为取最小值函数,max()为取最大值函数。
例如,在本公开一些实施例提供的纠音方法中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,包括:响应于任一标准音素无与之对应的解码音素,在所述发音诊断结构中指明对于所述任一标准音素发生了漏读情况。
例如,在本公开一些实施例提供的纠音方法中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,包括:响应于任一解码音素无与之对应的标准音素,在所述发音诊断结果中指明发生了多读情况。
例如,在本公开一些实施例提供的纠音方法中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,还包括:响应于所述任一解码音素的评分不低于第三分数阈值,在所述多读情况中指明多读了所述任一解码音素。
例如,在本公开一些实施例提供的纠音方法中,基于所述单词,对所述第一音频数据进行所述发音诊断操作,以生成所述发音诊断结果,还包括:基于所述标准发音中的每个标准音素的时间边界以及所述标准发音的重读音节,确定所述重读音节中的元音音素的时间边界;提取所述重读音节中的所述元音音素的时间边界确定的第一音频段的特征信息;基于所述第一音频段的特征信息,通过分类模型判断所述重读音节是否被重读;以及,响应于所述重读音节被判断为未被重读,在所述发音诊断结果中指明所述重读音节未被重读。
例如,在本公开一些实施例提供的纠音方法中,基于所述单词,对所述第一音频数据进行所述发音诊断操作,以生成所述发音诊断结果,还包括:基于所述标准发音中的每个标准音素的时间边界以及所述标准发音的非重读音节,确定所述非重读音节中的元音音素的时间边界;提取所述非重读音节中的所述元音音素的时间边界确定的第二音频段的特征信息;基于所述第二音频段的特征信息,通过分类模型判断所述非重读音节是否被重读;以及,响应于所述非重读音节被判断为被重读,在所述发音诊断结果中指明所述非重读音节被重读。
例如,在本公开一些实施例提供的纠音方法中,基于发音准确度算法,确定所述每个标准音素的评分以及所述每个解码音素的评分。
例如,本公开一些实施例提供的纠音方法,还包括:根据所述发音诊断结果,进行纠音指导。
例如,在本公开一些实施例提供的纠音方法中,根据所述发音诊断结果,进行所述纠音指导,包括:响应于纠音操作,展示所述单词的标准发音、所述发音诊断结果以及文本指导,其中,所述文本指导用于指导用户进行正确发音。
例如,在本公开一些实施例提供的纠音方法中,根据所述发音诊断结果,进行所述纠音指导,还包括:在展示所述文本指导时,使用语音同步播放所述文本指导。
例如,本公开一些实施例提供的纠音方法,还包括:获取关于所述单词的第二音频数据,并提供针对所述第二音频数据的练习反馈。
例如,在本公开一些实施例提供的纠音方法中,所述发音诊断结果包括音节错误和发音错误至少之一,所述音节错误包括音节数量错误和重音错误至少之一,所述发音错误包括误读元音音素、误读辅音音素和漏读辅音音素三者至少之一。
本公开至少一些实施例还提供一种纠音装置。该纠音装置包括:存储器,用于非暂时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时执行本公开任一实施例提供的纠音方法。
例如,本公开一些实施例提供的纠音装置,还包括:音频采集装置,用于采集所述第一音频数据。
本公开至少一些实施例还提供一种非瞬时性存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,能够执行本公开任一实施例提供的纠音方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一些实施例提供的一种纠音方法的流程图;
图2为本公开至少一些实施例提供的一种对应于图1中所示的步骤S200的示例性流程图;
图3为本公开至少一些实施例提供的另一种对应于图1中所示的步骤S200的示例性流程图;
图4A为本公开至少一些实施例提供的一种在单词纠音交互界面上显示的发音诊断结果的示意图;
图4B为本公开至少一些实施例提供的另一种在单词纠音交互界面上显示的发音诊断结果的示意图;
图4C为本公开至少一些实施例提供的又一种在单词纠音交互界面上显示的发音诊断结果的示意图;
图5A为本公开至少一些实施例提供的一种纠音指导界面的示意图;
图5B为本公开至少一些实施例提供的另一种纠音指导界面的示意图;
图5C为本公开至少一些实施例提供的又一种纠音指导界面的示意图;
图5D为本公开至少一些实施例提供的再一种纠音指导界面的示意图;
图6为本公开至少一些实施例提供的一种过渡界面的示意图;
图7A为本公开至少一些实施例提供的一种练习界面的示意图;
图7B为本公开至少一些实施例提供的另一种练习界面的示意图;
图7C为本公开至少一些实施例提供的一种反馈界面的示意图;
图7D为本公开至少一些实施例提供的另一种反馈界面的示意图;
图8为本公开至少一些实施例提供的一种纠音装置的示意性框图;以及
图9为本公开至少一些实施例提供的一种非瞬时性存储介质的示意框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时,该部件在每个附图中由相同或类似的参考标号表示。
传统的发音评测技术会对用户朗读或跟读的语音给出百分制评分结果,但由于缺乏发音诊断,评分结果对纠正用户的发音缺乏指导意义。用户受到母语“先入为主”的影响,可能会无法辨析自己的发音和示范发音的区别;即使听出来区别后,也往往很难把发音器官调整到正确位置。在这个背景下,更细致的发音诊断和纠正技术开始兴起。但目前已存在的语言发音诊断和纠正技术可支持的混淆音素错误有限,并且无法给出有针对性的发音纠正反馈。
本公开至少一些实施例提供一种纠音方法。该纠音方法包括:获取单词和第一音频数据;基于单词,对第一音频数据进行发音诊断操作,以生成发音诊断结果;其中,单词的标准发音包括至少一个标准音素;基于单词,对第一音频数据进行发音诊断操作,以生成发音诊断结果,包括:基于第一声学模型,对第一音频数据与标准发音进行对齐操作,以得到标准发音中的每个标准音素在第一音频数据中的时间边界;根据每个标准音素的时间边界确定的音频段,确定每个标准音素的评分;基于第二声学模型,对第一音频数据进行识别操作,以得到解码音素序列和解码音素序列中的每个解码音素在第一音频数据中的时间边界,其中,解码音素序列包括至少一个解码音素;根据每个解码音素的时间边界确定的音频段,确定每个解码音素的评分;确定标准发音中的各个标准音素与解码音素序列中的各个解码音素之间的对应关系;以及,基于对应关系、各个标准音素的评分和各个解码音素的评分,生成发音诊断结果。
本公开的一些实施例还提供对应于上述纠音方法的纠音装置以及非瞬时性存储介质。
本公开的实施例提供的纠音方法,基于“双模型二遍解码”(双模型即第一声学模型和第二声学模型,二遍解码即对齐操作和识别操作)进行发音诊断操作,可以方便快捷地得到发音诊断结果,使得用户能够根据发音诊断结果有针对性地纠正存在的发音问题,提高了用户的语言学习效率,具有较高的实用性。
下面结合附图对本公开的一些实施例及其示例进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1为本公开至少一些实施例提供的一种纠音方法的流程图。例如,该纠音方法可以应用于计算设备,该计算设备包括具有计算功能的任何电子设备,例如可以为智能手机、笔记本电脑、平板电脑、台式计算机、服务器等,本公开的实施例对此不作限制。例如,该计算设备具有中央处理单元(Central Processing Unit,CPU)或图形处理单元(GraphicsProcessing Unit,GPU),该计算设备还包括存储器。该存储器例如为非易失性存储器(例如只读存储器(Read Only Memory,ROM)),其上存储有操作***的代码。例如,存储器上还存储有代码或指令,通过运行这些代码或指令,可以实现本公开的实施例提供的纠音方法。
例如,如图1所示,该纠音方法包括以下步骤S100至步骤S400。
步骤S100:获取单词和第一音频数据。
例如,在一些实施例中,图1所示的纠音方法可以通过例如客户端在本地执行。在此情况下,该单词可以是用户在客户端存储的各种单词中任意选择的单词,也可以是客户端提供的预设单词(例如,客户端上的语言学习类应用程序提供的预设单词),本公开的实施例对此不作限制;第一音频数据(即用户音频数据)可以包括通过客户端的音频采集模块或设备采集的语音,本公开的实施例包括但不限于此。例如,步骤S100中的单词和第一音频数据还可以由客户端从网络中获取。
例如,客户端包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(Personal Digital Assistant,PDA)、可穿戴设备、头戴显示设备、扫读笔、点读笔等,例如,音频采集模块或设备包括但不限于客户端内置或外接的麦克风。例如,第一音频数据可以是预先录制的,也可以是实时录制的,本公开的实施例对此不作限制。
例如,在另一些实施例中,图1所示的纠音方法还可以通过例如服务器在远程执行。在此情况下,服务器可以接收用户通过客户端上传的第一音频数据(步骤S100中的单词可以预先存储在服务器上,也可以由用户通过客户端上传至服务器),然后进行纠音过程,并将发音诊断结果等返回客户端,以供用户参考。
例如,该单词可以为英语、法语、德语、俄语、西班牙语、汉语、日语、韩语等语言中的单词,本公开的实施例包括但不限于此。
例如,在一些实施例中,可以通过发音词典查找该单词的标准发音,但不限于此。例如,发音词典可以包括通用的语音识别引擎所能处理的词汇集及其发音。例如,该单词的标准发音通常为一个音素序列,其可以包括至少一个音素(即标准音素)。在本公开中,为了便于说明和区分,将单词的标准发音中的音素以及后续介绍的解码音素序列中的音素分别称呼为“标准音素”和“解码音素”。应当理解的是,在实际应用中,绝大多数单词都包括多个音素。在该单词的标准发音仅包括一个标准音素的情况下,标准发音中的“每个标准音素”和“各个标准音素”均用于指代该标准音素;类似地,在该解码音素序列仅包括一个解码音素的情况下,解码音素序列中的“每个解码音素”和“各个解码音素”用于指代该解码音素。以英语为例,英语国际音标共有48种音素,其中,元音音素20种、辅音音素28种。
例如,一般情况下,第一音频数据是用户朗读或跟读单词(允许出现误读音素、漏读音素、多读音素、重音错误等问题)的语音数据,从而该纠音方法可以准确地诊断用户的发音问题以及评估用户对该单词的发音的标准程度。
步骤S200:基于单词,对第一音频数据进行发音诊断操作,以生成发音诊断结果。
例如,在一些实施例中,发音诊断操作可以用于对可能存在的误读音素、漏读音素和多读音素等问题进行诊断,以生成相应的发音诊断结果。
图2为本公开至少一些实施例提供的一种对应于图1中所示的步骤S200的示例性流程图。例如,如图2所示,步骤S200可以包括以下步骤S210至步骤S260。
步骤S210:基于第一声学模型,对第一音频数据与标准发音进行对齐操作,以得到标准发音中的每个标准音素在第一音频数据中的时间边界。
例如,在一些示例中,步骤S210可以包括:基于第一声学模型,采用强制对齐(Forced Alignment)算法对第一音频数据与标准发音进行强制对齐操作,以得到标准发音中的每个标准音素在第一音频数据中的时间边界。
例如,一般地,声学模型是通过大量的训练数据(例如发音人的录音)训练而成的,利用声学模型可以确定第一音频数据中的音频帧与任一音素对应的可能性,进而能够将第一音频数据与单词的标准发音进行强制对齐或者对第一音频数据进行音素级别的自由音素识别。例如,在一些示例,声学模型可以为基于神经网络的模型,本公开的实施例包括但不限于此;例如,神经网络可以包括但不限于时延神经网络(Time-Delay Neural Network,TDNN)、递归神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long-ShortTerm Memory,LSTM)或者双向长短期记忆网络(Bi-directional Long-Short TermMemory,Bi-LSTM)等。例如,声学模型以及强制对齐算法的具体技术细节均可以参考自然语言处理领域的相关技术,在此不再赘述。
例如,第一声学模型可以为适用于强制对齐操作的声学模型。例如,在一些示例中,第一声学模型可以为TDNN模型等,本公开的实施例包括但不限于此。
例如,通过上述强制对齐操作,可以将第一音频数据划分为至少一个音频段,以与上述单词的标准发音中的至少一个标准音素对应。例如,在一些示例中,上述单词的标准发音包括多个标准音素,则通过上述强制对齐操作,可以将第一音频数据划分为与该多个标准音素一一对应的多个音频段。例如,在一些示例中,每个标准音素对应的音频段可以用该音频段在第一音频数据中的时间边界(time boundary)进行标识,例如,上述时间边界包括该音频段的起始时间边界(起始时刻)和结束时间边界(结束时刻)。
步骤S220:根据每个标准音素的时间边界确定的音频段,确定每个标准音素的评分。
例如,在一些示例中,可以根据每个标准音素的时间边界确定的音频段,采用发音准确度(Goodness of Pronunciation,GOP)算法计算每个标准音素的评分,本公开的实施例包括但不限于此。
例如,在一些示例中,发音准确度算法可以包括:先提取每个标准音素的时间边界确定的音频段的声学特征信息,例如,声学特征信息包括但不限于梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)等;然后将上述声学特征信息输入预先训练好的音素评测模型进行音素评估,得到每个标准音素的GOP值;最后基于每个标准音素的GOP值,确定每个标准音素的评分。例如,发音准确度算法的具体技术细节可以参考语音处理领域的相关技术,在此不再赘述。
例如,标准音素的评分的取值范围可以根据实际需要进行设置,本公开的实施例对此不作限制。例如,在一些示例中,标准音素的评分的取值范围可以为[0,100],本公开的实施例包括但不限于此。
步骤S230:基于第二声学模型,对第一音频数据进行识别操作,以得到解码音素序列和解码音素序列中的每个解码音素在第一音频数据中的时间边界。
例如,第二声学模型可以为适用于自由音素识别操作的声学模型。例如,第二声学模型不同于第一声学模型。例如,与第一声学模型相比,第二声学模型通常可以是一个更大的模型,其结构可以更加精细和复杂,其可以通过更大量的训练数据训练而成。例如,在一些示例中,第二声学模型可以为因子分解时延神经网络(Factorized TDNN,TDNN-F)模型或者LSTM等,本公开的实施例包括但不限于此。
例如,在一些示例中,可以结合第二声学模型和语言模型对第一音频数据进行识别操作,以得到解码音素序列和解码音素序列中的每个解码音素在第一音频数据中的时间边界。在此情况下,可以先通过第二声学模型提取第一音频数据的声学特征并转换成候选的音素序列,再通过第二语言模型和解码操作从候选的音素序列中确定最终的解码音素序列。例如,语言模型可以是基于大量训练文本(例如单词)的发音音素序列训练得到的一元(unigram)语言模型,本公开的实施例包括但不限于此。例如,可以采用维特比(Viterbi)算法进行上述解码操作,本公开的实施例包括但不限于此。例如,基于维特比算法,可以寻找最优解码路径,从而确定解码音素序列;例如,进一步地,每个解码音素的时间边界可以在维特比算法结束后回溯的过程中得到。例如,语言模型和维特比算法的具体技术细节可以参考自然语言处理领域的相关技术,在此不再赘述。
步骤S240:根据每个解码音素的时间边界确定的音频段,确定每个解码音素的评分。
例如,在一些示例中,可以根据每个解码音素的时间边界确定的音频段,采用发音准确度(Goodness of Pronunciation,GOP)算法计算每个解码音素的评分,本公开的实施例包括但不限于此。例如,发音准确度算法的具体细节可以参考前述步骤S220中的相关描述,在此不再重复赘述。
例如,在一些示例中,可以采用同样的发音准确度算法(例如采用同一音素评测模型)计算每个标准音素的评分以及每个解码音素的评分,以提高标准音素的评分和解码音素的评分的可比性,从而有助于得到更加可靠的发音诊断结果。
例如,解码音素的评分的取值范围通常与标准音素的评分的取值范围相同。例如,在一些示例中,解码音素的评分的取值范围也可以为[0,100],本公开的实施例包括但不限于此。
步骤S250:确定标准发音中的各个标准音素与解码音素序列中的各个解码音素之间的对应关系。
例如,在一些示例中,可以以音素作为编辑元素,对标准发音与解码音素序列进行编辑距离操作,以确定标准发音中的各个标准音素与解码音素序列中的各个解码音素之间的对应关系。
下面简单介绍计算任意两个字符串之间的编辑距离的方式。字符串的编辑距离,又称为莱文斯坦(Levenshtein)编辑距离,其是指利用字符操作(即以字符为编辑元素),把字符串a{i}转换成字符串b{j}所需要的最少操作数,其中,字符操作包括:(1)删除一个字符,(2)***一个字符,(3)替换一个字符。
对于字符串a{i}和b{j}而言,i表示字符串a{i}的长度(即包括的字符的个数),j表示字符串b{j}的长度,i、j均为整数,且i≥0、j≥0。lev(a{i},b{j})表示字符串a{i}和b{j}之间的编辑距离,一种莱文斯坦编辑距离算法包括以下公式:
其中,max()为取最大值函数,min()为取最小值函数,a{i-1}表示字符串a{i}的前i-1个字符形成的字符串,b{j-1}表示字符串b{j}的前j-1个字符形成的字符串,a[i]表示字符串a{i}中的第i个字符(即最后一个字符),b[j]表示字符串b{j}中的第j个字符(即最后一个字符)。
上述公式表示的莱文斯坦编辑距离算法包括:
(1)当一个字符串的长度为0的时候(对应于if min(i,j)=0的情况),编辑距离就是另一个字符串的长度;
(2)当字符串a和b的长度均不为0的时候(对应于if min(i,j)≠0的情况):
若两个字符串的最后一个字符相同(对应于if a[i]=b[j]的情况),则可以删除两个字符串a{i}和b{j}的最后一个字符以得到两个新的字符串a{i-1}和b{j-1},确定字符串a{i}和b{j}之间的编辑距离就转化为确定新的字符串a{i-1}和b{j-1}之间的编辑距离,
若两个字符串的最后一个字符不同(对应于if a[i]≠b[j]的情况),则确定字符串a{i}和b{j}之间的编辑距离就转化为确定字符串a{i-1}和b{j}之间的编辑距离、字符串a{i}和b{j-1}之间的编辑距离和字符串a{i-1}和b{j-1}之间的编辑距离三者之最小值。
应当理解的是,在上述莱文斯坦编辑距离算法,每个字符操作的权重设置为1,也即,每个字符操作对应的编辑距离为1。在实际应用中,每个字符操作的权重可以根据实际需要进行设置。
应当理解的是,上述莱文斯坦编辑距离算法是从两个字符串的最后一个字符开始进行比较(即比较两个字符串的最后一个字符是否相同),实际应用中包括但不限于此。例如,另一种莱文斯坦编辑距离算法可以从两个字符串的第一个字符开始进行比较。
应当理解的是,莱文斯坦编辑距离的确定是一个动态规划问题,其可以根据上述公式通过递归过程进行计算。同时,还应当理解的是,在计算莱文斯坦编辑距离的动态规划过程中,可以确定字符串a{i}中的各个字符与字符串b{j}中的各个字符之间的对应关系(即在编辑距离取最小值的情况下,字符串a{i}中的某个字符与字符串b{j}中的某个字符相同,则二者互相对应)。
例如,在一些示例中,可以参考上述莱文斯坦编辑距离算法,以音素作为编辑元素,对标准发音与解码音素序列进行编辑距离操作,以确定标准发音中的各个标准音素与解码音素序列中的各个解码音素之间的对应关系。例如,可以将标准发音视作音素串a{i},将解码音素序列视作音素串b{j},则音素串a{i}和b{j}之间的音素编辑距离lev(a{i},b{j})可以表示为:
其中,max()为取最大值函数,min()为取最小值函数,a{i-1}表示音素串a{i}的前i-1个音素形成的音素串,b{j-1}表示音素串b{j}的前j-1个音素形成的音素串,a[i]表示音素串a{i}中的第i个音素(即最后一个音素),b[j]表示音素串b{j}中的第j个音素(即最后一个音素),f1表示删除/漏读音素a[i]的操作的权重(即该操作的音素编辑距离贡献值),f2表示***/多读音素b[j]的操作的权重(即该操作的音素编辑距离贡献值),f3表示将音素a[i]替换/误读为音素b[j]的操作的权重(即该操作的音素编辑距离贡献值)。
可以理解的是,在上述音素编辑距离算法中,音素操作(也称为“编辑距离操作”)可以包括:(1)删除一个音素,(2)***一个音素,(3)替换一个音素。根据上述音素编辑距离公式可知,音素编辑距离算法包括:
(1)当一个音素串的长度为0的时候(对应于if min(i,j)=0的情况),音素编辑距离就是另一个音素串的长度;
(2)当音素串a和b的长度均不为0的时候(对应于if min(i,j)≠0的情况):
若两个音素串的最后一个音素相同(对应于if a[i]=b[j]的情况,此时标准音素a[i]有与之对应的解码音素b[j]),则可以删除两个音素串a{i}和b{j}的最后一个音素以得到两个新的音素串a{i-1}和b{j-1},确定音素串a{i}和b{j}之间的音素编辑距离就转化为确定新的音素串a{i-1}和b{j-1}之间的音素编辑距离,
若两个音素串的最后一个音素不同(对应于if a[i]≠b[j]的情况),则确定音素串a{i}和b{j}之间的音素编辑距离就转化为确定音素串a{i-1}和b{j}之间的音素编辑距离(对应于删除/漏读音素a[i]的情形,此时标准音素a[i]无与之对应的解码音素)、音素串a{i}和b{j-1}之间的音素编辑距离(对应于***/多读音素b[j]的情形,此时解码音素b[j]无与之对应的标准音素)以及音素串a{i-1}和b{j-1}之间的音素编辑距离(对应于将音素a[i]替换/误读为音素b[j]的情形,此时标准音素a[i]有与之对应的解码音素b[j]))三者之最小值。
例如,在一些示例中,权重f1可以为常数值;在此情况下,不同的音素的删除/漏读可能性是相同的。例如,在另一些示例中,权重f1与音素a[i]的种类有关,即f1=f1(a[i]),也即,权重f1为音素a[i]的函数值;在此情况下,不同的音素的删除/漏读可能性至少不完全相同,当然,也可以各不相同。
例如,在一些示例中,权重f2可以为常数值;在此情况下,不同的音素的***/多读可能性是相同的。例如,在另一些示例中,权重f2与音素b[j]的种类有关,即f2=f2(b[j]),也即,权重f2为音素b[j]的函数值;在此情况下,不同的音素的***/多读可能性至少不完全相同,当然,也可以各不相同。
例如,在一些示例中,权重f3可以为常数值;在此情况下,不同音素之间的音素替换操作的权重是相同的,也即不同音素之间的音素替换/误读的可能性是相同的。例如,在另一些示例中,权重f1与音素a[i]和音素b[j]的种类有关,即f3=f3(a[i],b[j])),也即,权重f3为音素a[i]和音素b[j]的函数值;在此情况下,不同音素之间的音素替换操作的权重不同至少不完全相同,也即不同音素之间的音素替换/误读的可能性至少不完全相同,当然,也可以各不相同。
应当理解的是,上述权重f1、f2、f3的类型(常数值或者函数值)以及相应的具体数值可以根据实际需要进行设置,本公开的实施例对此不作限制。例如,可以根据教研经验设置权重f1、f2、f3的类型及数值(或函数关系),也可以对大量用户发音数据中存在的发音问题进行统计或学习以设置权重f1、f2、f3的类型及数值(或函数关系)。例如,在一个具体示例中,为了简化本公开的实施例提供的纠音方法,权重f1可以设置为常数值t1(例如t1=1);权重f2可以设置为常数值t2(例如t2=1);权重f3(对应于if a[i]≠b[j]的情况)可以设置为函数值,其中,当音素a[i]和音素b[j]均为元音音素(即将一个元音音素误读为另一个元音音素,也即混淆元音音素)时,权重f3可以设置为常数值t31(例如t31=0.5),当音素a[i]和音素b[j]均为辅音音素(即将一个辅音音素误读为另一个辅音音素,也即混淆辅音音素)时,权重f3可以设置为常数值t32(例如t32=0.5),当音素a[i]和音素b[j]为一个元音音素和一个辅音音素(即将一个元音音素误读为一个辅音音素或者将一个辅音音素误读为一个元音音素)时,权重f3可以设置为常数值t33(例如t33=1),其中,与混淆元音音素和混淆辅音音素的情况出现几率相比,将一个元音音素误读为一个辅音音素或者将一个辅音音素误读为一个元音音素的情况出现几率通常更小,因此,t33通常大于t31、t32。需要说明的是,常数值t1、t2、t31、t32、t33的数值均可以根据实际需要进行设置,只要其大于0即可。
步骤S260:基于对应关系、各个标准音素的评分和各个解码音素的评分,生成发音诊断结果。
例如,可以基于对应关系、各个标准音素的评分和各个解码音素的评分,判断第一音频数据是否存在发音问题,以及在存在发音问题的情况下,进一步判断存在何种发音问题,以生成相应的发音诊断结果。例如,此处的发音问题包括误读音素、漏读音素和多读音素等问题至少之一。
例如,步骤S260可以包括以下步骤S261至步骤S263,以诊断可能存在的误读音素的问题,并生成相应的发音诊断结果。
步骤S261:响应于任一标准音素有与之对应的解码音素,判断该任一标准音素的评分是否低于第一分数阈值。
例如,在实际应用中,第一分数阈值可以根据标准音素的评分的取值范围进行合理设置。例如,在一些示例中,假设标准音素的评分的取值范围是[0,100],则第一分数阈值的取值范围可以设置为例如[50,70],本公开的实施例包括但不限于此。例如,在上述示例中,第一分数阈值以根据实际需要设置为50、55、60、65、70等。可以理解的是,若任一标准音素的评分不低于第一分数阈值,则通常可以认为该任一标准音素的发音是准确的。
步骤S262:响应于该任一标准音素的评分低于第一分数阈值,根据该任一标准音素的时间边界以及对应于该任一标准音素的解码音素的时间边界,计算该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度。
例如,在一些示例中,可以根据以下公式计算边界重合度:
其中,BC表示边界重合度,x1和y1分别表示一个标准音素的起始时间边界和结束时间边界,x2和y2分别表示一个解码音素的起始时间边界和结束时间边界,min()为取最小值函数,max()为取最大值函数。可以理解的是,根据上述公式计算得到的边界重合度小于或等于0时,均表示上述两个音素的时间边界不重合。
步骤S263:响应于该任一标准音素与对应于该任一标准音素的解码音素不同且该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度不小于重合度阈值,在发音诊断结果中指明对于该任一标准音素发生了误读情况。
例如,在实际应用中,重合度阈值可以根据标准音素的评分的取值范围进行合理设置。例如,在一些示例中,重合度阈值的取值范围可以设置为例如[40%,60%],本公开的实施例包括但不限于此。例如,在上述示例中,重合度阈值可以根据实际需要设置为40%、45%、50%、55%、60%等。可以理解的是,若该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度不小于重合度阈值,则通常可以认为在前述步骤S250中确定的该任一标准音素与对应于该任一标准音素的解码音素之间的对应关系是准确的。
例如,在一些示例中,在步骤S261至步骤S263中,若该任一标准音素与对应于该任一标准音素的解码音素不同且该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度小于重合度阈值,则通常意味着前述对应关系中很可能存在误对应情况,因此,可以在发音诊断结果中指明对于该任一标准音素发生了漏读情况,同时指明多读了对应于该任一标准音素的解码音素。由此,可以避免前述对应关系中可能存在的误对应情况对发音诊断结果造成的不利影响。例如,在一些示例中,步骤S260还可以包括:响应于该任一标准音素与对应于该任一标准音素的解码音素不同且该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度小于重合度阈值,在发音诊断结果中指明对于该任一标准音素发生了漏读情况,同时指明多读了对应于该任一标准音素的解码音素。
可以理解的是,在步骤S261至步骤S263中,若该任一标准音素与对应于该任一标准音素的解码音素相同且该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度不小于重合度阈值,则通常意味着该任一标准音素的发音是准确的;这种情况通常是不会出现的,否则会与步骤S262中的“该任一标准音素的评分低于第一分数阈值”的前提条件相矛盾。另外,在步骤S261至步骤S263中,若该任一标准音素与对应于该任一标准音素的解码音素相同且该任一标准音素与对应于该任一标准音素的解码音素之间的边界重合度小于重合度阈值,则通常意味着在该任一标准音素附件发生了多读情况,而该任一标准音素的发音很可能是准确的,因此,通常无需在发音诊断结果中报告对于该任一标准音素发生了误读情况(可以参考后续步骤S267指明发生了多读情况)。
可以理解的是,在发音诊断结果中指明对于该任一标准音素发生了误读情况时,通常还可以指明误读情况发生的位置(例如,该任一标准音素在标准发音中的位置等)。
例如,在步骤S261至步骤S263的基础上,步骤S260可以进一步包括以下步骤S264至步骤S265,以针对误读音素的问题,生成更详细的发音诊断结果。
步骤S264:判断对应于该任一标准音素的解码音素的评分与该任一标准音素的评分之差是否不小于第二分数阈值。
例如,在实际应用中,第二分数阈值可以根据标准音素的评分的取值范围进行合理设置。例如,在一些示例中,假设标准音素和解码音素的评分的取值范围均是[0,100],则第一分数阈值的取值范围可以设置为例如[20,40],本公开的实施例包括但不限于此。例如,在上述示例中,第一分数阈值以根据实际需要设置为20、25、30、35、40等。
步骤S265:响应于对应于该任一标准音素的解码音素的评分与该任一标准音素的评分之差不小于第二分数阈值,在误读情况中指明将该任一标准音素误读成对应于该任一标准音素的解码音素。
可以理解的是,在该任一标准音素的评分低于第一分数阈值(即该任一标准音素的发音很可能不准确)的情况下,若对应于该任一标准音素的解码音素的评分与该任一标准音素的评分之差不小于第二分数阈值,则通常可以认为步骤S230中识别得到的该解码音素是准确的,因此,可以在误读情况中具体指明将该任一标准音素误读成对应于该任一标准音素的解码音素,从而使得用户可以更加清楚地知道自身存在的发音问题;另一方面,若对应于该任一标准音素的解码音素的评分与该任一标准音素的评分之差小于第二分数阈值,则通常可以认为在步骤S230中识别得到的该解码音素可能是不准确的,因此,可以在发音诊断结果中仅指明对于该任一标准音素发生了误读情况,而不具体指明将该任一标准音素误读成对应于该任一标准音素的解码音素,以免对用户产生误导。
例如,步骤S260可以包括以下步骤S266,以诊断可能存在的漏读音素的问题,并生成相应的发音诊断结果。
步骤S266:响应于任一标准音素无与之对应的解码音素,在发音诊断结构中指明对于该任一标准音素发生了漏读情况。
可以理解的是,在发音诊断结构中指明对于该任一标准音素发生了漏读情况时,通常还可以指明漏读情况发生的位置(例如,该任一标准音素在标准发音中的位置等)。还可以理解的是,若任一标准音素无与之对应的解码音素,则该任一标准音素的评分通常会很低(例如远低于第一分数阈值);因此,在此情况下,通常不需要同时或进一步考虑任一标准音素的评分的影响。
例如,步骤S260还可以包括以下步骤S267,以诊断可能存在的多读音素的问题,并生成相应的发音诊断结果。
步骤S267:响应于任一解码音素无与之对应的标准音素,在发音诊断结果中指明发生了多读情况。
可以理解的是,在发音诊断结构中指明发生了多读情况时,通常还可以指明多读情况发生的位置(例如,该解码音素相对于某一标准音素的位置等)。
例如,在步骤S267的基础上,步骤S260可以进一步包括以下步骤S268,以针对多读音素的问题,生成更详细的发音诊断结果。
步骤S268:响应于该任一解码音素的评分不低于第三分数阈值,在多读情况中指明多读了该任一解码音素。
例如,在实际应用中,第三分数阈值可以根据解码音素的评分的取值范围进行合理设置。例如,在一些示例中,假设解码音素的评分的取值范围是[0,100],则第三分数阈值的取值范围可以设置为例如[50,70],本公开的实施例包括但不限于此。例如,在上述示例中,第三分数阈值以根据实际需要设置为50、55、60、65、70等。例如,第三分数阈值与第一分数阈值可以相同,也可以不同。
可以理解的是,若任一解码音素的评分不低于第三分数阈值,则通常可以认为在步骤S230中识别得到的该任一解码音素是准确的,因此,可以在多读情况中具体指明多读了该任一解码音素,从而使得用户可以更加清楚地知道自身存在的发音问题;另一方面,若任一解码音素的评分低于第三分数阈值,则通常可以认为在步骤S230中识别得到的该任一解码音素可能是不准确的,因此,可以在发音诊断结果中仅指明发生了多读情况(以及多读情况发生的位置),而不具体指明多读了什么音素,以免对用户产生误导。
例如,在一些实施例中,发音诊断操作还可以用于对重音错误等问题进行诊断,以生成相应的发音诊断结果。例如,此处的重音错误问题包括未对重读音节进行重读和对非重读音节进行重读至少之一。
图3为本公开至少一些实施例提供的另一种对应于图1中所示的步骤S200的示例性流程图。例如,如图3所示,在图2所示的步骤S210至步骤S260的基础上(为了图示的简洁,图3中省略了步骤S210至步骤S260的具体内容),步骤S200还可以包括以下步骤S271至步骤S274,以诊断在单词的标准发音包括重读音节的情况下可能存在的未对重读音节进行重读的重音错误问题,并生成相应的发音诊断结果。
步骤S271:基于标准发音中的每个标准音素的时间边界以及标准发音的重读音节,确定该重读音节中的元音音素的时间边界;
步骤S272:提取该重读音节中的元音音素的时间边界确定的第一音频段的特征信息;
步骤S273:基于第一音频段的特征信息,通过分类模型判断该重读音节是否被重读;以及
步骤S274:响应于该重读音节被判断为未被重读,在发音诊断结果中指明该重读音节未被重读。
例如,在一些示例中,在步骤S271中,针对标准发音的重读音节,可以先确定该重读音节中的元音音素(该元音音素为标准发音中的各个标准音素之一)从而,可以从标准发音中的各个标准音素的时间边界中,确定该元音音素的时间边界。
例如,在一些示例中,在步骤S272中,特征信息可以包括能量(例如,包括归一化的能量值)、基频(例如,包括归一化的基频值)、短时平均过零率、梅尔频率倒谱系数、一阶梅尔频率倒谱系数、二阶梅尔频率倒谱系数等至少之一。例如,能量、基频、短时平均过零率、梅尔频率倒谱系数、一阶梅尔频率倒谱系数、二阶梅尔频率倒谱系数等特征信息的提取方法可以参考自然语言处理领域的相关技术,在此不再赘述。例如,在一个具体示例中,上述特征信息包括该元音音素的归一化的能量值和归一化的基频值。例如,该元音音素的归一化的能量值可以表示为第一音频段的平均能量值和第一音频数据的平均能量值的比值;类似地,归一化的基频值可以表示为第一音频段的平均基频值和第一音频数据的平均基频值的比值。需要说明的是,本公开的实施例包括但不限于此。
例如,在一些示例中,在步骤S273中,分类模型可以是二分类模型,例如,可以包括支持向量机(Support Vector Machine,SVM)分类器、Softmax分类器等任一。可以理解的是,该分类模型可以通过机器学习得到。在机器学习过程中,可以提取大量样本音节(包括重读音节和非重读音节)中的元音音素对应的样本音频段的特征信息作为分类模型的输入,并根据这些样本音节在样本音频数据中的重读情况(例如,可以人为标注)对分类模型进行训练,以使得训练好的分类模型可以预测某一音节中的元音音素是否被重读。例如,分类模型的训练过程和细节可以参考机器学习领域的相关技术,在此不再赘述。
例如,如图3所示,在前述步骤S210至步骤S260(以及步骤S271至步骤S274)的基础上,步骤S200还可以包括以下步骤S281至步骤S284,以诊断在单词的标准发音包括非重读音节的情况下可能存在的对非重读音节进行重读的重音错误问题,并生成相应的发音诊断结果。
步骤S281:基于标准发音中的每个标准音素的时间边界以及标准发音的非重读音节,确定该非重读音节中的元音音素的时间边界;
步骤S282:提取该非重读音节中的元音音素的时间边界确定的第二音频段的特征信息;
步骤S283:基于第二音频段的特征信息,通过分类模型判断该非重读音节是否被重读;以及
步骤S284:响应于该非重读音节被判断为被重读,在发音诊断结果中指明该非重读音节被重读。
例如,在一些示例中,在步骤S281中,针对标准发音的非重读音节,可以先确定该非重读音节中的元音音素(该元音音素为标准发音中的各个标准音素之一)从而,可以从标准发音中的各个标准音素的时间边界中,确定该元音音素的时间边界。
例如,在一些示例中,步骤S282中提取的特征信息的种类与步骤S272中提取的特征信息的种类可以相同;在此情况下,步骤S282中的特征信息提取的细节可以参考前述步骤S272中的特征信息提取的相关描述,在此不再赘述。需要说明的是,本公开的实施例包括但不限于此。
例如,在一些示例中,步骤S283中使用的分类模型可以与步骤S273中使用的分类模型为同一分类模型;在此情况下,步骤S283中的分类模型的细节可以参考前述步骤S272中的分类模型的相关描述,在此不再赘述。需要说明的是,本公开的实施例包括但不限于此。例如,在一些实施例中,在步骤S273和步骤S283中可以分别采用不同的分类模型。例如,步骤S273中采用的分类模型可以是专门用于预测某一重读音节是否被重读(即某一重读音节中的元音音素是否被重读)的分类模型,而步骤S283中采用的分类模型可以是专门用于预测某一非重读音节是否被重读(即某一非重读音节中的元音音素是否被重读)的分类模型;在此情况下,步骤S282中提取的特征信息的种类与步骤S272中提取的特征信息的种类可以相同,也可以不同。
可以理解的是,在一些实施例提供的纠音方法中,在执行步骤S271至步骤S274和/或步骤S281至步骤S284之前,可以先判断单词的标准发音是否包括重读音节和/或非重读音节,然后,在单词的标准发音包括重读音节和/或非重读音节的情况下,相应执行步骤S271至步骤S274和/或步骤S281至步骤S284。
例如,在一些实施例提供的纠音方法中,可以根据语言的语音学规则和音位学规则,把发音诊断结果中存在的发音问题整合归类成音节错误和/或发音错误等。
例如,音节错误主要指的是发音节奏出现问题,其通常表现为单词的音节的节奏和/或轻重出现错误。例如,音节错误可以包括音节数量错误和重音错误等至少之一。
例如,音节数量错误主要指的是发音时增加或漏掉了单词的音节,其通常包括多读元音音素和漏读元音音素等情况至少之一。音节数量错误通常与母语的迁移密切相关。例如,母语是汉语的英语学习者,很容易在发音上出现音节增加的错误。因为汉语的音节大多由声母加韵母(类似英语中的辅音和元音)构成,因此在英语中,如果遇上音节结尾是类似中文声母的辅音,如/p/、/b/、/d/、/t/等,很容易潜意识地在后面加上//以匹配汉语发音规则,从而导致单词发音错误地增加了一个音节。可以理解的是,多读辅音音素的情况很少单独出现,其通常出现在多读一个音节(即同时多读了辅音音素和元音音素,且该辅音音素和元音音素形成一个音节)的情况中,当然,这种情况也属于音节数量错误。
例如,重音错误指的是发音时重音发在了错误的音节位置,其通常包括未对重读音节进行重读和对非重读音节进行重读等情况至少之一。
例如,发音错误主要指的是单词的单个或多个音节或音素的发音出现混淆,其通常表现为单词的发音质量不佳,让人难以理解,或者。也有可能表现为直接发音成了另一个单词,改变了语意。例如,发音错误可以包括误读元音音素、误读辅音音素和漏读辅音音素等情况至少之一。
例如,误读元音音素(也称为“混淆元音音素”)主要指的是发音有一定相似之处的元音音素之间的混淆,不仅包含松紧元音对这种英语学习者容易混淆的情况,也包含由于汉语和/或方言的影响,母语是汉语的英语学习者经常会出现的/e/和/aI/混淆的情况等。
例如,误读辅音音素(也称为“混淆辅音音素”)主要指的是发音有一定相似之处的辅音音素之间的混淆,不仅包含清浊辅音对这种英语学习者容易混淆的情况,也包含由于汉语和/或方言的影响,母语是汉语的英语学习者经常会出现的/n/和/l/混淆的情况等。
例如,漏读辅音音素通常包括音节结尾的辅音脱落的情况等。
可以理解的是,在实际应用中,发音诊断结果中存在的发音问题可能包括一个或多个音节错误,也可能包括一个或多个发音错误,还可能同时包括音节错误和发音错误,等等,本公开的实施例对此不作限制。
例如,步骤S200生成的发音诊断结果可以呈现在例如语言学习类应用程序的交互界面上,以供用户阅读浏览。
图4A为本公开至少一些实施例提供的一种在单词纠音交互界面上显示的发音诊断结果的示意图,图4B为本公开至少一些实施例提供的另一种在单词纠音交互界面上显示的发音诊断结果的示意图,图4C为本公开至少一些实施例提供的又一种在单词纠音交互界面上显示的发音诊断结果的示意图。
例如,如图4A-4C所示,单词纠音交互界面(如图中的黑色实线框所示)上可以展示以下内容至少之一:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)、单词词性(如图中的表示形容词的“adj.”和表示名词的“n.”等所示)、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)、发音问题数量指示(如图所示,“x处发音问题”,在图4A-4B中,x=2;在图4C中,x=1)、“标准发音”按钮、“你的发音”按钮以及发音诊断结果。例如,当用户点击交互界面上的“标准发音”按钮时,可以播放单词的标准发音对应的示范录音。例如,当用户点击交互界面上的“你的发音”按钮时,可以播放用户音频数据(即上述第一音频数据)。
例如,如图4A-4C所示,发音诊断结果可以包括是否存在音节错误和/或发音错误,以及在存在音节错误和/或发音错误的情况下,具体存在何种音节错误和/或发音错误。
例如,图4A示例性地报告了存在的音节错误(具体地,音节数量错误)和发音错误(具体地,元音混淆错误,即误读元音音素)。例如,如图4A所示,在报告音节数量错误时,可以指明单词音标的音节数量、用户发音的音节数量以及两种音节数量的差异(多读/少读)等。例如,如图4A所示,在报告元音混淆错误时,可以指明包含错误音素的音节位置、正确音素、正确音素的分类(单元音/双元音)、用户发音的错误音素、错误音素的分类(单元音/双元音)等。
例如,图4B示例性地报告了存在的音节错误(具体地,音节重音错误,即重音错误)和发音错误(具体地,辅音漏读错误,即漏读辅音音素)。例如,如图4B所示,在报告音节重音错误时,可以指明单词原本重音所在的音节位置、用户发音重音所在的音节位置以及是否符合单词原有的重音等。例如,如图4B所示,在报告辅音漏读错误时,可以指明包含漏读辅音的音节位置(第几音节)、漏读辅音所在音节的位置(开头/末尾/中间)、漏读的辅音等。
例如,图4C示例性地报告了不存在音节错误以及存在的发音问题(具体地,辅音混淆错误,即误读辅音音素)。例如,如图4C所示,在报告不存在音节错误时,可以通过符号(例如,包括对号的图标)和文本(例如,未发现音节问题)等进行释明。例如,在报告辅音混淆错误时,可以报告包含辅音混淆错误的音节位置(第几音节)、正确音素、正确音素的类别(辅音)、错误音素等。
可以理解的是,发音问题数量指示(“x处发音问题”)中的数量x等于发音诊断结果中的具体发音问题的数量之和。
可以理解的是,在实际应用中,图4A-4C中的指示箭头的位于交互界面中的部分并不存在,也即,交互界面中并不显示指示箭头的该部分。
可以理解的是,可以参考图4A-4C中的报告方式对图4A-4C中出现的发音诊断结果之外的其他发音诊断结果进行报告,在此不再赘述。需要说明的是,图4A-4C所示的单词纠音交互界面均是示例性的,本公开的实施例对发音诊断结果的报告方式不作限制。
例如,如图4A-4C所示,单词纠音交互界面上还可以展示“开始纠音”按钮。当用户点击“开始纠音”按钮时,可以进入纠音指导界面。例如,在一些示例中,如图4A-4C所示,每个具体发音问题都对应设置有一个“开始纠音”按钮,当用户点击该“开始纠音”按钮时,可以进入针对该具体发音问题的纠音指导界面;当然,也可以进入针对所有具体发音问题的纠音指导界面。例如,在另一些示例中,单词纠音交互界面中仅设置有一个“开始纠音”按钮,当用户点击该“开始纠音”按钮时,可以进入针对所有具体发音问题的纠音指导界面。
需要说明的是,本公开的实施例对单词纠音交互界面上展示的内容的布局不作限制。
需要说明的是,以英语为例,上述具体发音问题基本涵盖以汉语为母语的英语学习者的所有错误。同时,本公开的实施例提供的纠音方法中的发音诊断操作可以实现90%以上的错误检出率。
步骤S300:根据发音诊断结果,进行纠音指导。
例如,在一些实施例中,步骤S300可以包括:响应于纠音操作(例如,用户点击前述“开始纠音”按钮的操作),展示单词的标准发音(例如,根据音节分割的单词音标等)、发音诊断结果以及文本指导,其中,文本指导用于指导用户进行正确发音。
图5A为本公开至少一些实施例提供的一种纠音指导界面的示意图。图5A所示的界面为针对音节数量错误的纠音指导界面。例如,如图5A所示,该纠音指导界面可以包括:根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、正确音节的可视化展示(数量、轻重)、用户发音的音标展示、用户发音的错误音节的可视化展示(数量、轻重)以及文本指导等。例如,如图5A所示,在音节的可视化展示中,可以通过圆形(当然,也可以是其他图形形状)的数量表示音节的数量;同时,还可以通过圆形的大小表示音节的轻重,例如,较大的圆形表示相应的音节为重读音节,较小的圆形表示相应的音节为非重读音节。例如,如图5A所示,在音标的展示中,可以对问题音节进行高亮显示(例如,相对于正常音节,改变问题音节的亮度和/或颜色等),进一步地,还可以改变问题音节中的问题音素的显示颜色(例如,正常音素显示为黑色,而问题音素显示为红色,但不限于此);例如,对应地,还可以在音节的可视化展示中,对问题音节的图形表示(例如,图5A中的圆形)进行高亮显示。例如,如图5A所示,在针对音节数量错误的纠音指导界面中,文本指导可以指明单词音标包含的音节数量、用户发音包含的音节数量、用户发音的问题音节的辅音、用户发音的问题音节的辅音后的元音、用户纠正音节数量错误的指导方法等。
图5B为本公开至少一些实施例提供的另一种纠音指导界面的示意图。图5B所示的界面为针对重音错误的纠音指导界面。例如,如图5B所示,该纠音指导界面可以包括:根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、正确音节的可视化展示(数量、轻重)、用户发音的错误音节的可视化展示(数量、轻重)以及文本指导等。例如,如图5B所示,在音标的展示中,可以对需要用户重点关注的问题音节进行高亮显示(例如,相对于正常音节,改变问题音节的亮度和/或颜色等)。例如,如图5B所示,在音节的可视化展示中,可以通过圆形(当然,也可以是其他图形形状)的数量表示音节的数量;同时,还可以通过圆形的大小表示音节的轻重,例如,较大的圆形表示相应的音节为重读音节,较小的圆形表示相应的音节为非重读音节。例如,如图5B所示,在音节的可视化展示(例如,用户发音的错误音节的可视化展示)中,还可以对问题音节的图形表示(例如,图5B中的圆形)进行高亮显示。例如,如图5B所示,在针对重音错误的纠音指导界面中,文本指导可以指明单词音标包含的音节数量、用户发音问题的描述、用户纠正重音错误的指导方法等。
图5C为本公开至少一些实施例提供的又一种纠音指导界面的示意图。图5C所示的界面为针对辅音混淆错误的纠音指导界面。例如,如图5C所示,该纠音指导界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、用户的实际发音音素以及文本指导等。例如,如图5C所示,在拼写的展示中,可以对问题字母进行高亮显示。例如,如图5C所示,在音标的展示中,可以对问题音素进行高亮显示。例如,如图5C所示,在针对辅音混淆错误的纠音指导界面中,文本指导可以指明用户纠正辅音混淆错误的指导方法(例如,辅音的正确发音方法)等。
图5D为本公开至少一些实施例提供的再一种纠音指导界面的示意图。图5D所示的界面为针对辅音漏读错误的纠音指导界面。例如,如图5D所示,该纠音指导界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、用户漏读的音素以及文本指导等。例如,如图5D所示,在拼写的展示中,可以对问题字母进行高亮显示。例如,如图5D所示,在音标的展示中,可以对问题音素进行高亮显示。例如,如图5D所示,在针对辅音漏读错误的纠音指导界面中,文本指导可以指明用户纠正辅音漏读错误的指导方法(例如,漏读辅音的正确发音方法)等。
例如,在一些实施例中,如图5A-5D所示,步骤S300还可以包括:在展示文本指导时,使用语音同步播放文本指导(参见图5A-5D左上角的文字提示“正在播放纠音指导…”)。
可以理解的是,可以参考图5A-5D中的纠音指导方式对图5A-5D中出现的发音问题之外的其他发音问题进行纠音指导,在此不再赘述。还可以理解的是,虽然图5A-5D的纠音指导界面是针对一个具体发音问题进行纠音指导,但是,在实际应用中,纠音指导界面可以同时针对多个具体发音问题进行纠音指导。
需要说明的是,图5A-5D所示的纠音指导界面均是示例性的,本公开的实施例对纠音指导方式不作限制。还需要说明的是,本公开的实施例对纠音指导界面上展示的内容的布局不作限制。
例如,在一些实施例中,在用户点击前述“开始纠音”按钮后,可以直接从单词纠音交互界面切换至纠音指导界面。例如,在另一些实施例中,在用户点击前述“开始纠音”按钮后,可以先从单词纠音交互界面切换至过渡界面,再从过渡界面切换至纠音指导界面。
图6为本公开至少一些实施例提供的一种过渡界面的示意图。例如,如图6所示,该过渡界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、单词词性(如图中的表示形容词的“adj.”所示)、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、正确音节的可视化展示(数量、轻重)、“示范录音”控件和“你的发音”控件等。例如,如图6所示,在音节的可视化展示中,可以通过圆形(当然,也可以是其他图形形状)的数量表示音节的数量;同时,还可以通过圆形的大小表示音节的轻重,例如,较大的圆形表示相应的音节为重读音节,较小的圆形表示相应的音节为非重读音节。例如,当用户点击过渡界面上的“示范录音”控件时,可以播放单词的标准发音对应的示范录音。例如,当用户点击过渡界面上的“你的发音”控件时,可以播放用户音频数据(即上述第一音频数据)。例如,在显示过渡界面时,语言学习类应用程序可以在后台对用户音频数据和示范录音进行对比(参见图6左上角的文字提示“正在对比发音…”),并准备用于呈现在纠音指导界面的内容;待这些内容准备就绪,则切换至纠音指导界面。
步骤S400:获取关于该单词的第二音频数据,并提供针对第二音频数据的反馈。
例如,在完成纠音指导后,可以向用户提供发音练习机会,以检验纠音效果。例如,在一些实施例中,可以通过客户端的音频采集模块或设备采集用户练习音频数据(即第二音频数据);然后,参考前述步骤S200对用户练习音频数据进行发音诊断操作(此时将用户练习音频数据视为第一音频数据),若用户练习音频数据的发音诊断结果中不存在发音问题,则向用户提供发音正确的反馈,若用户练习音频数据的发音诊断结果中存在发音问题,则参考前述步骤S300和步骤S400继续进行纠音指导以及提供练习反馈。
图7A为本公开至少一些实施例提供的一种练习界面的示意图。例如,图7A所示的界面为针对音节数量错误(例如,图5A中所示的音节数量错误)的练习界面。例如,如图7A所示,该练习界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、正确音节的可视化展示(数量、轻重)、“示范录音”控件(如图中的声音控件图标所示)和“开始录音”按钮等。
图7B为本公开至少一些实施例提供的另一种练习界面的示意图。例如,图7B所示的界面为针对辅音混淆错误(例如,图5C中所示的辅音混淆错误)的练习界面。例如,如图7B所示,该练习界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、“示范录音”控件(如图中的声音控件图标所示)和“开始录音”按钮等。
可以理解的是,可以参考图7A-7B所示的练习界面对图7A-7B涉及的发音问题之外的其他发音问题提供相应的练习界面,在此不再赘述。
需要说明的是,图7A-7B所示的练习界面均是示例性,本公开的实施例对练习界面上展示的内容以及这些内容在练习界面上的布局均不作限制。
例如,在一些实施例中,在进入练习界面后,可以自动播放示范录音和跟读语音提示(参见图7A-7B左上角的文字提示“请跟读…”);然后,响应于用户点击(例如,长按)“开始录音”按钮,通过音频采集模块或设备采集用户练习音频数据。需要说明的是,本公开的实施例对示范录音和跟读语音提示的播放顺序不作限制。例如,在点击(例如,长按)“开始录音”按钮之前,用户可以点击“示范录音”控件以重复收听示范录音。
例如,若用户练习音频数据的发音诊断结果中存在发音问题,则可以将发音诊断结果显示在相应的单词纠音交互界面上(例如,可以参考图4A-4C所示的单词纠音交互界面)。在此基础上,还可以进一步执行步骤S300和步骤S400的相关操作。
例如,若用户练习音频数据的发音诊断结果中不存在发音问题,则可以向用户提供发音正确的反馈界面。
图7C为本公开至少一些实施例提供的一种反馈界面的示意图。例如,图7C所示的界面为对应于重音错误(例如,图5B中所示的重音错误)的反馈界面。例如,如图7C所示,该反馈界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、正确音节的可视化展示(数量、轻重)、问题纠正提示(如图中的包括对号的图标以及文本“你的发音音节重音正确”所示)和“完成”按钮等。例如,如图7C所示,在拼写的展示中,可以对重读音节进行高亮显示以起到强调作用。例如,如图7C所示,在音标的展示中,可以对重读音节进行高亮显示以起到强调作用。
图7D为本公开至少一些实施例提供的另一种反馈界面的示意图。例如,图7D所示的界面为对应于辅音混淆错误(例如,图5C中所示的辅音混淆错误)的反馈界面。例如,如图7D所示,该反馈界面可以包括:根据音节分割的单词拼写(如图所示,通过小圆点对单词拼写进行分割)展示、根据音节分割的单词音标(如图所示,通过短划线对单词音标进行分割)展示、问题纠正提示(如图中的包括对号的图标以及文本“你的发音已不再混淆/v/和/w/!”所示)和“完成”按钮等。例如,如图7D所示,在拼写的展示中,可以对问题字母进行高亮显示以起到强调作用。例如,如图7D所示,在音标的展示中,可以对问题音素进行高亮显示以起到强调作用。
例如,在一些实施例中,反馈界面还可以包括反馈文案(如图7C-7D左上角的文本“太棒了”所示),以对用户进行鼓励。例如,还可以使用语音同步播放上述反馈文案。
例如,响应于用户点击(例如,长按)“完成”按钮,可以关闭反馈界面,结束当前单词的练习。
需要说明的是,在本公开的实施例中,上述纠音方法的流程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行。虽然上文描述的纠音方法的流程包括特定顺序出现的多个操作,但是应该清楚地了解,多个操作的顺序并不受限制。上文描述的纠音方法可以执行一次,也可以按照预定条件执行多次。
本公开的实施例提供的纠音方法,基于“双模型二遍解码”进行发音诊断操作,可以方便快捷地得到发音诊断结果,使得用户能够根据发音诊断结果有针对性地纠正存在的发音问题,提高了用户的语言学习效率,具有较高的实用性。另外,本公开的实施例提供的纠音方法还可以识别出单个或多个音素的混淆、增添、删除错误以及重音错误等,并可以从音节和发音两个维度提供纠音反馈,指导用户从错误发音纠正到示范发音。
本公开至少一些实施例还提供一种纠音装置。图8为本公开至少一些实施例提供的一种纠音装置的示意性框图。例如,如图8所示,该纠音装置100包括存储器110和处理器120。
例如,存储器110用于非暂时性存储计算机可读指令,处理器120用于运行该计算机可读指令,该计算机可读指令被处理器120运行时执行本公开任一实施例提供的纠音方法。
例如,存储器110和处理器120之间可以直接或间接地互相通信。例如,在一些示例中,如图8所示,该纠音装置100还可以包括***总线130,存储器110和处理器120之间可以通过***总线130互相通信,例如,处理器120可以通过***总线130访问存储器110。例如,在另一些示例中,存储器110和处理器120等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。
例如,处理器120可以控制纠音装置中的其它组件以执行期望的功能。处理器120可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。
例如,存储器110可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。
例如,在存储器110上可以存储一个或多个计算机指令,处理器120可以运行所述计算机指令,以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如单词、第一音频数据、第一声学模型、第二声学模型、发音诊断结果、第二音频数据以及应用程序使用和/或产生的各种数据等。
例如,存储器210存储的一些计算机指令被处理器220执行时可以执行根据上文所述的纠音方法中的一个或多个步骤。
例如,如图8所示,纠音装置100还可以包括允许外部设备与纠音装置100进行通信的输入接口140。例如,输入接口140可被用于从外部计算机设备、从用户等处接收指令。纠音装置100还可以包括使纠音装置100和一个或多个外部设备相互连接的输出接口150。例如,纠音装置100可以通过输出接口150输出纠音结果等。通过输入接口140和输出接口150与纠音装置100通信的外部设备可被包括在提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如,图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入,以及在诸如显示器之类的输出设备上提供输出。此外,自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与纠音装置100交互。相反,自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语义、视觉、触摸、手势、以及机器智能等。
例如,在一些实施例中,该纠音装置100还可以包括音频采集装置(图8中未示出)。例如,该音频采集装置可以为前述纠音方法的实施例中描述的音频采集模块或设备,例如包括但不限于客户端内置或外接的麦克风。
另外,纠音装置100尽管在图8中被示出为单个***,但可以理解,纠音装置100也可以是分布式***,还可以布置为云设施(包括公有云或私有云)。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由纠音装置100执行的任务。例如,在一些实施例中,可以通过客户端获取单词和第一音频数据,并将单词和第一音频数据上传至服务器;服务器执行发音诊断操作的过程后将发音诊断结果返回客户端,以提供给用户,服务器还可以进一步提供纠音指导操作;之后,还可以通过客户端获取第二音频数据,并将第二音频数据上传至服务器,服务器对第二音频数据执行发音诊断操作并提供反馈。
例如,关于纠音方法的实现过程的详细说明可以参考上述纠音方法的实施例中的相关描述,重复之处在此不再赘述。
例如,在一些示例中,该纠音装置可以包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(Personal Digital Assistant,PDA)、可穿戴设备、头戴显示设备、扫读笔、点读笔、服务器等。
需要说明的是,本公开的实施例提供的纠音装置是示例性的,而非限制性的,根据实际应用需要,该纠音装置还可以包括其他常规部件或结构,例如,为实现纠音装置的必要功能,本领域技术人员可以根据具体应用场景设置其他的常规部件或结构,本公开的实施例对此不作限制。
本公开的实施例提供的纠音装置的技术效果可以参考上述实施例中关于纠音方法的相应描述,在此不再赘述。
本公开至少一些实施例还提供一种非瞬时性存储介质。图9为本公开一些实施例提供的一种非瞬时性存储介质的示意框图。例如,如图9所示,该非瞬时性存储介质200非暂时性地存储计算机可读指令201,当非暂时性计算机可读指令201由计算机(包括处理器)执行时能够执行本公开任一实施例提供的纠音方法。
例如,在非瞬时性存储介质200上可以存储一个或多个计算机可读指令。非瞬时性存储介质200上存储的一些计算机可读指令可以是例如用于实现上述纠音方法中的一个或多个步骤的指令。
例如,非瞬时性存储介质可以包括平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。
本公开的实施例提供的非瞬时性存储介质的技术效果可以参考上述实施例中关于纠音方法的相应描述,在此不再赘述。
对于本公开,有以下几点需要说明:
(1)本公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (20)
1.一种纠音方法,包括:
获取单词和第一音频数据;
基于所述单词,对所述第一音频数据进行发音诊断操作,以生成发音诊断结果;
其中,所述单词的标准发音包括至少一个标准音素;
基于所述单词,对所述第一音频数据进行所述发音诊断操作,以生成所述发音诊断结果,包括:
基于第一声学模型,对所述第一音频数据与所述标准发音进行对齐操作,以得到所述标准发音中的每个标准音素在所述第一音频数据中的时间边界;
根据所述每个标准音素的时间边界确定的音频段,确定所述每个标准音素的评分;
基于第二声学模型,对所述第一音频数据进行识别操作,以得到解码音素序列和所述解码音素序列中的每个解码音素在所述第一音频数据中的时间边界,其中,所述解码音素序列包括至少一个解码音素;
根据所述每个解码音素的时间边界确定的音频段,确定所述每个解码音素的评分;
确定所述标准发音中的各个标准音素与所述解码音素序列中的各个解码音素之间的对应关系;以及
基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果。
2.根据权利要求1所述的纠音方法,其中,确定所述标准发音中的各个标准音素与所述解码音素序列中的各个解码音素之间的对应关系,包括:
以音素作为编辑元素,对所述标准发音与所述解码音素序列进行编辑距离操作,以确定所述对应关系。
3.根据权利要求2所述的纠音方法,其中,所述编辑距离操作包括音素替换操作,不同音素之间的音素替换操作的权重至少不完全相同。
4.根据权利要求1-3任一项所述的纠音方法,其中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,包括:
响应于任一标准音素有与之对应的解码音素,判断所述任一标准音素的评分是否低于第一分数阈值;
响应于所述任一标准音素的评分低于所述第一分数阈值,根据所述任一标准音素的时间边界以及对应于所述任一标准音素的解码音素的时间边界,计算所述任一标准音素与对应于所述任一标准音素的解码音素之间的边界重合度;以及
响应于所述任一标准音素与对应于所述任一标准音素的解码音素不同且所述任一标准音素与对应于所述任一标准音素的解码音素之间的边界重合度不小于重合度阈值,在所述发音诊断结果中指明对于所述任一标准音素发生了误读情况。
5.根据权利要求4所述的纠音方法,其中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,还包括:
判断对应于所述任一标准音素的解码音素的评分与所述任一标准音素的评分之差是否不小于第二分数阈值;以及
响应于对应于所述任一标准音素的解码音素的评分与所述任一标准音素的评分之差不小于所述第二分数阈值,在所述误读情况中指明将所述任一标准音素误读成对应于所述任一标准音素的解码音素。
7.根据权利要求1-3任一项所述的纠音方法,其中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,包括:
响应于任一标准音素无与之对应的解码音素,在所述发音诊断结构中指明对于所述任一标准音素发生了漏读情况。
8.根据权利要求1-3任一项所述的纠音方法,其中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,包括:
响应于任一解码音素无与之对应的标准音素,在所述发音诊断结果中指明发生了多读情况。
9.根据权利要求1-3任一项所述的纠音方法,其中,基于所述对应关系、各个标准音素的评分和各个解码音素的评分,生成所述发音诊断结果,还包括:
响应于所述任一解码音素的评分不低于第三分数阈值,在所述多读情况中指明多读了所述任一解码音素。
10.根据权利要求1-3任一项所述的纠音方法,其中,基于所述单词,对所述第一音频数据进行所述发音诊断操作,以生成所述发音诊断结果,还包括:
基于所述标准发音中的每个标准音素的时间边界以及所述标准发音的重读音节,确定所述重读音节中的元音音素的时间边界;
提取所述重读音节中的所述元音音素的时间边界确定的第一音频段的特征信息;
基于所述第一音频段的特征信息,通过分类模型判断所述重读音节是否被重读;以及
响应于所述重读音节被判断为未被重读,在所述发音诊断结果中指明所述重读音节未被重读。
11.根据权利要求1-3任一项所述的纠音方法,其中,基于所述单词,对所述第一音频数据进行所述发音诊断操作,以生成所述发音诊断结果,还包括:
基于所述标准发音中的每个标准音素的时间边界以及所述标准发音的非重读音节,确定所述非重读音节中的元音音素的时间边界;
提取所述非重读音节中的所述元音音素的时间边界确定的第二音频段的特征信息;
基于所述第二音频段的特征信息,通过分类模型判断所述非重读音节是否被重读;以及
响应于所述非重读音节被判断为被重读,在所述发音诊断结果中指明所述非重读音节被重读。
12.根据权利要求1-3任一项所述的纠音方法,其中,基于发音准确度算法,确定所述每个标准音素的评分以及所述每个解码音素的评分。
13.根据权利要求1-3任一项所述的纠音方法,还包括:
根据所述发音诊断结果,进行纠音指导。
14.根据权利要求13所述的纠音方法,其中,根据所述发音诊断结果,进行所述纠音指导,包括:
响应于纠音操作,展示所述单词的标准发音、所述发音诊断结果以及文本指导,其中,所述文本指导用于指导用户进行正确发音。
15.根据权利要求13所述的纠音方法,其中,根据所述发音诊断结果,进行所述纠音指导,还包括:
在展示所述文本指导时,使用语音同步播放所述文本指导。
16.根据权利要求13所述的纠音方法,还包括:
获取关于所述单词的第二音频数据,并提供针对所述第二音频数据的练习反馈。
17.根据权利要求1-3任一项所述的纠音方法,其中,所述发音诊断结果包括音节错误和发音错误至少之一,
所述音节错误包括音节数量错误和重音错误至少之一,
所述发音错误包括误读元音音素、误读辅音音素和漏读辅音音素三者至少之一。
18.一种纠音装置,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时执行根据权利要求1-17任一项所述的纠音方法。
19.根据权利要求18所述的纠音装置,还包括:
音频采集装置,用于采集所述第一音频数据。
20.一种非瞬时性存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,能够执行根据权利要求1-17任一项所述的纠音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111283587.8A CN113990351A (zh) | 2021-11-01 | 2021-11-01 | 纠音方法、纠音装置及非瞬时性存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111283587.8A CN113990351A (zh) | 2021-11-01 | 2021-11-01 | 纠音方法、纠音装置及非瞬时性存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113990351A true CN113990351A (zh) | 2022-01-28 |
Family
ID=79745401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111283587.8A Pending CN113990351A (zh) | 2021-11-01 | 2021-11-01 | 纠音方法、纠音装置及非瞬时性存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990351A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206496A (zh) * | 2023-01-30 | 2023-06-02 | 齐齐哈尔大学 | 一种基于人工智能的英语口语练习分析比对*** |
-
2021
- 2021-11-01 CN CN202111283587.8A patent/CN113990351A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206496A (zh) * | 2023-01-30 | 2023-06-02 | 齐齐哈尔大学 | 一种基于人工智能的英语口语练习分析比对*** |
CN116206496B (zh) * | 2023-01-30 | 2023-08-18 | 齐齐哈尔大学 | 一种基于人工智能的英语口语练习分析比对*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036464B (zh) | 发音检错方法、装置、设备及存储介质 | |
US8793118B2 (en) | Adaptive multimodal communication assist system | |
CN103714048B (zh) | 用于校正文本的方法和*** | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
US9548052B2 (en) | Ebook interaction using speech recognition | |
CN109256152A (zh) | 语音评分方法及装置、电子设备、存储介质 | |
KR20190125154A (ko) | 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법 | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US20210050004A1 (en) | Method and system using phoneme embedding | |
KR102225435B1 (ko) | Stt 기반 언어구사 학습-훈련 시스템 | |
Lee | Language-independent methods for computer-assisted pronunciation training | |
CN106537489B (zh) | 用于识别包括单词序列的语音的方法和*** | |
CN112599129B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN113990351A (zh) | 纠音方法、纠音装置及非瞬时性存储介质 | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
US20150127352A1 (en) | Methods, Systems, and Tools for Promoting Literacy | |
CN112133325B (zh) | 错误音素识别方法及装置 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN114420159A (zh) | 音频评测方法及装置、非瞬时性存储介质 | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
CN111899581A (zh) | 一种英语教学用单词拼读练习装置及方法 | |
CN113707178B (zh) | 音频评测方法及装置、非瞬时性存储介质 | |
Bang et al. | An automatic feedback system for English speaking integrating pronunciation and prosody assessments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |