一种语音评价方法及装置
技术领域
本发明涉及多媒体教学技术领域,尤其涉及一种用于多媒体教学的语音评价方法及装置。
背景技术
语言作为一种交流工具,在生活和工作中占有非常重要的地位,不论是学生在学校学习的阶段还是人们在工作的阶段,口语学习都是人们非常重视的学习内容。而随着网络教学的不断普及,网络授课的方式因不受时间和授课地点的约束,受到广大用户的喜爱。因此,目前很多用户更愿意利用闲暇时间,通过网络进行语言学习。
在目前的网络教学过程中,当进行发音练习时,一种方式是在视频(或音频)播放一段语音之后,给出一段空闲时间由用户自行进行跟读练习;或者是采用录音的方式,在学员跟读之后向学员播放录音,由学员自我评价发音是否准确;或者还可以由老师进行在线教学,针对学员的发音给出指导和建议。上述现有的教学方式,要么无法针对学员的发音给出针对性的指导意见,导致学习效果不佳,要么需要老师在线教学,需要大量的人力、物力和财力支持。
为解决上述问题,目前提出了根据语音预测模型对学员的语音进行评价。CN101197084A公开了一种自动化英语口语评测学***衡的原则设计第一录音文本;3)标准发音人对照录音文本进行录音;〔2〕口语评测语料库的收集:在模拟英语学习软件应用环境下,根据英语学习要求设计第二录音文本,同时寻找一般发音人,并对一般发音人的口语发音进行录音;〔3〕口语评测语料库的标注:专家详细标注每个单词中音素的发音是否正确;〔4〕标准语音声学模型的建立:基于标准发音人语料库中的录音及其相关联的文本,训练标准语音的声学模型;〔5〕计算语音的检错参数:1)提取语音的美尔倒谱系数参数;2)基于标准声学模型,以及评测语料库中的一般发音人录音及其文本对应的音素序列,将对一般发音人语音数据自动切分成以音素为单位的各个音段,同时基于标准模型计算得到各音段作为该音素的第一似然值;3)用标准声学模型对一般发音人语音的每个音段进行识别,同时基于标准声学模型计算得到该音段作为识别结果音素的第二似然值;4)将音段第一似然值除以第二似然值,得到该音段的似然比,作为该语音片段的检错参数;〔6〕建立检错参数向专家所标注发音错误的检错映射模型:在一批评测语音上,将各个音段评测参数和音段的共振峰序列与专家的详细标注进行关联,运用统计的方法得到上述参数与专家详细标注的对应关系,保存这些关系作为从检错参数到专家发音错误标注之间的检错映射模型。
CN101650886A公开了一种自动检测语言学习者朗读错误的方法,其特征在于,包含如下步骤:1)前端处理:对输入语音进行预处理,进行特征提取,所提取特征为MFCC特征矢量;2)构建精简搜索空间:将用户所要朗读的内容作为参***,并根据参***、发音字典、多发音模型和声学模型构建精简的搜索空间;3)构建朗读语言模型:根据参***构建用户的朗读语言模型,该语言模型描述用户在朗读该参考语句的时候可能朗读的上下文内容及其概率信息;4)搜索:在搜索空间中,根据声学模型、朗读语言模型和多发音模型搜索得到与输入的特征矢量流最匹配的一条路径,作为用户的实际朗读结果内容,做成识别结果序列;5)对齐:将所述参***与识别结果进行对齐,得到用户多读、漏读、错读的检测结果。
现有技术中利用语音识别***获取语音信号中各基本语音单元对应的语音片断,对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列,从所述有效语音片断序列中提取评测特征,加载与所述评测特征的特征类型相对应的评分预测模型;计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。但用户在实际进行语言学习时,往往是根据教学视频(音频)中教师的语音示例来学习发音,而教师语音示例往往因个性化的原因,并不能与语音预测模型预测出的标准读音完全一致。因此,用语音预测模型对用户发音进行测评,其预测出的标准读音往往与教学语音示例在某些方面上不完全一致(例如音调、韵律),这样给出的评价结果是用户语音与预测语音的对比结果,并不能真实反映出用户语音与教学语音示例的对比结果。
因此,有必要提供一种语音评价方法,在给出由语音预测模型评价出的评价结果的同时,还可以给出与教学语音示例对比的评价结果,从而使用户全面了解自己的学习情况。
发明内容
为此,本发明所要解决的技术问题是在语言学习的过程中,如何同时向用户提供与教学示例语音对比的评价结果以及语音预测模型预测的标准语音对比的评价结果,以帮助用户全面了解自身学习情况。
为此,本发明提供一种语音评价方法,用于在语言学习过程中对用户的语言发音进行评价,其特征在于:
步骤S101,通过语音评价装置的录音设备获取用户的语音输入;
步骤S102,对所录制语音进行基本语音单元划分,获得该录制语音的语音单元序列;
步骤S103,对所述语音单元序列进行特征提取,获取该语音单元序列的音律特征;
步骤S104,将提取出的音律特征分别与教学示例语音以及语音预测模型预测的标准语音进行对比分析;
步骤S105,将语音对比结果标注在用户语音文本上。
所述基本语音单元可以是音节、音素等,通过对所述录制语音的划分,从而得到该录制语音的基本语音单元及语音单元序列。
所述音律特征包括韵律特征和音节特征,韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长,所述音节特征包括各基本语音单元的发音和整个语音单元序列的发音。
与教学示例语音进行对比分析的过程包括:
获取***中保存的教学示例语音;
对教学示例语音进行基本语音单元划分,得到教学示例语音的基本语音单元及语音单元序列;
提取教学语音单元序列的音律特征,所述教学语音单元序列的音律特征与用户语音单元序列的音律特征相对应;
将用户语音单元序列的音律特征与教学语音单元序列的音律特征进行对比,给出相应的评价结果。
利用语音预测模型进行语音评价的过程包括:
对所录制的用户语音进行基本语音单元划分,从语音单元序列中提取对应待测评音律特征;
对于不同的音律特征加载对应的预测模型,预测出相应的标准发音;
将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
语音对比结果标注过程具体包括:
将所录制的用户语音,转换成语音文本;
将所获得的教学示例语音对比的评价结果以及语音预测模型预测的标准语音对比的评价结果,采用可视化的方式分别标注在所述语音文本上,显示给用户。
本发明还提供一种语音评价装置,所述语音评价装置包括录音模块、存储模块、语音处理模块、特征提取模块、语音分析模块、评价模块、标注模块以及显示模块,其特征在于:
录音模块,用于获取用户的语音输入;
语音处理模块,用于对所录制语音进行基本语音单元划分,获得该录制语音的语音单元序列;
特征提取模块,对所述语音单元序列进行特征提取,获取该语音单元序列的音律特征;
语音分析模块,将提取出的音律特征分别与教学示例语音以及语音预测模型预测的标准语音进行对比分析;
标注模块,将语音评价结果标注在用户语音文本上。
所述语音评价装置还包括显示模块,用于将带有语音评价结果标注的用户语音文本显示给用户。
本发明的语音评价方法和装置,通过同时向用户提供用户语音与教学示例语音的评价结果以及与语音预测模型预测的标准语音的评价结果,使用户充分了解自己的发音情况,提高了发音的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是根据本发明实施例的语音评价方法的流程图;和
图2是根据本发明实施例的语音评价装置的结构图。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
在上下文中所称“语音评价装置”即为“计算机设备”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。
所述计算机设备包括用户设备和/或网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本领域技术人员应能理解,本发明中所述的“语音评价装置”可以仅是用户设备,即由用户设备来执行相应的操作;也可以是由用户设备与网络设备或服务器相集成来组成,即由用户设备与网络设备相配合来执行相应的操作。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,本领域技术人员应能理解,本发明可应用于移动端与非移动端,例如,当用户使用手机或PC时,均可利用本发明所述的方法或装置来进行提供与呈现。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1示出了本发明的语音评价方法的流程图。
在步骤S101,用户在进行语言学习的口语跟读环节中,通过语音评价装置的录音设备对用户的语音输入进行录制。
具体地,用户在学习了教学课件中的语音示例之后,进入跟读环节,此时触发语音评价装置中的录音设备,使其进入录音状态。当用户开始跟读语音示例时,录音设备开始录制用户语音,并将用户的跟读语音保存在语音评价装置的存储模块中,以供进一步分析使用。
在步骤S102,获取存储模块中录制的用户跟读语音,对所录制语音进行基本语音单元划分,获得所录制的用户跟读语音的语音单元序列。
所述基本语音单元可以是音节、音素等,通过对所述录制语音的划分,从而得到该录制语音的基本语音单元及语音单元序列。
不同的语音识别***将基于不同的声学特征如基于MFCC(Mel-FrequencyCepstrum Coefficients,美尔倒谱系数)特征的声学模型、基于PLP(Perceptual LinearPredictive,感知线性预测)特征的声学模型等,或采用不同的声学模型如HMM-GMM(HiddenMarkov Model-Gaussian Mixture Model,隐马尔可夫模型-高斯混合模型)、基于DBN(Dynamic BeyesianNetwork,动态贝叶斯网络)的神经网络声学模型等,或采用不同的解码方式如Viterbi搜索,A*搜索等,对语音信号解码。
步骤S103,对所述语音单元序列进行特征提取,获取该语音单元序列的音律特征。
所述音律特征包括韵律特征和音节特征,韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长,所述音节特征包括各基本语音单元的发音和整个语音单元序列的发音。
步骤S104,将提取出的音律特征分别与教学示例语音以及语音预测模型预测的标准语音进行对比分析。
其中,与教学示例语音进行对比分析的过程如下,获取***中保存的教学示例语音,对教学示例语音进行基本语音单元划分,从而得到教学示例语音的基本语音单元及语音单元序列,并进一步提取教学语音单元序列的音律特征,所述教学语音单元序列的音律特征与用户语音单元序列的音律特征相对应。将用户语音单元序列的音律特征与教学语音单元序列的音律特征进行对比,给出相应的评价结果。
利用语音预测模型进行语音评价的方法可采用现有的语音评价技术,即对所录制的用户语音进行基本语音单元划分,从语音单元序列中提取对应待测评音律特征,对于不同的音律特征加载对应的预测模型,预测出相应的标准发音,再将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
步骤S105,将语音对比结果标注在用户语音文本上,提供给用户。
在该步骤中,通过语音处理模块,进一步将所录制的用户语音,转换成语音文本。将步骤S104获得的与教学示例语音对比的评价结果以及语音预测模型预测的标准语音对比的评价结果,采用可视化的方式分别标注在所述语音文本上,显示给用户。用户通过所显示的评价结果,可以了解到其发音与教学示例的发音的不同之处,以及与语音预测模型预测的标准语音的发音的不同之处,以便用户全面了解其所读文本的发音存在什么问题,帮助用户进一步提高发音标准型。所述对比结果可包含基本语音单元的发音评价、基本语音单元的发音时长评价、全文流畅度评价等。
图2示出了根据本发明实施例的语音评价装置。所述语音评价装置用于实现本发明的语音评价方法,在用户进行口语跟读后,向用户同时提供与教学示例语音的评价结果以及与语音预测模型预测出的标准语音的评价结果。所述语音评价装置包括录音模块1、存储模块2、语音处理模块3、特征提取模块4、语音分析模块5、标注模块6以及显示模块7。
用户在进行语言学习的口语跟读环节中,通过语音评价装置的录音模块1对用户的语音输入进行录制。
具体地,用户在学习了教学课件中的语音示例之后,进入跟读环节,并触发语音评价装置中的录音模块1,使其进入录音状态。当用户开始跟读语音示例时,录音模块1开始录制用户语音,并将用户的跟读语音保存在语音评价装置的存储模块2中,以供进一步分析使用。
语音处理模块3获取存储模块2中录制的用户跟读语音,并对所录制语音进行基本语音单元划分。
所述基本语音单元可以是音节、音素等,通过对所述录制语音的划分,从而得到该录制语音的基本语音单元及语音单元序列。
语音处理模块3将录制语音的基本语音单元划分完之后,特征提取模块4进一步对所生成的语音单元序列进行特征提取,以获取该语音单元序列的音律特征。
所述音律特征包括韵律特征和音节特征,韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长,所述音节特征包括各基本语音单元的发音和整个语音单元序列的发音。
语音分析模块5将提取到的音律特征分别与教学示例语音以及语音预测模型预测的标准语音进行对比分析。
其中,与教学示例语音进行对比分析的过程如下,语音分析模块5获取存储模块2中保存的教学示例语音,对教学示例语音进行基本语音单元划分,从而得到教学示例语音的基本语音单元及语音单元序列,并进一步提取教学语音单元序列的音律特征,所述教学语音单元序列的音律特征与用户语音单元序列的音律特征相对应。将用户语音单元序列的音律特征与教学语音单元序列的音律特征进行对比,给出相应的评价结果。
利用语音预测模型进行语音评价的方法可采用现有的语音评价技术,即对所录制的用户语音进行基本语音单元划分,从语音单元序列中提取对应待测评音律特征,对于不同的音律特征加载对应的预测模型,预测出相应的标准发音,再将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
标注模块6将语音对比结果标注在用户语音上,并通过显示模块7提供给用户。
具体的通过语音处理模块3,进一步将所录制的用户语音,转换成语音文本。采用可视化的方式将语音分析模块5分析得到的与教学示例语音对比的评价结果以及语音预测模型预测的标准语音对比的评价结果,分别标注在所述语音文本上,并通过显示模块快7显示给用户。用户通过所显示的评价结果,可以了解到其发音与教学示例的发音的不同之处,以及与语音预测模型预测的标准语音的发音的不同之处,以便用户全面了解其所读文本的发音存在什么问题,帮助用户进一步提高发音标准型。所述对比结果可包含基本语音单元的发音评价、基本语音单元的发音时长评价、全文流畅度评价等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,并由处理器执行。计算机可读存储介质可以包括:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。