CN110148427A

CN110148427A - 音频处理方法、装置、***、存储介质、终端及服务器

Info

Publication number: CN110148427A
Application number: CN201810960463.0A
Authority: CN
Inventors: 郑桂涛
Original assignee: Tencent Cyber Tianjin Co Ltd
Current assignee: Tencent Cyber Tianjin Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-08-20
Anticipated expiration: 2038-08-22
Also published as: CN110148427B

Abstract

本发明实施例公开了一种音频处理的方法、装置、存储介质、终端及服务器，其中，方法包括：获取目标音频及与所述目标音频相关联的标准原始文本；根据所述标准原始文本获取参考音频，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的；获取所述目标音频的特征信息及所述参考音频的特征信息；将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度。基于参考音频获取目标音频的准确度，该目标音频的准确度能够较真实地反映用户的发音水准。

Description

音频处理方法、装置、***、存储介质、终端及服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种音频处理方法、一种音频处理装置、一种计算机存储介质、一种终端、一种服务器及一种音频处理***。

背景技术

随着语音识别技术的不断成熟，智能语音评测技术也得到了越来越广泛的应用，例如，广泛用于英语口语智能辅助教学、普通话口语考试或唱歌自动评分等等场景。其中，智能语音评测是指：播放原始语音数据，该原始语音数据通常是指预先录制的语音数据，例如英文外教朗读的英文段落，或老师采用标准普通话朗读的一篇文章，或原唱歌手演唱的一首歌曲等等；由用户随着原始语音数据进行跟读；再利用计算机自动地或半自动地对用户的跟读语音数据进行标准程度的评估和发音缺陷的检测，从而确定跟读音频的准确度。现有技术是通过计算跟读语音数据与原始语音数据之间的匹配程度来确定跟读语音数据的准确度的，但实践中发现，由于原始语音数据仅能反映单个人的音色特征，因此只有当跟读语音数据的音色接近于原始语音数据的音色时才能得到较高的准确度，这样得到的准确度只能反映跟读语音数据的音色与原始语音数据的音色之间的差异性，可见，现有技术对跟读音频的评测准确度较低，仅限于对音色接近于原始语音数据的音频进行处理，适用范围较窄且不能反映用户的真实发音水准。

发明内容

本发明实施例所要解决的技术问题在于，提供一种音频处理方法、装置、***、存储介质、终端及服务器，能够对目标音频的准确度进行智能评测，适用范围广且评测结果能够较真实地反映用户的发音水准。

一方面，本发明实施例提供一种音频处理方法，包括：

获取目标音频及与所述目标音频相关联的标准原始文本；

根据所述标准原始文本获取参考音频，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的；

获取所述目标音频的特征信息及所述参考音频的特征信息；

将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度。

一方面，本发明实施例提供了一种音频处理装置，该装置包括：

获取模块，用于获取目标音频及与所述目标音频相关联的标准原始文本。

音频处理模块，用于根据所述标准原始文本获取参考音频，以及获取所述目标音频的特征信息及所述参考音频的特征信息，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的。

准确度统计模块，用于将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度。

一方面，本发明实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行所述的音频处理方法，该方法包括：

获取与目标音频关联的标准原始文本；

根据所述标准原始文本获取参考音频，所述参考音频是通过对多个用户朗读所述标准原始文本的音频数据进行学习训练得到的，和/或所述参考音频是通过对所述标准原始文本的国际音标进行学习训练得到的；

获取所述目标音频的特征信息及所述参考音频的特征信息；

一方面，本发明实施例提供了一种终端，该终端包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行所述的音频处理方法，该方法包括：

获取目标音频及与所述目标音频相关联的标准原始文本；

获取所述目标音频的特征信息及所述参考音频的特征信息；

一方面，本发明实施例提供了一种服务器，包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如下步骤：

接收终端发送的目标音频及，及与所述目标音频相关联的标准原始文本；

获取所述目标音频的特征信息及所述参考音频的特征信息；

将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度；

将所述目标音频的准确度发送至所述终端。

一方面，本发明实施例提供了一种音频处理***，包括：终端及服务器，

所述终端，用于获取目标音频及与目标音频相关联的标准原始文本；并将所述标准原始文本及所述目标音频发送至所述服务器；

所述服务器，用于根据所述标准原始文本获取参考音频，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的；获取所述目标音频的特征信息及所述参考音频的特征信息；将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度；并将所述目标音频的准确发送至所述终端。

本发明实施例通过获取目标音频及与目标音频相关联的标准原始文本；根据标准原始文本获取参考音频；获取目标音频的特征信息及参考音频的特征信息；将目标音频的特征信息与参考音频的特征信息进行比对得到目标音频的准确度。上述方案中基于参考音频(而非原始语音数据)来确定目标音频的准确度，且该参考音频是根据目标音频的标准原始文本获取得到，这样使得目标音频的评测不受原始语音数据的限制，可以提高音频处理的准确度，适用范围较为广泛；另外，目标音频的准确度可以反映用户的真实发音水准，有利于帮助用户提升语音朗读能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频处理方法的流程示意图；

图2是本发明实施例提供的另一种音频处理方法的流程示意图；

图3是本发明实施例提供的一种音频处理装置的结构示意图；

图4是本发明实施例提供的一种音频处理***的结构示意图；

图5是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频处理方案，能够适用于对音频进行智能评测以获得该音频的准确度，该准确度能够反映用户的发音水准及朗读水平。该方案可包括：①获取目标音频及与目标音频关联的标准原始文本；一种可行的实施方式中，目标音频可以是指对原始语音数据进行跟读而产生的语音数据，例如：原始语音数据为英文朗读的段落，目标音频可以是对该英文朗读段落进行跟读而产生的语音数据；或者原始语音数据为正在播放的一首歌曲，目标音频可以是对该歌曲进行跟唱而产生的语音数据。在此实施方式下，目标音频关联的标准原始文本是指原始语音数据对应的文本信息，例如：原始语音数据为英文朗读的段落，那么标准原始文本则是该段落的英文文本内容；再如：若原始语音数据为一首歌曲，那么标准原始文本则是该首歌曲的歌词(即原创歌词)内容。另一种可行的实施方式中，目标音频也可以是指对显示的一段文字进行朗读得到的音频，此实施方式下目标音频关联的标准原始文本即为显示的该段文字；例如：若目标音频为对显示的一篇文章进行朗读而产生的语音数据，那么标准原始文本则是该文章的文本内容。②根据标准原始文本获取参考音频；此处，参考音频可以基于声学模型对标准原始文本进行转换得到，此处的声学模型包括发音词典；参考音频获取过程可包括：获得标准原始文本包含的多个词汇；再从发音词典分别获取每个词汇对应的音素序列；最后将每个词汇对应的音译序列进行组合而形成参考音频。其中发音词典可以通过对不同用户和/或国际音标等进行学习训练得到，因此参考音频可具备较为全面、较为标准的音频特征信息；③获取目标音频的特征信息及参考音频的特征信息；④将目标音频的特征信息与参考音频的特征信息进行比对得到目标音频的准确度。上述方案是基于参考音频(而非原始语音数据)来确定目标音频的准确度，且该参考音频是根据标准原始文本获取得到，这样使得目标音频的评测不受原始语音数据的限制，可以提高音频处理的准确度，适用范围较为广泛。另外，目标音频的准确度可以较为真实地反映用户的发音水准，有利于帮助用户提升朗读能力。

本发明实施例的音频处理方案可以被广泛应用于互联网音频处理场景中，该场景可包括但不限于：英语口语智能辅助教学场景、唱歌自动评分场景或普通话口语场景等等。例如：英语口语智能辅助教学场景中，通过播放原始语音数据(如英语对话)，并采集用户针对原始语音数据进行跟读得到的目标音频，对该目标音频进行评测处理得到跟读准确度，该跟读准确度可用于反映用户的口语发音水准，帮助用户提升英语口语能力；再如：唱歌自动评分场景中，可播放原唱歌曲，并采集用户跟唱的目标音频，对目标音频进行评测处理得到跟唱准确度，基于此准确度可对用户的演唱水平进行评分。再如：普通话口语考试场景中，播放标准普通话的文章(也可显示文章的文本内容)，并采集用户对文章进行朗读得到的目标音频，对目标音频进行评测处理得到朗读准确度，基于准确度判断用户考试是否合格。

基于上述描述，本发明实施例提供一种音频处理方法，该音频处理方法可以是由本发明实施例提供的音频处理装置来执行；请参见图1，该音频处理方法包括以下步骤S101-S104：

S101、获取目标音频及与目标音频关联的标准原始文本。

目标音频可以是指需要被执行智能评测处理以获得准确度的音频，该目标音频所包括的具体内容可以视具体的互联网音频处理场景而定；标准原始文本是指与目标音频相关联的文本信息，标准原始文本可以指原创文本；同样，标准原始文本所包括的具体内容视具体的互联网音频处理场景而定；例如，在英语口语智能辅助教学场景中，该目标音频可以是指用户针对音频处理装置播放的英文段落进行跟读得到的音频，此时标准原始文本是指该英文段落的文本内容，该文本内容是由原创作者所编写的文本，该文本内容由多个英文词汇组成，该文本内容可以是由音频处理装置根据该英文段落的标识从本地数据库或从网络上下载得到的，该英文段落的标识可以是指英文段落的名称(即主题)、编号或者某个词汇等；再如：在唱歌自动评分场景中，目标音频可以是指用户针对音频处理装置播放的一首歌曲进行跟唱得到的音频，此时标准原始文本是指该歌曲的原创歌词，该原创歌词是由文字、英文单词、数字等组成，该原创歌词可以由音频处理装置根据该歌曲的标识从本地数据库或从网络上下载得到的，该歌曲的标识是指该歌曲的名称、原唱者、作词者中的至少一种；再如：在普通话口语考试场景中，该目标音频可以是指用户针对音频处理装置显示的一段文字(或播放的一篇普通话朗读的文章)的进行朗读得到的音频，此时标准原始文本是指音频处理装置显示的一段文字，该标准原始文本可以由文字、英文词汇或数字等组成的该文章的文本内容。

S102、根据标准原始文本获取参考音频，该参考音频是调用声学模型对该标准原始文本进行转换得到的。

为了避免原始语音数据对目标音频的准确度有所限制，音频处理装置可以根据标准原始文本获取参考音频；该获取过程可包括：调用声学模型；将标准原始文本输入到声学模型中；由声学模型对标准原始文本进行转换得到参考音频。在一个实施例中，该声学模型可以是通过学习多个用户对标准原始文本的朗读音频数据而建立的模型；该多个用户可以是指来自同一国家的不同地区、不同国家或不同年龄段等的多个用户，此时参考音频可以反映多个用户的语音特征。在另一个实施例中，声学模型可以是通过学习标准原始文本中每个词汇的国际音标而建立的模型，此时参考音频可以反映标准语音特征。

S103、获取目标音频的特征信息及参考音频的特征信息。

可以通过声学模型或权重有限状态机(Weighted Finaite-State Transducer，WFST)网络等来获取目标音频的特征信息及参考音频的特征信息。目标音频包括多个目标词汇，一个目标词汇对应一个音素序列，一个音素序列包括多个音素，目标音频的特征信息包括每个目标词汇对应的音素序列的基础信息。音素(phone)是指语音中的最小的单位，可根据词汇的音节的发音动作来确定，一个发音动作构成一个音素。词汇可以是指一个英文单词(如love)、一个英文词组(如I am)、一个字符(如@)、一个字(如爱)、或者一个词语(如我们)。同样，参考音频包括多个参考词汇，一个参考词汇对应一个音素序列，参考音频的特征信息包括每个参考词汇对应的音素序列的基础信息。此处的基础信息包括：每个音素的时间信息和/或声学信息，时间信息包括每个音素的发音起始时间点及结束时间点，声学信息包括响度、音调或音色等等，响度是指声音的强度(即声音的能量)，音调是指声音的高低，音色是指声音的特性。

在一个实施例中，特征信息包括每个音素的时间信息，步骤S103获取目标音频的特征信息包括：对目标音频进行语音切分，得到目标音频中的每个目标词汇的每个音素的时间信息。具体包括：对目标音频进行切分，得到多帧目标音频段；从音素模型中获取与每帧目标音频段匹配度大于预设阈值的音素序列，此处音素模型包括多个音素序列，每个音素序列包括多个音素及每个音素的发音时长，一个音素序列与一个词汇对应；根据匹配的音素序列确定每个目标词汇的每个音素的时间信息；例如，以25毫秒为周期对目标音频进行切分，将目标音频划分为多个帧长为25毫秒的目标音频段，若第一目标音频段与音素模型中的目标音素序列匹配度大于预设阈值，该目标音素序列包括第一音素及第二音素，第一音素的发音时长为10毫秒，第二音素的发音时长为15毫秒，则第一目标音频段中的目标词汇的第一个音素的起始时间点00:00:00，结束时间点是00:00:15，第二个音素的起始时间为00:00:15，结束时间为00:00:25。

同理，步骤S103获取参考音频的特征信息包括：对参考音频进行语音切分，得到参考音频中的每个参考词汇的每个音素的时间信息。具体的，对参考音频数据进行切分，得到多帧参考音频段，从音素模型中获取与每帧参考音频段的匹配度大于预设阈值的音素序列，根据匹配的音素序列确定每个参考词汇的每个音素的时间信息。

在另一个实施例中，特征信息包括每个音素的声学信息，声学信息可包括响度、音调或音色等任一项或多项，步骤S103获取目标音频的特征信息包括：获取目标音频的声音波形；根据声音波形获取目标音频中每个目标词汇的音素的振幅；根据目标词汇的音素的振幅确定对应音素的响度；根据声音波形获取目标音频中每个目标词汇的音素的频率；根据目标词汇的音素的频率确定对应音素的音调；获取目标音频中每个目标词汇的音素的泛音，根据目标词汇的音素的泛音确定对应音素的音色，泛音是指振动频率大于预设频率值的语音。同理，步骤S103获取参考音频的特征信息包括：获取参考音频的声音波形，根据参考词汇的声音波形获取参考音频中每个参考词汇的音素的振幅，根据参考词汇的音素的振幅确定对应音素的响度；根据声音波形获取参考音频中每个参考词汇的音素的频率，根据参考词汇的音素的频率确定对应音素的音调；获取参考音频中每个参考词汇的音素的泛音，根据参考词汇的音素泛音确定对应音素的音色。

S104、将目标音频的特征信息与所述参考音频的特征信息进行比对得到该目标音频的准确度。

由于参考音频是根据标准原始文本转换得到的，该参考音频可以反映多个用户的语音特征信息或者反映标准原始文本的标准发音，音频处理装置可以根据参考音频的特征信息确定目标音频的准确度，以提高音频识别的准确度。具体的，音频处理装置可以将目标音频的特征信息与参考音频的特征信息进行匹配比对得到该目标音频的准确度。此处将目标音频的特征信息与参考音频的特征信息进行比对可以是指：将目标音频的所有特征信息与参考音频所有的特征信息进行比对；或者，将目标音频的部分特征信息与参考音频对应的部分的特征信息进行比对，例如，按照预设的采样频率对目标音频的特征信息和该参考音频的特征信息进行采样，将目标音频的特征信息中采样点与该参考音频的特征信息中的对应采样点进行比对。其中，目标音频的准确度越高，表明目标音频的特征信息与参考音频的特征信息的匹配程度越高，目标音频与参考音频的差异性越小；反之，目标音频的准确度越低，表明目标音频的特征信息与参考音频的特征信息的匹配程度越低，目标音频与参考音频的差异性越大。

本发明实施例通过获取目标音频及与目标音频相关联的标准原始文本；根据标准原始文本获取参考音频；获取目标音频的特征信息及参考音频的特征信息；将目标音频的特征信息与参考音频的特征信息进行比对得到目标音频的准确度。上述方案中基于参考音频(而非原始语音数据)来确定目标音频的准确度，且该参考音频是根据标准原始文本获取得到，这样使得目标音频的评测不受原始语音数据的限制，可以提高音频处理的准确度，适用范围较为广泛；另外，目标音频的准确度可以反映用户的真实发音水准，有利于帮助用户提升语音朗读能力。

本发明实施例提供另一种音频处理方法，该音频处理方法可以是由本发明实施例提供的音频处理装置来执行；请参见图2，该音频处理方法包括S201-S208：

S201、获取目标音频及与目标音频相关联的标准原始文本。

目标音频是指对原始语音数据进行跟读、滤噪等处理得到的，且需要被执行智能评测处理以获得准确度的音频，标准原始文本是指原始语音数据的标准原始文本。音频处理装置包括多个原始语音数据，当检测到用户针对某个原始语音数据的播放操作时，获取该播放操作对应的原始语音数据的标识，通过原始语音数据的标识从音频处理装置本地数据库或网页上下载该原始语音数据的标准原始文本，原始语音数据的标识是指原始语音数据的名称或编号等。例如，音频处理装置中包括编号为第一节的原始语音数据，当检测到针对该原始语音数据的播放操作时，通过原始语音数据的编号从音频处理装置从查找该原始语音数据对应的标准原始文本。

在一个实施例中，步骤S201包括如下步骤S11～S13：

S11、播放原始语音数据。

音频处理装置包括多个原始语音数据，用户可以根据需求从多个原始语音数据中选择一个原始语音数据进行播放；例如，音频处理装置中包括多个关于英语口语的原始语音数据，用户可以通过语音或触控等方式从多个关于英语口语的原始语音数据中选择一个原始语音数据，音频处理装置接收用户的选择操作，如选择的原始语音数据是一段关于目标英语口语内容的音频，该目标英语口语内容为“I am OK”，并播放用户选择的原始语音数据。

S12、采集针对所述原始语音数据进行跟读的目标语音数据。

在播放的原始语音数据的过程中，用户针对原始语音数据进行跟读，音频处理装置可以开启录制功能，通过静音检测方式采集用户针对该原始语音数据进行跟读的目标语音数据。例如，在播放一段关于目标英语口语内容“I am OK”的原始语音数据的过程中，用户针对原始语音数据进行跟读，音频处理装置可以开启录制功能并进行语音采集，在预设时长内未检测到用户的跟读语音，则确定用户跟读结束，即检测到静音，停止录制，得到目标语音数据。该目标语音数据为用户朗读关于目标英语口语内容“I am OK”的音频。

S13、对所述目标语音数据进行滤噪处理，得到目标音频。

为了提高音频识别准确性及提高识别效率，音频处理装置可以对目标语音数据进行滤噪处理，得到目标音频。具体的，音频处理装置可以采用滤噪算法对目标语音数据进行滤噪处理，得到目标音频。此处滤噪算法包括语音边界检测(Voice Activity Detection，VAD)等等，此处目标音频的可以为脉冲编码调制(Pulse Code Modulation，PCM)格式的音频文件。

S14、获取该原始语音数据对应的文本，将原始语音数据对应的文本确定为与该目标音频相关联的标准原始文本。

音频处理装置可以根据原始语音数据的标识从音频处理装置的本地数据库或网页上下载该原始语音数据对应的文本，该文本是指该原始语音数据对应的原创文本。

S202、解析标准原始文本获得词序列，该词序列包括多个参考词汇。

为了使参考音频具有流畅性，音频处理装置可以解析标准原始文本获得词序列；此处的解析过程可包括对标准原始文本进行段落划分、语句划分及分词处理等。参考词汇可以是指英文词汇、文字或数字等；例如在本实施例上述英语口语智能辅助教学场景中，该目标音频是用户跟读得到的目标英语口语“I amOK”，标准原始文本为“IamOK”，对该标准原始文本进行解析得到词序列，该词序列为“I am OK”，该词序列包括参考词汇“I”、“am”、“OK”。

S203、调用声学模型将词序列中每个参考词汇转换为一个音素序列，一个参考词汇对应一个音素序列，一个音素序列包含多个音素。其中，该声学模型是基于机器学习算法构建的，该声学模型包含发音词典，该发音词典用于存储多个词汇及对每个词汇进行机器学习后得到的音素序列。机器学习算法可以包括基于长短期记忆网络(Long Short-TermMemory，LSTM)、决策树算法、随机森林算法、逻辑回归算法、支持向量机算法(SupportVector Machine，SVM)或神经网络算法等。

通过发音词典查找该词序列中每个参考词汇对应的音素序列，具体地，音频处理装置可以为不同场景建立不同的发音词典，例如，在英语口语智能辅助教学场景中，音频处理装置可以采集多个用户针对某个英语词汇的发音，将多个用户对该英语词汇的发音输入到声学模型进行学习得到该英语词汇的发音，将学习得到该英语词汇的发音记录到英语对应的发音词典中。在唱歌自动评分场景中，音频处理装置可以采集多个用户针对某首歌曲的演唱音频，对多个用户演唱该歌曲的音频输入到声学模型中进行学习得到该歌曲中每个词汇的发音，将学习得到该歌曲中每个词汇的发音记录到歌曲对应的发音词典中。

在需要获取参考词汇的音素(即发音)时，音频处理装置可以根据应用场景调用对应的发音词典，进而根据发音词典获取每个参考词汇对应的音素序列。例如，在英语口语智能辅助教学场景中，音频处理装置可以调用英语对应的发音词典，通过发音词典查询词汇I、am及OK的音素。

S204、对该词序列中所有参考词汇对应的音素序列进行合成并形成参考音频。

在步骤S203中每个参考词汇对应的音素序列可以是指每个参考词汇的单音素序列，单音素序列包括多个单音素，单音素是指未考虑协同发音效应的音素，即没考虑上下文音素会对当前的音素的发音影响。为了提高参考词汇的准确度，音频处理装置可以对所述词序列中所有参考词汇对应的音素序列进行合成并形成该参考音频，具体的，将对所述词序列中参考词汇对应的单音素序列转化为参考词汇对应的三音素(Triphone)序列，根据参考词汇对应的三音素序列得到参考音频。此处三音素序列包括多个三音素，三音素是指考虑了协调发音效应的音素。例如，在词序列“I am OK”中，对于词汇“am”中的“a”的音素会受到词汇“I”的音素及“am”中的“m”的音素的影响，因此，根据“I”的音素及“m”的音素得到“a”的三音素；同理，根据“a”的音素与“O”音素的得到“m”的三音素；根据“m”的音素与“K”音素的得到“O”的三音素；根据“I”的前一个音素及“a”的音素确定“I”的三音素，根据“K”的后一个音素及“O”的音素确定“K”的三音素。

S205、获取目标音频的特征信息及参考音频的特征信息。

在一个实施例中，采用声学模型获取目标音频的特征信息及参考音频的特征信息，包括：采用声学模型及维特比(Viterbi)算法对目标音频及参考音频进行解码，得到目标音频的特征信息及参考音频的特征信息。在另一个实施例中，通过WFST网络获取目标音频的特征信息包括：将目标音频输入到WFST网络，WFST网络根据目标音频进行构图得到WFST图，并从WFST图中找最优路径，将最优路径对应的特征信息作为目标音频的识别结果输出。同理，通过WFST网络对参考音频的特征信息包括：将参考音频输入到WFST网络，WFST网络根据参考音频进行构图得到WFST图，并从WFST图中找最优路径，将最优路径对应的特征信息作为参考音频的识别结果输出。此处的特征信息包括音频的时间信息及声学信息等。目标音频包括多个目标词汇，一个目标词汇对应一个音素序列，目标音频的特征信息包括每个目标词汇对应的音素序列的基础信息。同样，参考音频包括多个参考词汇，一个参考词对应一个音素序列，参考音频的特征信息包括每个参考词汇对应的音素序列的基础信息。此处的基础信息包括：时间信息和/或声学信息，时间信息包括每个音素的发音起始时间点及结束时间点，声学信息包括音高、音强或音色等等。

S206、将目标音频的特征信息与参考音频的特征信息进行比对得到所述目标音频的准确度。

音频处理装置可以根据特征信息对比得到目标音频的准确度，具体的，将目标音频的特征信息与参考音频的特征信息进行比对得到目标音频中每个目标词汇的每个音素的准确度，将每个目标词汇的每个音素的准确度输入到基础统计模型，通过基础统计模型计算得到目标音频的准确度。例如，基础统计模型可以通过如下(1)式计算得到目标音频的准确度。

其中，GOP表示准确度(Goodness Of Pronunciation)，p表示三音素，t_e表示最后一个音素的出现的时间，t_s表示第一个音素的出现的时间，o_t表示时间点t出现的词汇的特征，p_t表示时间点t出现的音素的准确度。

在一个实施例中，准确度包括词汇准确度，步骤S206包括：①获取目标音频的特征信息与参考音频的特征信息之间的匹配度；②根据匹配度确定目标音频中每个目标词汇的发音准确度；③将目标音频中所有目标词汇的发音准确度的均值确定为目标音频的词汇准确度。

音频处理装置可以评估目标音频的词汇准确度，具体的，音频处理装置将目标音频的特征信息与参考音频的特征信息进行比对，获取目标音频的特征信息与参考音频的特征信息之间的匹配度，根据匹配度确定目标音频中每个目标词汇的发音准确度。此处匹配度与发音准确度成正比，即目标词汇对应的特征信息与对应参考词汇的特征信息的匹配度越大，表明目标词汇的发音与对应参考词汇的发音的差异性较小，目标词汇的发音准确度越高；反之，目标词汇对应的特征信息与对应参考词汇的特征信息的匹配度越小，表明目标词汇的发音与对应参考词汇的发音的差异性较大，目标词汇的发音准确度越低。在获取到每个目标词汇的发音准确度时，音频处理装置可以将目标音频中所有目标词汇的发音准确度的均值确定为目标音频的词汇准确度。

在一个实施例中，音频处理装置可以将每个目标词汇的准确度输入到以神经网络(Neural Networks，NN)为声学模型的***中，该***通过帧后验概率均值算法计算目标音频中所有目标词汇的准确度的均值，将计算得到均值确定为目标音频的词汇准确度。

在另一个实施例中，准确度包括句子准确度，步骤S206包括：①从目标音频中选取准确度大于预设阈值的目标词汇；②将所选取的所有目标词汇的准确度的均值确定为目标音频的句子准确度。

音频处理装置可以评估目标音频的句子准确度，具体的，音频处理装置可以过滤掉发音准确度小于或等于预设阈值的目标词汇，目标词汇的发音准确度小于或等于预设阈值是由于多读或漏读造成的，并选取发音准确度大于预设阈值的目标词汇，通过加权或统计平均算法计算选取的所有目标词汇的发音准确度的均值，所选取的所有目标词汇的发音准确度的均值确定为目标音频的句子准确度。

在再一个实施例中，准确度包括完整度，步骤S206包括：①根据所述目标音频的特征信息统计目标音频中的发音词汇数量；②获取所述参考音频中的参考词汇数量；③将所述目标音频中的发音词汇数量与所述参考音频中的参考词汇数量的比值确定为目标音频的完整度。

音频处理装置可以评估目标音频的完整度，具体的，音频处理装置可以根据目标音频的特征信息确定目标音频中未发音词汇及发音词汇，并统计目标音频中的发音词汇数量，并获取所述参考音频中的参考词汇数量，并计算将所述目标音频中的发音词汇数量与所述参考音频中的参考词汇数量的比值，将比值确定为目标音频的完整度。此处比值越大，表明目标音频中由于漏读等因素造成的未发音词汇数量越少，则完整度越高；比值越小，表明目标音频中由于漏读等因素造成的未发音词汇数量越多，则完整度越低。

在再一个实施例中，准确度包括流畅度，步骤S206包括：①根据目标音频中的每个目标词汇的每个音素的时间信息确定每个目标词汇的发音时长；②根据所述参考音频中的每个参考词汇的每个音素的时间信息确定每个参考词汇的发音时长；③获取目标音频中每个目标词汇的发音时长与参考音频中对应的参考词汇的发音时长之间的差值；④根据差值确定目标音频的流畅度。

音频处理装置可以评估目标音频的流畅度，具体的，音频处理装置可以通过静音检测确定目标音频中每个目标词汇的每个音素的时间信息，每个音素的时间信息包括音素的发音开始时间点及发音结束时间点，根据每个音素的发音开始时间点及发音结束时间点确定每个目标词汇的每个音素的发音时长。同理，音频处理装置可以通过静音检测确定参考音频中每个参考词汇的每个音素的时间信息，每个音素的时间信息包括音素的发音开始时间点及发音结束时间点，根据每个音素的发音开始时间点及发音结束时间点确定每个参考词汇的每个音素的发音时长。进而，获取目标音频中每个目标词汇的发音时长与所述参考音频中对应的参考词汇的发音时长之间的差值，根据差值确定目标音频的流畅度。此处差值越小，表明目标音频中音素的发音时长与参考音频中音素的发语音时长差异越小，则目标音频的流畅度越高；差值越大，表明目标音频中音素的发音时长与参考音频中音素的发语音时长差异越大，则目标音频的流畅度越低。

在再一个实施例中，准确度包括重音位置准确度，步骤S206包括：①根据所述目标音频中的各目标词汇的音素的声学信息确定目标音频中的每个目标词汇的重音位置；②根据所述参考音频中的各参考词汇的音素的声学信息确定所述参考音频中的每个参考词汇的重音位置；③获取所述目标音频中每个目标词汇的重音位置与所述参考音频中对应的参考词汇的重音位置之间的差异；④根据所述差异确定所述目标音频的重音位置准确度。

音频处理装置可以评估目标音频的重音位置准确度，具体的，音频处理装置根据目标音频中的各目标词汇的音素的声学信息(如音强)确定目标音频中的每个目标词汇的重音位置，并根据参考音频中的各参考词汇的音素的声学信息确定参考音频中的每个参考词汇的重音位置；获取所述目标音频中每个目标词汇的重音位置与所述参考音频中对应的参考词汇的重音位置之间的差异；根据差异确定所述目标音频的重音位置准确度。此处差异越小，表明目标音频中目标词汇的重音位置与参考音频中对应参考词汇的重音位置相同或相似度较大，则目标音频的重音位置准确度越高；差异越大，表明目标音频中目标词汇的重音位置与参考音频中对应参考词汇的重音位置的相似度较小，则目标音频的重音位置准确度越低。

在一个实施例中，为了提高识别目标音频的准确度，音频处理装置可以根据国际音标确定参考音频中的每个参考词汇的重音位置，国际音标中标注了多个词汇的重音位置。

S207、根据目标音频的准确度获取目标音频的评分。

音频处理装置可以根据目标音频的词汇准确度、句子准确度、完整度、流畅度、重音位置准确度中的一个参数或多个参数获取目标音频的评分。当以上述的其中一个参数获取目标音频的评分时，可以将该参数对应的值作为目标音频的评分，如将词汇的准确度作为目标音频的评分；当以上述的两个或两个以上的参数获取目标音频的评分时，通过加权平均或统计平均的方式获取各个参数的均值，将均值作为目标音频的评分。

S208、输出目标音频的评分，或输出目标音频的评分对应的等级。

在步骤S207～S208中，为了给用户反馈语音跟读水平，并帮助用户改善语音跟读能力，输出目标音频的评分，或输出目标音频的评分对应的等级，输出目标音频的评分或等级的方式包括语音播报、文字显示、振动或闪屏等等。在一个实施例中，目标音频的评分对应的等级可以描述为初级、中级或高级，或描述为及格、良好或优秀，音频处理装置可以根据用户的年龄及目标音频的评分设置目标音频的等级。例如，若目标音频的评分为75分，若输出该目标音频的用户的年龄段在3～10岁，则将目标音频的评分对应的等级设置为优秀；若输出该目标音频的用户的年龄段在10岁以上，则将目标音频的评分对应的等级设置为良好。

在一个实施例中，音频处理装置可以将目标音频的准确度输入到评分模型中，通过评分模型获取目标音频的评分，并输出目标音频的评分，或输出目标音频的评分对应的等级。为了提高识别音频的准确度，音频处理装置可以优化该评分模型，例如，在英语口语智能辅助教学场景中，采集多个用户朗读英语的音频，将采集的音频输入到评分模型进行训练得到评分，并接收专业英语老师对用户朗读的音频进行评分，计算训练得到的评分与专业英语老师的评分之间的差值，若差值大于预设差值，则对评分模型的训练参数进行调整，并再次将采集的音频输入到评分模型进行训练，直到差值小于预设差值。

本发明实施例提供一种音频处理装置，该装置可用于执行上述图1-图2所示的音频处理方法；请参见图3，该装置可包括：获取模块301、音频处理模块302、准确度统计模块303；其中，

获取模块301，用于获取目标音频及与所述目标音频相关联的标准原始文本。

音频处理模块302，用于根据所述标准原始文本获取参考音频，以及获取所述目标音频的特征信息及所述参考音频的特征信息，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的。

准确度统计模块303，用于将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度。

其中，音频处理模块302具体用于解析所述标准原始文本获得词序列，所述词序列包括多个参考词汇；调用声学模型将所述词序列中每个参考词汇转换为一个音素序列，一个参考词汇对应一个音素序列，一个音素序列包含多个音素；对所述词序列中所有参考词汇对应的音素序列进行合并形成所述参考音频；其中，所述声学模型是基于机器学习算法构建的，所述声学模型包含发音词典，所述发音词典用于存储多个词汇及对每个词汇进行机器学习后得到的音素序列。

其中，所述目标音频包括多个目标词汇，一个目标词汇对应一个音素序列；所述目标音频的特征信息包括每个目标词汇对应的音素序列的的基础信息；所述参考音频包括多个参考词汇，一个参考词汇对应一个音素序列；所述参考音频的特征信息包括每个参考词汇对应的音素序列的基础信息；所述基础信息包括：每个音素的时间信息和/或声学信息。

一种实施方式中，所述准确度包括词汇准确度；所述准确度统计模块303具体用于获取所述目标音频的特征信息与所述参考音频的特征信息之间的匹配度；根据所述匹配度确定所述目标音频中每个目标词汇的发音准确度；将所述目标音频中所有目标词汇的发音准确度的均值确定为所述目标音频的词汇准确度。

另一种实施方式中，所述准确度包括句子准确度；所述准确度统计模块303具体用于从所述目标音频中选取发音准确度大于预设阈值的目标词汇；将所选取的所有目标词汇的发音准确度的均值确定为所述目标音频的句子准确度。

再一种实施方式中，所述准确度包括完整度；所述准确度统计模块303具体用于根据所述目标音频的特征信息统计所述目标音频中的发音词汇数量；获取所述参考音频中的参考词汇数量；将所述目标音频中的发音词汇数量与所述参考音频中的参考词汇数量的比值确定为所述目标音频的完整度。

再一种实施方式中，所述准确度包括流畅度；所述准确度统计模块303具体用于根据所述目标音频中的每个目标词汇的每个音素的时间信息确定每个目标词汇的发音时长；根据所述参考音频中的每个参考词汇的每个音素的时间信息确定每个参考词汇的发音时长；获取所述目标音频中每个目标词汇的发音时长与所述参考音频中对应的参考词汇的发音时长之间的差值；根据所述差值确定所述目标音频的流畅度。

再一种实施方式中，所述准确度包括重音位置准确度；所述准确度统计模块303具体用于根据所述目标音频中的各目标词汇的音素的声学信息确定所述目标音频中的每个目标词汇的重音位置；根据所述参考音频中的各参考词汇的音素的声学信息确定所述参考音频中的每个参考词汇的重音位置；获取所述目标音频中每个目标词汇的重音位置与所述参考音频中对应的参考词汇的重音位置之间的差异；根据所述差异确定所述目标音频的重音位置准确度。

可选地，该装置还可包括输出模块304以及播放模块305。

输出模块304，用于根据所述目标音频的准确度获取所述目标音频的评分；输出所述目标音频的评分，或输出所述目标音频的评分对应的等级。

播放模块305，用于播放原始语音数据。

所述获取模块301具体用于采集针对所述原始语音数据进行跟读的目标语音数据；对所述目标语音数据进行滤噪处理，得到目标音频；获取所述原始语音数据对应的文本，将所述原始语音数据对应的文本确定为与所述目标音频相关联的标准原始文本。

本发明实施例通过获取目标音频及与目标音频关联的标准原始文本；根据标准原始文本获取参考音频；获取目标音频的特征信息及参考音频的特征信息；将目标音频的特征信息与参考音频的特征信息进行比对得到目标音频的准确度。上述方案中基于参考音频(而非原始语音数据)来确定目标音频的准确度，且该参考音频是根据目标音频的标准原始文本获取得到，这样使得目标音频的评测不受原始语音数据的限制，可以提高音频处理的准确度，适用范围较为广泛；另外，目标音频的准确度可以反映用户的真实发音水准，有利于帮助用户提升语音朗读能力。

本发明实施例提供一种音频处理***，请参见图4，该***可包括终端；此处的终端可以是指学习机、电视、智能手机、智能手表、机器人或电脑等，该终端包括处理器101、输入接口102、输出接口103以及计算机存储介质104。其中，输入接口102，用于与其他设备(如服务器)建立通信连接，接收其他设备发送的数据或向其他设备发送数据。输出接口103，用于可以向外输出处理器101的处理结果，输出接口103可以是指显示屏或语音输出接口等。所述计算机存储介质104用于存储一条或一条以上的程序指令；所述处理器101可以调用所述一条或一条以上的程序指令时能够执行本发明实施例所述的音频处理方法。

在一种实施例中，图3所示的音频处理装置可以被设置为一个音频处理应用程序，该音频处理应用程序可运行于一个独立的网络设备中，例如可运行于图4所示的终端中，终端通过其内的音频处理装置执行图1-图2所示的音频处理方法。具体请一并参见图5，终端可以执行以下步骤：

S41、启动该音频处理应用程序。终端将音频处理应用程序的图标显示在终端的显示屏上，用户可以通过滑动或点击等触控方式触控该图标，终端检测到用户针对该图标的触控操作，则启动该音频处理应用程序，并显示音频处理应用程序的主界面，该主界面包括显示音频处理应用程序的功能选项，例如，包括英语口语教学选项、普通话测试选项及唱歌自动评分选项。用户可通过滑动或点击等触控方式触控上述选项，终端检测到用户针对功能选项的触控操作，显示功能选项对应的界面，如，当终端检测到针对英语口语教学选项的触控操作，显示英语口语教学选项对应的界面，该界面上包括英语口语的原始语音数据列表，该列表包括多个原始语音数据，如包括两个原始语音数据(标识为原始语音数据1和原始语音数据2)。

S42、播放用户选择的原始语音数据并获取目标音频。当终端检测到用户针对某个原始语音数据(如原始语音数据1)的选择操作，则播放用户选择的原始语音数据，并启动音频处理应用程序的录制功能，采集用户针对该原始语音数据进行跟读得到的目标音频。

S43、获取目标音频及与目标音频相关联的标准原始文本。当终端检测到用户针对某个原始语音数据(如原始语音数据1)的选择操作，根据原始语音数据的标识获取原始语音数据的标准原始音频。

S44、根据所述标准原始文本获取参考音频。

S45、获取所述目标音频的特征信息及所述参考音频的特征信息。

S46、将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度，并输出该目标音频的准确度。

本实施例的步骤S43～S46的描述可参见图1或图2中相应的描述，在此不赘述。

另一个实施例中，该音频处理***还包括服务器。图3所示的音频处理装置可以被分布设置于多个设备中，例如可被分布设置于如图4所示音频处理***中的终端及服务器中。参见图4，音频处理装置的获取模块、输出模块以及播放模块被设置为音频处理应用程序，该音频处理应用程序安装并运行于终端中。音频处理装置的音频处理模块、准确度统计模块被设置在服务器中，服务器作为音频处理应用程序的后台服务器，为该音频处理应用程序提供服务。通过终端与服务器的交互可以实现如图1-图2所示的音频处理方法。具体地：终端获取目标音频及与目标音频关联的标准原始文本；将该标准原始文本及目标音频发送至服务器；服务器根据所述标准原始文本获取参考音频；获取所述目标音频的特征信息及所述参考音频的特征信息；将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度；并将目标音频的准确度发送至终端，终端输出该目标音频的准确度。

在一个实施例中，该服务器包括处理器201、输入接口202、输出接口203以及计算机存储介质204。其中，输入接口202，用于与其他设备(如终端)建立通信连接，接收其他设备发送的数据或向其他设备发送数据。输出接口203，用于可以向外输出处理器201的处理结果，输出接口203可以是指显示屏或语音输出接口等。所述计算机存储介质204用于存储一条或一条以上的程序指令；所述处理器201可以调用所述一条或一条以上的程序指令时能够执音频处理方法以实现获取音频的准确度，所述处理器201调用程序指令执行如下步骤：

接收终端发送的目标音频，及与目标音频相关联的标准原始文本；

获取所述目标音频的特征信息及所述参考音频的特征信息；

将所述目标音频的准确度发送至所述终端。

还需要说明的是，本发明的服务器及终端对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，在此不作限制。本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的计算机存储介质，当其在计算机上运行时，所述计算机执行如上述方法实施例中记载的任何一种音频处理方法的部分或全部步骤。在一个实施例中，该计算机程序产品可以为一个软件安装包。

以上所揭露的仅为本发明部分实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取目标音频及与所述目标音频相关联的标准原始文本；

获取所述目标音频的特征信息及所述参考音频的特征信息；

2.如权利要求1所述的方法，其特征在于，所述根据所述标准原始文本获取参考音频，包括：

解析所述标准原始文本获得词序列，所述词序列包括多个参考词汇；

调用声学模型将所述词序列中每个参考词汇转换为一个音素序列，一个参考词汇对应一个音素序列，一个音素序列包含多个音素；

对所述词序列中所有参考词汇对应的音素序列进行合并形成所述参考音频；

其中，所述声学模型是基于机器学习算法构建的，所述声学模型包含发音词典，所述发音词典用于存储多个词汇及对每个词汇进行机器学习后得到的音素序列。

3.如权利要求1所述的方法，其特征在于，所述目标音频包括多个目标词汇，一个目标词汇对应一个音素序列；所述目标音频的特征信息包括每个目标词汇对应的音素序列的基础信息；

所述参考音频包括多个参考词汇，一个参考词汇对应一个音素序列；所述参考音频的特征信息包括每个参考词汇对应的音素序列的基础信息；

所述基础信息包括：每个音素的时间信息和/或声学信息。

4.如权利要求3所述的方法，其特征在于，所述准确度包括词汇准确度；

所述将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度，包括：

获取所述目标音频的特征信息与所述参考音频的特征信息之间的匹配度；

根据所述匹配度确定所述目标音频中每个目标词汇的发音准确度；

将所述目标音频中所有目标词汇的发音准确度的均值确定为所述目标音频的词汇准确度。

5.如权利要求4所述的方法，其特征在于，所述准确度包括句子准确度；

从所述目标音频中选取发音准确度大于预设阈值的目标词汇；

将所选取的所有目标词汇的发音准确度的均值确定为所述目标音频的句子准确度。

6.如权利要求3所述的方法，其特征在于，所述准确度包括完整度；

根据所述目标音频的特征信息统计所述目标音频中的发音词汇数量；

获取所述参考音频中的参考词汇数量；

将所述目标音频中的发音词汇数量与所述参考音频中的参考词汇数量的比值确定为所述目标音频的完整度。

7.如权利要求3所述的方法，其特征在于，所述准确度包括流畅度；

根据所述目标音频中的每个目标词汇的每个音素的时间信息确定每个目标词汇的发音时长；

根据所述参考音频中的每个参考词汇的每个音素的时间信息确定每个参考词汇的发音时长；

获取所述目标音频中每个目标词汇的发音时长与所述参考音频中对应的参考词汇的发音时长之间的差值；

根据所述差值确定所述目标音频的流畅度。

8.如权利要求3所述的方法，其特征在于，所述准确度包括重音位置准确度；

根据所述目标音频中的各目标词汇的音素的声学信息确定所述目标音频中的每个目标词汇的重音位置；

根据所述参考音频中的各参考词汇的音素的声学信息确定所述参考音频中的每个参考词汇的重音位置；

获取所述目标音频中每个目标词汇的重音位置与所述参考音频中对应的参考词汇的重音位置之间的差异；

根据所述差异确定所述目标音频的重音位置准确度。

9.如权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标音频的准确度获取所述目标音频的评分；

输出所述目标音频的评分，或输出所述目标音频的评分对应的等级。

10.如权利要求1-8任一项所述的方法，其特征在于，所述获取目标音频及与所述目标音频相关联的标准原始文本，包括：

播放原始语音数据；

采集针对所述原始语音数据进行跟读的目标语音数据；

对所述目标语音数据进行滤噪处理，得到目标音频；

获取所述原始语音数据对应的文本，将所述原始语音数据对应的文本确定为与所述目标音频相关联的标准原始文本。

11.一种音频处理装置，其特征在于，包括：

获取模块，用于获取目标音频及与所述目标音频相关联的标准原始文本；

音频处理模块，用于根据所述标准原始文本获取参考音频，以及获取所述目标音频的特征信息及所述参考音频的特征信息，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的；

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-10任一项所述的音频处理方法。

13.一种终端，其特征在于，包括：

处理器，适于实现一条或一条以上指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-10任一项所述的音频处理方法。

14.一种服务器，其特征在于，包括：

处理器，适于实现一条或一条以上指令；以及，

接收终端发送的目标音频，及与所述目标音频相关联的标准原始文本；

获取所述目标音频的特征信息及所述参考音频的特征信息；

将所述目标音频的准确度发送至所述终端。

15.一种音频处理***，其特征在于，包括：终端及服务器，

所述终端，用于获取目标音频及与所述目标音频相关联的标准原始文本；并将所述标准原始文本及所述目标音频发送至所述服务器；

所述服务器，用于根据所述标准原始文本获取参考音频，所述参考音频是调用声学模型对所述标准原始文本进行转换得到的；获取所述目标音频的特征信息及所述参考音频的特征信息；将所述目标音频的特征信息与所述参考音频的特征信息进行比对得到所述目标音频的准确度；并将所述目标音频的准确度发送至所述终端。