CN109300339A - 一种英语口语的练习方法及*** - Google Patents
一种英语口语的练习方法及*** Download PDFInfo
- Publication number
- CN109300339A CN109300339A CN201811376417.2A CN201811376417A CN109300339A CN 109300339 A CN109300339 A CN 109300339A CN 201811376417 A CN201811376417 A CN 201811376417A CN 109300339 A CN109300339 A CN 109300339A
- Authority
- CN
- China
- Prior art keywords
- audio
- testing
- standard
- standard audio
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种英语口语的练习方法及***,其中方法包括以下步骤:接收口语的测试音频,将所述测试音频转译为计算机文本文件;将所述计算机文本文件转译为标准音频;分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率,根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分,并输出所述标准音频以及所述百分比评分。上述方法和***能够有效的根据输入的音频输出对应的标准音频,同时还能够为输入的音频给出合理的评分,能够有效的提高用户的英语口语能力,具有很高的实用性。
Description
技术领域
本发明涉及语言学习领域,特别涉及一种英语口语的练习方法及***。
背景技术
随着经济全球化的深入和中国综合国力的提升,中国与世界的交流正日渐频繁,对国际通用语言知识的需求也在飞速增长。同时,有赖于信息技术日新月异,计算机辅助语言学习日渐成熟,使得网络学习口语成为了可能。但是,现有的终端教学依然习惯性地沿用固有的教学模式,大多侧重单词和语法的学习,为数不多的口语练习软件,也只能提供仅限于模拟交际的朗读或者跟读功能,不能从根本上提高用户英语的使用能力。
发明内容
针对上述技术问题,本发明提供一种能够有效根据接收到的音频输出对应标准音频,同时给出相应评分,且能够有效提高英语口语能力的一种英语口语的练习方法及***。
为解决上述技术问题,本发明所采取的技术方案是:提供一种英语口语的练习方法,其特征在于,包括以下步骤:
接收口语的测试音频,将所述测试音频转译为计算机文本文件;
将所述计算机文本文件转译为标准音频;
分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率,根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分,并输出所述标准音频以及所述百分比评分。
本发明采用以上技术方案,达到的技术效果为:本发明提供的英语口语的练习方法能够有效的根据测试音频,输出对应的计算机文本文件,并根据计算机文本文件输出对应的标准音频,通过提取的测试音频和标准音频的梅尔频率倒谱系数,能够有效的确定测试音频和标准音频的音素后验概率,并根据音素后验概率确定测试音频相对于标准音频的评分,同时输出标准音频。上述英语口语的练习方法能够有效的根据输入的音频输出对应的标准音频,同时还能够为输入的音频给出合理的评分,能够有效的提高用户的英语口语能力,具有很高的实用性。
较优的,在上述技术方案中,所述将所述测试音频转译为计算机文本文件具体包括以下步骤:
将所述测试音频转换为语音波形信号,对所述语音波形信号进行频谱或倒谱分析,提取与所述语音波形信号对应的声学特征值,对所述声学特征值进行模型识别训练,确定对应的声学模型和语言模型;
通过所述声学模型创建所述声学特征值与句子语音建模单元间的联系,并确定给定文字发出对应语音的概率;
所述语言模型根据链式法则将完整的句子拆解为单个词,并确定当前词出现的概率;
根据所述给定文字发出对应语音的概率和所述当前词出现的概率,输出最优的文本序列。
较优的,在上述技术方案中,在所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数之前,所述将所述计算机文本文件转译为标准音频之后,还包括以下步骤:
分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充;
对补充后的标准音频和测试音频进行分帧处理。
较优的,在上述技术方案中,所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,具体包括以下步骤:
将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图;
分别提取每帧音频的部分频率特征;
对所述部分频率特征进行离散余弦变换后,得到梅尔频率倒谱系数。
还提供了一种英语口语的练习***,包括:
音频转换模块,用于接收口语的测试音频,将所述测试音频转译为计算机文本文件;
文字转换模块,用于将所述计算机文本文件转译为标准音频;
音频比对模块,用于分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率,根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分,并输出所述标准音频以及所述百分比评分。
较优的,在上述技术方案中,所述音频转换模块将所述测试音频转译为计算机文本文件执行的具体操作为:
将所述测试音频转换为语音波形信号,对所述语音波形信号进行频谱或倒谱分析,提取与所述语音波形信号对应的声学特征值,对所述声学特征值进行模型识别训练,确定对应的声学模型和语言模型;
通过所述声学模型创建所述声学特征值与句子语音建模单元间的联系,并确定给定文字发出对应语音的概率;
所述语言模型根据链式法则将完整的句子拆解为单个词,并确定当前词出现的概率;
根据所述给定文字发出对应语音的概率和所述当前词出现的概率,输出最优的文本序列。
较优的,在上述技术方案中,所述音频比对模块,还用于分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充;
对补充后的标准音频和测试音频进行分帧处理。
较优的,在上述技术方案中,所述音频比对模块,还用于将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图;
分别提取每帧音频的部分频率特征;
对所述部分频率特征进行离散余弦变换后,得到梅尔频率倒谱系数。
本发明采用以上技术方案,达到的技术效果为:本发明提供的英语口语的练习***能够有效的根据测试音频,输出对应的计算机文本文件,并根据计算机文本文件输出对应的标准音频,通过提取的测试音频和标准音频的梅尔频率倒谱系数,能够有效的确定测试音频和标准音频的音素后验概率,并根据音素后验概率确定测试音频相对于标准音频的评分,同时输出标准音频。上述英语口语的练习***能够有效的根据输入的音频输出对应的标准音频,同时还能够为输入的音频给出合理的评分,能够有效的提高用户的英语口语能力,具有很高的实用性。
还提供了一种存储介质,其上存储有程序指令,所述程序指令在被处理器执行时,实现方法权利要求的方法。
附图说明
下面结合附图对本发明作进一步说明:
图1是本发明提供的英语口语的练习方法示意性流程图;
图2为本发明提供的音频转文本的示意性流程图;
图3是本发明提供的英语口语的练习***的示意性框图。
具体实施方式
为了能够有效的提高用户英语的口语能力,本发明提供了一种英语口语的练习方法,详见图。图1为本发明提供的英语口语的练习方法的示意性流程图。具体包括以下步骤:
步骤S10:接收口语的测试音频,将测试音频转译为计算机文本文件;
步骤S20:将计算机文本文件转译为标准音频;
步骤S30:分别提取述测试音频和标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算测试音频与标准音频的音素后验概率,根据音素后验概率确定测试音频相对与标准音频的百分比评分,并输出标准音频以及百分比评分。
上述方法能够根据测试音频,输出对应的计算机文本文件,并根据计算机文本文件输出对应的标准音频,通过提取的测试音频和标准音频的梅尔频率倒谱系数,能够有效的确定测试音频和标准音频的音素后验概率,并根据音素后验概率确定测试音频相对于标准音频的评分,同时输出标准音频。使得用户能够根据具体的评分,针对自己的口语能力进行改进,有效的提高用户的英语口语能力,具有很高的实用性。
在图1对应实施例的基础上,还进行了改进。详见图2,图2为本发明提供的音频转文本的示意性流程图。具体包括以下步骤:
步骤S11:将测试音频转换为语音波形信号,对语音波形信号进行频谱或倒谱分析,提取与语音波形信号对应的声学特征值,对声学特征值进行模型识别训练,确定对应的声学模型和语言模型;
步骤S12:通过声学模型创建声学特征值与句子语音建模单元间的联系,并确定给定文字发出对应语音的概率;
步骤S13:语言模型根据链式法则将完整的句子拆解为单个词,并确定当前词出现的概率;
步骤S14:根据给定文字发出对应语音的概率和当前词出现的概率,输出最优的文本序列。
上述技术方案能够有效的根据测试音频,输出最优的文本序列,即后续标准语音生成的依据。通过对测试音频等一系列的操作,确保了输出的文本序列的准确性和唯一性,为后续的评分以及标准音频的输出提供了数据支持。
在图2对应实施例的基础上,为了保证***具有良好的识别效果,还进行了改进。具体的在分别提取测试音频和标准音频的梅尔频率倒谱系数之前,将计算机文本文件转译为标准音频之后,还包括以下步骤:
分别对与标准音频和测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充;
对补充后的标准音频和测试音频进行分帧处理。
通过对测试音频和标准音频进行的上述处理,有效的保证了后续对标准音频和测试音频梅尔频率倒谱系数的提取,提高了音频识别的效率。
较优的,在上述技术方案中,分别提取述测试音频和标准音频的梅尔频率倒谱系数,具体包括以下步骤:
将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图;
分别提取每帧音频的部分频率特征;
对部分频率特征进行离散余弦变换后,得到梅尔频率倒谱系数。
通过对标准音频和测试音频的频域图转换以及每帧音频的部分频率特征的提取,有效的确保了梅尔频率倒谱系数的提起,保证了梅尔频率倒谱系数提取的准确性和效率。
在图1对应的方法实施例的基础上,本发明还提供了一种英语口语的练习***,详见图3,图3为本发明提供的英语口语的练习***的示意性框图。一种英语口语的练习***包括:
音频转换模块,用于接收口语的测试音频,将测试音频转译为计算机文本文件;
文字转换模块,用于将计算机文本文件转译为标准音频;
音频比对模块,用于分别提取述测试音频和标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算测试音频与标准音频的音素后验概率,根据音素后验概率确定测试音频相对与标准音频的百分比评分,并输出标准音频以及百分比评分。
在对标准音频进行评分时,必须是建立在用户能够使用的具体的发音点基础之上,同时,软件回馈的结果必须和母语为英语者的听觉判断结果相类似。
音频比对模块以语音识别模块(ASR)为基础,ASR***将之前语音识别阶段输出的文本转化成音频,作为标准模型与练习者的测试音做对比,从而对练习者的测试音给出评分。
预处理:首先,分别对测试发音和标准参考发音进行预处理。预处理包括对发音的1)预加重:补充语音功率谱的固有衰落和受发音***所压抑的高频部分,从而减少了噪音对之后端点检测和特征参数提取模块的影响。2)分帧加窗:把长的不平稳的语音切分成20-50毫秒的短小的“帧”,以满足傅里叶变换的条件。3)端点检测:将一段预处理后的语音尽量划分成独立的单词。预处理的目的是保证***具有良好的识别效果。
提取MFCC的过程:首先对待测语音进行预处理。对其中每帧通过快速傅里叶变换(FFr)将语音从时域波形图转换到频域图.根据人耳的听觉特性.通过梅尔滤波器组取得该帧语音的部分频率特征,再通过离散余弦变换(DCT)以后就可以得到MFCC。
HMM模型:隐马尔可夫模型(Hidden Markov Models,HMM),作为语音信号的一种统计模型,是目前语音处理各个领域的主要技术模型。HMM包括五个基本元素和三大基本算法,其中解码算法viterbi也是英语口语学习中发音评分算法的基础。对于给定观测值序列及模型λ=(A,B,π),Viterbi算法不仅可以找到一条足够好的状态序列Q=q1q2...qt以解释该观测值序列,还可以得出该路径所对应的输出概率。
经过上述处理后,可以得到测试发音对比标准参考模型的音素后验概率。如果此时进行的是评分参数的生成过程,则需要专家针对此发音进行经验打分,得到音素后验概率和专家经验评分之间的若干对应关系,根据对应关系,可以训练得到评分的自适应参数x与y,进而确定评分函数用于发音评分。如果此时进行的是发音评分的操作,那么***会将测试发音的音素后验概率代入评分函数,最终得到发音评分。
评分算法:
评分过程可看成是一种基于HMM模型的模式识别过程,通过特征提取后,设置已知待评分语音的输出观察序列为O(O1,O2,...,Ot),用表示标准参考HMM模型,其中π表示原始状态分布,A是St-1到St的状态变换概率矩阵,B是HMM在i个环境中状态序列所对应的观测序列的输出概率矩阵,该模型中存在较多隐性状态序列S=(s1,s2,...,st),则语音评估是运算在标准参考HMM模型π已知时,获取输入语音观测序列O的概率的过程。采用Viterbi算法对特征序列内的音素实施切分对齐,获取最可能同观察序列O对应的隐性状态序列S.对HMM模型进行多次训练,更新该模型内的参数,输出与观察序列相匹配的HMM模型的最佳概率该最优概率则为后验概率评分。
对于每一帧Ot计算得到音素qi的后验概率P(qi|Ot):
其中P(Ot|qi)为给定音素qi下观察矢量Ot的概率分布,P(qi)为音素qi的先验概率,分母是对所有文本独立的音素得到观察量Ot的概率求和。音素qi在i段每一顿下的后验概率取对数,然后累加,就可以得到音素qi在i段语音下的后验概率得分。
而整个句子的后验概率得分为:
其中N为句子中音素的个数。
考虑到语速也是评判口语熟练程度的一个指标,所以应当把发音速率列入评判标准,最后可定义音素时长的得分为:
其中di是相应于音素qi的第i段时长,f(di)是归一化函数,这是考虑到文本和说话人的独立性,采用语音速率(ROS)的度量归一化语音时长,语音速率是一句话中或一说话人所有的发音中,每单元时长的音素数量。通常取f(di)=ROS·di。
上述方法能够根据测试音频,输出对应的计算机文本文件,并根据计算机文本文件输出对应的标准音频,通过提取的测试音频和标准音频的梅尔频率倒谱系数,能够有效的确定测试音频和标准音频的音素后验概率,并根据音素后验概率确定测试音频相对于标准音频的评分,同时输出标准音频。使得用户能够根据具体的评分,针对自己的口语能力进行改进,有效的提高用户的英语口语能力,具有很高的实用性。
较优的,在上述技术方案中,音频转换模块将测试音频转译为计算机文本文件执行的具体操作为:
将测试音频转换为语音波形信号,对语音波形信号进行频谱或倒谱分析,提取与语音波形信号对应的声学特征值,对声学特征值进行模型识别训练,确定对应的声学模型和语言模型;
通过声学模型创建声学特征值与句子语音建模单元间的联系,并确定给定文字发出对应语音的概率;
语言模型根据链式法则将完整的句子拆解为单个词,并确定当前词出现的概率;
根据给定文字发出对应语音的概率和当前词出现的概率,输出最优的文本序列。
具体的音频转换模块主要由前端处理、声学模型、语言模型、解码器(decoder)四大模块组成。
前端处理模块主要是将接收到的语音波形信号经过预处理,对语音信号进行频谱或者倒谱分析,提取相应的声学特征值以进行模型的识别训练,特征提取的好坏将直接影响到识别的精度。
声学模型的任务是计算p(X|W),即给定文本序列后,发出这段语音的概率。声学模型是自动语音识别***的主要部分.它占据着大部分的计算开销和决定着***的性能。声学模型用来把语音信号的观测特征与句子的语音建模单元联系起来。传统的语音识别***普遍采用基于GMM-HMM(高斯混合隐马尔柯夫模型)的声学模型。2011年微软研究院俞栋,邓力等提出来的基于上下文相关(Context Dependent,CD)的深度神经网络和隐马尔可夫模型(CD-DNN-HMM)的声学模型,使得语音识别的正确率有了质的提高。
语言模型(Language Model,LM)是用来预测字符(词)序列产生的概率p(W)。语言模型一般利用链式法则,把一个句子的概率拆解成其中每个词的概率之积。设W是由w1,w2,...,wn组成的,则P(W)可以拆成:
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1)
每一项都是在已知之前所有词的条件下,当前词的概率。为提高效率,最常见的做法是认为每个词的概率分布只依赖于历史中最后的若干个词。这样的语言模型称为n-gram模型,在n-gram模型中,每个词的概率分布只依赖于前面n-1个词。例如在2-gram模型中,是拆成下面这种形式的:
P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)
通常语言模型和声学模型的训练是相对独立的。当训练好各个模型以后,我们需要通过一个解码阶段将两者相结合。如公式:
解码的最终目的是结合语言模型和声学模型,通过搜索得到一个最佳的输出序列。目前主流的解码器中普遍使用的是维特比算法(Viterbi Algorithm)。
实际中,这四大模块同时进行并互相制约,随时砍掉不够优的可能,最终在可接受的时间内求出最优解
上述技术方案能够有效的根据测试音频,输出最优的文本序列,即后续标准语音生成的依据。通过对测试音频等一系列的操作,确保了输出的文本序列的准确性和唯一性,为后续的评分以及标准音频的输出提供了数据支持。
较优的,在上述技术方案中,音频比对模块,还用于分别对与标准音频和测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充;
对补充后的标准音频和测试音频进行分帧处理。
通过对测试音频和标准音频进行的上述处理,有效的保证了后续对标准音频和测试音频梅尔频率倒谱系数的提取,提高了音频识别的效率。
较优的,在上述技术方案中,音频比对模块,还用于将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图;
分别提取每帧音频的部分频率特征;
对部分频率特征进行离散余弦变换后,得到梅尔频率倒谱系数。
通过对标准音频和测试音频的频域图转换以及每帧音频的部分频率特征的提取,有效的确保了梅尔频率倒谱系数的提起,保证了梅尔频率倒谱系数提取的准确性和效率。
还提供了一种存储介质,其上存储有程序指令,所述程序指令在被处理器执行时,实现方法权利要求的方法。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施方式旨在举例说明本发明可为本领域专业技术人员实现或使用,对上述实施方式进行修改对本领域的专业技术人员来说将是显而易见的,故本发明包括但不限于上述实施方式,任何符合本权利要求书或说明书描述,符合与本文所公开的原理和新颖性、创造性特点的方法、工艺、产品,均落入本发明的保护范围之内。
Claims (9)
1.一种英语口语的练习方法,其特征在于,包括以下步骤:
接收口语的测试音频,将所述测试音频转译为计算机文本文件;
将所述计算机文本文件转译为标准音频;
分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率,根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分,并输出所述标准音频以及所述百分比评分。
2.如权利要求1所述的英语口语的练习方法,其特征在于,所述将所述测试音频转译为计算机文本文件具体包括以下步骤:
将所述测试音频转换为语音波形信号,对所述语音波形信号进行频谱或倒谱分析,提取与所述语音波形信号对应的声学特征值,对所述声学特征值进行模型识别训练,确定对应的声学模型和语言模型;
通过所述声学模型创建所述声学特征值与句子语音建模单元间的联系,并确定给定文字发出对应语音的概率;
所述语言模型根据链式法则将完整的句子拆解为单个词,并确定当前词出现的概率;
根据所述给定文字发出对应语音的概率和所述当前词出现的概率,输出最优的文本序列。
3.如权利要求1所述的英语口语的练习方法,其特征在于,在所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数之前,所述将所述计算机文本文件转译为标准音频之后,还包括以下步骤:
分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充;
对补充后的标准音频和测试音频进行分帧处理。
4.如权利要求3所述的英语口语的练习方法,其特征在于,所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,具体包括以下步骤:
将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图;
分别提取每帧音频的部分频率特征;
对所述部分频率特征进行离散余弦变换后,得到梅尔频率倒谱系数。
5.一种英语口语的练习***,其特征在于,包括:
音频转换模块,用于接收口语的测试音频,将所述测试音频转译为计算机文本文件;
文字转换模块,用于将所述计算机文本文件转译为标准音频;
音频比对模块,用于分别提取述测试音频和所述标准音频的梅尔频率倒谱系数,根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率,根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分,并输出所述标准音频以及所述百分比评分。
6.如权利要求5所述的英语口语的练习***,其特征在于,所述音频转换模块将所述测试音频转译为计算机文本文件执行的具体操作为:
将所述测试音频转换为语音波形信号,对所述语音波形信号进行频谱或倒谱分析,提取与所述语音波形信号对应的声学特征值,对所述声学特征值进行模型识别训练,确定对应的声学模型和语言模型;
通过所述声学模型创建所述声学特征值与句子语音建模单元间的联系,并确定给定文字发出对应语音的概率;
所述语言模型根据链式法则将完整的句子拆解为单个词,并确定当前词出现的概率;
根据所述给定文字发出对应语音的概率和所述当前词出现的概率,输出最优的文本序列。
7.如权利要求5所述的英语口语的练习***,其特征在于,所述音频比对模块,还用于分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充;
对补充后的标准音频和测试音频进行分帧处理。
8.如权利要求7所述的英语口语的练习***,其特征在于,所述音频比对模块,还用于将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图;
分别提取每帧音频的部分频率特征;
对所述部分频率特征进行离散余弦变换后,得到梅尔频率倒谱系数。
9.一种存储介质,其上存储有程序指令,其特征在于,所述程序指令在被处理器执行时,实现权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811376417.2A CN109300339A (zh) | 2018-11-19 | 2018-11-19 | 一种英语口语的练习方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811376417.2A CN109300339A (zh) | 2018-11-19 | 2018-11-19 | 一种英语口语的练习方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109300339A true CN109300339A (zh) | 2019-02-01 |
Family
ID=65144144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811376417.2A Pending CN109300339A (zh) | 2018-11-19 | 2018-11-19 | 一种英语口语的练习方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300339A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979257A (zh) * | 2019-04-27 | 2019-07-05 | 深圳市数字星河科技有限公司 | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 |
CN110797049A (zh) * | 2019-10-17 | 2020-02-14 | 科大讯飞股份有限公司 | 一种语音评测方法及相关装置 |
CN111640452A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112837679A (zh) * | 2020-12-31 | 2021-05-25 | 北京策腾教育科技集团有限公司 | 一种语言学习方法及*** |
CN115346421A (zh) * | 2021-05-12 | 2022-11-15 | 北京猿力未来科技有限公司 | 一种口语流利度评分方法、计算设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN103985391A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法 |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
CN104517606A (zh) * | 2013-09-30 | 2015-04-15 | 腾讯科技(深圳)有限公司 | 语音识别测试方法及装置 |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和*** |
CN104810017A (zh) * | 2015-04-08 | 2015-07-29 | 广东外语外贸大学 | 基于语义分析的口语评测方法和*** |
CN107886968A (zh) * | 2017-12-28 | 2018-04-06 | 广州讯飞易听说网络科技有限公司 | 语音评测方法及*** |
CN108305639A (zh) * | 2018-05-11 | 2018-07-20 | 南京邮电大学 | 语音情感识别方法、计算机可读存储介质、终端 |
-
2018
- 2018-11-19 CN CN201811376417.2A patent/CN109300339A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN104517606A (zh) * | 2013-09-30 | 2015-04-15 | 腾讯科技(深圳)有限公司 | 语音识别测试方法及装置 |
CN103985391A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法 |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和*** |
CN104810017A (zh) * | 2015-04-08 | 2015-07-29 | 广东外语外贸大学 | 基于语义分析的口语评测方法和*** |
CN107886968A (zh) * | 2017-12-28 | 2018-04-06 | 广州讯飞易听说网络科技有限公司 | 语音评测方法及*** |
CN108305639A (zh) * | 2018-05-11 | 2018-07-20 | 南京邮电大学 | 语音情感识别方法、计算机可读存储介质、终端 |
Non-Patent Citations (1)
Title |
---|
涂惠燕: "移动设备平台上英语口语学习中的语音识别技术", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640452A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111640452B (zh) * | 2019-03-01 | 2024-05-07 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109979257A (zh) * | 2019-04-27 | 2019-07-05 | 深圳市数字星河科技有限公司 | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 |
CN109979257B (zh) * | 2019-04-27 | 2021-01-08 | 深圳市数字星河科技有限公司 | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 |
CN110797049A (zh) * | 2019-10-17 | 2020-02-14 | 科大讯飞股份有限公司 | 一种语音评测方法及相关装置 |
CN112837679A (zh) * | 2020-12-31 | 2021-05-25 | 北京策腾教育科技集团有限公司 | 一种语言学习方法及*** |
CN115346421A (zh) * | 2021-05-12 | 2022-11-15 | 北京猿力未来科技有限公司 | 一种口语流利度评分方法、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107221318B (zh) | 英语口语发音评分方法和*** | |
CN103928023B (zh) | 一种语音评分方法及*** | |
Shobaki et al. | The OGI kids’ speech corpus and recognizers | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
CN109300339A (zh) | 一种英语口语的练习方法及*** | |
WO2006034200A2 (en) | Method and system for the automatic generation of speech features for scoring high entropy speech | |
CN107886968B (zh) | 语音评测方法及*** | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
Yin et al. | Automatic cognitive load detection from speech features | |
Mohammed et al. | Quranic verses verification using speech recognition techniques | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Chauhan et al. | Emotion recognition using LP residual | |
Hämäläinen et al. | Improving speech recognition through automatic selection of age group–specific acoustic models | |
Işık et al. | Turkish dialect recognition using acoustic and phonotactic features in deep learning architectures | |
Hanani et al. | Palestinian Arabic regional accent recognition | |
Fatima et al. | Vowel-category based short utterance speaker recognition | |
Hanani et al. | Speech-based identification of social groups in a single accent of British English by humans and computers | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation | |
Rai et al. | An efficient online examination system using speech recognition | |
Sinha et al. | Spectral and prosodic features-based speech pattern classification | |
Lachhab et al. | Improving the recognition of pathological voice using the discriminant HLDA transformation | |
Tangwongsan et al. | Highly efficient and effective techniques for Thai syllable speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190201 |