CN107610720B

CN107610720B - 发音偏误检测方法、装置、存储介质及设备

Info

Publication number: CN107610720B
Application number: CN201710895726.XA
Authority: CN
Inventors: 解焱陆; 牛传迎; 张劲松
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2020-08-04
Anticipated expiration: 2037-09-28
Also published as: CN107610720A

Abstract

本发明提供了一种发音偏误检测方法、装置、存储介质及设备，该方法包括：利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；基于所述landmark对待检测语音中所述音素进行发音偏误检测。本发明利用CTC方法检测关键帧作为声学界标，不需事先标注声学界标。

Description

发音偏误检测方法、装置、存储介质及设备

技术领域

本发明涉及计算机辅助的语音相关技术领域，尤其涉及一种发音偏误检测方法、装置、存储介质及设备。

背景技术

发音偏误检测作为计算机辅助发音训练***中一项重要技术，能够为学习者提升口语能力提供有效的途径。过去几十年中，已经涌现大量基于音段层级的发音偏误检测方法。其中一条路线是基于自动语音识别技术，采用统计语音识别框架进行发音偏误检测。按反馈形式，进一步可以分为两种类型。一种是基于置信分数的方法，例如，对数似然比(“Automatic detection of phone-level mispronunciation for language learning”,Speech Communication,vol.30,no.2-3,pp.95-108,2000)来测量母语和非母语的声学音素模型的相似程度，以及其变体发音良好度(“Phone-level pronunciation scoring ofspecific phone segments for language instruction”,Speech communication,vol.30,no.2,pp.95-108,2000)。然而，当学习者面对一个较低的分数时，不知道如何纠正。另一种是基于规则的方法，即利用发音扩展识别网络将正确发音及其偏误类型加入扩展识别词典中。为了搜集偏误类型，采用两种方法：一种是采用专家知识制定发音规则，另一种是机器学习的方法，即从正确发音和偏误发音的标注中自动学习声学语音规则来生成声学音系模型("Mispronunciation detection and diagnosis in l2 english speech usingmultidistribution deep neural networks,"IEEE/ACM Transactions on Audio,Speech,and Language Processing,2017)。或者从语料库中统计偏误发音规则和相应频次，再用先验概率，扩展发音词典(“Improvement of segmental mispronunciationdetection with prior knowledge extracted from large L2 speech corpus,”inInterspeech2011,pp.1593-1596)。与基于置信分数的方法相比，基于规则的方法可以为学习者提供更多的反馈信息。这种基于自动语音识别框架的方法优点是发音偏误易于预测。然而其缺点是，一方面，从参数区分性的角度来说，此方法在每一帧语音中都提取同一种频谱参数(例如梅尔倒谱系数)，其区分性还有待进一步研究，并且其潜在假设信息在语音中是均匀分布的；另一方面，从模型角度来说，ASR***大多采用隐马尔可夫(Hidden MarkovModel,HMM)模型来建模音素的时间信息。然而HMM还不能有力的区分频谱上形似而时长不同的语音(“Comparing different approaches for automatic pronunciation errordetection,”Speech Communication,vol.51,no.10,pp.845-852,2009)。并且此方法依赖语言背景和训练数据规模，对特定的偏误类型其检测精度还需进一步提升。

对于二语学习者来说，学习外语的主要挑战来自于实现特定的音位对立。这种对立存在于母语中，但可能不存在于二语中。由于受母语负迁移等作用的影响，其发音位置常常会倾向于母语中相似音的发音位置。外语学习者的偏误发音不能仅仅被分为***、删除、替换错误。Wen Cao等人根据发音位置和发音方法定义了发音偏误趋势，描述了二语者发音介于正确发音和偏误发音中间状态的一种似是而非的情况(“Developing a Chinese L2speech database of Japanese learners with narrow-phonetic labels for computerassisted pronunciation training”,in interspeech2010,pp.1922-1925)。这种情况常出现在高级学习者中。为了识别这种细微的变化。另一条路线是将发音偏误检测当做二分类任务，来检测错误发音及其偏误趋势。然而针对每种偏误类型寻找具有区分性的特征常常是非常困难的。

Stevens的声学landmark(声学界标)理论，从人类语音产出的机理出发，定义了landmark作为描述发音和声学之间量子非线性关系的瞬时区域(Acoustic phonetics.MITpress,2000,vol.30；“The quantal nature of speech:Evidence from articulatory-acoustic data,”1972,pp.51-66；“On the quantal nature of speech,”Journal ofphonetics,1989,vol.17,no.2 pp.3-45；“Quantal theory,enhancement and overlap,”Journal of Phonetics,2010,vol.38,no.1,pp.10-19)。在这一区域中具有显著的信号突变，通常意味着感知上的焦点和发音的目标，具有丰富的语音信息。大量感知实验表明，听者集中于landmark有助于选择潜在的区别特征(“Evidence for the role of acousticboundaries in the perception of speech sounds,”in Phonetic Linguistics:Essaysin Honor of Peter Ladefoged,edited by V.Fromkin(Academic,New York),pp.243-255)。从landmark处提取区别特征在发音偏误检测中取得了良好效果。而确定能区分语音类别的landmark位置是非常困难的。它通常需要研究发音机理和大量人工标注，因此效率不高。

针对以上问题，国内外学者提出了多种改进方法。大致可以分为三类：

第一类是从信号检测的角度出发检测语音信号不同层次和维度的特征参数的变化得到landmark。常用的参数有短时能量、过零率、共振峰等。Sharlen A.Liu提出利用语音的分频能量特征检测与辅音相关的三种landmark的方法。该方法根据音素发音特点将语音频谱分为六个频带，并将每个频带能量的一阶差分曲线的峰谷值作为landmark候选，通过相应的判断准则得到语音信号的landmark序列(“Landmark detection for distinctivefeature‐based speech recognition,”The Journal of the Acoustical Society ofAmerica,1996,vol.100,no.5,pp.3417-3430)。A.R.Janyan和P.C.Pandey认为Liu建立的分频处理方法依赖于话者之间的差异，因此利用高斯混合模型(Gaussian Mixture Model,GMM)建模平滑的频谱包络，并利用ROR(rate of rise)函数提取GMM参数检测塞音的landmark(“Detection of stop landmarks using Gaussian mixture modeling ofspeech spectrum,”Acoustics,Speech and Signal Processing,2009.ICASSP 2009.IEEEInternational Conference on.IEEE,2009:4681-4684)。Dumpala考虑以前检测元音landmark未考虑声源特征，其从声门闭合时刻提取声学特征，这些特征包括声源特征和声道特征，其中声源特征采用ZFF(zero frequency filtering)的方法，声道特征采用SFF(single frequency filtering)的方法。然后基于规则的算法来检测元音的landmark(“Robust Vowel Landmark Detection Using Epoch-Based Features,”inINTERSPEECH.2016,pp.160-164)。

第二类是针对不同的landmark类型，选择不同的参数，从机器学习的角度出发。Howitt基于检测音节核的递归凸包算法，提取三种声学特征(峰谷深度、时长及层级)输入到多层感知机(Multi-layer perceptron)来检测元音的landmark。其将语音帧的标签分为元音和非元音(“Automatic Syllable Detection for Vowel Landmarks,”doctorthesis,MIT,1999)。Hasegawa-Johnson等人实现了基于landmark的语音识别***。其首要步骤就是landmark的检测，其采用的方法就是对每种landmark都用一个二分类的SVM分类器检测(“Landmark-based speech recognition:Report of the 2004 Johns Hopkinssummer workshop,”Acoustics,Speech,and Signal Processing,2005.Proceedings.(ICASSP'05),IEEE International Conference on.IEEE,2005,vol 1,pp.213-216)。Chi-Yueh Lin和Hsiao-Chuan Wang提出利用随机森林(random forest)和bootstrapping方法检测***起始landmark(Burst onset landmark)，将检测结果拼接到提取的MFCC特征向量后，并融入基于HMM的语音识别***中，进一步提升塞音和塞擦音的检测性能(“Burstonset landmark detection and its application to speech recognition,”IEEETransactions on Audio,Speech,and Language Processing,2011,vol.19no.5,pp.1253-1264)。

第三类是从语言学角度假定音素时长的一个固定位置为landmark,并将其应用于发音偏误检测中。Yoon假定英语元音的landmark在音素时长的中间位置，辅音的landmark在音素的起始、中间和结束时刻(“Landmark-based automated pronunciation errordetection，”in Interspeech.2010，pp.614-617)。Yanlu Xie等人利用语音的拼接合成技术并结合感知实验认为日本人感知汉语鼻韵尾的关键线索在鼻化元音段，并将此位置的中间时刻作为landmark(“Landmark of mandarin nasal codas and its application inpronunciation error detection,”Acoustics,Speech and Signal Processing(ICASSP),2016IEEE International Conference on.IEEE,2016:5370-5374)。由于汉语没有landmark方案，Xuesong Yang等制定了两种映射方案。一种是根据英语的landmark位置通过国际音标将英语音素的landmark固定位置映射到汉语，另一种方式是通过语言学家观测和统计制定一些汉语音素的landmark位置规则(“Landmark-based pronunciationerror identification on Chinese learning,”in Speech Prosody,2016)。

总的来看，前人的研究或者从信号检测的角度出发研究发音机理，且针对不同音素的landmark类型设计不同的参数。或者从感知实验出发，手动标注landmark，或者假定一个固定的位置作为landmark。对于第一类方法，其好处是不需要含有手动标注landmark的训练数据，然而针对不同音素的landmark需要研究发音机理，设计不同的具有区分性的信号参数来检测。且常常选择一些常数判断标准，对于话者间的不同考虑不足。对于第二种方法，其好处是只需选择具有区分性的特征通过机器学习自动分类。然而其通常依赖手动标注好的数据进行训练，且针对不同的landmark需要选择不同的具有区分性的特征。若检测所有landmark,则需要多次训练。对于第三种方法，其好处是假定一些固定的位置，计算方便，然而未充分考虑上下文环境。

发明内容

本发明实施例提供一种发音偏误检测方法、装置、存储介质及设备，以解决现有技术中的一项或多项缺失。

本发明实施例提供一种发音偏误检测方法，包括：利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；基于所述landmark对待检测语音中所述音素进行发音偏误检测。

一个实施例中，利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark，包括：利用CTC准则训练RNN声学模型；利用训练后的RNN声学模型解码已知正确语音中处理单元的语音，得到处理单元的语音中所述音素在各时间帧上的后验概率的序列；利用设定窗长、设定尖峰函数及序列中各后验概率，计算得到各时间帧对应的尖峰函数值；计算所有大于零的尖峰函数值的均值和方差；利用均值和方差得到切比雪夫不等式，并获取满足切比雪夫不等式的尖峰函数值；在设定窗长范围内获取最大尖峰函数值；利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark。

一个实施例中，利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，包括：判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素；若存在，则将所述尖峰位置作为关键帧位置；若不存在，则剔除所述尖峰位置，并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值，并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。

一个实施例中，利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark，包括：通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比，确定所述音素的关键帧相对位置；对所述音素的所有关键帧相对位置求平均，得到所述音素的最终关键帧，作为landmark。

一个实施例中，基于所述landmark对待检测语音中所述音素进行发音偏误检测，包括：基于所述landmark，提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征；利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器；利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。

一个实施例中，所述设定尖峰函数为：

其中，S_i(k,i,x_i,T)表示尖峰函数值，T表示处理单元的语音中声韵母在各时间帧上的后验概率的序列，k表示窗长，x_i表示序列T中第i个时间帧的后验概率的值，i为大于或等于零的整数。

本发明实施例还提供一种发音偏误检测装置，包括：声学界标确定单元，用于：利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；发音偏误检测单元，用于：基于所述landmark对待检测语音中所述音素进行发音偏误检测。

一个实施例中，所述声学界标确定单元，包括：声学模型训练模块，用于：利用CTC准则训练RNN声学模型；概率序列生成模块，用于：利用训练后的RNN声学模型解码已知正确语音中处理单元的语音，得到处理单元的语音中所述音素在各时间帧上的后验概率的序列；尖峰函数值生成模块，用于：利用设定窗长、设定尖峰函数及序列中各后验概率，计算得到各时间帧对应的尖峰函数值；不等式参数生成模块，用于：计算所有大于零的尖峰函数值的均值和方差；尖峰函数值筛选模块，用于：利用均值和方差得到切比雪夫不等式，并获取满足切比雪夫不等式的尖峰函数值；最大尖峰函数值确定模块，用于：在设定窗长范围内获取最大尖峰函数值；声学界标确定模块，用于：利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark。

一个实施例中，所述声学界标确定模块，包括：音素判断模块，用于：判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素；关键帧位置确定模块，用于：若存在，则将所述尖峰位置作为关键帧位置；若不存在，则剔除所述尖峰位置，并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值，并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。

一个实施例中，所述声学界标确定模块，包括：关键帧相对位置确定模块，用于：通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比，确定所述音素的关键帧相对位置；最终关键帧确定模块，用于：对所述音素的所有关键帧相对位置求平均，得到所述音素的最终关键帧，作为landmark。

一个实施例中，所述发音偏误检测单元，包括：声学特征提取模块，用于：基于所述landmark，提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征；SVM分类器训练模块，用于：利用已知偏误类型语音中所述音素的声学特征训练和已知正确语音中所述音素的声学特征SVM分类器；发音偏误检测模块，用于：利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。

一个实施例中，所述尖峰函数值生成模块，还用于执行：

所述设定尖峰函数为：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述各实施例所述方法的步骤。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述各实施例所述方法的步骤。

本发明实施例的发音偏误检测方法、装置、存储介质及设备，基于CTC检测关键帧，通过利用CTC方法检测关键帧位置来确定landmark，无需事先手动标注landmark，避免了对手动标注landmark的依赖，且采用一个统一的语音识别框架，便于发音偏误检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例的发音偏误检测方法的流程示意图；

图2是本发明一实施例中确定利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置作为声学界标的方法流程示意图；

图3是本发明一实施例中利用最大尖峰函数值的尖峰位置确定音素的关键帧位置的方法流程示意图；

图4是本发明另一实施例中利用最大尖峰函数值的尖峰位置确定音素的关键帧位置作为声学界标的方法流程示意图；

图5是本发明一实施例中基于声学界标对待检测语音中音素进行发音偏误检测的方法流程示意图；

图6是本发明一实施例中对句子中的每一种音素的尖峰进行提取的算法流程示意图；

图7是本发明一实施例中CTC的尖峰现象示意图；

图8是本发明一实施例中发音偏误检测的流程框架示意图；

图9是本发明实施例的发音偏误检测装置的结构示意图；

图10是本发明一实施例中声学界标确定单元的结构示意图；

图11是本发明一实施例中声学界标确定模块的结构示意图；

图12是本发明另一实施例中声学界标确定模块的结构示意图；

图13是本发明一实施例中发音偏误检测单元的结构示意图；

图14是本发明一实施例的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

为了避免对手动标注landmark的依赖，本发明实施例提供了一种发音偏误检测方法。图1是本发明实施例的发音偏误检测方法的流程示意图。如图1所示，本发明实施例的发音偏误检测方法，可包括：

步骤S110：利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；

步骤S120：基于所述landmark对待检测语音中所述音素进行发音偏误检测。

CTC方法可以利用循环神经网络进行序列标记学习。语音识别中的主要问题是将声学特征序列转化为文本标签序列，例如中英文声韵母序列，通常前者长度大于后者。实施例中，可以通过CTC引入空白(blank)标签来吸收两个发音单元之间易混淆或不确定的边界，并允许标签可以重复出现，从而得到语音帧和输出标签之间的最佳对齐。实施例中，CTC可以利用RNN的softmax层给出每一个建模单元在每个时间步的后验概率。实施例中，可以通过多对一的映射，将多个输出标签映射到一个不含重复标签和blank标签的序列。实施例中，CTC可以通过前后向算法来对目标序列的所有可能对齐求和。

在上述步骤S110中，已知正确语音可以从现有的母语语料库得到。音素例如可以是声母或韵母。在上述步骤S120中，基于确定好的landmark，可以通过多种不同方法进行发音偏误检测，例如SVM(Support Vector Machine，支持向量机)分类器。

本发明实施例中，通过利用CTC方法检测关键帧位置来确定landmark，无需事先手动标注landmark，避免了对手动标注landmark的依赖。而且，采用统一的语音识别框架，检测结果一致性好。

图2是本发明一实施例中确定利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置作为声学界标的方法流程示意图。如图2所示，在上述步骤S110中，利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark的方法，可包括：

步骤S111：利用CTC准则训练RNN声学模型；

步骤S112：利用训练后的RNN声学模型解码已知正确语音中处理单元的语音，得到处理单元的语音中所述音素在各时间帧上的后验概率的序列；

步骤S113：利用设定窗长、设定尖峰函数及序列中各后验概率，计算得到各时间帧对应的尖峰函数值；

步骤S114：计算所有大于零的尖峰函数值的均值和方差；

步骤S115：利用均值和方差得到切比雪夫不等式，并获取满足切比雪夫不等式的尖峰函数值；

步骤S116：在设定窗长范围内获取最大尖峰函数值；

步骤S117：利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark。

在上述步骤S111中，可以将母语语料库中的正确语音作为输入，训练RNN(Recurrent Neural Network，递归神经网络)声学模型。在其他实施例中，可以使用其他声学模型。在上述步骤S112中，该处理单元例如可以是一句话。该序列为时间序列。在上述步骤S115中，可以将计算得到的均值和方差代入标准的切比雪夫不等式中，得到具体的切比雪夫不等式，并可以将尖峰函数值作为变量的值代入到具体的切比雪夫不等式，判断是否满足该不等式。实施例中，保留满足切比雪夫不等式的尖峰函数值时，可以同时记录其原始索引，以便获取到其时间帧(尖峰位置)。在上述步骤S116中，可在设定窗长范围(例如2k)内进行尖峰函数值比较，保留一个最大值。在上述步骤S117中，可以将得到的关键帧位置直接作为landmark，或者经过一定筛选或判断再确定是否作为landmark。发明人发现以CTC准则训练的RNN模型输出标签后验概率有明显的尖峰现象，利用该特点可以有效地确定landmark。

实施例中，所述设定尖峰函数可以为：

本实施例中，尖峰函数值S_i(k,i,x_i,T)越大，代表该位置成为尖峰的可能性越大，所以利用该设定尖峰函数可以有效地筛选出最大尖峰位置。

图3是本发明一实施例中利用最大尖峰函数值的尖峰位置确定音素的关键帧位置的方法流程示意图。如图3所示，在上述步骤S117中，利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置的方法，可包括：

步骤S1171：判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素；

步骤S1172：若存在，则将所述尖峰位置作为关键帧位置；

步骤S1173：若不存在，则剔除所述尖峰位置，并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值，并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。

在计算不准确的情况下，选出的尖峰函数极大值有可能会很小，导致出现本句话(处理单元)中不包括这个音素，通过上述步骤S1171、步骤S1172和步骤S1172结合已知文本将本句话(处理单元)中不包含的音素的尖峰位置剔除，可以提高关键帧位置的准确性。

图4是本发明另一实施例中利用最大尖峰函数值的尖峰位置确定音素的关键帧位置作为声学界标的方法流程示意图。如图4所示，在上述步骤S117中，利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark的方法，可包括：

步骤S1174：通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比，确定所述音素的关键帧相对位置；

步骤S1175：对所述音素的所有关键帧相对位置求平均，得到所述音素的最终关键帧，作为landmark。

本实施例中，标注文本音素时间信息可以是标注文本声韵母时间信息。一个处理单元(一句话)中可包含多个相同的音素，通过对同一音素的多个关键帧位置取平均，可以得到统一的关键帧位置，便于实施发音偏误检测。

实施例中，可以将关键帧位置、最终关键帧位置或关键帧位置平均值与手动标注的landmark进行比较，如果一致，可以使用关键帧位置、最终关键帧位置或关键帧位置平均值作为landmark进行发音偏误检测，如果不一致，可以使用手动标注的landmark进行发音偏误检测，以此可以提高发音偏误检测。

图5是本发明一实施例中基于声学界标对待检测语音中音素进行发音偏误检测的方法流程示意图。如图5所示，在上述步骤S120中，基于所述landmark对待检测语音中所述音素进行发音偏误检测的方法，可包括：

步骤S121：基于所述landmark，提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征；

步骤S122：利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器；

步骤S123：利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。

本实施例中，利用训练后SVM分类器进行发音偏误检测，可以得到更好地检测结果。

图6是本发明一实施例中对句子中的每一种音素的尖峰进行提取的算法流程示意图。如图6所示，以一个句子为处理单元，对句子中的每一种音素的尖峰进行提取的方法，可包括：

步骤S301：利用CTC训练的RNN声学模型直接解码一句话，得到概率序列。

从母语语音中提取一个建模单元(例如，声韵母)在每个时间帧上后验概率x_i，组成一个含有N(N代表一句话的时间步数)个点的概率序列T。

步骤S302：计算每个时间帧对应的尖峰函数值a_i，得到大于零的尖峰函数值数组。

实施例中，尖峰函数选择为：

S_i(k,i,x_i,T)可表示在时间序列T中第i个点的概率值x_i相对其他点的显著性，其值越大，代表成为尖峰的可能性越大。将大于0的S₁(k,i,x_i,T)的值(代表候选尖峰)挑选出加入数组a中，并保持其在时间序列中的原始索引。

实施例中，可根据语料库统计每种音素平均时长的一半，或者根据经验，选择窗长k，例如设置窗长k为4。

步骤S303：计算数组a中所有元素的均值m和方差s。

步骤S304：应用切比雪夫不等式(Chebyshev Inequality):

筛选尖峰函数值。

其中，μ是均值，σ是方差，h是大于0的常数。其不假设随机变量X服从任何分布，其表示满足此条件的峰值是很少的。如果满足

则保留候选尖峰值x_i，并记录其原始索引。其中，h可手动设置为大于0的常数。

步骤S305：进行后处理，将在窗长范围(2k)内的尖峰值比较，只保留一个最大值。

最后剩余尖峰可作为真正候选尖峰，其原始索引为最终候选尖峰位置。由于此算法有可能选出的极大值会很小，会出现本句话中不包括这个音素。对于发音偏误检测和标注任务来说。其文本已知，需要结合已知文本将本句话中不包含的音素的尖峰位置剔除。

实施例中，对于语音识别等任务中检测关键帧则需要设置阈值，将候选尖峰位置处尖峰值过小的位置剔除掉。

图7是本发明一实施例中CTC的尖峰现象示意图。如图7所示，以“We’ve done ourpart”为例，两发音之间易混淆或不确定的边界用空白blank标签吸收，利用CTC将句子“We’ve done our part”的语音对应的标签后验概率存在尖峰w、iy、v、d、ah、n、aa、r、p、t。

图8是本发明一实施例中发音偏误检测的流程框架示意图。如图8所示，整个检测框架可分为两个阶段：第一阶段，以母语语料库的语音作为输入，利用CTC准则训练RNN声学模型，按照上述尖峰提取算法，对母语语音的提取特征进行解码，生成标签后验概率，提取尖峰位置，然后，将其与标注文本中声韵母时间信息比较(相对于每个音素开始时间)确定关键帧的位置(统计每种音素尖峰相对位置)，对每种音素的关键帧位置求平均值作为最终关键帧；第二阶段，基于关键帧的发音偏误检测，利用第一阶段训练好的关键帧位置，从特定音素或其偏误语音样本中提取声学特征，并利用正确发音和其偏误类型训练好的SVM分类器对特定音素检测。

实施例中，可以首先验证基于CTC驱动的尖峰位置与landmark的位置是否有一致性，然后利用CTC***基于数据驱动的尖峰作为关键帧进行发音偏误检测。其好处是不需要事先标注landmark，且采用一个统一的语音识别框架。

基于与图1所示的发音偏误检测方法相同的发明构思，本申请实施例还提供了一种发音偏误检测装置，如下面实施例所述。由于该发音偏误检测装置解决问题的原理与发音偏误检测方法相似，因此该发音偏误检测装置的实施可以参见发音偏误检测方法的实施，重复之处不再赘述。

图9是本发明实施例的发音偏误检测装置的结构示意图。如图9所示，本发明实施例的发音偏误检测装置，可包括：声学界标确定单元510和发音偏误检测单元520，二者相互连接。

声学界标确定单元510，用于：利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；

发音偏误检测单元520，用于：基于所述landmark对待检测语音中所述音素进行发音偏误检测。

图10是本发明一实施例中声学界标确定单元的结构示意图。如图10所示，所述声学界标确定单元510，可包括：声学模型训练模块511、概率序列生成模块512、尖峰函数值生成模块513、不等式参数生成模块514、尖峰函数值筛选模块515、最大尖峰函数值确定模块516及声学界标确定模块517，上述各模块顺序连接。

声学模型训练模块511，用于：利用CTC准则训练RNN声学模型；

概率序列生成模块512，用于：利用训练后的RNN声学模型解码已知正确语音中处理单元的语音，得到处理单元的语音中所述音素在各时间帧上的后验概率的序列；

尖峰函数值生成模块513，用于：利用设定窗长、设定尖峰函数及序列中各后验概率，计算得到各时间帧对应的尖峰函数值；

不等式参数生成模块514，用于：计算所有大于零的尖峰函数值的均值和方差；

尖峰函数值筛选模块515，用于：利用均值和方差得到切比雪夫不等式，并获取满足切比雪夫不等式的尖峰函数值；

最大尖峰函数值确定模块516，用于：在设定窗长范围内获取最大尖峰函数值；

声学界标确定模块517，用于：利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark。

图11是本发明一实施例中声学界标确定模块的结构示意图。如图11所示，实施例中，所述声学界标确定模块517，可包括：音素判断模块5171和关键帧位置确定模块5172，二者相互连接。

音素判断模块5171，用于：判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素；

关键帧位置确定模块5172，用于：若存在，则将所述尖峰位置作为关键帧位置；若不存在，则剔除所述尖峰位置，并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值，并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。

图12是本发明另一实施例中声学界标确定模块的结构示意图。如图12所示，实施例中，所述声学界标确定模块517，包括：关键帧相对位置确定模块5173和最终关键帧确定模块5174，二者相互连接。

关键帧相对位置确定模块5173，用于：通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比，确定所述音素的关键帧相对位置；

最终关键帧确定模块5174，用于：对所述音素的所有关键帧相对位置求平均，得到所述音素的最终关键帧，作为landmark。

图13是本发明一实施例中发音偏误检测单元的结构示意图。如图13所示，所述发音偏误检测单元520，可包括：声学特征提取模块521、SVM分类器训练模块522及发音偏误检测模块523，上述各模块顺序连接。

声学特征提取模块521，用于：基于所述landmark，提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征；

SVM分类器训练模块522，用于：利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器；

发音偏误检测模块523，用于：利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。

实施例中，所述尖峰函数值生成模块513，还可用于执行：

所述设定尖峰函数为：

图14是本发明一实施例的计算机设备的结构示意图。如图14所示，计算机设备600，包括存储器610、处理器620及存储在存储器上并可在处理器上运行的计算机程序，所述处理器620执行所述程序时实现上述各实施例所述方法的步骤。

综上所述，本发明实施例的发音偏误检测方法、装置、存储介质及设备，基于CTC检测关键帧，通过利用CTC方法检测关键帧位置来确定landmark，无需事先手动标注landmark，避免了对手动标注landmark的依赖，且采用一个统一的语音识别框架，便于发音偏误检测。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发音偏误检测方法，其特征在于，包括：

利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；

基于所述landmark对待检测语音中所述音素进行发音偏误检测；

其中，所述利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark，包括：

利用CTC准则训练RNN声学模型；

利用训练后的RNN声学模型解码已知正确语音中处理单元的语音，得到处理单元的语音中所述音素在各时间帧上的后验概率的序列；

利用设定窗长、设定尖峰函数及序列中各后验概率，计算得到各时间帧对应的尖峰函数值；

计算所有大于零的尖峰函数值的均值和方差；

利用均值和方差得到切比雪夫不等式，并获取满足切比雪夫不等式的尖峰函数值；

在设定窗长范围内获取最大尖峰函数值；

利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark。

2.如权利要求1所述的发音偏误检测方法，其特征在于，利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，包括：

判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素；

若存在，则将所述尖峰位置作为关键帧位置；若不存在，则剔除所述尖峰位置，并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值，并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。

3.如权利要求1所述的发音偏误检测方法，其特征在于，利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark，包括：

通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比，确定所述音素的关键帧相对位置；

对所述音素的所有关键帧相对位置求平均，得到所述音素的最终关键帧，作为landmark。

4.如权利要求1所述的发音偏误检测方法，其特征在于，基于所述landmark对待检测语音中所述音素进行发音偏误检测，包括：

基于所述landmark，提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征；

利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器；

利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。

5.如权利要求1至3任一项所述的发音偏误检测方法，其特征在于，所述设定尖峰函数为：

6.一种发音偏误检测装置，其特征在于，包括：

声学界标确定单元，用于：利用连接时序分类CTC方法检测已知正确语音中音素的关键帧位置，作为声学界标landmark；

发音偏误检测单元，用于：基于所述landmark对待检测语音中所述音素进行发音偏误检测；

所述声学界标确定单元，包括：

声学模型训练模块，用于：利用CTC准则训练RNN声学模型；

概率序列生成模块，用于：利用训练后的RNN声学模型解码已知正确语音中处理单元的语音，得到处理单元的语音中所述音素在各时间帧上的后验概率的序列；

尖峰函数值生成模块，用于：利用设定窗长、设定尖峰函数及序列中各后验概率，计算得到各时间帧对应的尖峰函数值；

不等式参数生成模块，用于：计算所有大于零的尖峰函数值的均值和方差；

尖峰函数值筛选模块，用于：利用均值和方差得到切比雪夫不等式，并获取满足切比雪夫不等式的尖峰函数值；

最大尖峰函数值确定模块，用于：在设定窗长范围内获取最大尖峰函数值；

声学界标确定模块，用于：利用最大尖峰函数值的尖峰位置确定所述音素的关键帧位置，作为landmark。

7.如权利要求6所述的发音偏误检测装置，其特征在于，所述声学界标确定模块，包括：

音素判断模块，用于：判断已知正确语音的所述处理单元所对应的语音文本中是否包含所述尖峰位置所对应的音素；

关键帧位置确定模块，用于：若存在，则将所述尖峰位置作为关键帧位置；若不存在，则剔除所述尖峰位置，并从其余满足切比雪夫不等式的尖峰函数值中重新获取最大尖峰函数值，并利用重新获取的最大尖峰函数值的尖峰位置确定所述音素的关键帧位置。

8.如权利要求6所述的发音偏误检测装置，其特征在于，所述声学界标确定模块，包括：

关键帧相对位置确定模块，用于：通过将所述关键帧位置与已知正确语音的所述处理单元所对应的标注文本音素时间信息相对比，确定所述音素的关键帧相对位置；

最终关键帧确定模块，用于：对所述音素的所有关键帧相对位置求平均，得到所述音素的最终关键帧，作为landmark。

9.如权利要求6所述的发音偏误检测装置，其特征在于，所述发音偏误检测单元，包括：

声学特征提取模块，用于：基于所述landmark，提取已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征；

SVM分类器训练模块，用于：利用已知偏误类型语音中所述音素的声学特征和已知正确语音中所述音素的声学特征训练SVM分类器；

发音偏误检测模块，用于：利用训练后SVM分类器对待检测语音中所述音素进行发音偏误检测。

10.如权利要求6至8任一项所述的发音偏误检测装置，其特征在于，所述尖峰函数值生成模块，还用于执行：

所述设定尖峰函数为：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意之一所述方法的步骤。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任意之一所述方法的步骤。