CN111862959B

CN111862959B - 发音错误检测方法、装置、电子设备及存储介质

Info

Publication number: CN111862959B
Application number: CN202010789667.XA
Authority: CN
Inventors: 叶珑; 雷延强; 梁伟文
Original assignee: Guangzhou Shikun Electronic Technology Co Ltd
Current assignee: Guangzhou Shikun Electronic Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2024-04-19
Anticipated expiration: 2040-08-07
Also published as: CN111862959A

Abstract

本申请提供一种发音错误检测方法、装置、电子设备及存储介质。该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络；在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。本申请利用构建包含预设混淆音素的候选路径的WFST对齐网络与强制对齐还原出实际音素，减少解码搜索空间，从而加快发音检错的解码速度。

Description

发音错误检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机辅助语言学习技术，尤其涉及一种发音错误检测方法、装置、电子设备及存储介质。

背景技术

发音错误检测(Mispronunciation Detection)技术是计算机辅助语言学习(Computer Assisted Language Learning，简称：CALL)技术的一个细分方向，发音错误检测技术要求高效、准确地还原出学习者的实际发音情况，并给出音素级别的客观反馈和评价，以帮助学习者纠正发音错误。

传统的基于音素循环网络的发音检错技术，是在无限制的音素循环网络中解码得到实际发音的音素序列，进而基于音素序列确定发音是否错误。发明人在使用该技术进行发音检错时，发现至少存在解码速度慢的问题。

发明内容

本申请提供一种发音错误检测方法、装置、电子设备及存储介质，以提升发音检错的解码速度。

第一方面，本申请提供一种发音错误检测方法，该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的加权有限状态转移器(WeightedFinite-State Transducers，简称：WFST)对齐网络；在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。

一种可能的实施方式中，上述根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，可以包括：根据第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。其中，预设混淆音素为非静音音素对应的预设混淆音素。

一种可能的实施方式中，上述在WFST对齐网络中搜索待检测语音信号对应的第二音素序列，可以包括：基于待检测语音信号对应的声学分数和维特比算法，在WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第二音素序列。

一种可能的实施方式中，上述根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，可以包括：

根据发音文本，构建初始WFST对齐网络，其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图；

根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素序列及边界信息。

一种可能的实施方式中，上述初始WFST对齐网络包含词间可选静音音素路径。

一种可能的实施方式中，上述根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素序列及边界信息，可包括：

根据待检测语音信号和预先训练好的声学模型，获得待检测语音信号对应的状态后验概率；

根据待检测语音信号对应的状态后验概率，获得待检测语音信号对应的声学分数；

基于待检测语音信号对应的声学分数和维特比算法，在初始WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第一音素序列及边界信息。

一种可能的实施方式中，上述比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误，可以包括：

若第二音素序列与第一音素序列的音素相同，则确定第一音素序列中音素发音正确；

或者，若第二音素序列与第一音素序列的音素不同，则确定第一音素序列中该不同音素的发音错误。

第二方面，本申请提供一种发音错误检测装置，包括：

获取模块，用于根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；

构建模块，用于根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络；

搜索模块，用于在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；

比较模块，用于比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。

一种可能的实施方式中，构建模块，具体用于：

根据第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。其中，预设混淆音素为非静音音素对应的预设混淆音素。

一种可能的实施方式中，搜索模块，具体用于：

基于待检测语音信号对应的声学分数和维特比算法，在WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第二音素序列。

一种可能的实施方式中，获取模块包括：

构建单元，用于根据发音文本，构建初始WFST对齐网络，其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图；

获取单元，用于根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素序列及边界信息。

一种可能的实施方式中，获取单元，具体用于：

一种可能的实施方式中，比较模块，具体用于：

第三方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行存储器中的程序指令，执行如第一方面中任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质上存储有程序指令；程序指令被执行时，实现如第一方面中任一项所述的方法。

本申请提供的发音错误检测方法、装置、电子设备及存储介质，该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络；在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。由于利用构建包含预设混淆音素的候选路径的WFST对齐网络与强制对齐还原出实际音素，因此可减少解码搜索空间，从而加快发音检错的解码速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请一实施例提供的应用场景示例图；

图1b为本申请另一实施例提供的应用场景示例图；

图2为本申请一实施例提供的发音错误检测方法的流程图；

图3为本申请提供的WFST对齐网络的一示例图；

图4为本申请另一实施例提供的发音错误检测方法的流程图；

图5为本申请提供的初始WFST对齐网络的一示例图；

图6为本申请一实施例提供的发音错误检测装置的结构示意图；

图7为本申请另一实施例提供的发音错误检测装置的结构示意图；

图8为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的说明书、权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

传统的基于音素循环网络的发音检错技术，是对音频和文本采用传统方法对齐获得音素序列及音素边界，并在无限制的音素循环网络中解码得到实际发音的音素序列，用动态规划的方法对两条音素序列进行比较，以确定发音是否错误。发明人在使用该技术进行发音检错时，发现在无限制的音素循环网络中进行解码存在解码速度慢的问题。

因此，基于上述发现，本申请提供一种发音错误检测方法、装置、电子设备及存储介质，通过减少解码搜索空间，来加快解码速度。

本方案能够用于包括但不限于语音评测领域中发音检错与诊断方向，例如，在线或离线语音评测***，提供语言学习者发音错误检测，可以高效、准确地纠正发音错误。例如，以中文为母语的用户，学习英文，等等。

图1a为本申请一实施例提供的应用场景示例图。如图1a所示，服务器102用于执行本申请任一方法实施例所述的发音错误检测方法，服务器102与客户端101进行交互，获取发音文本和待检测语音信号，服务器102在执行完上述发音错误检测方法之后，输出发音是否错误的处理结果给客户端101，由客户端101通知给学习者。进一步地，客户端101提供正确的读音给学习者，以帮助其纠正发音。

在图1a中，客户端101以计算机为例说明，但本申请实施例不以此为限制，客户端101还可以是手机、学习机、可穿戴设备等。

或者，当具备一定算力时，客户端101也可以作为本申请任一方法实施例所述的发音错误检测方法的执行主体，如图1b所示例。在图1b中，学习者按住话筒，并读出发音文本对应的内容。这里以手机为例进行说明，但本申请不以此为限制。

以下结合具体的实施例，对本申请提供的发音错误检测方法进行解释说明。

图2为本申请一实施例提供的发音错误检测方法的流程图。该发音错误检测方法可以由发音错误检测装置执行，该发音错误检测装置可以通过软件和/或硬件的方式实现。实际应用中，该发音错误检测装置可以是服务器、电脑，手机，平板，个人数字助理(Personal Digital Assistant，简称：PDA)，学***板等具备一定算力的电子设备，或该电子设备的芯片或电路。

参考图2，本实施例提供的发音错误检测方法包括：

S201、根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息。

其中，待检测语音信号是针对发音文本的语音信号。

在实际应用中，当学习者阅读一文本时，会产生该文本对应的语音信号。电子设备首先获取该语音信号，通过检测该语音信号，来确定该学习者的发音是否错误，并在学习者发音错误时给予指正或者提示正确发音。示例地，文本可以具体为至少一个词，甚至至少一个音素。其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。这里的文本即本申请实施例所述的发音文本，语音信号即待检测语音信号。

以学习机为例，在学习者阅读学习机显示界面上的文本时，学习机通过麦克风等拾音设备采集语音信号以获取语音信号，此时对于发音文本，学习机也是已知的。例如，对于触摸一体的学习机，学习者在阅读的同时可以指向文本，这样安装在学习机上的传感器即可感知到文本所在的位置，进而确定文本包含的内容。

基于发音文本和待检测语音信号，对待检测语音信号进行分解，得到其中包含的音素及边界信息，由这些音素组成第一音素序列。也就是说，第一音素序列中包含的是待检测语音信号对应的音素。

S202、根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。

其中，混淆音素，是指相互之间易发音混淆的音素。对于第一音素序列中所包含的音素，其各自对应的混淆音素是相对确定的，从这些混淆音素中选取部分作为预设混淆音素，并将这些预设混淆音素作为候选路径，体现在基于第一音素序列及边界信息构建的WFST对齐网络中。

以第一音素序列为“ay sil ae m sil”为例，构建WFST对齐网络，如图3所示。假设易将冒号后边的音素读为冒号前边的音素，sil表示静音音素；水平路径是强制对齐网络路径，输出发音正确的音素序列；其他路径为包含预设混淆音素的候选路径，反映可能读错的音素。参考图3，音素“ay”对应的预设混淆音素为音素“aa”；音素“ae”对应的预设混淆音素为音素“aa”和音素“eh”；音素“m”对应的预设混淆音素为音素“n”。需说明的是，以音素“ay”为例，其对应的预设混淆音素包括但不限于音素“aa”，这里仅是以音素“aa”为例进行示例说明。

相比在无限制的音素循环网络中解码得到实际发音的音素序列的传统的基于音素循环网络的发音检错技术，本实施例通过构建包含预设混淆音素的候选路径的WFST对齐网络来减少解码搜索空间。

S203、在WFST对齐网络中搜索待检测语音信号对应的第二音素序列。

由于WFST对齐网络包含有预设混淆音素的候选路径，因此，重新在该WFST对齐网络中搜索待检测语音信号对应的第二音素序列。

本领域技术人员可以理解，该步骤为强制对齐步骤。通过强制对齐还原出实际音素，也就是第二音素序列。

S204、比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。

其中，第一音素序列为学习者发音音素，第二音素序列中音素为实际音素。通过逐一比较第一音素序列及第二音素序列中的音素，以第二音素序列中音素为基准，确定第一音素序列中音素是否发音错误，从而即可获得学习者容易读错的音素，即错读，实现了发音检错与诊断。

本申请实施例，首先根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息，待检测语音信号是针对发音文本的语音信号；然后，根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，并在WFST对齐网络中搜索待检测语音信号对应的第二音素序列；最后，比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。由于利用构建包含预设混淆音素的候选路径的WFST对齐网络与强制对齐还原出实际音素，因此，可减少解码搜索空间，从而加快发音检错的解码速度。

作为一种可选方式，S204、比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误，可以具体为：若第二音素序列与第一音素序列的音素相同，则确定第一音素序列中音素发音正确，即学习者发音正确；或者，若第二音素序列与第一音素序列的音素不同，则确定第一音素序列中该不同音素的发音错误，即学习者发音错误，其中，不相同的音素即是学习者容易读错的音素，实现发音错误检测。

在上述实施例的基础上，可选地，S202、根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，可以包括：根据第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。其中，预设混淆音素为非静音音素对应的预设混淆音素。

其中，WFST对齐网络中的每个音素之间不再额外添加可选静音音素路径，从而使得词内音素之间无额外的可选静音音素路径，保证了只有词与词之间可能有停顿，词内无停顿的真实情况。

该实现方式中，针对第一音素序列中音素，构建仅包含非静音音素的预设混淆音素的WFST对齐网络，从而减小了静音音素(也即非混淆音素)与实际音素之间相似度对发音检错产生的影响。

一种具体实现中，在WFST对齐网络中搜索待检测语音信号对应的第二音素序列，可以包括：基于待检测语音信号对应的声学分数和维特比算法，在WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第二音素序列。由于每个非静音音素上有混淆音素作为可选路径进行路径搜索，因此，最终输出带混淆音素的第二音素序列。

其中，声学分数是根据预先训练好的声学模型及待检测语音信号得到的。具体地，将待检测语音信号作为预先训练好的声学模型的输入，声学模型的输出即该待检测语音信号对应的声学分数。其中，声学分数的具体获取可参考后续实施例，此处不再赘述。

维特比算法，是机器学习中应用非常广泛的动态规划算法，用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。本申请利用维特比算法在WFST对齐网络中搜索最优路径，获得第二音素序列。

图4为本申请另一实施例提供的发音错误检测方法的流程图。参考图4，本实施例的发音错误检测方法，可以包括以下步骤：

S401、根据发音文本，构建初始WFST对齐网络。

其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图。

进一步地，初始WFST对齐网络包含词间可选静音音素路径。其中，词间可选静音音素路径，真实反应了发音的停顿、咳嗽声等噪声的实际情况。示例地，图5示出一初始WFST对齐网络的示例图。如图5所示，a，b表示词，sil表示静音音素，可见，该初始WFST对齐网络包含词间可选静音音素路径。

S402、根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素序列及边界信息。

一些实施例中，该步骤可以具体为：根据待检测语音信号和预先训练好的声学模型，获得待检测语音信号对应的状态后验概率；根据待检测语音信号对应的状态后验概率，获得待检测语音信号对应的声学分数；基于待检测语音信号对应的声学分数和维特比算法，在初始WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第一音素序列及边界信息。

其中，声学模型可以为DNN声学模型。将待检测语音信号逐帧输入DNN声学模型，输出逐帧对应的状态后验概率，经转换为声学分数，利用维特比算法搜索最优路径，得到第一音素序列及边界信息。维特比算法搜索路径的目的是在WFST对齐网络中搜索一条语音特征序列匹配的最优路径，学习者停顿等声音往往会被静音吸收，通过添加词间可选静音音素路径，反映了学习者的包含停顿、咳嗽声等声音的发音过程。

S403、根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。

S404、在WFST对齐网络中搜索待检测语音信号对应的第二音素序列。

S405、比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。

其中，S401和S402是如图2所示流程中S201的进一步细化；S403至S405的相关描述可参考图2所示实施例中S202至S204的相关描述，此处不再赘述。

另外，S402可以理解为第一次强制对齐，S404为第二次强制对齐。第二次强制对齐保留了第一次强制对齐结果中的静音音素，反应了词发音的真实性；但对于第一音素序列中的每个音素之间不再额外添加可选静音音素路径，从而使得词内音素之间无额外的可选静音音素路径，保证了只有词与词之间可能有停顿，词内无停顿的真实情况。

该实施例基于二次构建WFST对齐网络及二次强制对齐进行发音检错，通过第一次包含词间可选静音音素路径的初始WFST对齐网络，保留了学习者发音过程信息，利用第二次构建的WFST对齐网络与第二次强制对齐还原出实际音素，减少解码搜索空间，加快解码速度，并且减小了静音音素(非混淆音素)与实际音素之间相似度对发音检错产生的影响，准确率更高。

此外，音素由多个状态构成。例如，音素由三个状态构成，各至少分配一帧的时长给这三个状态。由第一次强制对齐的得到的第一音素序列的边界信息，当音素持续时长对应的帧数等于组成音素的状态个数时，认为这个音素没有发出，因此，可以检测出学习者的漏读习惯。例如，发音文本为“ay ae m ah”，学习者实际读出的是“ay ae m”，其中“ah”没有被读出，但在对齐搜索过程中，也要经过组成“ah”音素的三个状态的时长。

综上，通过本申请可以检测出学习者错读、漏读的发音错误。之后，基于本申请的检错结果，可以进一步为学习者提供错读、漏读部分的正确发音及提示。例如，对文本中错读部分和/或漏读部分进行标记等。

更进一步地，在比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误之后，发音错误检测方法还可以包括：输出上述发音文本对应的正确读音。通过正确读音的输出，帮助学习者进行更好地学习。

以下为本申请装置实施例，可以用于执行本申请上述方法实施例。对于本申请装置实施例中未披露的细节，可参考本申请上述方法实施例。

图6为本申请一实施例提供的发音错误检测装置的结构示意图。该发音错误检测装置可以通过软件和/或硬件的方式实现。实际应用中，该发音错误检测装置可以是服务器、电脑，手机，平板，PDA或交互智能平板等具备一定算力的电子设备；或者，该发音错误检测装置可以是电子设备中的芯片或电路。

如图6所示，发音错误检测装置60包括：获取模块61、构建模块62、搜索模块63和比较模块64。其中：

获取模块61，用于根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素序列及边界信息。待检测语音信号是针对发音文本的语音信号。

构建模块62，用于根据第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。

搜索模块63，用于在WFST对齐网络中搜索待检测语音信号对应的第二音素序列。

比较模块64，用于比较第一音素序列及第二音素序列的音素，确定第一音素序列中音素是否发音错误。

本申请实施例提供的发音错误检测装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

可选地，构建模块62可具体用于：根据第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络。其中，预设混淆音素为非静音音素对应的预设混淆音素。

进一步地，搜索模块63可具体用于：基于待检测语音信号对应的声学分数和维特比算法，在WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第二音素序列。

如图7所示，在图6所示结构的基础上，进一步地，在发音错误检测装置70中，获取模块61可以包括：

构建单元71，用于根据发音文本，构建初始WFST对齐网络。其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图。

获取单元72，用于根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素序列及边界信息。

可选地，上述初始WFST对齐网络包含词间可选静音音素路径。

一些实施例中，获取单元72可具体用于：

在上述实施例中，比较模块64可以具体用于：在第二音素序列与第一音素序列的音素相同时，确定第一音素序列中音素发音正确；或者，在第二音素序列与第一音素序列的音素不同时，确定第一音素序列中该不同音素的发音错误。

一些实施例中，发音错误检测装置还可以包括输出模块(未示出)，用于输出发音文本对应的正确读音。通过正确读音的输出，帮助学习者进行更好地学习。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称：ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称：FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central ProcessingUnit，简称：CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(System-On-a-Chip，简称：SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图8为本申请一实施例提供的电子设备的结构示意图。该电子设备可以是计算机，服务器等。如图8所示：

电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，以及通信组件814。

处理组件802通常控制电子设备800的整体操作，诸如与数据通信和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件814发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

通信组件814被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件814经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

本实施例的电子设备，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有程序指令，该程序指令被执行时，实现如上述任一实施例所述发音错误检测方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种发音错误检测方法，其特征在于，包括：

根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素序列及边界信息，所述待检测语音信号是针对所述发音文本的语音信号；其中，所述第一音素序列为所述待检测语音信号对应的发音音素；

根据所述第一音素序列及边界信息，构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络；

在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列；其中，所述第二音素序列中的音素为实际发音音素；

比较所述第一音素序列及所述第二音素序列的音素，确定所述第一音素序列中音素是否发音错误；

所述根据所述第一音素序列及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，包括：

根据所述第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络，所述预设混淆音素为所述非静音音素对应的预设混淆音素。

2.根据权利要求1所述的方法，其特征在于，在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列，包括：

基于所述待检测语音信号对应的声学分数和维特比算法，在所述WFST对齐网络中搜索最优路径，得到所述待检测语音信号对应的第二音素序列。

3.根据权利要求1所述的方法，其特征在于，所述根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素序列及边界信息，包括：

根据所述发音文本，构建初始WFST对齐网络，其中，所述初始WFST对齐网络表示所述发音文本对应的音素的可能路径状态图；

根据所述待检测语音信号和所述初始WFST对齐网络，获取所述待检测语音信号对应的第一音素序列及边界信息。

4.根据权利要求3所述的方法，其特征在于，所述初始WFST对齐网络包含词间可选静音音素路径。

5.根据权利要求3所述的方法，其特征在于，所述根据所述待检测语音信号和所述初始WFST对齐网络，获取所述待检测语音信号对应的第一音素序列及边界信息，包括：

根据所述待检测语音信号和预先训练好的声学模型，获得所述待检测语音信号对应的状态后验概率；

根据所述待检测语音信号对应的状态后验概率，获得所述待检测语音信号对应的声学分数；

基于所述待检测语音信号对应的声学分数和维特比算法，在所述初始WFST对齐网络中搜索最优路径，得到所述待检测语音信号对应的第一音素序列及边界信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述比较所述第一音素序列及所述第二音素序列的音素，确定所述第一音素序列中音素是否发音错误，包括：

若所述第二音素序列与所述第一音素序列的音素相同，则确定所述第一音素序列中音素发音正确；

或者，若所述第二音素序列与所述第一音素序列的音素不同，则确定所述第一音素序列中该不同音素的发音错误。

7.一种发音错误检测装置，其特征在于，包括：

获取模块，用于根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素序列及边界信息，所述待检测语音信号是针对所述发音文本的语音信号；其中，所述第一音素序列为所述待检测语音信号对应的发音音素；

构建模块，用于根据所述第一音素序列及边界信息，构建包含预设混淆音素的候选路径的加权有限状态转移器WFST对齐网络；

搜索模块，用于在所述WFST对齐网络中搜索所述待检测语音信号对应的第二音素序列；其中，所述第二音素序列中的音素为实际发音音素；

比较模块，用于比较所述第一音素序列及所述第二音素序列的音素，确定所述第一音素序列中音素是否发音错误；

所述构建模块具体用于：根据所述第一音素序列中非静音音素及边界信息，构建包含预设混淆音素的候选路径的WFST对齐网络；其中，所述预设混淆音素为所述非静音音素对应的预设混淆音素。

8.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序指令；所述程序指令被执行时，实现如权利要求1至6中任一项所述的方法。