CN108648765A

CN108648765A - 一种语音异常检测的方法、装置及终端

Info

Publication number: CN108648765A
Application number: CN201810394607.0A
Authority: CN
Inventors: 任晓楠; 王峰; 崔保磊
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-10-12
Anticipated expiration: 2038-04-27
Also published as: CN108648765B

Abstract

本申请涉及一种语音异常检测的方法、装置及终端，用以解决目前语音识别过程中，语音识别效果较差的问题。该方法包括：获取音频信号，并将所述音频信号划分为至少一个音频帧；确定所述音频帧的质心值；所述质心值为所述音频帧的能量特征值；若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，并指示所述预设异常条件对应的异常类型。

Description

一种语音异常检测的方法、装置及终端

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音异常检测的方法、装置及终端。

背景技术

语音识别技术是让机器接收、识别和理解音频信号，并将其装换成相应的数字信号的技术。它是一门交叉学科，涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。随着大数据、机器学习、云计算、人工智能等技术的发展，语音识别正在逐步解放用户的双手和双眼，语音输入正在逐步取代传统的鼠标、键盘输入。语音识别从实验室走向实际应用，形成产品，并逐渐显露出其强大的技术优势和生命力。

语音识别技术是指机器把音频输入转换为文字或命令的技术。在语音识别过程中，由于输入信号时有多种因素可能会导致输入的音频信号识别错误，例如，用户距离麦克风过近，导致识别错误；或者，用户距离麦克风过远，导致无法识别，语音识别设备存在识别错误等。由于多种因素导致的音频信号识别错误，测试人员无法及时的获取导致语音识别错误的因素，不利于测试人员及时的针对语音识别错误，进行针对性的修正，只能依次排查，导致排查效率较低。另外，由于使用环境的多样性，在用户使用时出现的语音识别错误，与测试人员在测试场景下测试获得的语音识别错误，可能无法做到测试的完备，导致语音识别的效果不佳。

另外，用户在实际使用中，无法知晓是什么原因导致的输入的音频信号识别错误，仅认为是语音识别设备出现了问题，或语音识别设备的精度不高，导致的音频信号识别错误，极大的降低了用户体验。

因此，如何有效提高语音识别效果，是一个亟待解决的问题。

发明内容

本申请的目的是提供一种语音异常检测的方法、装置及终端，用以解决目前语音识别过程中，由于无法确定语音识别设备在识别过程中出现的语音识别错误的原因，导致的无法有效提升语音识别效果的问题。

本申请实施例提供一种语音异常检测的方法，所述方法包括：

获取音频信号，并将所述音频信号划分为至少一个音频帧；

确定所述音频帧的质心值；所述质心值为所述音频帧的能量特征值；

若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，并指示所述预设异常条件对应的异常类型。

一种可能的实现方式，所述确定所述音频帧的质心值，包括：

通过以下方式确定所述音频帧的质心值：

将所述音频帧划分为至少一个子帧，并确定所述子帧的音频中心值；所述音频中心值为根据所述子音频帧的对数的均方和确定的；

根据所述至少一个子帧的音频中心值以及所述至少一个子帧在所述音频帧中的位置，确定所述音频帧的质心值。

一种可能的实现方式，所述若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，包括：

若确定所述音频信号中的第一个音频帧或最后一个音频帧的质心值大于第一异常值，则确定所述音频信号存在第一异常；所述第一异常值为所述正常音频信号的音频帧的质心值的最小值。

若确定所述质心值中，出现连续的至少2个的超过第二异常值的质心值，则确定所述音频信号存在第二异常；所述第二异常值为所述正常音频信号中的音频帧的最大质心值。

若确定所述音频信号中的最大质心值小于第三异常值，则确定所述音频信号存在第三异常；所述第三异常值为所述正常音频信号在最小音量时的音频帧的平均质心值。

若确定第一质心值变化率出现的概率大于第四异常值，则确定所述音频信号存在第四异常；所述第一质心值变化率为所述音频信号中质心值变化率大于或等于所述正常音频信号中最大的质心值变化率。

本申请实施例提供一种语音异常检测的装置，所述装置包括：

音频获取模块，用于获取音频信号；

音频检测模块，将所述音频信号划分为至少一个音频帧；确定所述音频帧的质心值，所述质心值为所述音频帧的能量特征值；若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，并指示所述预设异常条件对应的异常类型。

一种可能的实现方式，所述音频检测模块具体用于：

若确定所述音频信号中的第一个音频帧或最后一个音频帧的质心值大于第一异常值，则确定所述音频信号存在第一异常；所述第一异常值为所述正常音频信号的音频帧的质心值的最小值；

或者，若确定所述质心值中，出现连续的至少2个的超过第二异常值的质心值，则确定所述音频信号存在第二异常；所述第二异常值为所述正常音频信号中的音频帧的最大质心值；

或者，若确定所述音频信号中的最大质心值小于第三异常值，则确定所述音频信号存在第三异常；所述第三异常值为所述正常音频信号在最小音量时的音频帧的平均质心值；

或者，若确定第一质心值变化率出现的概率大于第四异常值，则确定所述音频信号存在第四异常；所述第四异常为数据丢失；所述第一质心值变化率为所述音频信号中质心值变化率大于或等于所述正常音频信号中最大的质心值变化率。

本申请实施例提供一种终端，包括：处理器，存储器；

所述处理器与所述存储器耦合：

所述处理器，用于执行所述存储器中存储的计算机程序或指令，以使得所述终端执行如上述方法中任一项所述的方法。

本申请有益效果如下：

本申请实施例提供的一种语音检测方法中，获取音频信号，并将所述音频信号划分为至少一个音频帧；确定所述音频信号的质心值，所述质心值为所述音频帧的能量特征值；若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，并指示所述预设异常条件对应的异常类型。使得用户可以及时确定语音识别中出现的异常类型，进而根据异常类型，优化输入音频的方式，有效的提高了输入音频的识别的准确度和识别效率，极大的提高了用户体验。

附图说明

图1为本申请实施例提供的一种语音检测方法的流程示意图；

图2a为本申请实施例提供的音频信号的第一异常的示意图；

图2b为本申请实施例提供的音频信号的第二异常的示意图；

图2c为本申请实施例提供的音频信号的第三异常的示意图；

图2d为本申请实施例提供的音频信号的第四异常的示意图；

图3为本申请实施例提供的一种语音识别的流程示意图；

图4为本申请实施例提供的一种语音检测装置的结构示意图；

图5为本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中提供的语音识别设备，主要是针对具有远场识别功能的语音交互设备，例如，智能画框、智能家居等。当然，也可以根据需要应用到其它的语音识别场景中，在此不做限定。本申请以智能电视的场景为例，智能电视即将语音助手与电视业务进行了深度整合，让智能电视有了全新的操控体验，简单又方便。而对电视的操控主要通过近场、远程方式(遥控器&麦克风阵列)输入语音命令，实现绝大部分智能电视业务功能的操作。

当前语音识别研究较为成熟，其识别率也达到较为理想的水平。经后台用户语音数据分析，发现大部分的识别错误问题都是由于用户操作不当导致，如：尚未调起语音助手即输入语音，尚未输入完语音即松开按键，距离遥控器太远或说话声音太小，距离遥控器太近或声音太大等，都会导致录入的音频信号异常，从而影响语音识别率。因此，由于前端输入语音的数据存在或多或少的问题，即用户操作习惯不当等原因导致语音数据的异常，使得用户输入语音时得到的识别结果与用户意图不一致，导致语音识别存在不稳定的现象，严重影响了语音的识别率，大大降低了用户体验，对产品的影响也很大。

现有技术中，为通过语音波形的包络进行语音的判断；而语音波形的包络特征虽然可以反映出语音波形起伏特点，但包络线无法准确提取语音边缘的局部峰值，且包络只能实现音频信号音量大小、截幅的检测，其他问题的检测又需要提取新的特征。如：断音检测通过断音处前后能量值的对比(需要同时重新计算每一帧的能量进行对比)；首尾淡入淡出(掐头去尾)的检测，通过对音频首尾处的音量值进行一阶直线拟合处理，获取拟合后直线的斜率和垂直偏移进行检测；电流声检测则是通过计算音频能量及对应方差值进行分析，来分析这一特性。计算繁琐，无法整合，对与语音检测的效率很低，并且在语音识别的同时，进行快速的定位异常问题，也增加了语音设备对于硬件和软件方面的要求。

本申请实施例提供的一种语音异常检测的方法的流程示意图，如图1所示，所述方法包括：

步骤101：获取音频信号，并将所述音频信号划分为至少一个音频帧；

本申请实施例中，可以通过语音设备对录入的音频信号压缩后，通过蓝牙传输至所述语音设备关联的智能电视的蓝牙接收端，所述只能电视对音频信号解压后得到pcm格式的音频信号，及所述音频信号对应的语音时长K。其中，所述音频信号可以选取采样率为16KHz，量化精度为16Bit的音频信号，其他音频信号可参考本实施例，在此不再赘述。所述音频信号的划分方法，可以将音频信号划分音频帧，具体的：可以将音频信号X分为N帧，每帧的长度为L，则L＝K/N,其中，K为所述音频信号的总长度。各音频帧记为X₁(P),P＝1,2,3,…,N。进一步的，为简化数据量，便于所述音频信号的处理，可以在获取到所述音频信号后，对所述音频信号进行归一化处理，例如，处理后的所述音频信号的幅值的取值范围为[0,1]。

步骤102：确定所述音频帧的质心值；

一种可能的实现方式，所述音频帧的质心值可以包括：所述音频信号的至少一个音频帧中，每个音频帧的质心值；

其中，所述质心值为所述音频帧的能量特征值；所述能量特征值也可以称为能量本征值，在本申请实施例中统一称为能量特征值。在步骤102中，一种可能的实现方式，所述确定所述至少一个音频帧中每个音频帧的质心值，包括：

针对所述至少一个音频帧中的任一个音频帧，可以通过以下方式确定该音频帧的质心值：

步骤一、将所述音频帧划分为M个子帧，并确定所述M个子帧中每个子帧的音频中心值；所述M个音频中心值为根据所述M个子音频帧的对数的均方和确定的；

其中，每个子帧可以表示为X₂(p,q),q＝1,2,3,…,M。每一个子帧的的长度为L/M。

一种可能的实现方式，所述M个子帧中任一个子帧的音频中心值，满足以下公式：

其中，D(p,q)表示第p个音频帧中第q个子帧的音频中心值；X_t(p,q)表示在第t个的第p个音频帧中第q个子帧的音频信号；α＞0是偏差值。0≤t≤L/M；L为第p个音频帧的长度；α为大于0的实数；1≤q≤M；1≤p≤N；因零值不能取对数，所以在计算公式上增加了参数α。

步骤二、根据所述M个子帧对应的M个音频中心值以及M个子帧在所述音频帧中的位置，确定所述音频帧的质心值；所述M为正整数。

所述音频帧的质心值，满足以下公式：

其中，C(p)表示第p个音频帧的质心值；D表示第p个音频帧中第q个子帧的音频中心值。

根据上式，可得到所述音频信号划分的M个音频帧中，M个音频帧的质心值，每个质心值可表征该音频帧中音频信号的能量信息。前后质心值的关系(质心之间的斜率)可表征音频信号的变化情况，可以表示为：

k(p)＝[C(p+1)-C(p)]/t

其中，一个帧的播放时间t＝一个帧对应的采样样本的个数/采样频率(单位为s)。

例如，若采样频率为16000Hz，则一个帧的播放时间为t＝L/16000(s)。

通过质心值的变化率可以表示音频信号的非平稳信号特征。具体的，若k(p)>0，音频信号处于渐入过程，k(p)<0时，则处于浅出过程。|k(p)|的大小，可表示音频信号幅度的变化情况，若|k(p)|＝0说明音频帧的前后两个质心值一样，则音频信号幅度无明显变化。

本申请实施例通过提取音频质心特性，既可表征某帧音频信号的能量信息，其前后质心值的关系又可表征音频信号的变化情况，计算简单，针对不同异常的问题，都可以通过质心值进行判断，不需要通过多个参数进行判断，有效的提高了异常语音的判断效率。

步骤103：若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，并指示所述预设异常条件对应的异常类型。

在步骤103中，可以包括以下几种预设异常条件：

或者，所述第一异常值为所述第一异常值为所述正常音频信号的第一个音频帧或最后一个音频帧的质心值的最小值。

其中，所述第一异常为首尾录入不完整。具体的，当用户输入语音时未及时按下语音键，即按键太晚，会出现语音数据的开始阶段录音不完整的现象，导致语音识别结果出现错误；当用户结束语音输入松开语音键过早时，会出现语音数据结尾语音被截取的现象，也会影响语音识别率。语音波形如图2a所示。从遥控器收音到用户输入语音至少会有300ms左右的间隔，同理用户结束录音到松开按键通常也会存在500ms左右的间隔，因此正常的音频信号前后都有一段淡入淡出的波形(如图2b所示)。

基于音频信号渐入浅出特征，在安静环境下，首、尾两帧音频信号的质心值≈0，为了排除环境噪声的影响，假设所述音频信号中最小质心值为：

C_min＝MIN(C(p)),p＝1,2,...,M

其中，C_min为所述音频信号的音频帧的质心值中的最小质心值，C(p)为第p音频帧的质心值，MIN(C(p))为所述音频信号的音频帧的质心值中的最小值。

若所述音频信号的第一音频帧的质心值C(1)或者所述音频信号的最后一个音频帧的质心值C(M)明显大于C_min，则表明该音频信号存在首尾录入不完整的异常。

进一步的，当出现第一异常时，可以在智能电视的显示界面弹出使用引导信息，指示用户“长按语音键输入语音，录入完成后松开按键”，也可以直接通过语音识别设备指示用户所述第一异常，并指示用户“长按语音键输入语音，录入完成后松开按键”；在此不做限定。

其中，所述第二异常为截幅。截幅是指所述音频信号中的信号幅值超出所述音频信号的获取模块的采集范围。具体的，由于用户输入音量，音频信号的获取模块增益参数设置，以及人脸与音频信号的获取模块的距离等因素的影响，实际输入的音频信号中经常有截幅的异常现象发生(参见图2b中被圈出的部分)，截幅会给原始音频信号带来刺耳的响声，如果截幅密度很大，将会严重影响信号的质量，进而影响语音识别率。

当音频信号截幅时，可得到最大质心值C_max，将最大质心值作为第二异常值，具体的，结合本实施例中归一化后的音频信号，即所述最大质心值可以为0.5。归一化后的若一段音频信号中存在连续至少2个音频帧的质心值等于最大质心值，则说明该音频信号存在截幅现象。当然，也可以根据实际情况确定所述第二异常值，在此不做限定。

导致所述第二异常的原因可以为：a)遥控器距离嘴太近，且用户输入音量过大；在出现截幅时，所述语音设备或者所述智能电视可以指示用户“遥控器的最佳使用距离”或“适当减小音量”。

进一步的，本申请实施例还提供一种语音异常检测的方法，可以通过增加语音设备与人脸的距离参数，结合对音频信号进行分析，综合判断是否存在语音异常。

具体的，为进一步优化指示信息，所述语音设备还可以包括：距离传感器，距离传感器又叫位移传感器，距离传感器可以位于设备听筒的两侧或者是在设备的听筒凹槽中。当用户在接收或输入音频信号时，可以将设备靠近人脸，距离传感器可以测出之间的距离到了一定程度后便通知屏幕背景灯熄灭，拿开时再度点亮背景灯。

所述距离传感器，利用各种元件检测对象物的物理变化量，通过将该变化量换算为距离，来测量从传感器到对象物的距离位移的机器。根据使用元件不同，分为光学式位移传感器、线性接近传感器、超声波位移传感器等。本申请实施例中的语音设备，使用的距离传感器可以是利用测时间来实现距离测量的一种传感器。红外脉冲传感器通过发射特别短的光脉冲，并测量此光脉冲从发射到被物体反射回来的时间，通过测时间来计算与物体之间的距离。

本申请实施例中，智能电视的语音设备可以为所述智能电视的遥控器，其语音输入的过程中，人脸与所述语音设备的最佳距离为10～15cm，太远会导致语音录入音量小，距离太近容易呼出的气流产生喷麦，均会对语音识别产生一定的影响。通过距离传感器判断所述语音设备的语音接收模块到人脸的距离，实时对用户使用情况进行提示。

一种可能的实现方式，在出现截幅时，结合距离传感器参数，所述语音设备或者所述智能电视可以指示用户“遥控器的最佳使用距离”或“适当减小音量”。

若确定所述音频信号中的最大质心值小于第三异常值，则确定所述音频信号存在第三异常；所述第三异常值为所述正常音频信号在最小音量时的音频帧的平均质心值；其中，所述平均质心值可以为所有音频帧的质心值的平均值，也可以为部分音频帧的质心值的平均值，在此不做限定。

其中，所述第三异常为音量过低。具体的，如图2c所示，若语音幅值过小(语音的幅值可以低于0.02)，在语音识别的特征提取阶段，例如，时域到频域转换时，通过多个滤波器组后，分配到每个滤波器上的能量值很少(几乎为零)，会很大程度影响模式匹配的结果。

若整段音频信号的音量过小，则该音频信号每帧语音的质心值也会过小，若确定一个可识别的音频信号质心值C_normal，例如，所述C_normal可以为所述正常音频信号的平均质心值，即可以表示为C_normal＝N(C(p)),p＝1,2,...,M。其中，N(C(p))为所述音频信号的音频帧的质心值的平均值。

假设所述音频信号的音频帧的质心值中的最大质心值为：

C_max＝MAX(C(p)),p＝1,2,...,M

其中，MAX(C(p))为所述音频信号的音频帧的质心值中的最大值。当C_max<C_normal时，可判断该音频信号音量偏低。

导致所述第三异常的主要原因：a)所述语音设备距离人脸太远；b)所述语音设备的距离在正常范围内，但用户输入音量过小。

一种可能的实现方式，音量过小时，结合距离传感器参数信息，所述语音设备或者所述智能电视可以指示用户“语音设备的最佳使用距离”或“适当增加音量”。

若确定第一质心值变化率出现的概率大于第四异常值，则确定所述音频信号存在第四异常。所述第一质心值变化率为所述音频信号中质心值变化率大于或等于所述正常音频信号中最大的质心值变化率的质心值变化率。

其中，所述第四异常可以为所述音频信号的数据丢失。如图2d所示，由于音频信号的渐入浅出特性，当其斜率的绝对值较大时，语音波形变化比较明显，当该现象概率性发生时，说明语音数据录入异常。语音数据间隔性丢失的原因主要为设备故障，可直接将所述异常上报至所述语音设备的服务器，还可以指示用户所述语音设备出现异常，请及时维修等。

一种可能的实现方式，本申请实施例还提供一种异常语音的识别方法，包括：

所述音频信号的时长为T₁，结合用户按下、抬起语音键的时间差T₀，可得到丢包率p:

当p<5％，丢包对识别无明显影响；当p>5％，甚至超过20％时，则认为出现第五异常，即语音数据的丢包；其中所述语音数据的丢失会直接导致识别异常，影响较大。语音数据丢包的原因主要包括：外界环境干扰(蓝牙与WIFI频段均为2.4G，因此，很容易出现相互的干扰)；所述语音设备或者所述语音设备与所述智能电视间的蓝牙传输异常等。可直接将所述第五异常上报至所述语音设备的服务器，还可以指示用户所述语音设备出现异常，请及时维修等，便于问题的及时跟踪解决。

通过确定音频信号的质心值和质心值的变化率，结合距离传感器，可以快速的判断导致语音异常可能的错误操作及设备故障，并实时给出正确的使用引导；减少由于误操作导致的识别错误，可以有效的提高用户体验。

本申请实施例还提供一种语音识别的流程示意图，如图3所示，所述语音设备可以包括：语音识别模块，语音检测模块。

所述方法包括：

步骤301：获取音频信号；

步骤302：所述语音检测模块对所述音频信号进行语音检测；

具体检测方式，可以参考图1中的实施例，在此不再赘述。

步骤303：所述语音识别模块对所述音频信号进行语音识别；

需要说明的是，步骤302和步骤303可以同时进行，也可以有先后顺序，在此不做限定。

步骤304：根据所述音频信号的质心值，确定所述音频信号是否满足异常条件；以及，根据所述语音识别的结果，判断所述音频信号的语音识别是否可以识别；

步骤305：若确定所述语音检测不满足异常条件，且所述音频信号不可以识别，则执行步骤306；

步骤306：根据所述语音识别模块识别的语义，向所述用户显示识别的所述的语义。

具体的，可以为在所述智能电视的显示界面上显示识别所述音频信号的语句，也可以为通过所述智能电视播放识别的所述音频信号的语句。

步骤307：若确定所述语音检测不满足异常条件，且所述音频信号识别异常，则执行步骤308；

步骤308：若确定所述语音识别错误，将所述语音识别异常上报至所述智能电视或所述智能电视的服务器。

步骤309：若确定所述语音检测满足异常条件，且所述音频信号可以识别，则执行步骤310；

步骤310：指示用户所述语音检测的异常；

步骤311：若确定所述语音检测满足异常条件，且所述音频信号识别异常，则执行步骤312；

步骤312：根据所述语音识别异常和所述语音检测异常，将所述语音识别异常和所述语音检测异常上报至所述智能电视或所述智能电视的服务器。

具体的，当用户指令无法识别时，从客户端获取语音数据分析结果，结合语音检测的结构对问题分析：若语音检测未出现异常，但用户输入的音频信号无法识别，可能原因可以包括：

A、语言模型未覆盖相关音频信号中的模型，导致识别错误；

B、语音识别正确，但语义处理逻辑无法处理，导致语音识别失败；

通过异常的上报，可有效定位问题，完成语音识别***(通过添加热词或训练语言模型)和语义***(数据标注或逻辑优化)的迭代更新。

步骤309：根据所述语音检测的异常，指示用户所述异常，并给出对应的解决方案。

具体的，若确定语音检测时出现异常，可以包括：

A、语音数据传输过程中丢包、或数据间隔性丢失，属于所述语音设备、智能电视等问题，可上报所述异常至所述智能电视或所述智能电视的服务器；

B、用户使用不当导致录入数据异常，可给出使用的引导方法；

通过结合语音识别和语音检测确定异常，除了能够及时发现硬件或软件的问题，也能够人性化地引导用户正确使用，提高用户体验。

本申请实施例提供了一种语音交互场景中，用户输入指令无法定位时，通过后台语音数据分析可快速有效地定位问题，针对语音设备在输入语音时的前端分析，通过对语音设备录入的音频信号进行处理和分析，结合在语音识别过程中通过对音频信号的识别，判断导致语音异常可能的错误操作，并实时给出正确的使用引导，提高语音助手在产品领域中的用户体验，实现了用户需求的快速迭代和***的快速优化。

如图4所示，本申请实施例提供一种语音检测的装置，所述装置包括：

音频获取模块401，用于获取音频信号；

音频检测模块402，将所述音频信号划分为至少一个音频帧；确定所述至少一个音频帧中每个音频帧的质心值，所述质心值为所述音频帧的能量特征值；若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，并指示所述预设异常条件对应的异常类型。

一种可能的实现方式，音频检测模块402具体用于：

针对所述至少一个音频帧中的任一个音频帧，通过以下方式确定该音频帧的质心值：将所述音频帧划分为M个子帧，并确定所述M个子帧中每个子帧的音频中心值；所述M个音频中心值为根据所述M个子音频帧的对数的均方和确定的；根据所述M个子帧对应的M个音频中心值以及M个子帧在所述音频帧中的位置，确定所述音频帧的质心值；所述M为正整数。

一种可能的实现方式，音频检测模块402具体用于：

若确定所述音频信号中的第一个音频帧或最后一个音频帧的质心值大于第一异常值，则确定所述音频信号存在第一异常；所述第一异常值为所述正常音频信号的音频帧的质心值的最小值；所述第一异常为首尾录入不完整；

一种可能的实现方式，音频检测模块402具体用于：

若确定所述质心值中，出现连续的至少2个的超过第二异常值的质心值，则确定所述音频信号存在第二异常；所述第二异常值为所述正常音频信号中的音频帧的最大质心值；所述第二异常为截幅；

一种可能的实现方式，音频检测模块402具体用于：

若确定所述音频信号中的最大质心值小于第三异常值，则确定所述音频信号存在第三异常；所述第三异常值为所述正常音频信号在最小音量时的音频帧的平均质心值；所述第三异常为音量过低；

一种可能的实现方式，音频检测模块402具体用于：

若确定第一质心值变化率出现的概率大于第四异常值，则确定所述音频信号存在第四异常；所述第四异常为数据丢失；所述第一质心值变化率为所述音频信号中质心值变化率大于或等于所述正常音频信号中最大的质心值变化率的质心值变化率。

一种可能的实现方式，所述装置还包括：

距离传感器，用于检测所述装置与人脸的距离，以提高异常问题的准确定位，提高用户体验。具体实施方式可以参考图2a-2d中的实施例，在此不再赘述。

如图5所示，本申请实施例还提供一种终端，包括：处理器501、存储器502；其中，处理器501、存储器502通过总线503相互连接。

总线503可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器502可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器502还可以包括上述种类的存储器的组合。

处理器501可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

处理器501与存储器502耦合：处理器501，用于执行所述存储器中存储的计算机程序或指令，以使得所述终端执行上述任意一种语音异常检测的方法。

本申请实施例提供一种计算机可读存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述任一种语音异常检测的方法。

本申请实施例提供一种计算机程序产品，包括计算机可读指令，当计算机读取并执行所述计算机可读指令，使得计算机执行上述任一种语音异常检测的方法。

本申请实施例通过对底层语音数据进行分析，根据质心值及前后两帧音频信号斜率值，对音频信号存在的问题进行定位，找到语音异常的原因。根据步骤三中的语音异常现象，判断导致语音异常可能的错误操作。在测试开发阶段，也可较快的定位问题，提高问题定位分析效率；在用户使用阶段，能够人性化地引导用户使用，提高用户体验。例如，对用户操作行为实时给出正确的使用引导，进而保证语音的正常识别。减少由于误操作导致的识别错误，提高用户体验。

本申请实施例通过对语音数据的分析，实现了对用户操作行为的引导。相较于识别错误后从语义层进行错误反馈，本申请实施例可实时对用户操作进行分析，保证了语音识别的稳定性，及时发现导致语音识别率不理想的原因，并针对不同的现象进对用户操作也进行相关性的引导，而不是盲目地对语言模型、声学模型进行优化，有效的减少了由于误操作导致的识别错误，提高语音识别率的同时也提升了用户体验。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音异常检测的方法，其特征在于，所述方法包括：

获取音频信号，并将所述音频信号划分为至少一个音频帧；

2.如权利要求1所述的方法，其特征在于，所述确定所述音频帧的质心值，包括：

通过以下方式确定所述音频帧的质心值：

3.如权利要求1-2任一所述的方法，其特征在于，所述若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，包括：

4.如权利要求1-2任一所述的方法，其特征在于，所述若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，包括：

5.如权利要求1-2任一所述的方法，其特征在于，所述若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，包括：

6.如权利要求1-2任一所述的方法，其特征在于，所述若确定所述至少一个音频帧的质心值，满足预设异常条件，则确定所述音频信号存在异常，包括：

7.一种语音异常检测的装置，其特征在于，所述装置包括：

音频获取模块，用于获取音频信号；

8.如权利要求7所述的装置，其特征在于，所述音频检测模块具体用于：

9.如权利要求7-8任一所述的装置，其特征在于，所述音频检测模块具体用于：

10.一种终端，其特征在于，包括：处理器，存储器；

所述处理器与所述存储器耦合：

所述处理器，用于执行所述存储器中存储的计算机程序或指令，以使得所述终端执行如权利要求1至6中任一项所述的方法。