CN111950327A

CN111950327A - 口型纠正方法、装置、介质和计算设备

Info

Publication number: CN111950327A
Application number: CN201910405361.7A
Authority: CN
Inventors: 胡太; 孙怿; 沈欣尧; 刘晨晨; 张蕾
Original assignee: Shanghai Liulishuo Information Technology Co ltd
Current assignee: Shanghai Liulishuo Information Technology Co ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-17

Abstract

本发明的实施方式提供了一种口型纠正方法。该方法包括：获取用户发音视频的关键帧；提取所述关键帧的口型特征；基于所述口型特征对所述关键帧进行分类；确认分类结果与标准发音视频的关键帧的类别是否一致；若不一致，根据标准发音视频的关键帧的类别进行相应的提示。本方法可以根据用户发音视频中的关键帧确定用户的发音口型是否标准，进而对错误的发音口型予以纠正，为用户带来了更好的体验。此外，本发明的实施方式还提供了一种口型纠正装置、介质和计算设备。

Description

口型纠正方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及口语评测领域，更具体地，本发明的实施方式涉及一种口型纠正方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在语言学习的过程中，学习正确的口语发音也是非常重要的一部分，然而在之前几年，口语学习只能跟随线下的老师进行，随着技术的发展，线上的口语学习成为一种趋势，近几年口语发音打分和纠正主要建立在语音特征的表示上。

然而，发音口型的正确与否对发音起到了至关重要的作用，也即掌握正确的口型可以促使学习者发出标准的读音，现有的口型识别判定特别依赖于唇语识别技术，需要使用高性能的GPU和较大的存储内存，并结合深度学习算法对发音内容打分，由于其对硬件配置要求较高，非常不适用于移动端设备。

发明内容

在本上下文中，本发明的实施方式期望提供一种口型纠正方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种口型纠正方法，包括：。

获取用户发音视频的关键帧；

提取所述关键帧的口型特征；

基于所述口型特征对所述关键帧进行分类；

确认分类结果与标准发音视频的关键帧的类别是否一致；

若不一致，根据标准发音视频的关键帧的类别进行相应的提示。

在本发明的一个实施例中，根据用户发音的内容的类别确定关键帧的提取方式。

在本发明的另一实施例中，用户发音的内容为显示在终端设备屏幕的发音内容。

在本发明的又一个实施例中，用户发音的内容为音标。

在本发明的再一个实施例中，发音的内容的类别包括至少四类；

其中，在所述发音的内容属于第一类时，获取用户发音视频中用户张开嘴时，张嘴程度最大的一帧作为关键帧；

在所述发音的内容属于第二类时，获取用户发音视频中发音停顿的一帧作为关键帧；

在所述发音的内容属于第三类时，获取用户发音视频中用户张开嘴时，张嘴程度最小和最大的一帧作为关键帧，其中，张嘴程度最小的关键帧的时序在张嘴程度最大的关键帧之前；

在所述发音的内容属于第四类时，获取用户发音视频中在先元音发音时张嘴程度最大的一帧以及在后元音发音时张嘴程度最小的一帧作为关键帧。

在本发明的再一个实施例中，提取所述关键帧的口型特征，包括：

提取所述关键帧中口型的形状特征。

在本发明的再一个实施例中，提取所述关键帧中口型的形状特征，包括：

获取所述关键帧中嘴部区域轮廓的关键点；

获取基于所述关键点构建的多边形的各个内角的角度；

将所述各个内角的角度按照预设规则进行编码得到所述关键帧中口型的形状特征。

在本发明的再一个实施例中，所述嘴部区域轮廓的关键点为嘴部区域内轮廓的关键点。

在本发明的再一个实施例中，获取所述关键帧中嘴部区域轮廓的关键点，包括：

对所述关键帧进行人脸检测，得到脸部的边界框；

基于所述边界框采用梯度提升的集成回归树算法对脸部区域进行关键点检测以获取嘴部区域轮廓的关键点。

在本发明的再一个实施例中，对所述关键帧进行人脸检测，得到脸部的边界框，包括：

结合关键帧图像的局部梯度和梯度强度构造图像描述子；

基于所述图像描述子采用滑动窗口判别窗口内的图像是否为人脸区域。

获取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所述关键帧的特征。

在本发明的再一个实施例中，采用预先训练的口型分类器对所述关键帧进行分类。

在本发明的再一个实施例中，所述口型分类器基于以下构建：

对训练数据集进行特征降维；

基于降维后的低维空间特征训练得到所述口型分类器。

在本发明的再一个实施例中，采用主成分分析、线性判别分析和局部线性嵌入中的一个进行特征降维。

在本发明的再一个实施例中，采用支持向量机、随机森林和极端梯度提升中的一个训练所述口型分类器。

在本发明的再一个实施例中，所述训练数据集包括不同人脸不同姿态下的口型特征。

在本发明实施方式的第二方面中，提供了一种口型纠正装置，包括：

关键帧获取模块，被配置为获取用户发音视频的关键帧；

特征提取模块，被配置为提取所述关键帧的口型特征；

分类模块，被配置为基于所述口型特征对所述关键帧进行分类；

判断模块，被配置为确认分类结果与标准发音视频的关键帧的类别是否一致；

提示模块，被配置为若不一致，根据标准发音视频的关键帧的类别进行相应的提示。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如第一方面任一实施例所述的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如第一方面任一实施例所述的方法。

根据本发明实施方式的口型纠正方法、装置、介质和计算设备，可以根据用户发音视频中的关键帧确定用户的发音口型是否标准，进而对错误的发音口型予以纠正，而无需如唇语识别的技术方案(需要使用高性能的 GPU和较大的存储内存)一样，结合深度学习算法对发音内容打分，从而显著地降低了资源消耗，并且突破了硬件限制(移动端如手机的硬件条件与性能的GPU和较大的存储内存不符)，适用于移动端，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明各个实施方式的一种应用场景示意图；

图2示意性地示出了根据本发明一实施方式的口型纠正学习方法的流程示意图；

图3示意性地示出了根据本发明各个实施方式的又一应用场景示意图；

图4示意性地示出了根据本发明各实施方式的嘴部区域内外轮廓关键点的示意图；

图5示意性地示出了根据本发明各个实施方式的以嘴部区域内轮廓关键点为基础构建多边形的示意图；

图6示意性地示出了根据本发明一实施方式的口型纠正学习装置的模块示意图；

图7示意性地示出了根据本发明实施方式提供的一种计算机可读存储介质的示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种口型纠正方法、装置、介质和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

现有的口型识别判定特别依赖于唇语识别技术，需要使用高性能的 GPU和较大的存储内存，并结合深度学习算法对发音内容打分，由于其对硬件配置要求较高，非常不适用于移动端设备。

本发明设计了一种口型纠正方法，该方法方法可以根据用户发音视频中的关键帧确定用户的发音口型是否标准，进而对错误的发音口型予以纠正，而无需如唇语识别的技术方案(需要使用高性能的GPU和较大的存储内存)一样，结合深度学习算法对发音内容打分，从而显著地降低了资源消耗，并且突破了硬件限制(移动端如手机的硬件条件与性能的GPU 和较大的存储内存不符)，适用于移动端，为用户带来了更好的体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，图1是本发明的口型纠正方法的应用场景示意图，图 1中用户可以通过终端设备A进行口语学习，所述终端A可以在屏幕上显示待用户学习的内容(例如音标或单词或句子等)，并且还可以通过摄像头(图像采集设备)和/或麦克风(音频采集设备)等数据采集设备采集用户根据所述内容发音时的视频和/或音频以通过所述口型纠正方法对用户错误的发音口型进行测评。

可以理解的是，所述内容可以是终端A从服务器下载的，并且对终端 A采集到的数据进行分析处理(即执行所述口型纠正方法)的也可以是服务器。实际的应用过程中，服务器可以存在多级，也即可以是接收服务器接收终端设备发送的视频和/或音频数据，并将接收到的视频和/或音频数据发送到处理服务器，处理服务器对接收到的视频数据根据本发明的口型纠正方法进行处理，得到用户的口型评测结果，并反馈至所述终端设备A 进行展示。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的用于口型纠正的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2是本发明实施方式第一方面所述一种口型纠正方法的实施例的流程示意图。虽然本发明提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本发明实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

为了清楚起见，下述实施例以具体的一个用户通过移动终端进行口型纠正的实施场景进行说明。所述的移动终端可以包括手机、平板电脑，或者其他有视频拍摄功能和数据通信功能的通用或专用设备。所述的移动终端和服务器可以部署有相应的应用模块,如移动终端安装的某个口语学习 APP(application，应用)，以实现相应的数据处理。但是，本领域技术人员能够理解到，可以将本方案的实质精神应用到口型纠正的其他实施场景中，如参照图3，移动终端采集数据后，采集到的数据发送至服务器进行处理，并通过所述移动终端反馈给用户。

具体的一种实施例如图2所示，本发明提供的一种口型纠正方法的一种实施例中，所述方法可以包括：

步骤S110，获取用户发音视频的关键帧；

考虑到，获取到的视频中可能不仅仅包括用户的发音过程，还包括一些无效视频段(比如用户发音之前的准备阶段)，在本实施方式的一个实施例中，获取用户发音视频的关键帧之前，首先对获取到的视频进行处理，获取视频中的用户发音视频段，在本实施方式的一个实施例中，可以通过去除无效视频(不包括用户发音过程的视频，即用户发音前没有张嘴的视频以及用户发音后闭嘴的视频)的方式获取有效视频段，具体的，包括：

获取所述视频的视频信号；

基于所述视频信号的波动，对所述发音视频进行裁剪，去除用户未发音的视频帧，以获取有效视频段。

在本实施例中，通过视频信号的波动情况确定当前视频是否为有效视频，信号的波动越小，则说明视频画面的变化越小，即视频中包括用户发音画面的概率越小，因此，可以通过设置合理的阈值来确定当前的视频帧是否包括用户发音画面。

在本实施方式的一个实施例中，通过z-score阈值匹配的方法确定视频信号的波动情况，具体的，将当前信号减去信号平均值后除以标准差，得到z-score值，若z-score值越小，则说明信号的波动越小。因此，在本实施例中，预先设置了阈值，若根据当前的视频信号得到的z-score值小于预设阈值，则确定当前视频帧不包括用户发音画面，由此可以判断当前的视频帧应被裁剪。

在获得有效视频段之后，获取其中(用户发音视频)的关键帧；

考虑到在发音内容不同时，决定发音正确与否的口型是不同的，因此，很难按照统一的方式(标准)去获取视频中的关键帧，在本实施方式的一个实施例中，根据用户发音的内容的类别确定关键帧的提取方式，具体的，在本实施例中，发音的内容的类别包括至少四类；

在本实施例中，以所述发音内容为音标为例进行说明，在所述音标为第一类(MAX_HEIGHT)时，比如/ɑ:/、

和

音标，发音过程中嘴到最大时的口型适合作为判断发音口音正确与否的条件，那么可以从用户的发音视频中选取张嘴程度最大的一帧作为关键帧；

有一些音标的发音过程是不张嘴的，比如音标[e]，此时，再选取张嘴程度最大的一帧作为关键帧就是不合适的，因此，在发音内容属于第二类 (STANDTILL)时，则可以选取用户发音视频中发音停顿的一帧作为关键帧；

有一些音标的发音过程是动态的(由小到大的)，比如***音([p]、 [b]、[t]、[d]、[k]、[g]等)，此时，所述发音内容属于第三类(MIN_MAX)，再获取一帧作为关键帧就无法准确评判用户的口型是否标准，即需要分别获取发音视频中用户张开嘴时，张嘴程度最小和最大的一帧作为关键帧，其中，张嘴程度最小的关键帧的时序在张嘴程度最大的关键帧之前；

对于一部分双元音音标，发音时的口型是由大到小的，比如

和

等，因此，根据以上所述的获取方式(标准)得到的关键帧都无法准确的判断用户对所述音标的发音口型是否标准，在所属发音内容为第四类 (MAX_MIN)时，首先获取第一个元音发音时张嘴程度最大的一帧，然后再获取第二个元音发音时张嘴程度最小的一帧，最后将获取到的两帧作为关键帧。

需要说明的是，在本实施方式的一个实施例中，可以根据嘴部区域的面积来确定张嘴程度，具体的，可以通过关键帧中嘴部区域轮廓的关键点构建多边形，然后计算所述多边形的面积，将所述多边形的面积作为嘴部区域的面积，或者也可以根据张嘴高度来确定张嘴程度，例如计算关键帧中嘴部区域轮廓的最高和最低关键点间的距离来确定张嘴高度，其中嘴部区域轮廓的最高和最低关键点统一为内轮廓或外轮廓上的关键点。

在获取到用户发音视频中的关键帧之后，执行步骤S120，提取所述关键帧的口型特征；

在本实施方式中，口型特征可以从多个不同的维度进行获取，比如口型的形状特征，在本实施方式的一个实施例中，提取所述关键帧中的口型形状特征作为所述关键帧的口型特征，具体的，首先获取所述关键帧中嘴部区域轮廓的关键点；然后获取基于所述关键点构建的多边形的各个内角的角度；最后将所述各个内角的角度按照预设规则进行编码得到所述关键帧中口型的形状特征。

在本实施方式的一个实施例中，获取所述关键帧中嘴部区域轮廓的关键点时，可以先对所述关键帧进行人脸检测，得到脸部的边界框；

本实施例中，可以利用HOG(HistogramofOrientedGradient)方向梯度直方图特征对图像进行人脸检测获得脸部的边界框，首先结合关键帧图像的局部梯度和梯度强度构造图像描述子；然后基于所述图像描述子采用滑动窗口判别窗口内的图像是否为人脸区域。

具体的，可以基于所述边界框采用梯度提升的集成回归树算法(此算法在移动端设备的处理速度表现优异)对脸部区域进行关键点检测以获取嘴部区域轮廓的关键点：首先找到人脸上普遍存在的68个关键点 (Landmarks)，其中包含了下巴的顶部，每只眼睛的外部轮廓，每条眉毛的内部轮廓等处的关键点。

由以上步骤可以明确，本实施方式中得到的嘴部区域的轮廓的关键点包括内外轮廓的关键点(如图4所示)，在本实施例中，嘴部区域的关键点为20个，其中，8个嘴部区域内轮廓的关键点，12个嘴部区域外轮廓的关键点，在选取关键点构建多边形时，分别选取内外轮廓都是可以的，比如单独选取内轮廓的关键点构建多边形(如图5所示)，当然也可以单独选取外罗阔的多边形构建关键点，本实施例中以单独选取嘴部区域内轮廓的关键点构建多边形为例进行说明，在得到所述多边形后，分别获取所述多边形内角的角度，然后以获取到的8个内角的角度为基础编码，得到所述关键帧的口型(形状)特征，例如，在图5中，所述多边形的8个内角的角度按照次序依次为60°、170°、175°、160°、45°、160°、165°和

145°，那么所述关键帧的口型特征可以被编码为 λ＝(60，170，175，160，45，160，165，145)；

可以理解的是，在本实施方式的一个实施例中也可以基于内外轮廓的关键点分别构建多边形，然后将两个多边形内角编码得到的特征结合作为所述关键帧的口型特征。

可选地，在本实施方式的一个实施例中，获取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所述关键帧的特征，具体的，可以统计嘴部矩形区域内的颜色分布作为所述关键帧的特征，然后利用颜色分布直方图进行嘴型分类，这样还可以有效地判别露齿的情况。。

在获取到关键帧的口型特征后，即可执行步骤S130，基于所述口型特征对所述关键帧进行分类；

在本实施方式的一个实施例中，首先可以将口型类别定义为以下几种： ENLARGE(用户嘴需张大)、MIDDLE(用户张嘴需适中)、SAMLL(用户嘴需张小)、ROUND(用户嘴需收圆)以及FLAT(用户嘴需再裂开一点，拉伸成“一”字型)；所有发音内容的标准发音视频的关键帧都分别属于以上类别中的一个，在本步骤中，首先根据所述关键帧的口性特征确定用户发音视频的关键帧属于上述类别中的哪一个，在本实施方式的一个实施例中，可以采用预先训练的口型分类器对所述关键帧进行分类，其中，所述口型分类器基于以下构建：

对训练数据集进行特征降维；

在本实施例中，可以采用主成分分析、线性判别分析和局部线性嵌入中的一个进行特征降维；

考虑到主成分分析法在本领域的效果较好且较为成熟，在本实施方式的一个实施例中，优先采用主成分分析法对训练数据集进行特征降维；

基于降维后的低维空间特征训练得到所述口型分类器；

在本实施例中，可以采用支持向量机、随机森林和极端梯度提升中的一个训练所述口型分类器。

考虑到支持向量机更加成熟易用，在本实施方式的一个实施例中，优先采用支持向量机训练所述口型分类器

在训练完成后，采用相应的测试数据集对所述口型分类器进行测试，确定所属口型分类器的准确率，其中，所述测试数据集和训练数据集不同，并且针对于每个口型类型都包括不同人脸不同姿态下的口型特征。

在确定用户发音视频的关键帧所属的(口型)类别后，执行步骤S140，确认分类结果与标准发音视频的关键帧的类别是否一致；

在本实施例中，若用户发音视频的关键帧所属的(口型)类别与标准发音视频的关键帧的类别一致，则可以不进行口型纠正提示，而是进行鼓励类的提示，例如“你的口型非常标准”，可以理解的是，在进行用户发音视频的关键帧的分类时，并不是针对于一个口型类型给出非常确定的判断，而是确认用户发音视频的关键帧的口型特征针对于每一个口型类型的概率，例如，所述口型分类器确定用户发音视频的关键帧的口型特征属于ENLARGE(用户嘴需张大)的概率为80％，属于MIDDLE(用户张嘴需适中)的概率为40％，属于FLAT(用户嘴需再裂开一点，拉伸成“一” 字型)的概率为50％，属于其他口型类型的概率分别为10％、15％和20％，那么则可以确定所述用户发音视频的关键帧的口型特征属于ENLARGE (用户嘴需张大)，此时还可以将所述概率作为用户口型的得分向用户报告。

另外，在本实施方式的一个实施例中，还可以不仅仅是选取概率最高的口型类型作为用户发音视频的关键帧的口型特征所述的类别(确定用户发音视频的关键帧的口型特征所述的类别还需要最可能的口型类型的概率超过一个阈值，例如80％)，因为，某些情况，虽然某一个口型类型的概率虽然是最高的，但依然达不到能够判定的标准，比如用户发音视频的关键帧的口型特征属于ENLARGE(用户嘴需张大)的概率为40％，此时，虽然概率最高，但也依然不足以判定用户发音视频的关键帧的口型特征属于ENLARGE(用户嘴需张大)，因此，可以提示用户重新进行学习及测试。

根据本发明实施方式的口型纠正方法，可以根据用户发音视频中的关键帧确定用户的发音口型是否标准，进而对错误的发音口型予以纠正，而无需如唇语识别的技术方案(需要使用高性能的GPU和较大的存储内存) 一样，结合深度学习算法对发音内容打分，从而显著地降低了资源消耗，并且突破了硬件限制(移动端如手机的硬件条件与性能的GPU和较大的存储内存不符)，适用于移动端(本方案只需要使用CPU进行计算，较小的内存即可实施以实时得到结果)，为用户带来了更好的体验。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6对本发明示例性实施方式的口型纠正装置进行说明，所述装置包括：

关键帧获取模块610，被配置为获取用户发音视频的关键帧；

特征提取模块620，被配置为提取所述关键帧的口型特征；

分类模块630，被配置为基于所述口型特征对所述关键帧进行分类；

判断模块640，被配置为确认分类结果与标准发音视频的关键帧的类别是否一致；

提示模块650，被配置为若不一致，根据标准发音视频的关键帧的类别进行相应的提示。

在本实施方式的一个实施例中，所述关键帧获取模块610还被配置为根据用户发音的内容的类别确定关键帧的提取方式。

在本实施方式的一个实施例中，用户发音的内容为显示在终端设备屏幕的发音内容。

在本实施方式的一个实施例中，用户发音的内容为音标。

在本实施方式的一个实施例中，发音的内容的类别包括至少四类；

在本实施方式的一个实施例中，所述特征提取模块620包括：

形状特征提取单元，被配置为提取所述关键帧中口型的形状特征。

在本实施方式的一个实施例中，所述形状特征提取单元包括：

关键点获取子单元，被配置为获取所述关键帧中嘴部区域轮廓的关键点；

角度获取子单元，被配置为获取基于所述关键点构建的多边形的各个内角的角度；

形状特征获取子单元，被配置为将所述各个内角的角度按照预设规则进行编码得到所述关键帧中口型的形状特征。

在本实施方式的一个实施例中，所述嘴部区域轮廓的关键点为嘴部区域内轮廓的关键点。

在本实施方式的一个实施例中，所述关键点获取子单元还被配置为对所述关键帧进行人脸检测，得到脸部的边界框；以及

在本实施方式的一个实施例中，对所述关键帧进行人脸检测，得到脸部的边界框，包括：

结合关键帧图像的局部梯度和梯度强度构造图像描述子；

在本实施方式的一个实施例中，所述特征提取模块620还被配置为获取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所述关键帧的特征。

在本实施方式的一个实施例中，所述分类模块630还被配置为采用预先训练的口型分类器对所述关键帧进行分类。

在本实施方式的一个实施例中，所述口型分类器基于以下构建：

对训练数据集进行特征降维；

基于降维后的低维空间特征训练得到所述口型分类器。

在本实施方式的一个实施例中，采用主成分分析、线性判别分析和局部线性嵌入中的一个进行特征降维。

在本实施方式的一个实施例中，采用支持向量机、随机森林和极端梯度提升中的一个训练所述口型分类器。

在本实施方式的一个实施例中，所述训练数据集包括不同人脸不同姿态下的口型特征。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图 7对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图7，其示出的计算机可读存储介质为光盘70，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取用户发音视频的关键帧；提取所述关键帧的口型特征；基于所述口型特征对所述关键帧进行分类；确认分类结果与标准发音视频的关键帧的类别是否一致；若不一致，根据标准发音视频的关键帧的类别进行相应的提示。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，对本发明示例性实施方式的计算设备进行说明，示出了适于用来实现本发明实施方式的示例性计算设备的框图，该计算设备可以是计算机***或服务器。显示的计算设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

计算设备的组件可以包括但不限于：一个或者多个处理器或者处理单元，***存储器，连接不同***组件(包括***存储器和处理单元)的总线。

计算设备典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器。计算设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，ROM可以用于读写不可移动的、非易失性磁介质(未显示，通常称为“硬盘驱动器”)。尽管未示出，可以提供用于对可移动非易失性磁盘 (例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如 CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线相连。***存储器802中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在例如系统存储器中，且这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

计算设备也可以与一个或多个外部设备(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器806通过总线与计算设备的其它模块(如处理单元等)通信。应当明白，尽管图中未示出，可以结合计算设备使用其它硬件和/或软件模块。

处理单元通过运行存储在***存储器中的程序，从而执行各种功能应用以及数据处理，例如，获取用户发音视频的关键帧；提取所述关键帧的口型特征；基于所述口型特征对所述关键帧进行分类；确认分类结果与标准发音视频的关键帧的类别是否一致；若不一致，根据标准发音视频的关键帧的类别进行相应的提示。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了口型纠正装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

通过上述的描述，本发明的实施例提供了以下的技术方案，但不限于此：

1.一种口型纠正方法，包括：

获取用户发音视频的关键帧；

提取所述关键帧的口型特征；

基于所述口型特征对所述关键帧进行分类；

确认分类结果与标准发音视频的关键帧的类别是否一致；

2.如方案1所述的方法，其中，根据用户发音的内容的类别确定关键帧的提取方式。

3.如方案2所述的方法，其中，用户发音的内容为显示在终端设备屏幕的发音内容。

4.如方案2所述的方法，其中，用户发音的内容为音标。

5.如方案1-4任一所述的方法，其中，发音的内容的类别包括至少四类；

6.如方案1所述的方法，其中，提取所述关键帧的口型特征，包括：

提取所述关键帧中口型的形状特征。

7.如方案6所述的方法，其中，提取所述关键帧中口型的形状特征，包括：

获取所述关键帧中嘴部区域轮廓的关键点；

获取基于所述关键点构建的多边形的各个内角的角度；

8.如方案7所述的方法，其中，所述嘴部区域轮廓的关键点为嘴部区域内轮廓的关键点。

9.如方案7或8所述的方法，其中，获取所述关键帧中嘴部区域轮廓的关键点，包括：

对所述关键帧进行人脸检测，得到脸部的边界框；

10.如方案9所述的方法，其中，对所述关键帧进行人脸检测，得到脸部的边界框，包括：

结合关键帧图像的局部梯度和梯度强度构造图像描述子；

11.如方案1所述的方法，其中，提取所述关键帧的口型特征，包括：

12.如方案1所述的方法，其中，采用预先训练的口型分类器对所述关键帧进行分类。

13.如方案12所述的方法，其中，所述口型分类器基于以下构建：

对训练数据集进行特征降维；

基于降维后的低维空间特征训练得到所述口型分类器。

14.如方案13所述的方法，其中，采用主成分分析、线性判别分析和局部线性嵌入中的一个进行特征降维。

15.如方案13所述的方法，其中，采用支持向量机、随机森林和极端梯度提升中的一个训练所述口型分类器。

16.如方案13所述的方法，其中，所述训练数据集包括不同人脸不同姿态下的口型特征。

17.一种口型纠正装置，包括：

关键帧获取模块，被配置为获取用户发音视频的关键帧；

特征提取模块，被配置为提取所述关键帧的口型特征；

18.如方案17所述的装置，其中，所述关键帧获取模块还被配置为根据用户发音的内容的类别确定关键帧的提取方式。

19.如方案18所述的装置，其中，用户发音的内容为显示在终端设备屏幕的发音内容。

20.如方案18所述的装置，其中，用户发音的内容为音标。

21.如方案17-20任一所述的装置，其中，发音的内容的类别包括至少四类；

22.如方案17所述的装置，其中，所述特征提取模块包括：

23.如方案22所述的装置，其中，所述形状特征提取单元包括：

24.如方案23所述的装置，其中，所述嘴部区域轮廓的关键点为嘴部区域内轮廓的关键点。

25.如方案23或24所述的装置，其中，所述关键点获取子单元还被配置为对所述关键帧进行人脸检测，得到脸部的边界框；以及

26.如方案25所述的装置，其中，对所述关键帧进行人脸检测，得到脸部的边界框，包括：

结合关键帧图像的局部梯度和梯度强度构造图像描述子；

27.如方案17所述的装置，其中，所述特征提取模块还被配置为获取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所述关键帧的特征。

28.如方案17所述的装置，其中，所述分类模块还被配置为采用预先训练的口型分类器对所述关键帧进行分类。

29.如方案28所述的装置，其中，所述口型分类器基于以下构建：

对训练数据集进行特征降维；

基于降维后的低维空间特征训练得到所述口型分类器。

30.如方案29所述的装置，其中，采用主成分分析、线性判别分析和局部线性嵌入中的一个进行特征降维。

31.如方案29所述的装置，其中，采用支持向量机、随机森林和极端梯度提升中的一个训练所述口型分类器。

32.如方案29所述的装置，其中，所述训练数据集包括不同人脸不同姿态下的口型特征。

33.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如方案1-16之一所述的方法。

34.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如方案1-16之一所述的方法。

Claims

1.一种口型纠正方法，包括：

获取用户发音视频的关键帧；

提取所述关键帧的口型特征；

基于所述口型特征对所述关键帧进行分类；

确认分类结果与标准发音视频的关键帧的类别是否一致；

2.如权利要求1所述的方法，其中，根据用户发音的内容的类别确定关键帧的提取方式。

3.如权利要求2所述的方法，其中，用户发音的内容为显示在终端设备屏幕的发音内容。

4.如权利要求2所述的方法，其中，用户发音的内容为音标。

5.一种口型纠正装置，包括：

关键帧获取模块，被配置为获取用户发音视频的关键帧；

特征提取模块，被配置为提取所述关键帧的口型特征；

6.如权利要求5所述的装置，其中，所述关键帧获取模块还被配置为根据用户发音的内容的类别确定关键帧的提取方式。

7.如权利要求6所述的装置，其中，用户发音的内容为显示在终端设备屏幕的发音内容。

8.如权利要求6所述的装置，其中，用户发音的内容为音标。

9.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如权利要求1-4之一所述的方法。

10.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如权利要求1-4之一所述的方法。