CN104505089B

CN104505089B - 口语纠错方法及设备

Info

Publication number: CN104505089B
Application number: CN201410790090.9A
Authority: CN
Inventors: 关胤; 刘德建; 陈宏展; 刘进学; 林伟; 吴拥民
Original assignee: Fujian Netdragon Websoft Co Ltd
Current assignee: Fujian Netdragon Websoft Co Ltd
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2018-05-18
Anticipated expiration: 2034-12-17
Also published as: CN104505089A

Abstract

本发明提供一种口语纠错方法，包括客户端流程和服务端流程；所述客户端流程包括采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；所述服务端流程包括获取客户端发送语音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及语音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分。本发明的计算过程是通过客户端上传到服务器进行云计算，其客户端识别处理过程计算量小，且效率高，便于在平板设备中推广。

Description

口语纠错方法及设备

技术领域

本发明涉及口语评测技术领域，特别涉及一种口语纠错方法及设备。

背景技术

口语评测技术是结合语音识别相关技术，对口语学***的自动评分，并提示发音有误的单词，短语或句子。

传统的口语评测技术，通常针对口语学习者的朗读语音进行分析评测，例如中国发明第200710135346.2，201310034371.7，以及201010266766.6号等，均属于这种情况。中国发明专利第201110085339.2号则公开了一种融合口型图像识别与说话人情绪检测等多维度特征的评测方法，提出了有别于与传统口语评测技术的优化方案，达到较好的技术效果。

众所周知，平板设备越来越成为我们生活中不可缺少的部分，而且在加速向低年龄的儿童渗透。触屏界面使得计算机更加易用，成为了儿童可以很快上手的上网、娱乐和学***板的娱乐性会让人担忧，但是只要家长善于引导，它也可以帮助儿童学***板的语言教学应用效果。但是，上述发明口型图像识别处理过程计算量大，对于CPU和电池受限的平板设备而言，需要进一步优化才可有效使用。

发明内容

本发明要解决的技术问题之一，在于提供一种口语纠错方法，其客户端识别处理过程计算量小，且效率高，便于在平板设备中推广。

本发明要解决的技术问题之一是这样实现的：一种口语纠错方法，包括客户端流程和服务端流程；所述客户端流程包括采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；所述服务端流程包括获取客户端发送语音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及语音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分。

进一步的，所述客户端流程包括：

所述客户端流程具体包括：

步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据；

步骤12、对语音数据进行端点检测，获取时间窗，对时间窗内视频数据提取若干帧图像，并对其进行人脸检测，如果人脸检测通过率达一给定阈值，则标注为有效数据，并将给时间窗内对应的语音数据及视频数据发送至服务端；

所述服务端流程具体包括：

步骤21、获取客户端发送语音及图像数据，获取参考文本数据；

步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A；

步骤23、从所述视频图像序列中检测出人脸的位置；利用主动外观模型AAM在人脸区域中定位内外唇的精确位置，并输出唇部的特征点位置，并生成唇动视频序列；将唇动视频序列以词元为单位分割成若干个音元唇动图像序列；针对音元唇动图像序列中的每帧图像，提取唇部区域的图像特征；将所述图像特征与数据库中对应音元特征模型比对，得到该音元得分B；

步骤24、根据A和B计算每个词元的综合得分。

进一步的，所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测，获得一宽为w、高为h的矩形区域；截取该区域下段宽为w、高为h/2范围内的局部图像数据；以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。

进一步的，所述步骤12中对时间窗内视频数据抽取图像帧的方法为：获取每帧图像对应时间内的音频能量值E，对所有能量值求最大值EM，对每帧图像，以概率a*(E/(EM+b))抽取，其中a、b为给定参数，用于调和抽取图像帧的总数。且所述步骤24中所述图像特征是通过对唇部图像进行SVD分解得到。

本发明要解决的技术问题之二，在于提供一种口语纠错设备，其口型图像识别处理过程计算量小，可减少传输量，且效率高，便于在平板设备中推广。

本发明要解决的技术问题之二是这样实现的：一种口语纠错设备，其特征在于：包括客户端，采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；服务端，获取客户端发送语音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及语音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分。

进一步的，所述客户端具体包括：采集模块，每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据；检测模块，对语音数据进行端点检测，获取时间窗，对时间窗内视频数据提取若干帧图像，并对其进行人脸检测，如果人脸检测通过率达一给定阈值，则标注为有效数据，并将给时间窗内对应的语音数据及视频数据发送至服务端；

所述服务端具体包括：获取文本及语音数据模块，获取客户端发送语音及图像数据，获取参考文本数据；词元分析模块，采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A；检测分析模块，从所述视频图像序列中检测出人脸的位置；利用主动外观模型AAM在人脸区域中定位内外唇的精确位置，并输出唇部的特征点位置，并生成唇动视频序列；将唇动视频序列以词元为单位分割成若干个音元唇动图像序列；针对音元唇动图像序列中的每帧图像，提取唇部区域的图像特征；将所述图像特征与数据库中对应音元特征模型比对，得到该音元得分B；综合得分计算模块，用于根据A和B计算每个词元的综合得分。

进一步的，所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测，获得一宽为w、高为h的矩形区域；截取该区域下段宽为w、高为h/2范围内的局部图像数据；以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。

进一步的，所述检测分析模块对时间窗内视频数据抽取图像帧的方法为：获取每帧图像对应时间内的音频能量值E，对所有能量值求最大值EM，对每帧图像，以概率a*(E/(EM+b))抽取,其中a、b为给定参数，用于调和抽取图像帧的总数。

进一步的，所述参考文本数据由客户端上传，或由客户端上传一指定ID，服务端根据ID获取实现保存的文本数据，或由服务端根据客户端发送的语音数据进行语音识别处理获取；所述图像特征是通过对唇部图像进行SVD分解得到的。

本发明具有如下优点：本发明采用客户端和服务端的模式，使计算过程是通过客户端上传到服务器进行云计算，其客户端识别处理过程计算量小，且效率高，便于在平板设备中推广。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法客户端的执行流程图。

图2为本发明方法服务端的执行流程图。

具体实施方式

本发明的口语纠错方法，包括客户端流程和服务端流程。所述客户端流程包括采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；所述服务端流程包括获取客户端发送语音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及语音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分。这种采用客户端和服务端的模式，使计算过程是通过客户端上传到服务器进行云计算，其客户端识别处理过程计算量小，且效率高，便于在平板设备中推广。

如图1所示，所述客户端流程具体包括：

其中，对时间窗内视频数据抽取若干帧图像执行人脸检测，获得一宽为w、高为h的矩形区域；截取该区域下段宽为w、高为h/2范围内的局部图像数据；以此局部图像数据上传至服务端。更具体的，首先对图像进行等宽高比例压缩，使其最长边为256px，再对此压缩图像进行人脸检测，获取局部区域后，再将该局部区域坐标映射到原图像，并从原图像上截取局部图像，并将该局部图像等宽高比例压缩，使其最长边为256px。

对时间窗内视频数据抽取图像帧的方法为：获取每帧图像对应时间内的音频能量值E，对所有能量值求最大值EM，对每帧图像，以概率a*(E/(EM+b))抽取，其中a、b为给定参数，用于调和抽取图像帧的总数。更具体的，对E，EM进行归一化处理，使EM为1.0，E为一取值0～1.0的实数，取b为1.0，a为1.0。

如图2所示，所述服务端流程具体包括：

步骤23、从所述视频图像序列中检测出人脸的位置；利用主动外观模型AAM在人脸区域中定位内外唇的精确位置，并输出唇部的特征点位置，并生成唇动视频序列；将唇动视频序列以词元为单位分割成若干个音元唇动图像序列；针对音元唇动图像序列中的每帧图像，提取唇部区域的图像特征；将所述图像特征与数据库中对应音元特征模型比对，得到该音元得分B；所述图像特征是通过对唇部图像进行SVD分解得到的。

步骤24、根据A和B计算每个词元的综合得分。

本发明的口语纠错设备，包括客户端和服务端，所述客户端，采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；所述服务端，获取客户端发送语音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及语音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分。这种采用客户端和服务端的模式，使计算过程是通过客户端上传到服务器进行云计算，其客户端识别处理过程计算量小，且效率高，便于在平板设备中推广。

所述客户端具体包括：

采集模块，每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据；

检测模块，对语音数据进行端点检测，获取时间窗，对时间窗内视频数据提取若干帧图像，并对其进行人脸检测，如果人脸检测通过率达一给定阈值，则标注为有效数据，并将给时间窗内对应的语音数据及视频数据发送至服务端；

其中，所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测，获得一宽为w、高为h的矩形区域；截取该区域下段宽为w、高为h/2范围内的局部图像数据；以此局部图像数据上传至服务端。更具体的，首先对图像进行等宽高比例压缩，使其最长边为256px，再对此压缩图像进行人脸检测，获取局部区域后，再将该局部区域坐标映射到原图像，并从原图像上截取局部图像，并将该局部图像等宽高比例压缩，使其最长边为256px。

所述检测分析模块对时间窗内视频数据抽取图像帧的方法为：获取每帧图像对应时间内的音频能量值E，对所有能量值求最大值EM，对每帧图像，以概率a*(E/(EM+b))抽取,其中a、b为给定参数，用于调和抽取图像帧的总数。更具体的，对E，EM进行归一化处理，使EM为1.0，E为一取值0～1.0的实数，取b为1.0，a为1.0。

所述服务端具体包括：

获取文本及语音数据模块，获取客户端发送语音及图像数据，获取参考文本数据；所述参考文本数据由客户端上传，或由客户端上传一指定ID，服务端根据ID获取实现保存的文本数据，或由服务端根据客户端发送的语音数据进行语音识别处理获取；

词元分析模块，采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A；

检测分析模块，从所述视频图像序列中检测出人脸的位置；利用主动外观模型AAM在人脸区域中定位内外唇的精确位置，并输出唇部的特征点位置，并生成唇动视频序列；将唇动视频序列以词元为单位分割成若干个音元唇动图像序列；针对音元唇动图像序列中的每帧图像，提取唇部区域的图像特征；将所述图像特征与数据库中对应音元特征模型比对，得到该音元得分B；所述图像特征是通过对唇部图像进行SVD分解得到的。

综合得分计算模块，用于根据A和B计算每个词元的综合得分。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种口语纠错方法，其特征在于，包括客户端流程和服务端流程；

所述客户端流程包括采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；

所述服务端流程包括获取客户端发送声音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及声音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分；

所述客户端流程具体包括：

步骤12、对声音数据进行端点检测，获取时间窗，对时间窗内视频数据提取若干帧图像，并对其进行人脸检测，如果人脸检测通过率达一给定阈值，则标注为有效数据，并将给时间窗内对应的声音数据及视频数据发送至服务端；

所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测，获得一宽为w、高为h的矩形区域；截取该区域下段宽为w、高为h/2范围内的局部图像数据；以此局部图像数据上传至服务端；

所述步骤12中对时间窗内视频数据抽取图像帧的方法为：获取每帧图像对应时间内的音频能量值E，对所有能量值求最大值EM，对每帧图像，以概率a*(E/(EM+b))抽取，其中a、b为给定参数，用于调和抽取图像帧的总数。

2.根据权利要求1所述的口语纠错方法，其特征在于：

所述服务端流程具体包括：

步骤21、获取客户端发送声音及图像数据，获取参考文本数据；

步骤22、采用隐马尔科夫强制对齐方法处理该声音数据以获得每个词元的发音时间及得分A；

步骤24、根据A和B计算每个词元的综合得分。

3.根据权利要求2所述的口语纠错方法，其特征在于：所述步骤21中的参考文本数据由客户端上传，或由客户端上传一指定ID，服务端根据ID获取实现保存的文本数据，或由服务端根据客户端发送的声音数据进行声音识别处理获取；所述步骤23中所述图像特征是通过对唇部图像进行SVD分解得到。

4.一种口语纠错设备，其特征在于，包括：

客户端，采集声音数据及视频数据，根据声音数据进行端点检测，根据端点检测得到的时间窗截取对应时间的声音数据及视频数据，将获取的声音、视频数据发送至服务端；

服务端，获取客户端发送声音、视频数据；获取一参考文本，根据所述参考文本获取词元序列，利用词元序列及声音数据，得到发音得分A及每个词元发音时间，利用视频数据提取唇部区域的图像特征，计算图像得分B，根据A和B计算获得综合得分；

所述客户端具体包括：

检测模块，对声音数据进行端点检测，获取时间窗，对时间窗内视频数据提取若干帧图像，并对其进行人脸检测，如果人脸检测通过率达一给定阈值，则标注为有效数据，并将给时间窗内对应的声音数据及视频数据发送至服务端；

所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测，获得一宽为w、高为h的矩形区域；截取该区域下段宽为w、高为h/2范围内的局部图像数据；以此局部图像数据上传至服务端；

所述检测模块对时间窗内视频数据抽取图像帧的方法为：获取每帧图像对应时间内的音频能量值E，对所有能量值求最大值EM，对每帧图像，以概率a*(E/(EM+b))抽取,其中a、b为给定参数，用于调和抽取图像帧的总数。

5.根据权利要求4所述的口语纠错设备，其特征在于：

所述服务端具体包括：

获取文本及声音数据模块，获取客户端发送声音及图像数据，获取参考文本数据；

词元分析模块，采用隐马尔科夫强制对齐方法处理该声音数据以获得每个词元的发音时间及得分A；

检测分析模块，从所述视频图像序列中检测出人脸的位置；利用主动外观模型AAM在人脸区域中定位内外唇的精确位置，并输出唇部的特征点位置，并生成唇动视频序列；将唇动视频序列以词元为单位分割成若干个音元唇动图像序列；针对音元唇动图像序列中的每帧图像，提取唇部区域的图像特征；将所述图像特征与数据库中对应音元特征模型比对，得到该音元得分B；

6.根据权利要求5所述的口语纠错设备，其特征在于：

所述参考文本数据由客户端上传，或由客户端上传一指定ID，服务端根据ID获取实现保存的文本数据，或由服务端根据客户端发送的声音数据进行声音识别处理获取；

所述图像特征是通过对唇部图像进行SVD分解得到的。