CN104505089B - 口语纠错方法及设备 - Google Patents

口语纠错方法及设备 Download PDF

Info

Publication number
CN104505089B
CN104505089B CN201410790090.9A CN201410790090A CN104505089B CN 104505089 B CN104505089 B CN 104505089B CN 201410790090 A CN201410790090 A CN 201410790090A CN 104505089 B CN104505089 B CN 104505089B
Authority
CN
China
Prior art keywords
data
client
server
video data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410790090.9A
Other languages
English (en)
Other versions
CN104505089A (zh
Inventor
关胤
刘德建
陈宏展
刘进学
林伟
吴拥民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Netdragon Websoft Co Ltd
Original Assignee
Fujian Netdragon Websoft Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Netdragon Websoft Co Ltd filed Critical Fujian Netdragon Websoft Co Ltd
Priority to CN201410790090.9A priority Critical patent/CN104505089B/zh
Publication of CN104505089A publication Critical patent/CN104505089A/zh
Application granted granted Critical
Publication of CN104505089B publication Critical patent/CN104505089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种口语纠错方法,包括客户端流程和服务端流程;所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。本发明的计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。

Description

口语纠错方法及设备
技术领域
本发明涉及口语评测技术领域,特别涉及一种口语纠错方法及设备。
背景技术
口语评测技术是结合语音识别相关技术,对口语学***的自动评分,并提示发音有误的单词,短语或句子。
传统的口语评测技术,通常针对口语学习者的朗读语音进行分析评测,例如中国发明第200710135346.2,201310034371.7,以及201010266766.6号等,均属于这种情况。中国发明专利第201110085339.2号则公开了一种融合口型图像识别与说话人情绪检测等多维度特征的评测方法,提出了有别于与传统口语评测技术的优化方案,达到较好的技术效果。
众所周知,平板设备越来越成为我们生活中不可缺少的部分,而且在加速向低年龄的儿童渗透。触屏界面使得计算机更加易用,成为了儿童可以很快上手的上网、娱乐和学***板的娱乐性会让人担忧,但是只要家长善于引导,它也可以帮助儿童学***板的语言教学应用效果。但是,上述发明口型图像识别处理过程计算量大,对于CPU和电池受限的平板设备而言,需要进一步优化才可有效使用。
发明内容
本发明要解决的技术问题之一,在于提供一种口语纠错方法,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
本发明要解决的技术问题之一是这样实现的:一种口语纠错方法,包括客户端流程和服务端流程;所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
进一步的,所述客户端流程包括:
所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
步骤24、根据A和B计算每个词元的综合得分。
进一步的,所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。
进一步的,所述步骤12中对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。且所述步骤24中所述图像特征是通过对唇部图像进行SVD分解得到。
本发明要解决的技术问题之二,在于提供一种口语纠错设备,其口型图像识别处理过程计算量小,可减少传输量,且效率高,便于在平板设备中推广。
本发明要解决的技术问题之二是这样实现的:一种口语纠错设备,其特征在于:包括客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。
进一步的,所述客户端具体包括:采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
所述服务端具体包括:获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;综合得分计算模块,用于根据A和B计算每个词元的综合得分。
进一步的,所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。其上传局部图像数据可以解决了传输量大的问题。
进一步的,所述检测分析模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
进一步的,所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;所述图像特征是通过对唇部图像进行SVD分解得到的。
本发明具有如下优点:本发明采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法客户端的执行流程图。
图2为本发明方法服务端的执行流程图。
具体实施方式
本发明的口语纠错方法,包括客户端流程和服务端流程。所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端流程包括获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。这种采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
如图1所示,所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
其中,对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。更具体的,首先对图像进行等宽高比例压缩,使其最长边为256px,再对此压缩图像进行人脸检测,获取局部区域后,再将该局部区域坐标映射到原图像,并从原图像上截取局部图像,并将该局部图像等宽高比例压缩,使其最长边为256px。
对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。更具体的,对E,EM进行归一化处理,使EM为1.0,E为一取值0~1.0的实数,取b为1.0,a为1.0。
如图2所示,所述服务端流程具体包括:
步骤21、获取客户端发送语音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;所述图像特征是通过对唇部图像进行SVD分解得到的。
步骤24、根据A和B计算每个词元的综合得分。
本发明的口语纠错设备,包括客户端和服务端,所述客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;所述服务端,获取客户端发送语音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及语音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分。这种采用客户端和服务端的模式,使计算过程是通过客户端上传到服务器进行云计算,其客户端识别处理过程计算量小,且效率高,便于在平板设备中推广。
所述客户端具体包括:
采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
检测模块,对语音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的语音数据及视频数据发送至服务端;
其中,所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端。更具体的,首先对图像进行等宽高比例压缩,使其最长边为256px,再对此压缩图像进行人脸检测,获取局部区域后,再将该局部区域坐标映射到原图像,并从原图像上截取局部图像,并将该局部图像等宽高比例压缩,使其最长边为256px。
所述检测分析模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。更具体的,对E,EM进行归一化处理,使EM为1.0,E为一取值0~1.0的实数,取b为1.0,a为1.0。
所述服务端具体包括:
获取文本及语音数据模块,获取客户端发送语音及图像数据,获取参考文本数据;所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的语音数据进行语音识别处理获取;
词元分析模块,采用隐马尔科夫强制对齐方法处理该语音数据以获得每个词元的发音时间及得分A;
检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;所述图像特征是通过对唇部图像进行SVD分解得到的。
综合得分计算模块,用于根据A和B计算每个词元的综合得分。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种口语纠错方法,其特征在于,包括客户端流程和服务端流程;
所述客户端流程包括采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;
所述服务端流程包括获取客户端发送声音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及声音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分;
所述客户端流程具体包括:
步骤11、每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
步骤12、对声音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的声音数据及视频数据发送至服务端;
所述步骤12中对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端;
所述步骤12中对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
2.根据权利要求1所述的口语纠错方法,其特征在于:
所述服务端流程具体包括:
步骤21、获取客户端发送声音及图像数据,获取参考文本数据;
步骤22、采用隐马尔科夫强制对齐方法处理该声音数据以获得每个词元的发音时间及得分A;
步骤23、从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
步骤24、根据A和B计算每个词元的综合得分。
3.根据权利要求2所述的口语纠错方法,其特征在于:所述步骤21中的参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的声音数据进行声音识别处理获取;所述步骤23中所述图像特征是通过对唇部图像进行SVD分解得到。
4.一种口语纠错设备,其特征在于,包括:
客户端,采集声音数据及视频数据,根据声音数据进行端点检测,根据端点检测得到的时间窗截取对应时间的声音数据及视频数据,将获取的声音、视频数据发送至服务端;
服务端,获取客户端发送声音、视频数据;获取一参考文本,根据所述参考文本获取词元序列,利用词元序列及声音数据,得到发音得分A及每个词元发音时间,利用视频数据提取唇部区域的图像特征,计算图像得分B,根据A和B计算获得综合得分;
所述客户端具体包括:
采集模块,每隔一定时间间隔获取麦克风采集的声音数据和摄像头采集的视频数据;
检测模块,对声音数据进行端点检测,获取时间窗,对时间窗内视频数据提取若干帧图像,并对其进行人脸检测,如果人脸检测通过率达一给定阈值,则标注为有效数据,并将给时间窗内对应的声音数据及视频数据发送至服务端;
所述检测模块对时间窗内视频数据抽取若干帧图像执行人脸检测,获得一宽为w、高为h的矩形区域;截取该区域下段宽为w、高为h/2范围内的局部图像数据;以此局部图像数据上传至服务端;
所述检测模块对时间窗内视频数据抽取图像帧的方法为:获取每帧图像对应时间内的音频能量值E,对所有能量值求最大值EM,对每帧图像,以概率a*(E/(EM+b))抽取,其中a、b为给定参数,用于调和抽取图像帧的总数。
5.根据权利要求4所述的口语纠错设备,其特征在于:
所述服务端具体包括:
获取文本及声音数据模块,获取客户端发送声音及图像数据,获取参考文本数据;
词元分析模块,采用隐马尔科夫强制对齐方法处理该声音数据以获得每个词元的发音时间及得分A;
检测分析模块,从所述视频图像序列中检测出人脸的位置;利用主动外观模型AAM在人脸区域中定位内外唇的精确位置,并输出唇部的特征点位置,并生成唇动视频序列;将唇动视频序列以词元为单位分割成若干个音元唇动图像序列;针对音元唇动图像序列中的每帧图像,提取唇部区域的图像特征;将所述图像特征与数据库中对应音元特征模型比对,得到该音元得分B;
综合得分计算模块,用于根据A和B计算每个词元的综合得分。
6.根据权利要求5所述的口语纠错设备,其特征在于:
所述参考文本数据由客户端上传,或由客户端上传一指定ID,服务端根据ID获取实现保存的文本数据,或由服务端根据客户端发送的声音数据进行声音识别处理获取;
所述图像特征是通过对唇部图像进行SVD分解得到的。
CN201410790090.9A 2014-12-17 2014-12-17 口语纠错方法及设备 Active CN104505089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410790090.9A CN104505089B (zh) 2014-12-17 2014-12-17 口语纠错方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410790090.9A CN104505089B (zh) 2014-12-17 2014-12-17 口语纠错方法及设备

Publications (2)

Publication Number Publication Date
CN104505089A CN104505089A (zh) 2015-04-08
CN104505089B true CN104505089B (zh) 2018-05-18

Family

ID=52946831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410790090.9A Active CN104505089B (zh) 2014-12-17 2014-12-17 口语纠错方法及设备

Country Status (1)

Country Link
CN (1) CN104505089B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106356066A (zh) * 2016-08-30 2017-01-25 孟玲 一种基于云计算的语音识别***
CN111951828B (zh) * 2019-05-16 2024-06-25 上海流利说信息技术有限公司 发音测评方法、装置、***、介质和计算设备
CN111833859B (zh) * 2020-07-22 2024-02-13 科大讯飞股份有限公司 发音检错方法、装置、电子设备及存储介质
CN113077819A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 发音评价方法和装置、存储介质和电子设备
CN113257231B (zh) * 2021-07-07 2021-11-26 广州思正电子股份有限公司 一种语言正音***方法及设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578972A (zh) * 2002-09-25 2005-02-09 日本贝乐思公司 测试***及其控制方法
CN101197084A (zh) * 2007-11-06 2008-06-11 安徽科大讯飞信息科技股份有限公司 自动化英语口语评测学习***
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练***及方法
CN102169642A (zh) * 2011-04-06 2011-08-31 李一波 具有智能纠错功能的交互式虚拟教师***
CN102319155A (zh) * 2011-05-30 2012-01-18 重庆邮电大学 基于唇部检测与跟踪的智能轮椅控制方法
CN102436815A (zh) * 2011-09-13 2012-05-02 东南大学 一种应用于英语口语网络机考***的语音识别装置
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试***中的朗读题自动评分方法和设备
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分***及其评分方法
CN103366506A (zh) * 2013-06-27 2013-10-23 北京理工大学 一种驾驶员行车途中接打手机行为的自动监控装置及方法
CN103366618A (zh) * 2013-07-18 2013-10-23 梁亚楠 基于人工智能与虚拟现实用于汉语学习培训的场景设备
CN103401763A (zh) * 2013-07-30 2013-11-20 百度在线网络技术(北京)有限公司 接收群消息的方法、处理群消息的方法及其装置
CN103716685A (zh) * 2014-01-09 2014-04-09 福建网龙计算机网络信息技术有限公司 图标识别***、服务器和方法
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN103985392A (zh) * 2014-04-16 2014-08-13 柳超 音素级的低功耗的口语评价与缺陷诊断方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933804A (en) * 1997-04-10 1999-08-03 Microsoft Corporation Extensible speech recognition system that provides a user with audio feedback
WO2006125347A1 (en) * 2005-05-27 2006-11-30 Intel Corporation A homework assignment and assessment system for spoken language education and testing
CN101383103A (zh) * 2006-02-28 2009-03-11 安徽中科大讯飞信息科技有限公司 口语发音水平自动测试方法
CN103218924A (zh) * 2013-03-29 2013-07-24 上海众实科技发展有限公司 一种基于音视频双模态的口语学习监测方法
CN103747071A (zh) * 2013-12-31 2014-04-23 合肥有线电视宽带网络有限公司 一种广电网络私有云端语音数据处理均衡***及方法
CN103810996B (zh) * 2014-02-21 2016-08-31 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及***

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578972A (zh) * 2002-09-25 2005-02-09 日本贝乐思公司 测试***及其控制方法
CN101197084A (zh) * 2007-11-06 2008-06-11 安徽科大讯飞信息科技股份有限公司 自动化英语口语评测学习***
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练***及方法
CN102169642A (zh) * 2011-04-06 2011-08-31 李一波 具有智能纠错功能的交互式虚拟教师***
CN102319155A (zh) * 2011-05-30 2012-01-18 重庆邮电大学 基于唇部检测与跟踪的智能轮椅控制方法
CN102436815A (zh) * 2011-09-13 2012-05-02 东南大学 一种应用于英语口语网络机考***的语音识别装置
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试***中的朗读题自动评分方法和设备
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分***及其评分方法
CN103366506A (zh) * 2013-06-27 2013-10-23 北京理工大学 一种驾驶员行车途中接打手机行为的自动监控装置及方法
CN103366618A (zh) * 2013-07-18 2013-10-23 梁亚楠 基于人工智能与虚拟现实用于汉语学习培训的场景设备
CN103401763A (zh) * 2013-07-30 2013-11-20 百度在线网络技术(北京)有限公司 接收群消息的方法、处理群消息的方法及其装置
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN103716685A (zh) * 2014-01-09 2014-04-09 福建网龙计算机网络信息技术有限公司 图标识别***、服务器和方法
CN103985392A (zh) * 2014-04-16 2014-08-13 柳超 音素级的低功耗的口语评价与缺陷诊断方法

Also Published As

Publication number Publication date
CN104505089A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104505089B (zh) 口语纠错方法及设备
CN107203953B (zh) 一种基于互联网、表情识别和语音识别的教学***及其实现方法
CN103856689B (zh) 面向新闻视频的人物对话字幕提取方法
CN109766759A (zh) 情绪识别方法及相关产品
Sadjadi et al. The 2019 NIST Audio-Visual Speaker Recognition Evaluation.
CN102271241A (zh) 一种基于面部表情/动作识别的图像通信方法及***
Yargıç et al. A lip reading application on MS Kinect camera
CN110175534A (zh) 基于多任务级联卷积神经网络的授课辅助***
CN108491808B (zh) 用于获取信息的方法及装置
CN110210416B (zh) 基于动态伪标签解码的手语识别***优化方法及装置
CN104156729B (zh) 一种教室人数统计方法
CN111144359B (zh) 一种展品评价装置和方法及展品推送方法
CN106653050A (zh) 一种动画口型与语音实时匹配的方法
CN110309799A (zh) 基于摄像头的说话判断方法
CN108550173A (zh) 基于语音生成口型视频的方法
CN109064389A (zh) 一种手绘线条画生成现实感图像的深度学习方法
CN112614489A (zh) 用户发音准确度评估方法、装置和电子设备
CN104978583B (zh) 人物动作的识别方法及装置
CN110096987B (zh) 一种基于双路3dcnn模型的哑语动作识别方法
CN114936787A (zh) 一种基于人工智能的线上学生教学智能分析管理云平台
CN110956142A (zh) 一种智能交互培训***
CN109961789A (zh) 一种基于视频及语音交互服务设备
Sui et al. A 3D audio-visual corpus for speech recognition
CN111950480A (zh) 一种基于人工智能的英语发音自检方法和自检***
CN114283493A (zh) 基于人工智能的识别***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant