CN111950327A - 口型纠正方法、装置、介质和计算设备 - Google Patents

口型纠正方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN111950327A
CN111950327A CN201910405361.7A CN201910405361A CN111950327A CN 111950327 A CN111950327 A CN 111950327A CN 201910405361 A CN201910405361 A CN 201910405361A CN 111950327 A CN111950327 A CN 111950327A
Authority
CN
China
Prior art keywords
mouth
user
key frame
pronunciation
mouth shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910405361.7A
Other languages
English (en)
Inventor
胡太
孙怿
沈欣尧
刘晨晨
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Liulishuo Information Technology Co ltd
Original Assignee
Shanghai Liulishuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Liulishuo Information Technology Co ltd filed Critical Shanghai Liulishuo Information Technology Co ltd
Priority to CN201910405361.7A priority Critical patent/CN111950327A/zh
Publication of CN111950327A publication Critical patent/CN111950327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Image Analysis (AREA)

Abstract

本发明的实施方式提供了一种口型纠正方法。该方法包括:获取用户发音视频的关键帧;提取所述关键帧的口型特征;基于所述口型特征对所述关键帧进行分类;确认分类结果与标准发音视频的关键帧的类别是否一致;若不一致,根据标准发音视频的关键帧的类别进行相应的提示。本方法可以根据用户发音视频中的关键帧确定用户的发音口型是否标准,进而对错误的发音口型予以纠正,为用户带来了更好的体验。此外,本发明的实施方式还提供了一种口型纠正装置、介质和计算设备。

Description

口型纠正方法、装置、介质和计算设备
技术领域
本发明的实施方式涉及口语评测领域,更具体地,本发明的实施方式 涉及一种口型纠正方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上 下文。此处的描述不因为包括在本部分中就承认是现有技术。
在语言学习的过程中,学习正确的口语发音也是非常重要的一部分, 然而在之前几年,口语学习只能跟随线下的老师进行,随着技术的发展, 线上的口语学习成为一种趋势,近几年口语发音打分和纠正主要建立在语 音特征的表示上。
然而,发音口型的正确与否对发音起到了至关重要的作用,也即掌握 正确的口型可以促使学习者发出标准的读音,现有的口型识别判定特别依 赖于唇语识别技术,需要使用高性能的GPU和较大的存储内存,并结合 深度学习算法对发音内容打分,由于其对硬件配置要求较高,非常不适用 于移动端设备。
发明内容
在本上下文中,本发明的实施方式期望提供一种口型纠正方法、装置、 介质和计算设备。
在本发明实施方式的第一方面中,提供了一种口型纠正方法,包括:。
获取用户发音视频的关键帧;
提取所述关键帧的口型特征;
基于所述口型特征对所述关键帧进行分类;
确认分类结果与标准发音视频的关键帧的类别是否一致;
若不一致,根据标准发音视频的关键帧的类别进行相应的提示。
在本发明的一个实施例中,根据用户发音的内容的类别确定关键帧的 提取方式。
在本发明的另一实施例中,用户发音的内容为显示在终端设备屏幕的 发音内容。
在本发明的又一个实施例中,用户发音的内容为音标。
在本发明的再一个实施例中,发音的内容的类别包括至少四类;
其中,在所述发音的内容属于第一类时,获取用户发音视频中用户张 开嘴时,张嘴程度最大的一帧作为关键帧;
在所述发音的内容属于第二类时,获取用户发音视频中发音停顿的一 帧作为关键帧;
在所述发音的内容属于第三类时,获取用户发音视频中用户张开嘴时, 张嘴程度最小和最大的一帧作为关键帧,其中,张嘴程度最小的关键帧的 时序在张嘴程度最大的关键帧之前;
在所述发音的内容属于第四类时,获取用户发音视频中在先元音发音 时张嘴程度最大的一帧以及在后元音发音时张嘴程度最小的一帧作为关 键帧。
在本发明的再一个实施例中,提取所述关键帧的口型特征,包括:
提取所述关键帧中口型的形状特征。
在本发明的再一个实施例中,提取所述关键帧中口型的形状特征,包 括:
获取所述关键帧中嘴部区域轮廓的关键点;
获取基于所述关键点构建的多边形的各个内角的角度;
将所述各个内角的角度按照预设规则进行编码得到所述关键帧中口 型的形状特征。
在本发明的再一个实施例中,所述嘴部区域轮廓的关键点为嘴部区域 内轮廓的关键点。
在本发明的再一个实施例中,获取所述关键帧中嘴部区域轮廓的关键 点,包括:
对所述关键帧进行人脸检测,得到脸部的边界框;
基于所述边界框采用梯度提升的集成回归树算法对脸部区域进行关 键点检测以获取嘴部区域轮廓的关键点。
在本发明的再一个实施例中,对所述关键帧进行人脸检测,得到脸部 的边界框,包括:
结合关键帧图像的局部梯度和梯度强度构造图像描述子;
基于所述图像描述子采用滑动窗口判别窗口内的图像是否为人脸区 域。
在本发明的再一个实施例中,提取所述关键帧的口型特征,包括:
获取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所 述关键帧的特征。
在本发明的再一个实施例中,采用预先训练的口型分类器对所述关键 帧进行分类。
在本发明的再一个实施例中,所述口型分类器基于以下构建:
对训练数据集进行特征降维;
基于降维后的低维空间特征训练得到所述口型分类器。
在本发明的再一个实施例中,采用主成分分析、线性判别分析和局部 线性嵌入中的一个进行特征降维。
在本发明的再一个实施例中,采用支持向量机、随机森林和极端梯度 提升中的一个训练所述口型分类器。
在本发明的再一个实施例中,所述训练数据集包括不同人脸不同姿态 下的口型特征。
在本发明实施方式的第二方面中,提供了一种口型纠正装置,包括:
关键帧获取模块,被配置为获取用户发音视频的关键帧;
特征提取模块,被配置为提取所述关键帧的口型特征;
分类模块,被配置为基于所述口型特征对所述关键帧进行分类;
判断模块,被配置为确认分类结果与标准发音视频的关键帧的类别是 否一致;
提示模块,被配置为若不一致,根据标准发音视频的关键帧的类别进 行相应的提示。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质, 存储有程序代码,所述程序代码当被处理器执行时,实现如第一方面任一 实施例所述的方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括处理器 和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如 第一方面任一实施例所述的方法。
根据本发明实施方式的口型纠正方法、装置、介质和计算设备,可以 根据用户发音视频中的关键帧确定用户的发音口型是否标准,进而对错误 的发音口型予以纠正,而无需如唇语识别的技术方案(需要使用高性能的 GPU和较大的存储内存)一样,结合深度学习算法对发音内容打分,从而 显著地降低了资源消耗,并且突破了硬件限制(移动端如手机的硬件条件 与性能的GPU和较大的存储内存不符),适用于移动端,为用户带来了 更好的体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以 及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制 性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明各个实施方式的一种应用场景示意图;
图2示意性地示出了根据本发明一实施方式的口型纠正学习方法的流 程示意图;
图3示意性地示出了根据本发明各个实施方式的又一应用场景示意图;
图4示意性地示出了根据本发明各实施方式的嘴部区域内外轮廓关键 点的示意图;
图5示意性地示出了根据本发明各个实施方式的以嘴部区域内轮廓关 键点为基础构建多边形的示意图;
图6示意性地示出了根据本发明一实施方式的口型纠正学习装置的模 块示意图;
图7示意性地示出了根据本发明实施方式提供的一种计算机可读存储 介质的示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理 解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而 实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施 方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传 达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种***、装置、 设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式, 即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者 硬件和软件结合的形式。
根据本发明的实施方式,提出了一种口型纠正方法、装置、介质和计 算设备。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都 仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精 神。
发明概述
现有的口型识别判定特别依赖于唇语识别技术,需要使用高性能的 GPU和较大的存储内存,并结合深度学习算法对发音内容打分,由于其对 硬件配置要求较高,非常不适用于移动端设备。
本发明设计了一种口型纠正方法,该方法方法可以根据用户发音视频 中的关键帧确定用户的发音口型是否标准,进而对错误的发音口型予以纠 正,而无需如唇语识别的技术方案(需要使用高性能的GPU和较大的存 储内存)一样,结合深度学习算法对发音内容打分,从而显著地降低了资 源消耗,并且突破了硬件限制(移动端如手机的硬件条件与性能的GPU 和较大的存储内存不符),适用于移动端,为用户带来了更好的体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制 性实施方式。
应用场景总览
首先参考图1,图1是本发明的口型纠正方法的应用场景示意图,图 1中用户可以通过终端设备A进行口语学习,所述终端A可以在屏幕上显 示待用户学习的内容(例如音标或单词或句子等),并且还可以通过摄像 头(图像采集设备)和/或麦克风(音频采集设备)等数据采集设备采集用 户根据所述内容发音时的视频和/或音频以通过所述口型纠正方法对用户 错误的发音口型进行测评。
可以理解的是,所述内容可以是终端A从服务器下载的,并且对终端 A采集到的数据进行分析处理(即执行所述口型纠正方法)的也可以是服 务器。实际的应用过程中,服务器可以存在多级,也即可以是接收服务器 接收终端设备发送的视频和/或音频数据,并将接收到的视频和/或音频数 据发送到处理服务器,处理服务器对接收到的视频数据根据本发明的口型 纠正方法进行处理,得到用户的口型评测结果,并反馈至所述终端设备A 进行展示。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方 式的用于口型纠正的方法。需要注意的是,上述应用场景仅是为了便于理 解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。 相反,本发明的实施方式可以应用于适用的任何场景。
图2是本发明实施方式第一方面所述一种口型纠正方法的实施例的流 程示意图。虽然本发明提供了如下述实施例或附图所示的方法操作步骤或 装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包 括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必 要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限 于本发明实施例或附图所示的执行顺序或模块结构。所述的方法或模块结 构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附 图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或 者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
为了清楚起见,下述实施例以具体的一个用户通过移动终端进行口型 纠正的实施场景进行说明。所述的移动终端可以包括手机、平板电脑,或 者其他有视频拍摄功能和数据通信功能的通用或专用设备。所述的移动终 端和服务器可以部署有相应的应用模块,如移动终端安装的某个口语学习 APP(application,应用),以实现相应的数据处理。但是,本领域技术人员 能够理解到,可以将本方案的实质精神应用到口型纠正的其他实施场景中, 如参照图3,移动终端采集数据后,采集到的数据发送至服务器进行处理, 并通过所述移动终端反馈给用户。
具体的一种实施例如图2所示,本发明提供的一种口型纠正方法的一 种实施例中,所述方法可以包括:
步骤S110,获取用户发音视频的关键帧;
考虑到,获取到的视频中可能不仅仅包括用户的发音过程,还包括一 些无效视频段(比如用户发音之前的准备阶段),在本实施方式的一个实 施例中,获取用户发音视频的关键帧之前,首先对获取到的视频进行处理, 获取视频中的用户发音视频段,在本实施方式的一个实施例中,可以通过 去除无效视频(不包括用户发音过程的视频,即用户发音前没有张嘴的视 频以及用户发音后闭嘴的视频)的方式获取有效视频段,具体的,包括:
获取所述视频的视频信号;
基于所述视频信号的波动,对所述发音视频进行裁剪,去除用户未发 音的视频帧,以获取有效视频段。
在本实施例中,通过视频信号的波动情况确定当前视频是否为有效视 频,信号的波动越小,则说明视频画面的变化越小,即视频中包括用户发 音画面的概率越小,因此,可以通过设置合理的阈值来确定当前的视频帧 是否包括用户发音画面。
在本实施方式的一个实施例中,通过z-score阈值匹配的方法确定视 频信号的波动情况,具体的,将当前信号减去信号平均值后除以标准差, 得到z-score值,若z-score值越小,则说明信号的波动越小。因此,在本 实施例中,预先设置了阈值,若根据当前的视频信号得到的z-score值小 于预设阈值,则确定当前视频帧不包括用户发音画面,由此可以判断当前 的视频帧应被裁剪。
在获得有效视频段之后,获取其中(用户发音视频)的关键帧;
考虑到在发音内容不同时,决定发音正确与否的口型是不同的,因此, 很难按照统一的方式(标准)去获取视频中的关键帧,在本实施方式的一 个实施例中,根据用户发音的内容的类别确定关键帧的提取方式,具体的, 在本实施例中,发音的内容的类别包括至少四类;
其中,在所述发音的内容属于第一类时,获取用户发音视频中用户张 开嘴时,张嘴程度最大的一帧作为关键帧;
在本实施例中,以所述发音内容为音标为例进行说明,在所述音标为 第一类(MAX_HEIGHT)时,比如/ɑ:/、
Figure BDA0002061029620000081
Figure BDA0002061029620000082
音标,发音过程中嘴到 最大时的口型适合作为判断发音口音正确与否的条件,那么可以从用户的 发音视频中选取张嘴程度最大的一帧作为关键帧;
在所述发音的内容属于第二类时,获取用户发音视频中发音停顿的一 帧作为关键帧;
有一些音标的发音过程是不张嘴的,比如音标[e],此时,再选取张嘴 程度最大的一帧作为关键帧就是不合适的,因此,在发音内容属于第二类 (STANDTILL)时,则可以选取用户发音视频中发音停顿的一帧作为关 键帧;
在所述发音的内容属于第三类时,获取用户发音视频中用户张开嘴时, 张嘴程度最小和最大的一帧作为关键帧,其中,张嘴程度最小的关键帧的 时序在张嘴程度最大的关键帧之前;
有一些音标的发音过程是动态的(由小到大的),比如***音([p]、 [b]、[t]、[d]、[k]、[g]等),此时,所述发音内容属于第三类(MIN_MAX), 再获取一帧作为关键帧就无法准确评判用户的口型是否标准,即需要分别 获取发音视频中用户张开嘴时,张嘴程度最小和最大的一帧作为关键帧, 其中,张嘴程度最小的关键帧的时序在张嘴程度最大的关键帧之前;
在所述发音的内容属于第四类时,获取用户发音视频中在先元音发音 时张嘴程度最大的一帧以及在后元音发音时张嘴程度最小的一帧作为关 键帧。
对于一部分双元音音标,发音时的口型是由大到小的,比如
Figure BDA0002061029620000091
Figure BDA0002061029620000092
等,因此,根据以上所述的获取方式(标准)得到的关键帧都无法准确的 判断用户对所述音标的发音口型是否标准,在所属发音内容为第四类 (MAX_MIN)时,首先获取第一个元音发音时张嘴程度最大的一帧,然 后再获取第二个元音发音时张嘴程度最小的一帧,最后将获取到的两帧作 为关键帧。
需要说明的是,在本实施方式的一个实施例中,可以根据嘴部区域的 面积来确定张嘴程度,具体的,可以通过关键帧中嘴部区域轮廓的关键点 构建多边形,然后计算所述多边形的面积,将所述多边形的面积作为嘴部 区域的面积,或者也可以根据张嘴高度来确定张嘴程度,例如计算关键帧 中嘴部区域轮廓的最高和最低关键点间的距离来确定张嘴高度,其中嘴部 区域轮廓的最高和最低关键点统一为内轮廓或外轮廓上的关键点。
在获取到用户发音视频中的关键帧之后,执行步骤S120,提取所述关 键帧的口型特征;
在本实施方式中,口型特征可以从多个不同的维度进行获取,比如口 型的形状特征,在本实施方式的一个实施例中,提取所述关键帧中的口型 形状特征作为所述关键帧的口型特征,具体的,首先获取所述关键帧中嘴 部区域轮廓的关键点;然后获取基于所述关键点构建的多边形的各个内角 的角度;最后将所述各个内角的角度按照预设规则进行编码得到所述关键 帧中口型的形状特征。
在本实施方式的一个实施例中,获取所述关键帧中嘴部区域轮廓的关 键点时,可以先对所述关键帧进行人脸检测,得到脸部的边界框;
本实施例中,可以利用HOG(HistogramofOrientedGradient)方向梯 度直方图特征对图像进行人脸检测获得脸部的边界框,首先结合关键帧图 像的局部梯度和梯度强度构造图像描述子;然后基于所述图像描述子采用 滑动窗口判别窗口内的图像是否为人脸区域。
具体的,可以基于所述边界框采用梯度提升的集成回归树算法(此算 法在移动端设备的处理速度表现优异)对脸部区域进行关键点检测以获取 嘴部区域轮廓的关键点:首先找到人脸上普遍存在的68个关键点 (Landmarks),其中包含了下巴的顶部,每只眼睛的外部轮廓,每条眉 毛的内部轮廓等处的关键点。
由以上步骤可以明确,本实施方式中得到的嘴部区域的轮廓的关键点 包括内外轮廓的关键点(如图4所示),在本实施例中,嘴部区域的关键 点为20个,其中,8个嘴部区域内轮廓的关键点,12个嘴部区域外轮廓 的关键点,在选取关键点构建多边形时,分别选取内外轮廓都是可以的, 比如单独选取内轮廓的关键点构建多边形(如图5所示),当然也可以单 独选取外罗阔的多边形构建关键点,本实施例中以单独选取嘴部区域内轮 廓的关键点构建多边形为例进行说明,在得到所述多边形后,分别获取所 述多边形内角的角度,然后以获取到的8个内角的角度为基础编码,得到 所述关键帧的口型(形状)特征,例如,在图5中,所述多边形的8个内 角的角度按照次序依次为60°、170°、175°、160°、45°、160°、165°和
145°,那么所述关键帧的口型特征可以被编码为 λ=(60,170,175,160,45,160,165,145);
可以理解的是,在本实施方式的一个实施例中也可以基于内外轮廓的 关键点分别构建多边形,然后将两个多边形内角编码得到的特征结合作为 所述关键帧的口型特征。
可选地,在本实施方式的一个实施例中,获取所述关键帧中嘴部区域 的方向梯度直方图和颜色直方图作为所述关键帧的特征,具体的,可以统 计嘴部矩形区域内的颜色分布作为所述关键帧的特征,然后利用颜色分布 直方图进行嘴型分类,这样还可以有效地判别露齿的情况。。
在获取到关键帧的口型特征后,即可执行步骤S130,基于所述口型特 征对所述关键帧进行分类;
在本实施方式的一个实施例中,首先可以将口型类别定义为以下几种: ENLARGE(用户嘴需张大)、MIDDLE(用户张嘴需适中)、SAMLL(用 户嘴需张小)、ROUND(用户嘴需收圆)以及FLAT(用户嘴需再裂开一 点,拉伸成“一”字型);所有发音内容的标准发音视频的关键帧都分别 属于以上类别中的一个,在本步骤中,首先根据所述关键帧的口性特征确定用户发音视频的关键帧属于上述类别中的哪一个,在本实施方式的一个 实施例中,可以采用预先训练的口型分类器对所述关键帧进行分类,其中, 所述口型分类器基于以下构建:
对训练数据集进行特征降维;
在本实施例中,可以采用主成分分析、线性判别分析和局部线性嵌入 中的一个进行特征降维;
考虑到主成分分析法在本领域的效果较好且较为成熟,在本实施方式 的一个实施例中,优先采用主成分分析法对训练数据集进行特征降维;
基于降维后的低维空间特征训练得到所述口型分类器;
在本实施例中,可以采用支持向量机、随机森林和极端梯度提升中的 一个训练所述口型分类器。
考虑到支持向量机更加成熟易用,在本实施方式的一个实施例中,优 先采用支持向量机训练所述口型分类器
在训练完成后,采用相应的测试数据集对所述口型分类器进行测试, 确定所属口型分类器的准确率,其中,所述测试数据集和训练数据集不同, 并且针对于每个口型类型都包括不同人脸不同姿态下的口型特征。
在确定用户发音视频的关键帧所属的(口型)类别后,执行步骤S140, 确认分类结果与标准发音视频的关键帧的类别是否一致;
若不一致,根据标准发音视频的关键帧的类别进行相应的提示。
在本实施例中,若用户发音视频的关键帧所属的(口型)类别与标准 发音视频的关键帧的类别一致,则可以不进行口型纠正提示,而是进行鼓 励类的提示,例如“你的口型非常标准”,可以理解的是,在进行用户发 音视频的关键帧的分类时,并不是针对于一个口型类型给出非常确定的判 断,而是确认用户发音视频的关键帧的口型特征针对于每一个口型类型的 概率,例如,所述口型分类器确定用户发音视频的关键帧的口型特征属于ENLARGE(用户嘴需张大)的概率为80%,属于MIDDLE(用户张嘴需 适中)的概率为40%,属于FLAT(用户嘴需再裂开一点,拉伸成“一” 字型)的概率为50%,属于其他口型类型的概率分别为10%、15%和20%, 那么则可以确定所述用户发音视频的关键帧的口型特征属于ENLARGE (用户嘴需张大),此时还可以将所述概率作为用户口型的得分向用户报 告。
另外,在本实施方式的一个实施例中,还可以不仅仅是选取概率最高 的口型类型作为用户发音视频的关键帧的口型特征所述的类别(确定用户 发音视频的关键帧的口型特征所述的类别还需要最可能的口型类型的概 率超过一个阈值,例如80%),因为,某些情况,虽然某一个口型类型的 概率虽然是最高的,但依然达不到能够判定的标准,比如用户发音视频的 关键帧的口型特征属于ENLARGE(用户嘴需张大)的概率为40%,此时, 虽然概率最高,但也依然不足以判定用户发音视频的关键帧的口型特征属 于ENLARGE(用户嘴需张大),因此,可以提示用户重新进行学习及测 试。
根据本发明实施方式的口型纠正方法,可以根据用户发音视频中的关 键帧确定用户的发音口型是否标准,进而对错误的发音口型予以纠正,而 无需如唇语识别的技术方案(需要使用高性能的GPU和较大的存储内存) 一样,结合深度学习算法对发音内容打分,从而显著地降低了资源消耗, 并且突破了硬件限制(移动端如手机的硬件条件与性能的GPU和较大的 存储内存不符),适用于移动端(本方案只需要使用CPU进行计算,较 小的内存即可实施以实时得到结果),为用户带来了更好的体验。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图6对本 发明示例性实施方式的口型纠正装置进行说明,所述装置包括:
关键帧获取模块610,被配置为获取用户发音视频的关键帧;
特征提取模块620,被配置为提取所述关键帧的口型特征;
分类模块630,被配置为基于所述口型特征对所述关键帧进行分类;
判断模块640,被配置为确认分类结果与标准发音视频的关键帧的类 别是否一致;
提示模块650,被配置为若不一致,根据标准发音视频的关键帧的类 别进行相应的提示。
在本实施方式的一个实施例中,所述关键帧获取模块610还被配置为 根据用户发音的内容的类别确定关键帧的提取方式。
在本实施方式的一个实施例中,用户发音的内容为显示在终端设备屏 幕的发音内容。
在本实施方式的一个实施例中,用户发音的内容为音标。
在本实施方式的一个实施例中,发音的内容的类别包括至少四类;
其中,在所述发音的内容属于第一类时,获取用户发音视频中用户张 开嘴时,张嘴程度最大的一帧作为关键帧;
在所述发音的内容属于第二类时,获取用户发音视频中发音停顿的一 帧作为关键帧;
在所述发音的内容属于第三类时,获取用户发音视频中用户张开嘴时, 张嘴程度最小和最大的一帧作为关键帧,其中,张嘴程度最小的关键帧的 时序在张嘴程度最大的关键帧之前;
在所述发音的内容属于第四类时,获取用户发音视频中在先元音发音 时张嘴程度最大的一帧以及在后元音发音时张嘴程度最小的一帧作为关 键帧。
在本实施方式的一个实施例中,所述特征提取模块620包括:
形状特征提取单元,被配置为提取所述关键帧中口型的形状特征。
在本实施方式的一个实施例中,所述形状特征提取单元包括:
关键点获取子单元,被配置为获取所述关键帧中嘴部区域轮廓的关键 点;
角度获取子单元,被配置为获取基于所述关键点构建的多边形的各个 内角的角度;
形状特征获取子单元,被配置为将所述各个内角的角度按照预设规则 进行编码得到所述关键帧中口型的形状特征。
在本实施方式的一个实施例中,所述嘴部区域轮廓的关键点为嘴部区 域内轮廓的关键点。
在本实施方式的一个实施例中,所述关键点获取子单元还被配置为对 所述关键帧进行人脸检测,得到脸部的边界框;以及
基于所述边界框采用梯度提升的集成回归树算法对脸部区域进行关 键点检测以获取嘴部区域轮廓的关键点。
在本实施方式的一个实施例中,对所述关键帧进行人脸检测,得到脸 部的边界框,包括:
结合关键帧图像的局部梯度和梯度强度构造图像描述子;
基于所述图像描述子采用滑动窗口判别窗口内的图像是否为人脸区 域。
在本实施方式的一个实施例中,所述特征提取模块620还被配置为获 取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所述关键 帧的特征。
在本实施方式的一个实施例中,所述分类模块630还被配置为采用预 先训练的口型分类器对所述关键帧进行分类。
在本实施方式的一个实施例中,所述口型分类器基于以下构建:
对训练数据集进行特征降维;
基于降维后的低维空间特征训练得到所述口型分类器。
在本实施方式的一个实施例中,采用主成分分析、线性判别分析和局 部线性嵌入中的一个进行特征降维。
在本实施方式的一个实施例中,采用支持向量机、随机森林和极端梯 度提升中的一个训练所述口型分类器。
在本实施方式的一个实施例中,所述训练数据集包括不同人脸不同姿 态下的口型特征。
示例性介质
在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图 7对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图7, 其示出的计算机可读存储介质为光盘70,其上存储有计算机程序(即程序 产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中 所记载的各步骤,例如,获取用户发音视频的关键帧;提取所述关键帧的 口型特征;基于所述口型特征对所述关键帧进行分类;确认分类结果与标 准发音视频的关键帧的类别是否一致;若不一致,根据标准发音视频的关 键帧的类别进行相应的提示。各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限 于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可 擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介 质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来, 对本发明示例性实施方式的计算设备进行说明,示出了适于用来实现本发 明实施方式的示例性计算设备的框图,该计算设备可以是计算机***或服 务器。显示的计算设备仅仅是一个示例,不应对本发明实施例的功能和使 用范围带来任何限制。
计算设备的组件可以包括但不限于:一个或者多个处理器或者处理单 元,***存储器,连接不同***组件(包括***存储器和处理单元)的总 线。
计算设备典型地包括多种计算机***可读介质。这些介质可以是任何 能够被计算设备访问的可用介质,包括易失性和非易失性介质,可移动的 和不可移动的介质。
***存储器可以包括易失性存储器形式的计算机***可读介质,例如 随机存取存储器(RAM)和/或高速缓存存储器。计算设备可以进一步包括 其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为 举例,ROM可以用于读写不可移动的、非易失性磁介质(未显示,通常称 为“硬盘驱动器”)。尽管未示出,可以提供用于对可移动非易失性磁盘 (例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如 CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况 下,每个驱动器可以通过一个或者多个数据介质接口与总线相连。***存 储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少 一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在例如系 统存储器中,且这样的程序模块包括但不限于:操作***、一个或者多个 应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合 中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中 的功能和/或方法。
计算设备也可以与一个或多个外部设备(如键盘、指向设备、显示器 等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算设备 还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域 网(WAN)和/或公共网络,例如因特网)通信。网络适配器806通过总 线与计算设备的其它模块(如处理单元等)通信。应当明白,尽管图中未 示出,可以结合计算设备使用其它硬件和/或软件模块。
处理单元通过运行存储在***存储器中的程序,从而执行各种功能应 用以及数据处理,例如,获取用户发音视频的关键帧;提取所述关键帧的 口型特征;基于所述口型特征对所述关键帧进行分类;确认分类结果与标 准发音视频的关键帧的类别是否一致;若不一致,根据标准发音视频的关 键帧的类别进行相应的提示。各步骤的具体实现方式在此不再重复说明。 应当注意,尽管在上文详细描述中提及了口型纠正装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根 据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以 在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功 能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这 并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全 部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤, 将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应 该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意 味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方 便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等 同布置。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于 此:
1.一种口型纠正方法,包括:
获取用户发音视频的关键帧;
提取所述关键帧的口型特征;
基于所述口型特征对所述关键帧进行分类;
确认分类结果与标准发音视频的关键帧的类别是否一致;
若不一致,根据标准发音视频的关键帧的类别进行相应的提示。
2.如方案1所述的方法,其中,根据用户发音的内容的类别确定关键 帧的提取方式。
3.如方案2所述的方法,其中,用户发音的内容为显示在终端设备屏 幕的发音内容。
4.如方案2所述的方法,其中,用户发音的内容为音标。
5.如方案1-4任一所述的方法,其中,发音的内容的类别包括至少四 类;
其中,在所述发音的内容属于第一类时,获取用户发音视频中用户张 开嘴时,张嘴程度最大的一帧作为关键帧;
在所述发音的内容属于第二类时,获取用户发音视频中发音停顿的一 帧作为关键帧;
在所述发音的内容属于第三类时,获取用户发音视频中用户张开嘴时, 张嘴程度最小和最大的一帧作为关键帧,其中,张嘴程度最小的关键帧的 时序在张嘴程度最大的关键帧之前;
在所述发音的内容属于第四类时,获取用户发音视频中在先元音发音 时张嘴程度最大的一帧以及在后元音发音时张嘴程度最小的一帧作为关 键帧。
6.如方案1所述的方法,其中,提取所述关键帧的口型特征,包括:
提取所述关键帧中口型的形状特征。
7.如方案6所述的方法,其中,提取所述关键帧中口型的形状特征, 包括:
获取所述关键帧中嘴部区域轮廓的关键点;
获取基于所述关键点构建的多边形的各个内角的角度;
将所述各个内角的角度按照预设规则进行编码得到所述关键帧中口 型的形状特征。
8.如方案7所述的方法,其中,所述嘴部区域轮廓的关键点为嘴部区 域内轮廓的关键点。
9.如方案7或8所述的方法,其中,获取所述关键帧中嘴部区域轮廓 的关键点,包括:
对所述关键帧进行人脸检测,得到脸部的边界框;
基于所述边界框采用梯度提升的集成回归树算法对脸部区域进行关 键点检测以获取嘴部区域轮廓的关键点。
10.如方案9所述的方法,其中,对所述关键帧进行人脸检测,得到脸 部的边界框,包括:
结合关键帧图像的局部梯度和梯度强度构造图像描述子;
基于所述图像描述子采用滑动窗口判别窗口内的图像是否为人脸区 域。
11.如方案1所述的方法,其中,提取所述关键帧的口型特征,包括:
获取所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所 述关键帧的特征。
12.如方案1所述的方法,其中,采用预先训练的口型分类器对所述关 键帧进行分类。
13.如方案12所述的方法,其中,所述口型分类器基于以下构建:
对训练数据集进行特征降维;
基于降维后的低维空间特征训练得到所述口型分类器。
14.如方案13所述的方法,其中,采用主成分分析、线性判别分析和 局部线性嵌入中的一个进行特征降维。
15.如方案13所述的方法,其中,采用支持向量机、随机森林和极端 梯度提升中的一个训练所述口型分类器。
16.如方案13所述的方法,其中,所述训练数据集包括不同人脸不同 姿态下的口型特征。
17.一种口型纠正装置,包括:
关键帧获取模块,被配置为获取用户发音视频的关键帧;
特征提取模块,被配置为提取所述关键帧的口型特征;
分类模块,被配置为基于所述口型特征对所述关键帧进行分类;
判断模块,被配置为确认分类结果与标准发音视频的关键帧的类别是 否一致;
提示模块,被配置为若不一致,根据标准发音视频的关键帧的类别进 行相应的提示。
18.如方案17所述的装置,其中,所述关键帧获取模块还被配置为根 据用户发音的内容的类别确定关键帧的提取方式。
19.如方案18所述的装置,其中,用户发音的内容为显示在终端设备 屏幕的发音内容。
20.如方案18所述的装置,其中,用户发音的内容为音标。
21.如方案17-20任一所述的装置,其中,发音的内容的类别包括至少 四类;
其中,在所述发音的内容属于第一类时,获取用户发音视频中用户张 开嘴时,张嘴程度最大的一帧作为关键帧;
在所述发音的内容属于第二类时,获取用户发音视频中发音停顿的一 帧作为关键帧;
在所述发音的内容属于第三类时,获取用户发音视频中用户张开嘴时, 张嘴程度最小和最大的一帧作为关键帧,其中,张嘴程度最小的关键帧的 时序在张嘴程度最大的关键帧之前;
在所述发音的内容属于第四类时,获取用户发音视频中在先元音发音 时张嘴程度最大的一帧以及在后元音发音时张嘴程度最小的一帧作为关 键帧。
22.如方案17所述的装置,其中,所述特征提取模块包括:
形状特征提取单元,被配置为提取所述关键帧中口型的形状特征。
23.如方案22所述的装置,其中,所述形状特征提取单元包括:
关键点获取子单元,被配置为获取所述关键帧中嘴部区域轮廓的关键 点;
角度获取子单元,被配置为获取基于所述关键点构建的多边形的各个 内角的角度;
形状特征获取子单元,被配置为将所述各个内角的角度按照预设规则 进行编码得到所述关键帧中口型的形状特征。
24.如方案23所述的装置,其中,所述嘴部区域轮廓的关键点为嘴部 区域内轮廓的关键点。
25.如方案23或24所述的装置,其中,所述关键点获取子单元还被配 置为对所述关键帧进行人脸检测,得到脸部的边界框;以及
基于所述边界框采用梯度提升的集成回归树算法对脸部区域进行关 键点检测以获取嘴部区域轮廓的关键点。
26.如方案25所述的装置,其中,对所述关键帧进行人脸检测,得到 脸部的边界框,包括:
结合关键帧图像的局部梯度和梯度强度构造图像描述子;
基于所述图像描述子采用滑动窗口判别窗口内的图像是否为人脸区 域。
27.如方案17所述的装置,其中,所述特征提取模块还被配置为获取 所述关键帧中嘴部区域的方向梯度直方图和颜色直方图作为所述关键帧 的特征。
28.如方案17所述的装置,其中,所述分类模块还被配置为采用预先 训练的口型分类器对所述关键帧进行分类。
29.如方案28所述的装置,其中,所述口型分类器基于以下构建:
对训练数据集进行特征降维;
基于降维后的低维空间特征训练得到所述口型分类器。
30.如方案29所述的装置,其中,采用主成分分析、线性判别分析和 局部线性嵌入中的一个进行特征降维。
31.如方案29所述的装置,其中,采用支持向量机、随机森林和极端 梯度提升中的一个训练所述口型分类器。
32.如方案29所述的装置,其中,所述训练数据集包括不同人脸不同 姿态下的口型特征。
33.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处 理器执行时,实现如方案1-16之一所述的方法。
34.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程 序代码当被处理器执行时,实现如方案1-16之一所述的方法。

Claims (10)

1.一种口型纠正方法,包括:
获取用户发音视频的关键帧;
提取所述关键帧的口型特征;
基于所述口型特征对所述关键帧进行分类;
确认分类结果与标准发音视频的关键帧的类别是否一致;
若不一致,根据标准发音视频的关键帧的类别进行相应的提示。
2.如权利要求1所述的方法,其中,根据用户发音的内容的类别确定关键帧的提取方式。
3.如权利要求2所述的方法,其中,用户发音的内容为显示在终端设备屏幕的发音内容。
4.如权利要求2所述的方法,其中,用户发音的内容为音标。
5.一种口型纠正装置,包括:
关键帧获取模块,被配置为获取用户发音视频的关键帧;
特征提取模块,被配置为提取所述关键帧的口型特征;
分类模块,被配置为基于所述口型特征对所述关键帧进行分类;
判断模块,被配置为确认分类结果与标准发音视频的关键帧的类别是否一致;
提示模块,被配置为若不一致,根据标准发音视频的关键帧的类别进行相应的提示。
6.如权利要求5所述的装置,其中,所述关键帧获取模块还被配置为根据用户发音的内容的类别确定关键帧的提取方式。
7.如权利要求6所述的装置,其中,用户发音的内容为显示在终端设备屏幕的发音内容。
8.如权利要求6所述的装置,其中,用户发音的内容为音标。
9.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现如权利要求1-4之一所述的方法。
10.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如权利要求1-4之一所述的方法。
CN201910405361.7A 2019-05-16 2019-05-16 口型纠正方法、装置、介质和计算设备 Pending CN111950327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910405361.7A CN111950327A (zh) 2019-05-16 2019-05-16 口型纠正方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910405361.7A CN111950327A (zh) 2019-05-16 2019-05-16 口型纠正方法、装置、介质和计算设备

Publications (1)

Publication Number Publication Date
CN111950327A true CN111950327A (zh) 2020-11-17

Family

ID=73335472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910405361.7A Pending CN111950327A (zh) 2019-05-16 2019-05-16 口型纠正方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN111950327A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614489A (zh) * 2020-12-22 2021-04-06 作业帮教育科技(北京)有限公司 用户发音准确度评估方法、装置和电子设备
CN112949554A (zh) * 2021-03-22 2021-06-11 湖南中凯智创科技有限公司 智能儿童陪伴教育机器人
CN114664132B (zh) * 2022-04-05 2024-04-30 苏州市立医院 语言康复训练装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520903A (zh) * 2009-04-23 2009-09-02 北京水晶石数字科技有限公司 一种动画角色汉语口型匹配的方法
CN103092329A (zh) * 2011-10-31 2013-05-08 南开大学 一种基于唇读技术的唇语输入方法
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和***
CN105070118A (zh) * 2015-07-30 2015-11-18 广东小天才科技有限公司 一种针对语言类学习的纠正发音的方法及装置
CN106997451A (zh) * 2016-01-26 2017-08-01 北方工业大学 嘴唇轮廓的定位方法
CN109697976A (zh) * 2018-12-14 2019-04-30 北京葡萄智学科技有限公司 一种发音识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520903A (zh) * 2009-04-23 2009-09-02 北京水晶石数字科技有限公司 一种动画角色汉语口型匹配的方法
CN103092329A (zh) * 2011-10-31 2013-05-08 南开大学 一种基于唇读技术的唇语输入方法
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和***
CN105070118A (zh) * 2015-07-30 2015-11-18 广东小天才科技有限公司 一种针对语言类学习的纠正发音的方法及装置
CN106997451A (zh) * 2016-01-26 2017-08-01 北方工业大学 嘴唇轮廓的定位方法
CN109697976A (zh) * 2018-12-14 2019-04-30 北京葡萄智学科技有限公司 一种发音识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯亚荣, 熊璋: "唇同步的自动识别与验证研究", 计算机工程与设计, no. 02, 28 February 2004 (2004-02-28) *
单卫, 姚鸿勋, 高文: "唇读中序列口型的分类", 中文信息学报, no. 01, 25 January 2002 (2002-01-25) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614489A (zh) * 2020-12-22 2021-04-06 作业帮教育科技(北京)有限公司 用户发音准确度评估方法、装置和电子设备
CN112949554A (zh) * 2021-03-22 2021-06-11 湖南中凯智创科技有限公司 智能儿童陪伴教育机器人
CN112949554B (zh) * 2021-03-22 2022-02-08 湖南中凯智创科技有限公司 智能儿童陪伴教育机器人
CN114664132B (zh) * 2022-04-05 2024-04-30 苏州市立医院 语言康复训练装置及方法

Similar Documents

Publication Publication Date Title
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN111160533B (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
US20180197547A1 (en) Identity verification method and apparatus based on voiceprint
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
CN110970018B (zh) 语音识别方法和装置
CN111723791A (zh) 文字纠错方法、装置、设备及存储介质
CN110717492B (zh) 基于联合特征的图纸中字符串方向校正方法
CN111950327A (zh) 口型纠正方法、装置、介质和计算设备
CN111951828B (zh) 发音测评方法、装置、***、介质和计算设备
US10255487B2 (en) Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
CN111951825A (zh) 一种发音测评方法、介质、装置和计算设备
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
US7702145B2 (en) Adapting a neural network for individual style
Sterpu et al. Towards lipreading sentences with active appearance models
CN111191073A (zh) 视频音频识别方法、设备、存储介质及装置
US10592733B1 (en) Computer-implemented systems and methods for evaluating speech dialog system engagement via video
KR20170081350A (ko) 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법
CN109766419A (zh) 基于语音分析的产品推荐方法、装置、设备及存储介质
CN114639150A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN113283327A (zh) 一种视频文本生成方法、装置、设备及存储介质
WO2021196390A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及***
CN115423908A (zh) 虚拟人脸的生成方法、装置、设备以及可读存储介质
US20220012520A1 (en) Electronic device and control method therefor
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination