CN104537358A - 基于深度学习的唇语识别唇形训练数据库的生成方法 - Google Patents
基于深度学习的唇语识别唇形训练数据库的生成方法 Download PDFInfo
- Publication number
- CN104537358A CN104537358A CN201510018956.9A CN201510018956A CN104537358A CN 104537358 A CN104537358 A CN 104537358A CN 201510018956 A CN201510018956 A CN 201510018956A CN 104537358 A CN104537358 A CN 104537358A
- Authority
- CN
- China
- Prior art keywords
- lip
- training database
- shape
- sound
- generating method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的唇语识别唇形训练数据库的生成方法,该方法包括以下步骤:有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库。本发明的优点在于:该技术方案大幅提高了唇形模型库的构建效率。
Description
本申请是分案申请,原申请的申请号为201410829417.9,申请日为2014年12月26日,发明创造名称为:基于深度学习的唇语识别唇形模型库构建方法。
技术领域
本发明涉及人机交互模型库构建技术领域,具体涉及基于深度学习的唇语识别唇形训练数据库的生成方法。
背景技术
人工智能技术的发展,人们已经开始将计算机视频分析技术用于唇语识别,以解决生产车间等噪音场所的现场口头生产指令下达问题。在进行唇语识别过程中,需要用到唇形模型库,其准确性、全面性将直接决定唇语识别的效率。现有技术多通过人工进行唇形模型的逐个建立,不仅工作量大,而且其全面性难以保证。
为解决上述问题,本发明提供一种基于深度学习的唇语识别唇形模型库构建方法,可有效降低人工工作量,并提高唇形模型库的全面性。
发明内容
针对上述问题,本发明通过综合引用深度学习技术、语音识别技术和图像分析技术,由计算机对大量有声唇部视频进行学习并自动构建唇形模型库的方式,提供基于深度学习的唇语识别唇形训练数据库,从而有效提升唇形模型库的构建效率。
本发明提供的具体技术方案是:一种基于深度学习的唇语识别唇形训练数据库的生成方法,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库。
所述目标人员的数量应不少于2人。
有益效果:本发明提供的一种基于深度学习的唇语识别唇形模型库构建方法,由计算机对唇部图像及说话声音进行自动分析,提取唇形的特征值、生成说话声音对应文字,形成训练数据库,之后,利用深度学习技术对训练数据库进行学习,构建唇形模型库。该技术方案为唇形模型库的构建提供了一种高效的技术手段,大幅提高了唇形模型库的构建效率。
附图说明
图1所示是本发明工作流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,首先通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音。在进行唇部视频图像及说话声音采集时,需保证两者的同步性,避免因声音延后等情况给后续分析带来误差。然后,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得说话声音对应的文字信息。将所述唇形特征值与所述文字信息一一对应,生成训练数据库,再由计算机根据深度学习技术对所述训练数据库进行学习,构建唇形模型库。
唇形模型库中的每个唇形模型,分别对应与之相应的文字,即由说话声音获得的文字。
对于深度学习,其训练效果与所采用的训练数据库的数据量多少有关,数据量越大,训练结果越准确。因此,为了获得更好的唇形模型库,应采集尽量多的有声视频图像,以形成数据量更为丰富的训练数据库。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.基于深度学习的唇语识别唇形训练数据库的生成方法,其特征在于,该方法包括以下步骤:
有声视频图像采集,通过带有麦克风的摄像头同步采集目标人员的唇部视频图像及说话声音;
音频与视频分析,由计算机根据图像分析技术对所述唇部视频图像进行分析,获取唇形特征值,由计算机根据语音识别技术对所述说话声音进行分析,获得文字信息;
训练数据库形成,将所述唇形特征值与所述文字信息一一对应,生成训练数据库。
2.如权利要求1所述的基于深度学习的唇语识别唇形训练数据库的生成方法,其特征在于,所述目标人员的数量应不少于2人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018956.9A CN104537358A (zh) | 2014-12-26 | 2014-12-26 | 基于深度学习的唇语识别唇形训练数据库的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018956.9A CN104537358A (zh) | 2014-12-26 | 2014-12-26 | 基于深度学习的唇语识别唇形训练数据库的生成方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410829417.9A Division CN104484656A (zh) | 2014-12-26 | 2014-12-26 | 基于深度学习的唇语识别唇形模型库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104537358A true CN104537358A (zh) | 2015-04-22 |
Family
ID=52852878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510018956.9A Pending CN104537358A (zh) | 2014-12-26 | 2014-12-26 | 基于深度学习的唇语识别唇形训练数据库的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537358A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和*** |
CN105653595A (zh) * | 2015-12-18 | 2016-06-08 | 合肥寰景信息技术有限公司 | 一种智能语音帮助式网络社区 |
CN107945803A (zh) * | 2017-11-28 | 2018-04-20 | 上海与德科技有限公司 | 一种机器人的辅助学习方法和机器人 |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN111724786A (zh) * | 2019-03-22 | 2020-09-29 | 上海博泰悦臻网络技术服务有限公司 | 唇语识别***及方法 |
CN111783892A (zh) * | 2020-07-06 | 2020-10-16 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
CN111832412A (zh) * | 2020-06-09 | 2020-10-27 | 北方工业大学 | 一种发声训练矫正方法及*** |
US10834295B2 (en) | 2018-08-29 | 2020-11-10 | International Business Machines Corporation | Attention mechanism for coping with acoustic-lips timing mismatch in audiovisual processing |
CN111988652A (zh) * | 2019-05-23 | 2020-11-24 | 北京地平线机器人技术研发有限公司 | 唇语训练数据的提取方法及装置 |
CN113112997A (zh) * | 2019-12-25 | 2021-07-13 | 华为技术有限公司 | 数据采集的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别*** |
US20090018831A1 (en) * | 2005-01-28 | 2009-01-15 | Kyocera Corporation | Speech Recognition Apparatus and Speech Recognition Method |
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师*** |
CN102637071A (zh) * | 2011-02-09 | 2012-08-15 | 英华达(上海)电子有限公司 | 应用于多媒体输入设备的多媒体输入方法 |
-
2014
- 2014-12-26 CN CN201510018956.9A patent/CN104537358A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090018831A1 (en) * | 2005-01-28 | 2009-01-15 | Kyocera Corporation | Speech Recognition Apparatus and Speech Recognition Method |
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别*** |
CN102637071A (zh) * | 2011-02-09 | 2012-08-15 | 英华达(上海)电子有限公司 | 应用于多媒体输入设备的多媒体输入方法 |
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师*** |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和*** |
CN104808794B (zh) * | 2015-04-24 | 2019-12-10 | 北京旷视科技有限公司 | 一种唇语输入方法和*** |
CN105653595A (zh) * | 2015-12-18 | 2016-06-08 | 合肥寰景信息技术有限公司 | 一种智能语音帮助式网络社区 |
CN107945803A (zh) * | 2017-11-28 | 2018-04-20 | 上海与德科技有限公司 | 一种机器人的辅助学习方法和机器人 |
CN108520741A (zh) * | 2018-04-12 | 2018-09-11 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US11508366B2 (en) | 2018-04-12 | 2022-11-22 | Iflytek Co., Ltd. | Whispering voice recovery method, apparatus and device, and readable storage medium |
US10834295B2 (en) | 2018-08-29 | 2020-11-10 | International Business Machines Corporation | Attention mechanism for coping with acoustic-lips timing mismatch in audiovisual processing |
CN111724786A (zh) * | 2019-03-22 | 2020-09-29 | 上海博泰悦臻网络技术服务有限公司 | 唇语识别***及方法 |
CN110276259B (zh) * | 2019-05-21 | 2024-04-02 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN111988652B (zh) * | 2019-05-23 | 2022-06-03 | 北京地平线机器人技术研发有限公司 | 唇语训练数据的提取方法及装置 |
CN111988652A (zh) * | 2019-05-23 | 2020-11-24 | 北京地平线机器人技术研发有限公司 | 唇语训练数据的提取方法及装置 |
CN113112997A (zh) * | 2019-12-25 | 2021-07-13 | 华为技术有限公司 | 数据采集的方法及装置 |
CN111832412A (zh) * | 2020-06-09 | 2020-10-27 | 北方工业大学 | 一种发声训练矫正方法及*** |
CN111832412B (zh) * | 2020-06-09 | 2024-04-09 | 北方工业大学 | 一种发声训练矫正方法及*** |
CN111783892B (zh) * | 2020-07-06 | 2021-10-01 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
CN111783892A (zh) * | 2020-07-06 | 2020-10-16 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484656A (zh) | 基于深度学习的唇语识别唇形模型库构建方法 | |
CN104537358A (zh) | 基于深度学习的唇语识别唇形训练数据库的生成方法 | |
CN104504088A (zh) | 一种用于唇语识别的唇形模型库构建方法 | |
CN108922538A (zh) | 会议信息记录方法、装置、计算机设备及存储介质 | |
CN111325817A (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
CN110110104B (zh) | 一种自动生成虚拟三维空间内房屋讲解的方法及装置 | |
CN103218924A (zh) | 一种基于音视频双模态的口语学习监测方法 | |
CN109064532B (zh) | 动画角色自动口型生成方法及装置 | |
CN102982572A (zh) | 一种智能化图像编辑方法和装置 | |
CN109410911A (zh) | 基于语音识别的人工智能学习方法 | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
CN115984486A (zh) | 一种融合激光雷达与深度相机的桥梁模型生成方法及装置 | |
CN117315102A (zh) | 虚拟主播处理方法、装置、计算设备及存储介质 | |
CN113053361A (zh) | 语音识别方法、模型训练方法、装置、设备及介质 | |
CN110852376B (zh) | 用于识别生物种类的方法及*** | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及*** | |
CN104636324B (zh) | 话题溯源方法和*** | |
CN104484041A (zh) | 一种基于深度学习的唇形图像识别文字输入方法 | |
CN104036421A (zh) | 基于语音识别电话号码的银行业务申请书生成*** | |
CN115294947A (zh) | 音频数据处理方法、装置、电子设备及介质 | |
CN115393501A (zh) | 信息处理方法及装置 | |
CN104503581A (zh) | 一种基于视频交互***的科普方法 | |
WO2019120247A1 (zh) | 一种文字校验方法及装置 | |
CN111651629B (zh) | 一种构建全样本数据的方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150422 |
|
WD01 | Invention patent application deemed withdrawn after publication |