CN110096966A - 一种融合深度信息汉语多模态语料库的语音识别方法 - Google Patents
一种融合深度信息汉语多模态语料库的语音识别方法 Download PDFInfo
- Publication number
- CN110096966A CN110096966A CN201910284877.0A CN201910284877A CN110096966A CN 110096966 A CN110096966 A CN 110096966A CN 201910284877 A CN201910284877 A CN 201910284877A CN 110096966 A CN110096966 A CN 110096966A
- Authority
- CN
- China
- Prior art keywords
- modal
- corpus
- data
- depth information
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000001360 synchronised effect Effects 0.000 claims abstract description 11
- 230000002902 bimodal effect Effects 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 239000000284 extract Substances 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 12
- 238000005286 illumination Methods 0.000 abstract description 4
- 230000000903 blocking effect Effects 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000014161 Caesalpinia gilliesii Nutrition 0.000 description 1
- 244000003240 Caesalpinia gilliesii Species 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000002366 time-of-flight method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合深度信息汉语多模态语料库的语音识别方法,包括:将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器构建多模态数据同步采集***,所述***用于获取说话人的彩色图像和深度图像;采集小规模语料库,通过语料自动选择制作无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集;采集音频、彩***、深度图像、3D信息的多模态数据;对采集的多模态数据进行数据预处理并提取多模态特征,建立融合深度信息的汉语多模态语料库并进行多模态语音识别。本发明解决了国内对于多模态数据库研究方面存在着词汇量单一、音视频质量差等问题,解决传统二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响。
Description
技术领域
本发明涉及多模态数据库建立领域,涉及一种融合深度信息的汉语多模态语料库建立、融合深度信息的特征提取,尤其涉及一种基于多模态数据库的语音识别方法。
背景技术
双模态数据库同时包含了视觉信号和声学信号,声学信号的结构简单,其规模仅取决于采样率与发音总时长;视觉信息相对比较复杂,它的评价标准往往在于图像的清晰度以及帧速率。其中,语料库的设计目的决定了说话者的数量和数据库中语料集的选取。
标准的视听双模态数据库是开展双模态语音识别技术研究的必备数据基础,然而,相较于国外多样的视听语料库,国内对双模态语料库的研究还远远不够,已经公开的汉语双模态语料库存在着词汇量单一、音视频质量差等问题,并且中文的多模态语料库仍停留在由音频和彩***组成的双模态数据集上,而二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响。其次,国外的多模态语料库已应用于身份认证、人脸识别等多方面的研究,而中文的多模态语料库仅限于视听语音识别的研究。
在唇动特征提取方法研究的历程中,基于二维图像信息的唇动特征提取方法与融合了深度信息的唇动特征提取方法是目前最主流的两种方法。其中基于二维图像信息的唇动特征提取方法包括基于像素的特征提取方法和基于模型的特征提取方法。基于像素的特征提取方法既可以在整个唇区的灰度图像上直接进行唇动特征提取,也可以通过压缩唇区图像,并针对处理后的图像进行一些变换,如离散小波变换、离散余弦变换、线性判别分析以及主成分分析等,从而生成唇部区域的特征向量。基于模型的特征提取方法,主要包括几何特征法和参数曲线法。几何特征法将口型张开的高度、宽度、周长、面积以及关键坐标点之间的距离作为唇部区域特征。
上述基于二维图像的特征提取方法在一定程度上极易受到光照、说话者头部旋转、遮挡等因素的影响。对于人们说话方式的巨大差异,传统的特征提取方法无法作为一种通用的方法来全面而有效地表征唇动信息。
语音识别是一个识别***的核心阶段,以前的语音识别因运用模型不同大体分为四类方法:模板匹配、动态时间规划(DTW)、隐马尔科夫(HMM)、人工神经网络(ANN)。在近些年,深度学习受到了人们的广泛关注,它利用标准正脸的图像数据显著提高了多模态语音识别***的性能。基于卷积神经网络(CNN)和长短时记忆网络(LSTM)的网络模型也实现了多模态的语音识别***。
发明内容
本发明提供了一种融合深度信息汉语多模态语料库的语音识别方法,本发明解决了国内对于多模态数据库研究方面存在着词汇量单一、音视频质量差等问题,解决传统二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响,详见下文描述:
一种融合深度信息汉语多模态语料库的语音识别方法,所述方法包括以下步骤:
将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器构建多模态数据同步采集***,所述***用于获取说话人的彩色图像和深度图像;
采集小规模语料库,通过语料自动选择制作无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集;采集音频、彩***、深度图像、3D信息的多模态数据;
对采集的多模态数据进行数据预处理并提取多模态特征,建立融合深度信息的汉语多模态语料库并进行多模态语音识别。
所述多模态数据同步采集***包括:麦克风阵列、彩色摄像头、红外投影机、红外摄像头以及USB总线组件。
进一步地,所述数据预处理包括:数据分割、语音标注、数据库存储;
数据分割:经数据采集***捕捉到的音频文件、彩色图像、深度图像、3D数据点均附带有数据采集时的精确到毫秒级的时间戳,分别将合并之后的彩色图像序列、深度图像序列及深度数据按照每句音频的记录时间切分成相应的句子级别集合,实现多模态数据的同步化;
语音标注:采用语音标签强制对齐工具对语音进行音素级别的自动标注。
其中,所述提取多模态特征具体为:彩色图像特征提取和深度信息特征提取;
采用Dlib机器学习库中经过训练的人脸关键点检测器和人脸识别模型,得到人脸面部特征点;
建立多模态语料库并进行基于HTK工具箱的多模态语音识别实验。
本发明提供的技术方案的有益效果是:
1、本发明利用基于Kinect多元传感器开发的多模态数据同步采集***,预采集了融合深度信息的小型多模态语料库,并以该语料库为数据基础,进行了二维图像特征的提取方法研究、基于深度信息的唇区特征提取方法研究、基于HTK工具箱的多模态语音识别实验,为基于该数据库的多模态语音识别研究提供基准实验;
2、本发明设计了音素平衡的中文语料集,在专业的录音室环境下,采集了69个人,总共10074句音素平衡语料的多模态数据,建立了首个整合了深度信息的中文多模态语料库,为更多研究学者从事中文多模态语音识别研究提供了数据基础;
3、本发明分析了不同声学环境下语音识别的效果,本文对音频加入了信噪比分别为-5dB、0dB、5dB、10dB、15dB、20dB的气泡噪音,图3为不同信噪比的音频在各声学模型下字级别语音识别准确率的统计详情。由图3中数据可知,一方面,随着信噪比的不断减小,语音识别的准确率不断下降,当信噪比小于零时,语音识别的效果非常糟糕。另一方面,声学模型的设计对语音识别的结果也具有极为重要的关系,三音子声学模型相较于单音子声学模型能够更好地表征语音流中的语音现象,DNN-HMM声学模型不仅加快了模型训练的速度,更提升了模型训练的准确率,由此可见,深度神经网络对语音识别的发展具有里程碑式意义。
附图说明
图1为一种融合深度信息汉语多模态语料库的语音识别方法的流程图;
图2为数据采集的示意图;
图3为不同信噪比音频的语音识别准确率的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种融合深度信息汉语多模态语料库建立的语音识别方法,参见图1,该方法包括以下步骤:
101:将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器开发出一套多模态数据同步采集***,Kinect多元传感器主要包括了五个关键部分:麦克风阵列、彩色摄像头、红外投影机、红外摄像头以及USB总线组件,通过数据同步采集***,来获得说话人的彩色图像和深度图像;
102:预先采集小规模语料库,通过在该语料库的基础上进行多模态实验证明,深度信息对于语音识别有很大的帮助;
103:设计语料自动选择算法,制作无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集;
104:在专业的录音场景下,如图2所示,采集69位说话人包含:音频、彩***、深度图像、3D信息的多模态数据;
105:建立总时长达22.4小时、总存储空间为6TB的融合了深度信息的汉语多模态语料库进行语音识别。
在一个实施例中,步骤101利用Kinect多元传感器获取深度图像开发出一套多模态数据同步采集***,如下:
其中,微软Kinect多元传感器的重要研究领域为计算机视觉相关内容,其中,深度信息是此研究的关键所在。第一代Kinect传感器中运用了结构光法技术获取场景中的深度信息,而第二代Kinect传感器中的深度摄像头则实现的是完全不同的飞行时间法算法,接着进行人脸特征模型重建,利用目前最先进的脸部追踪库HD Face,它不仅可以根据彩色图像和深度图像在短时间内迅速检测到人脸,而且能通过预先定义的1347个人脸面部特征点云实时建立人脸三维网格模型。
在一个实施例中,步骤102在步骤101的基础上预先采集了小规模语料库,具体步骤如下:
用一款微软Kinect v2传感器设备和一台台式机共同搭建了一个简易的数据采集环境,语料集为100句由从一到十的数字组成的不重复的数字串序列,选取了两位发音流畅、不带口音的志愿者(1女1男),要求每人按照正常语速发音一遍语料集,即最终采集到的数据库中包含两位话者各100句文本发音时的多模态数据。通过在该语料库的基础上进行的多模态实验证明,深度信息对于语音识别有很大的帮助。
在一个实施例中,步骤103设计了语料自动选择算法,制作了无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集,具体步骤如下:
语料是语音识别训练的数据基础,它的选择对于模型训练具有非常关键的作用,并且根据语音任务的差异性,语料库的设计原则也略有不同,而汉字以音节为单位,每个音节都由声母和韵母组成,造成了和其他西方语言的不同。
根据语料设计的基本知识,本发明实施例设计了一种适用于汉语连续语音识别***的语料自主选择算法,该算法综合考虑了语料集对音节、声调、双音子模型和三音子模型的覆盖率,并根据评估函数利用贪婪思想筛选满足条件的语料文本,最终设计的语料集均匀覆盖了78%无调音节及93.3%二音子,以相对较少的文本覆盖了绝大部分语音现象。
在一个实施例中,步骤104进行数据采集,具体步骤如下:
该数据库是在天津大学的专业录音室中由69位天津大学在读研究生参与录制的,数据采集所使用的设备包括一个索尼录音笔和一台第二代微软Kinect多元传感器。
在一个实施例中,步骤105最终进行数据库的建立,具体步骤如下:
通过对采集的数据进行数据预处理包括:数据分割、语音标注、数据库存储。
数据分割:经数据采集***捕捉到的音频文件、彩色图像、深度图像、3D数据点均附带有数据采集时的精确到毫秒级的时间戳,名称以“audio”开头的RAW文件表示音频文件,以“color”开头的PNG文件表示彩色图像格式,以“depth”开头的PNG文件表示深度图像文件,以“depth”开头的CSV格式文件表示Kinect深度摄像头捕捉到的深度数据点,以“facePoints”开头的CSV文件表示Kinect生成的三维人脸几何模型。根据多模态数据存储文件上的时间戳标志以及多通道数据的对应的帧速率,人们可以很方便地设计程序分别将合并之后的彩色图像序列、深度图像序列及深度数据按照每句音频的记录时间切分成相应的句子级别集合,实现多模态数据的同步化。
语音标注:本方法采用宾夕法尼亚大学语音标签强制对齐工具(Penn PhoneticsLab Forced Aligner,P2FA)对语音进行音素级别的自动标注。
接着进行多模态特征提取,包括:彩色图像特征提取和深度信息特征提取。本方法采用Dlib机器学习库中经过训练的人脸关键点检测器和人脸识别模型,得到人脸面部68个特征点,其中,唇区由20个特征点表示。最终建立了多模态语料库并进行基于HTK工具箱的多模态语音识别实验,为基于该数据库的多模态语音识别研究提供基准实验。
实施例2
下面结合具体的实例、公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用Kinect多元传感器获取深度图像开发出一套多模态数据同步采集***;
其中,第二代Kinect多元传感器的结构组成,它主要包括了如下五个关键部分:麦克风阵列、彩色摄像头、红外投影机、红外摄像头、USB总线组件。Kinect传感器最多支持6个人体,又增加了颈部、(左、右)指尖、(左、右)大拇指关节点,能够采集到25个关节点,成功解锁了更复杂、更细微的姿势动作。
202:运用多模态数据同步采集***预先采集小规模语料库;
203:设计了语料自动选择算法;
在选择语料之前,需要预先定义与评价参数一致的表格:
1、(有调和无调)音节统计表,用来存储原始语料中全部的音节与该音节在已选语料集里发生的频次;
2、二音子统计表,用来存储原始语料中涵盖的全部二音子与它们在已选语料集里发生的频次;
3、三音子统计表,用来存储原始语料中包含的全部三音子与它们在已选语料集里发生的频次;
4、声调组合表,用来存储原始语料中涵盖的全部声调组合与它们在已选语料集里发生的频次。
根据语料分析得到的八层结构,对文本进行评分的计算过程如下所示:
记syScore表示文本中音节的得分,ESY为预先定义的音节占有的权重,遍历文本中的音节,如果文本中某音节在音节统计表中对应的频次为零,说明该音节在已选语料中尚未出现过,则赋予该文本更大的音节得分:syScore+=ESY (1)
否则,赋予该文本相对较小的音节得分,假设该音节在音节统计表中对应的频次为count,表明在已选语料中该音节已经出现了count次,则:
syScore+=1/(count+1)2 (2)
二音子、三音子及声调组合的评分过程与之类似,分别记作bipScore、tripScore和toneScore,则该文本的总得分可由下式计算得到。
score=syScore+bipScore+tripScore+toneScore (3)
其中,score表示该文本的总得分。比较所有文本的得分,利用贪婪算法选取分值最大的文本加入到已选语料库。更新音节统计表、二音子统计表、三音子统计表及声调组合表,重复执行上述操作,直至成功选取适合实验目的且音子覆盖率高的语料。
204:未经筛选的原始语料文本的二音子和无调音节的覆盖率分别高达87.6%、92%,随着语料规模的减少,所选语料对无调音节和二音子的覆盖率也在逐级减少,并且二音子的覆盖率变化程度明显小于无调音节的覆盖率变化程度。
本发明实施例运用语料自动选择算法,最终制作了无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集。
205:进行大规模多模态数据采集;
206:对采集的数据进行数据预处理包括:数据分割、语音标注、数据库存储,接着进行多模态特征提取,包括:彩色图像特征提取和深度信息特征提取,最终建立了总时长达22.4小时、总存储空间为6TB的融合了深度信息的汉语多模态语料库,并进行基于HTK工具箱的多模态语音识别实验。
实施例3
下面结合具体的实例、计算公式对实施例1和2中的方案进行进一步地介绍,详见下文描述:
在人们录制数据的过程中,难免会有头部倾斜、旋转的无意识动作,而Kinect传感器通过内置的SDK实时生成的三维网格模型恰恰可以方便本发明调整人脸模型,规避了人脸偏移而造成的信息丢失及信息错误。根据Kinect立体空间坐标系,可以将头部转动分为在XZ平面上的左右旋转、在XY平面上的水平偏移,在YZ平面上的上下旋转。
下面本发明实施例将以调整绕着Y轴左右旋转的人脸模型为例,介绍对深度信息的预处理步骤:
本发明实施例以左、右嘴角的中心点为原点,对人脸模型中的1,347个深度特征点做某种线性变换,使得左、右嘴角在Z轴方向上取得相同值,即规整后的左、右嘴角保持在同一深度距离。图中的L和R分别表示原始人脸模型中的左、右嘴角,newL、newR分别表示规整化后的左、右嘴角,w标志嘴角左右旋转的角度,l表示左右嘴角连线的长度,则:
L=[xl,yl,zl] (4)
R=[xr,yr,zr] (5)
newL=[newxl,newyl,newzl] (6)
newR=[newxr,newyr,newzr] (7)
w=tan-1((zr-zl)/xr-xl) (8)
假设M表示一个3行3列的变换矩阵,为了将人脸模型绕Y轴旋转至正对Kinect摄像头的位置,则应满足以下条件:
|newxr-newxl|=l (10) newyr=yr (11)
newyl=yl (12) newzr=newzl (13)
经过计算,可得变换矩阵M为:
即:
newR=M·R (15)
newL=M·L (16)
同理,对三维人脸模型分别进行绕Z轴与绕X轴的旋转之后就可以将偏移的深度点云规整到与摄像头平面水平的位置。
如此基于预先采集语料库设计的多模态孤立词语音识别实验结果可以看出,基于深度信息的单模态语音识别结果与基于二维图像的单模态语音识别结果非常接近,识别率分别为72.27%和69.91%。而多模态孤立词语音识别实验结果的识别率则达到了93.68%。第二代Kinect传感器采集到的深度信息识别率更高,意味着具有更全面的人脸特征信息。基于微软Kinect多元传感器设计的多模态数据采集***对多模态语音识别研究的推进有很大作用及价值。
为了分析不同声学环境下语音识别的效果,本发明实施例对音频加入了信噪比分别为-5dB、0dB、5dB、10dB、15dB、20dB的气泡噪音,图2为不同信噪比的音频在各声学模型下字级别语音识别准确率的统计详情。由图中数据可知,一方面,随着信噪比的不断减小,语音识别的准确率不断下降,当信噪比小于零时,语音识别的效果非常糟糕。另一方面,声学模型的设计对语音识别的结果也具有极为重要的关系,三音子声学模型相较于单音子声学模型能够更好地表征语音流中的语音现象,DNN-HMM声学模型不仅加快了模型训练的速度,更提升了模型训练的准确率,由此可见,深度神经网络对语音识别的发展具有里程碑式意义。
图3为不同维度下的唇部彩色图像特征与唇部深度特征与音频特征拼接之后的音视频语音识别效果统计图。图中的AV15表示纯净音频与15维唇部彩色图像特征融合后的音视频特征,ALip15表示纯净音频与15维唇部深度特征融合后的音视频特征,其余参数类似此种表达。注意,这里的音频特征均指13维MFCC特征。由图中数据可知,在GMM-HMM模型下,唇部深度特征比唇部彩色图像特征的语音识别效果略微好一点,32维唇部特征比15维唇部特征更好一点。在DNN-HMM模型下,效果相反,唇部彩色图像特征比唇部深度特征的语音识别效果略微好一点,15维唇部特征比32维唇部特征更好一点。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种融合深度信息汉语多模态语料库的语音识别方法,其特征在于,所述方法包括以下步骤:
将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器构建多模态数据同步采集***,所述***用于获取说话人的彩色图像和深度图像;
采集小规模语料库,通过语料自动选择制作无调音节覆盖率达78%、二音子覆盖率达93.3%的音素平衡语料集;采集音频、彩***、深度图像、3D信息的多模态数据;
对采集的多模态数据进行数据预处理并提取多模态特征,建立融合深度信息的汉语多模态语料库并进行多模态语音识别。
2.根据权利要求1所述的一种融合深度信息汉语多模态语料库的语音识别方法,其特征在于,
所述多模态数据同步采集***包括:麦克风阵列、彩色摄像头、红外投影机、红外摄像头以及USB总线组件。
3.根据权利要求1所述的一种融合深度信息汉语多模态语料库的语音识别方法,其特征在于,所述数据预处理包括:数据分割、语音标注、数据库存储;
数据分割:经数据采集***捕捉到的音频文件、彩色图像、深度图像、3D数据点均附带有数据采集时的精确到毫秒级的时间戳,分别将合并之后的彩色图像序列、深度图像序列及深度数据按照每句音频的记录时间切分成相应的句子级别集合,实现多模态数据的同步化;
语音标注:采用语音标签强制对齐工具对语音进行音素级别的自动标注。
4.根据权利要求1所述的一种融合深度信息汉语多模态语料库的语音识别方法,其特征在于,所述提取多模态特征具体为:彩色图像特征提取和深度信息特征提取;
采用Dlib机器学习库中经过训练的人脸关键点检测器和人脸识别模型,得到人脸面部特征点;
建立多模态语料库并进行基于HTK工具箱的多模态语音识别实验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284877.0A CN110096966A (zh) | 2019-04-10 | 2019-04-10 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284877.0A CN110096966A (zh) | 2019-04-10 | 2019-04-10 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110096966A true CN110096966A (zh) | 2019-08-06 |
Family
ID=67444603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284877.0A Pending CN110096966A (zh) | 2019-04-10 | 2019-04-10 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096966A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909613A (zh) * | 2019-10-28 | 2020-03-24 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互*** |
CN111933120A (zh) * | 2020-08-19 | 2020-11-13 | 潍坊医学院 | 一种用于语音识别的语音数据自动化标注方法和*** |
TWI727395B (zh) * | 2019-08-15 | 2021-05-11 | 亞東技術學院 | 語言發音學習系統及方法 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN114615450A (zh) * | 2020-12-08 | 2022-06-10 | 中国科学院深圳先进技术研究院 | 一种多模态发音数据采集方法与*** |
US11899765B2 (en) | 2019-12-23 | 2024-02-13 | Dts Inc. | Dual-factor identification system and method with adaptive enrollment |
EP4191579A4 (en) * | 2020-08-14 | 2024-05-08 | Huawei Technologies Co., Ltd. | ELECTRONIC DEVICE AND ASSOCIATED VOICE RECOGNITION METHOD, AND MEDIUM |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别*** |
-
2019
- 2019-04-10 CN CN201910284877.0A patent/CN110096966A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752A (zh) * | 2007-07-19 | 2008-01-09 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别*** |
Non-Patent Citations (1)
Title |
---|
J. WANG, L. WANG, J. ZHANG, J. WEI, M. YU , R. YU: "A Large-Scale Depth-Based Multimodal Audio-Visual Corpus in Mandarin", 《2018 IEEE 20TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 16TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 4TH INTERNATIONAL CONFERENCE ON DATA SCIENCE AND SYSTEMS (HPCC/SMARTCITY/DSS)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI727395B (zh) * | 2019-08-15 | 2021-05-11 | 亞東技術學院 | 語言發音學習系統及方法 |
CN110909613A (zh) * | 2019-10-28 | 2020-03-24 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
CN110909613B (zh) * | 2019-10-28 | 2024-05-31 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
US11899765B2 (en) | 2019-12-23 | 2024-02-13 | Dts Inc. | Dual-factor identification system and method with adaptive enrollment |
CN111462733A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111462733B (zh) * | 2020-03-31 | 2024-04-16 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互*** |
EP4191579A4 (en) * | 2020-08-14 | 2024-05-08 | Huawei Technologies Co., Ltd. | ELECTRONIC DEVICE AND ASSOCIATED VOICE RECOGNITION METHOD, AND MEDIUM |
CN111933120A (zh) * | 2020-08-19 | 2020-11-13 | 潍坊医学院 | 一种用于语音识别的语音数据自动化标注方法和*** |
CN114615450A (zh) * | 2020-12-08 | 2022-06-10 | 中国科学院深圳先进技术研究院 | 一种多模态发音数据采集方法与*** |
CN114615450B (zh) * | 2020-12-08 | 2023-02-17 | 中国科学院深圳先进技术研究院 | 一种多模态发音数据采集方法与*** |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096966A (zh) | 一种融合深度信息汉语多模态语料库的语音识别方法 | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
Fernandez-Lopez et al. | Survey on automatic lip-reading in the era of deep learning | |
Makino et al. | Recurrent neural network transducer for audio-visual speech recognition | |
Anina et al. | Ouluvs2: A multi-view audiovisual database for non-rigid mouth motion analysis | |
Hazen et al. | A segment-based audio-visual speech recognizer: Data collection, development, and initial experiments | |
Harte et al. | TCD-TIMIT: An audio-visual corpus of continuous speech | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成***及其方法 | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
WO2018049979A1 (zh) | 一种动画合成的方法及装置 | |
CN101359473A (zh) | 自动进行语音转换的方法和装置 | |
CN105390133A (zh) | 藏语ttvs***的实现方法 | |
JP2016029576A (ja) | コンピュータ生成ヘッド | |
Wang et al. | Audio-visual speech recognition integrating 3D lip information obtained from the Kinect | |
Goecke et al. | The audio-video Australian English speech data corpus AVOZES | |
WO2023035969A1 (zh) | 语音与图像同步性的衡量方法、模型的训练方法及装置 | |
Liu et al. | A novel resynchronization procedure for hand-lips fusion applied to continuous french cued speech recognition | |
CN115312030A (zh) | 虚拟角色的显示控制方法、装置及电子设备 | |
Taylor et al. | A mouth full of words: Visually consistent acoustic redubbing | |
Paleček | Experimenting with lipreading for large vocabulary continuous speech recognition | |
Chiţu¹ et al. | Automatic visual speech recognition | |
Karpov et al. | A framework for recording audio-visual speech corpora with a microphone and a high-speed camera | |
Karpov et al. | Designing a multimodal corpus of audio-visual speech using a high-speed camera | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
Trojanová et al. | Design and recording of czech audio-visual database with impaired conditions for continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |
|
RJ01 | Rejection of invention patent application after publication |