CN110096966A

CN110096966A - 一种融合深度信息汉语多模态语料库的语音识别方法

Info

Publication number: CN110096966A
Application number: CN201910284877.0A
Authority: CN
Inventors: 徐天一; 张奕超; 赵满坤; 高洁; 于健; 于瑞国; 喻梅; 王丽媛
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-08-06

Abstract

本发明公开了一种融合深度信息汉语多模态语料库的语音识别方法，包括：将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器构建多模态数据同步采集***，所述***用于获取说话人的彩色图像和深度图像；采集小规模语料库，通过语料自动选择制作无调音节覆盖率达78％、二音子覆盖率达93.3％的音素平衡语料集；采集音频、彩***、深度图像、3D信息的多模态数据；对采集的多模态数据进行数据预处理并提取多模态特征，建立融合深度信息的汉语多模态语料库并进行多模态语音识别。本发明解决了国内对于多模态数据库研究方面存在着词汇量单一、音视频质量差等问题，解决传统二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响。

Description

一种融合深度信息汉语多模态语料库的语音识别方法

技术领域

本发明涉及多模态数据库建立领域，涉及一种融合深度信息的汉语多模态语料库建立、融合深度信息的特征提取，尤其涉及一种基于多模态数据库的语音识别方法。

背景技术

双模态数据库同时包含了视觉信号和声学信号，声学信号的结构简单，其规模仅取决于采样率与发音总时长；视觉信息相对比较复杂，它的评价标准往往在于图像的清晰度以及帧速率。其中，语料库的设计目的决定了说话者的数量和数据库中语料集的选取。

标准的视听双模态数据库是开展双模态语音识别技术研究的必备数据基础，然而，相较于国外多样的视听语料库，国内对双模态语料库的研究还远远不够，已经公开的汉语双模态语料库存在着词汇量单一、音视频质量差等问题，并且中文的多模态语料库仍停留在由音频和彩***组成的双模态数据集上，而二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响。其次，国外的多模态语料库已应用于身份认证、人脸识别等多方面的研究，而中文的多模态语料库仅限于视听语音识别的研究。

在唇动特征提取方法研究的历程中，基于二维图像信息的唇动特征提取方法与融合了深度信息的唇动特征提取方法是目前最主流的两种方法。其中基于二维图像信息的唇动特征提取方法包括基于像素的特征提取方法和基于模型的特征提取方法。基于像素的特征提取方法既可以在整个唇区的灰度图像上直接进行唇动特征提取，也可以通过压缩唇区图像，并针对处理后的图像进行一些变换，如离散小波变换、离散余弦变换、线性判别分析以及主成分分析等，从而生成唇部区域的特征向量。基于模型的特征提取方法，主要包括几何特征法和参数曲线法。几何特征法将口型张开的高度、宽度、周长、面积以及关键坐标点之间的距离作为唇部区域特征。

上述基于二维图像的特征提取方法在一定程度上极易受到光照、说话者头部旋转、遮挡等因素的影响。对于人们说话方式的巨大差异，传统的特征提取方法无法作为一种通用的方法来全面而有效地表征唇动信息。

语音识别是一个识别***的核心阶段，以前的语音识别因运用模型不同大体分为四类方法：模板匹配、动态时间规划(DTW)、隐马尔科夫(HMM)、人工神经网络(ANN)。在近些年，深度学习受到了人们的广泛关注，它利用标准正脸的图像数据显著提高了多模态语音识别***的性能。基于卷积神经网络(CNN)和长短时记忆网络(LSTM)的网络模型也实现了多模态的语音识别***。

发明内容

本发明提供了一种融合深度信息汉语多模态语料库的语音识别方法，本发明解决了国内对于多模态数据库研究方面存在着词汇量单一、音视频质量差等问题，解决传统二维图像的质量极易受到光照、说话者头部旋转、遮挡等因素的影响，详见下文描述：

一种融合深度信息汉语多模态语料库的语音识别方法，所述方法包括以下步骤：

将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器构建多模态数据同步采集***，所述***用于获取说话人的彩色图像和深度图像；

采集小规模语料库，通过语料自动选择制作无调音节覆盖率达78％、二音子覆盖率达93.3％的音素平衡语料集；采集音频、彩***、深度图像、3D信息的多模态数据；

对采集的多模态数据进行数据预处理并提取多模态特征，建立融合深度信息的汉语多模态语料库并进行多模态语音识别。

所述多模态数据同步采集***包括：麦克风阵列、彩色摄像头、红外投影机、红外摄像头以及USB总线组件。

进一步地，所述数据预处理包括：数据分割、语音标注、数据库存储；

数据分割：经数据采集***捕捉到的音频文件、彩色图像、深度图像、3D数据点均附带有数据采集时的精确到毫秒级的时间戳，分别将合并之后的彩色图像序列、深度图像序列及深度数据按照每句音频的记录时间切分成相应的句子级别集合，实现多模态数据的同步化；

语音标注：采用语音标签强制对齐工具对语音进行音素级别的自动标注。

其中，所述提取多模态特征具体为：彩色图像特征提取和深度信息特征提取；

采用Dlib机器学习库中经过训练的人脸关键点检测器和人脸识别模型，得到人脸面部特征点；

建立多模态语料库并进行基于HTK工具箱的多模态语音识别实验。

本发明提供的技术方案的有益效果是：

1、本发明利用基于Kinect多元传感器开发的多模态数据同步采集***，预采集了融合深度信息的小型多模态语料库，并以该语料库为数据基础，进行了二维图像特征的提取方法研究、基于深度信息的唇区特征提取方法研究、基于HTK工具箱的多模态语音识别实验，为基于该数据库的多模态语音识别研究提供基准实验；

2、本发明设计了音素平衡的中文语料集，在专业的录音室环境下，采集了69个人，总共10074句音素平衡语料的多模态数据，建立了首个整合了深度信息的中文多模态语料库，为更多研究学者从事中文多模态语音识别研究提供了数据基础；

3、本发明分析了不同声学环境下语音识别的效果，本文对音频加入了信噪比分别为-5dB、0dB、5dB、10dB、15dB、20dB的气泡噪音，图3为不同信噪比的音频在各声学模型下字级别语音识别准确率的统计详情。由图3中数据可知，一方面，随着信噪比的不断减小，语音识别的准确率不断下降，当信噪比小于零时，语音识别的效果非常糟糕。另一方面，声学模型的设计对语音识别的结果也具有极为重要的关系，三音子声学模型相较于单音子声学模型能够更好地表征语音流中的语音现象，DNN-HMM声学模型不仅加快了模型训练的速度，更提升了模型训练的准确率，由此可见，深度神经网络对语音识别的发展具有里程碑式意义。

附图说明

图1为一种融合深度信息汉语多模态语料库的语音识别方法的流程图；

图2为数据采集的示意图；

图3为不同信噪比音频的语音识别准确率的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种融合深度信息汉语多模态语料库建立的语音识别方法，参见图1，该方法包括以下步骤：

101：将深度信息融入双模态语料库中利用微软第二代Kinect多元传感器开发出一套多模态数据同步采集***，Kinect多元传感器主要包括了五个关键部分：麦克风阵列、彩色摄像头、红外投影机、红外摄像头以及USB总线组件，通过数据同步采集***，来获得说话人的彩色图像和深度图像；

102：预先采集小规模语料库，通过在该语料库的基础上进行多模态实验证明，深度信息对于语音识别有很大的帮助；

103：设计语料自动选择算法，制作无调音节覆盖率达78％、二音子覆盖率达93.3％的音素平衡语料集；

104：在专业的录音场景下，如图2所示，采集69位说话人包含：音频、彩***、深度图像、3D信息的多模态数据；

105：建立总时长达22.4小时、总存储空间为6TB的融合了深度信息的汉语多模态语料库进行语音识别。

在一个实施例中，步骤101利用Kinect多元传感器获取深度图像开发出一套多模态数据同步采集***，如下：

其中，微软Kinect多元传感器的重要研究领域为计算机视觉相关内容，其中，深度信息是此研究的关键所在。第一代Kinect传感器中运用了结构光法技术获取场景中的深度信息，而第二代Kinect传感器中的深度摄像头则实现的是完全不同的飞行时间法算法，接着进行人脸特征模型重建，利用目前最先进的脸部追踪库HD Face，它不仅可以根据彩色图像和深度图像在短时间内迅速检测到人脸，而且能通过预先定义的1347个人脸面部特征点云实时建立人脸三维网格模型。

在一个实施例中，步骤102在步骤101的基础上预先采集了小规模语料库，具体步骤如下：

用一款微软Kinect v2传感器设备和一台台式机共同搭建了一个简易的数据采集环境，语料集为100句由从一到十的数字组成的不重复的数字串序列，选取了两位发音流畅、不带口音的志愿者(1女1男)，要求每人按照正常语速发音一遍语料集，即最终采集到的数据库中包含两位话者各100句文本发音时的多模态数据。通过在该语料库的基础上进行的多模态实验证明，深度信息对于语音识别有很大的帮助。

在一个实施例中，步骤103设计了语料自动选择算法，制作了无调音节覆盖率达78％、二音子覆盖率达93.3％的音素平衡语料集，具体步骤如下：

语料是语音识别训练的数据基础，它的选择对于模型训练具有非常关键的作用，并且根据语音任务的差异性，语料库的设计原则也略有不同，而汉字以音节为单位，每个音节都由声母和韵母组成，造成了和其他西方语言的不同。

根据语料设计的基本知识，本发明实施例设计了一种适用于汉语连续语音识别***的语料自主选择算法，该算法综合考虑了语料集对音节、声调、双音子模型和三音子模型的覆盖率，并根据评估函数利用贪婪思想筛选满足条件的语料文本，最终设计的语料集均匀覆盖了78％无调音节及93.3％二音子，以相对较少的文本覆盖了绝大部分语音现象。

在一个实施例中，步骤104进行数据采集，具体步骤如下：

该数据库是在天津大学的专业录音室中由69位天津大学在读研究生参与录制的，数据采集所使用的设备包括一个索尼录音笔和一台第二代微软Kinect多元传感器。

在一个实施例中，步骤105最终进行数据库的建立，具体步骤如下：

通过对采集的数据进行数据预处理包括：数据分割、语音标注、数据库存储。

数据分割：经数据采集***捕捉到的音频文件、彩色图像、深度图像、3D数据点均附带有数据采集时的精确到毫秒级的时间戳，名称以“audio”开头的RAW文件表示音频文件，以“color”开头的PNG文件表示彩色图像格式，以“depth”开头的PNG文件表示深度图像文件，以“depth”开头的CSV格式文件表示Kinect深度摄像头捕捉到的深度数据点，以“facePoints”开头的CSV文件表示Kinect生成的三维人脸几何模型。根据多模态数据存储文件上的时间戳标志以及多通道数据的对应的帧速率，人们可以很方便地设计程序分别将合并之后的彩色图像序列、深度图像序列及深度数据按照每句音频的记录时间切分成相应的句子级别集合，实现多模态数据的同步化。

语音标注：本方法采用宾夕法尼亚大学语音标签强制对齐工具(Penn PhoneticsLab Forced Aligner,P2FA)对语音进行音素级别的自动标注。

接着进行多模态特征提取，包括：彩色图像特征提取和深度信息特征提取。本方法采用Dlib机器学习库中经过训练的人脸关键点检测器和人脸识别模型，得到人脸面部68个特征点，其中，唇区由20个特征点表示。最终建立了多模态语料库并进行基于HTK工具箱的多模态语音识别实验，为基于该数据库的多模态语音识别研究提供基准实验。

实施例2

下面结合具体的实例、公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用Kinect多元传感器获取深度图像开发出一套多模态数据同步采集***；

其中，第二代Kinect多元传感器的结构组成，它主要包括了如下五个关键部分：麦克风阵列、彩色摄像头、红外投影机、红外摄像头、USB总线组件。Kinect传感器最多支持6个人体，又增加了颈部、(左、右)指尖、(左、右)大拇指关节点，能够采集到25个关节点，成功解锁了更复杂、更细微的姿势动作。

202：运用多模态数据同步采集***预先采集小规模语料库；

203：设计了语料自动选择算法；

在选择语料之前，需要预先定义与评价参数一致的表格：

1、(有调和无调)音节统计表，用来存储原始语料中全部的音节与该音节在已选语料集里发生的频次；

2、二音子统计表，用来存储原始语料中涵盖的全部二音子与它们在已选语料集里发生的频次；

3、三音子统计表，用来存储原始语料中包含的全部三音子与它们在已选语料集里发生的频次；

4、声调组合表，用来存储原始语料中涵盖的全部声调组合与它们在已选语料集里发生的频次。

根据语料分析得到的八层结构，对文本进行评分的计算过程如下所示：

记syScore表示文本中音节的得分，ESY为预先定义的音节占有的权重，遍历文本中的音节，如果文本中某音节在音节统计表中对应的频次为零，说明该音节在已选语料中尚未出现过，则赋予该文本更大的音节得分：syScore+＝ESY (1)

否则，赋予该文本相对较小的音节得分，假设该音节在音节统计表中对应的频次为count，表明在已选语料中该音节已经出现了count次，则：

syScore+＝1/(count+1)² (2)

二音子、三音子及声调组合的评分过程与之类似，分别记作bipScore、tripScore和toneScore，则该文本的总得分可由下式计算得到。

score＝syScore+bipScore+tripScore+toneScore (3)

其中，score表示该文本的总得分。比较所有文本的得分，利用贪婪算法选取分值最大的文本加入到已选语料库。更新音节统计表、二音子统计表、三音子统计表及声调组合表，重复执行上述操作，直至成功选取适合实验目的且音子覆盖率高的语料。

204：未经筛选的原始语料文本的二音子和无调音节的覆盖率分别高达87.6％、92％，随着语料规模的减少，所选语料对无调音节和二音子的覆盖率也在逐级减少，并且二音子的覆盖率变化程度明显小于无调音节的覆盖率变化程度。

本发明实施例运用语料自动选择算法，最终制作了无调音节覆盖率达78％、二音子覆盖率达93.3％的音素平衡语料集。

205：进行大规模多模态数据采集；

206：对采集的数据进行数据预处理包括：数据分割、语音标注、数据库存储，接着进行多模态特征提取，包括：彩色图像特征提取和深度信息特征提取，最终建立了总时长达22.4小时、总存储空间为6TB的融合了深度信息的汉语多模态语料库，并进行基于HTK工具箱的多模态语音识别实验。

实施例3

下面结合具体的实例、计算公式对实施例1和2中的方案进行进一步地介绍，详见下文描述：

在人们录制数据的过程中，难免会有头部倾斜、旋转的无意识动作，而Kinect传感器通过内置的SDK实时生成的三维网格模型恰恰可以方便本发明调整人脸模型，规避了人脸偏移而造成的信息丢失及信息错误。根据Kinect立体空间坐标系，可以将头部转动分为在XZ平面上的左右旋转、在XY平面上的水平偏移，在YZ平面上的上下旋转。

下面本发明实施例将以调整绕着Y轴左右旋转的人脸模型为例，介绍对深度信息的预处理步骤：

本发明实施例以左、右嘴角的中心点为原点，对人脸模型中的1,347个深度特征点做某种线性变换，使得左、右嘴角在Z轴方向上取得相同值，即规整后的左、右嘴角保持在同一深度距离。图中的L和R分别表示原始人脸模型中的左、右嘴角，newL、newR分别表示规整化后的左、右嘴角，w标志嘴角左右旋转的角度，l表示左右嘴角连线的长度，则：

L＝[xl,yl,zl] (4)

R＝[xr,yr,zr] (5)

newL＝[newxl,newyl,newzl] (6)

newR＝[newxr,newyr,newzr] (7)

w＝tan^-1((zr-zl)/xr-xl) (8)

假设M表示一个3行3列的变换矩阵，为了将人脸模型绕Y轴旋转至正对Kinect摄像头的位置，则应满足以下条件：

|newxr-newxl|＝l (10) newyr＝yr (11)

newyl＝yl (12) newzr＝newzl (13)

经过计算，可得变换矩阵M为：

即：

newR＝M·R (15)

newL＝M·L (16)

同理，对三维人脸模型分别进行绕Z轴与绕X轴的旋转之后就可以将偏移的深度点云规整到与摄像头平面水平的位置。

如此基于预先采集语料库设计的多模态孤立词语音识别实验结果可以看出，基于深度信息的单模态语音识别结果与基于二维图像的单模态语音识别结果非常接近，识别率分别为72.27％和69.91％。而多模态孤立词语音识别实验结果的识别率则达到了93.68％。第二代Kinect传感器采集到的深度信息识别率更高，意味着具有更全面的人脸特征信息。基于微软Kinect多元传感器设计的多模态数据采集***对多模态语音识别研究的推进有很大作用及价值。

为了分析不同声学环境下语音识别的效果，本发明实施例对音频加入了信噪比分别为-5dB、0dB、5dB、10dB、15dB、20dB的气泡噪音，图2为不同信噪比的音频在各声学模型下字级别语音识别准确率的统计详情。由图中数据可知，一方面，随着信噪比的不断减小，语音识别的准确率不断下降，当信噪比小于零时，语音识别的效果非常糟糕。另一方面，声学模型的设计对语音识别的结果也具有极为重要的关系，三音子声学模型相较于单音子声学模型能够更好地表征语音流中的语音现象，DNN-HMM声学模型不仅加快了模型训练的速度，更提升了模型训练的准确率，由此可见，深度神经网络对语音识别的发展具有里程碑式意义。

图3为不同维度下的唇部彩色图像特征与唇部深度特征与音频特征拼接之后的音视频语音识别效果统计图。图中的AV15表示纯净音频与15维唇部彩色图像特征融合后的音视频特征，ALip15表示纯净音频与15维唇部深度特征融合后的音视频特征，其余参数类似此种表达。注意，这里的音频特征均指13维MFCC特征。由图中数据可知，在GMM-HMM模型下，唇部深度特征比唇部彩色图像特征的语音识别效果略微好一点，32维唇部特征比15维唇部特征更好一点。在DNN-HMM模型下，效果相反，唇部彩色图像特征比唇部深度特征的语音识别效果略微好一点，15维唇部特征比32维唇部特征更好一点。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合深度信息汉语多模态语料库的语音识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种融合深度信息汉语多模态语料库的语音识别方法，其特征在于，

3.根据权利要求1所述的一种融合深度信息汉语多模态语料库的语音识别方法，其特征在于，所述数据预处理包括：数据分割、语音标注、数据库存储；

4.根据权利要求1所述的一种融合深度信息汉语多模态语料库的语音识别方法，其特征在于，所述提取多模态特征具体为：彩色图像特征提取和深度信息特征提取；