CN115731917A

CN115731917A - 语音数据处理方法、模型训练方法、装置及存储介质

Info

Publication number: CN115731917A
Application number: CN202111006259.3A
Authority: CN
Inventors: 李振阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-03-03

Abstract

本申请公开了一种语音数据处理方法、模型训练方法、装置及存储介质,通过融合了语音数据中的音素特征和视频图像数据中的视觉特征进行语音识别，视觉特征模态的融合丰富了用于进行语音识别的特征，能有效提高语音识别的准确性，另外，本申请不仅对每个视频帧和音频帧进行提取，而且对第一音素特征信息和第一视觉特征信息分别通过第一全连接层和第二全连接层进行特征分类后再融合拼接，使语音数据中的音素特征信息和视频数据中的视觉特征能够更加充分地融合，进一步提高了语音识别的准确性。本申请实施例提供的语音数据处理方法、模型训练方法、装置及存储介质可以应用于视频播放、直播、视像会议、云技术、人工智能、智慧交通、车联网等各种场景。

Description

语音数据处理方法、模型训练方法、装置及存储介质

技术领域

本申请涉及音频技术，尤其是一种语音数据处理方法、模型训练方法、装置及存储介质。

背景技术是

语音交互是人们沟通过程中十分重要的沟通交流方式，语音内容包含了人与人沟通过程中大量的信息，因此如何对语音中的语音内容准确地进行提取一直属于热门的研究领域。随着人工智能神经网络和机器学习算法的发展，语音识别中逐渐采用基于深度学习的声学模型。语音识别技术近年来取得了显著的进步，在工业、通信、医疗等领域都有广泛应用。然而，目前的语音识别技术仍然存在识别准确率低的问题。

发明内容

为解决上述技术问题的至少之一，本申请提供了一种语音数据处理方法、模型训练方法、文本信息抽取装置、模型训练装置及计算机可读存储介质，能够提高语音识别的准确性。

根据本申请的第一方面，提供了一种语音数据处理方法，包括以下步骤：

获取发声对象的语音数据和视频图像数据，其中，语音数据包括多个音频帧，视频图像数据包括多个图像帧；

对语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第一音素特征信息；

将第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息；

对视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第一视觉特征信息；

将第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息；

将第二音素特征信息和第二视觉特征信息进行拼接，得到融合特征信息；

对融合特征信息进行语音识别，得到与语音数据对应的语音内容信息。

根据本申请的第二方面，提供了一种模型训练方法，包括以下步骤：

获取发声对象的训练语音数据、训练视频图像数据以及训练语音数据的目标语音内容信息，其中，训练语音数据包括多个音频帧，训练视频图像数据包括多个图像帧；

对训练语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第三音素特征信息；

将第三音素特征信息输入至第一全连接层进行特征分类，得到第四音素特征信息；

对训练视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第三视觉特征信息；

将第三视觉特征信息输入至第二全连接层进行特征分类，得到第四视觉特征信息；

将第四音素特征信息和第四视觉特征信息进行拼接，得到训练融合特征信息；

对训练融合特征信息进行语音识别，得到与训练语音数据对应的预测语音内容信息；

根据预测语音内容信息和目标语音内容信息，对模型的参数进行修正。

根据本申请的第三方面，提供了一种语音数据处理装置，包括：

获取单元，用于获取发声对象的语音数据和视频图像数据，其中，语音数据包括多个音频帧，视频图像数据包括多个图像帧；

音素特征提取单元，用于对语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第一音素特征信息；

第一处理单元，用于将第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息；

视觉特征提取单元，用于对视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第一视觉特征信息；

第二处理单元，用于将第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息；

融合单元，用于将第二音素特征信息和第二视觉特征信息进行拼接，得到融合特征信息；

语音识别单元，用于对融合特征信息进行语音识别，得到与语音数据对应的语音内容信息。

进一步，语音数据处理装置还包括：

图像分帧单元，用于对视频图像数据进行分帧处理，得到多个图像帧；

语音分帧单元，用于对语音数据进行分帧处理，得到多个音频帧。

进一步，音素特征提取单元还用于：根据语音数据的分帧顺序，对多个语音音素特征依次进行拼接，得到第一音素特征信息；

音素特征提取单元还用于：根据视频图像数据的分帧顺序，对多个视觉特征依次进行拼接，得到第一视觉特征信息；

视觉特征提取单元还用于：根据视频图像数据的分帧顺序，对多个视觉特征依次进行拼接，得到第一视觉特征信息。

进一步，获取单元还用于：获取发声对象的视频数据，对视频数据进行分离，得到发声对象的语音数据和原始视频图像数据，提取原始视频图像数据中发声对象的唇部动作视频图像，得到视频图像数据；

或者，获取发声对象的视频数据，在视频数据中分离出原始视频图像数据，提取原始视频图像数据中发声对象的唇部动作视频图像，得到视频图像数据，并在视频数据中提取出与视频图像数据在时序上对应的语音数据。

进一步，音素特征提取单元还用于：将语音数据中的各个音频帧输入至声学神经网络中，得到各个音频帧的语音音素特征。

进一步，视觉特征提取单元还用于：将视频图像数据中的各个图像帧输入至视频特征提取网络中进行视觉特征提取，得到各个图像帧的视觉特征。

进一步，语音识别单元还用于，将融合特征信息输入至第三全连接层进行特征分类，得到语音分类特征；将语音分类特征输入至归一化层进行归一化处理，得到与语音数据对应的语音内容信息。

根据本申请的第四方面，提供了一种模型训练装置，包括：

训练数据提取单元，用于获取发声对象的训练语音数据、训练视频图像数据以及训练语音数据的目标语音内容信息，其中，训练语音数据包括多个音频帧，训练视频图像数据包括多个图像帧；

音素训练特征提取单元，用于对训练语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第三音素特征信息；

第三处理单元，用于将第三音素特征信息输入至第一全连接层进行特征分类，得到第四音素特征信息；

视觉训练特征提取单元，用于对训练视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第三视觉特征信息；

第四处理单元，用于将第三视觉特征信息输入至第二全连接层进行特征分类，得到第四视觉特征信息；

训练特征融合单元，用于将第四音素特征信息和第四视觉特征信息进行拼接，得到训练融合特征信息；

语音训练数据识别单元，用于对训练融合特征信息进行语音识别，得到与训练语音数据对应的预测语音内容信息；

修正单元，用于根据预测语音内容信息和目标语音内容信息，对模型的参数进行修正。

进一步，训练数据提取单元还用于：获取发声对象的训练视频数据和训练视频数据对应的目标语音内容信息，对训练视频数据进行分离，得到发声对象的训练语音数据和原始训练视频图像数据，提取原始训练视频图像数据中发声对象的唇部动作视频图像，得到训练视频图像数据；

或者，获取发声对象的训练视频数据和训练视频数据对应的目标语音内容信息，在训练视频数据中分离出原始训练视频图像数据，提取原始训练视频图像数据中发声对象的唇部动作视频图像，得到训练视频图像数据，并在训练视频数据中提取出与训练视频图像数据在时序上对应的训练语音数据。

进一步，音素训练特征提取单元还用于：将训练语音数据中的各个音频帧输入至声学神经网络中，得到各个音频帧的语音音素特征；模型的参数包括声学神经网络的参数；修正单元还用于：根据预测语音内容信息和目标语音内容信息，对视频特征提取网络的参数进行修正。

进一步，视觉训练特征提取单元还用于：将训练视频图像数据中的各个图像帧输入至视频特征提取网络中进行视觉特征提取，得到各个图像帧中的视觉特征；模型的参数包括视频特征提取网络的参数；修正单元还用于：根据预测语音内容信息和目标语音内容信息，对视频特征提取网络的参数进行修正。

进一步，语音训练数据识别单元还用于：将训练融合特征信息输入至第三全连接层进行特征分类，得到语音分类特征；将语音分类特征输入至归一化层，得到与语音数据对应的预测语音内容信息；

模型的参数包括第一全连接层的参数、第二全连接层的参数和第三全连接层的参数；修正单元还用于：根据预测语音内容信息和目标语音内容信息，对第一全连接层的参数、第二全连接层的参数和第三全连接层的参数进行修正。

根据本申请的第五方面，提供一种语音数据处理装置，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载程序以执行本申请第一方面的语音数据处理方法或者执行本申请第二方面的模型训练方法。

根据本申请的第六方面，提供一种计算机可读存储介质，存储有计算机可执行指令，其特征在于：计算机可执行指令用于执行本申请第一方面的语音数据处理方法或者执行本申请第二方面的模型训练方法。

根据本申请的第七方面，一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现本申请第一方面的语音数据处理方法或者实现本申请第二方面的模型训练方法。

根据本申请的第八方面，提供一种计算机程序，包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请第一方面的语音数据处理方法或者执行本申请第二方面的模型训练方法。

本申请实施例至少包括以下有益效果：通过获取发声对象的语音数据和视频图像数据，提取语音数据中各个音频帧的语音音素特征，并将各个语音音素特征进行拼接得到第一音素特征信息，通过第一全连接层对第一音素特征信息进行特征分类，得到第二音素特征信息，其中第二音素特征信息包含了语音数据中各个音频帧的语音音素特征，通过提取视频图像数据中各个图像帧的视觉特征，并将各个视觉特征进行拼接得到第一视觉特征信息，通过第二全连接层对第一视觉特征信息进行特征分类，得到第二视觉特征信息，将第二音素特征信息和第二视觉特征信息进行拼接，得到融合特征信息，最后对融合特征信息进行语音识别，得到语音内容信息，本申请实施例融合了语音数据中的音素特征和视频图像数据中的视觉特征进行语音识别，视觉特征模态的融合丰富了用于进行语音识别的特征，能有效提高语音识别的准确性，另外，本申请不仅对每个视频帧和音频帧进行提取，而且对第一音素特征信息和第一视觉特征信息分别通过第一全连接层和第二全连接层进行特征分类后再融合拼接，使语音数据中的音素特征信息和视频数据中的视觉特征能够更加充分地融合，进一步提高了语音识别的准确性。

附图说明

图1是本申请实施例中语音数据处理方法、模型训练方法的***架构图；

图2是本申请一个实施例提供的语音数据处理方法流程图；

图3是本申请一个实施例提供的图像帧序列的结构示意图；

图4是本申请一个实施例提供的原始语音时域信号示意图；

图5是步骤210的具体方法流程图；

图6是本申请一个实施例对视频图像数据进行分帧处理的示意图；

图7是步骤270的具体方法流程图；

图8是本申请一个实施例提供的第三全连接层的结构示意图；

图9是本申请一个实施例提供的视频语音识别模型架构图；

图10是本申请一个实施例提供的模型训练方法的流程图；

图11是本申请一个实施例提供的语音数据处理装置的结构图；

图12是本申请一个实施例提供的模型训练装置的结构图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)视频数据，视频数据是连续变化的影像，视频通常是指实际场景的动态演示，例如电影，电视摄像资料，录像或直播影像等。视频数据带有视频图像数据和同期的音频数据。若该视频数据呈现的是发声对象的语音视频，则包括发声对象在说话过程中的语音数据和视频图像数据，其中视频图像数据可以包含发声对象的面部动作图像。

2)语音，指语言的物质外壳，是语言的外部形式，是最直接地记录人的思维活动的符号体系。它是人的发音器官发出的具有一定社会意义的声音。

3)语音数据，语音数据为将语音数据化后的产物，其中语音数据根据记录载体的不同可以划分为模拟语音数据和数字语音数据；模拟音频是声音拾取处理后以磁记录或机械刻度的方式记录下来，此时磁带上剩磁的变化或密纹，唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的；数字音频是首先将音频文件转化，接着再将这些电平信号转化成二进制数据保存或进一步进行处理，这样在播放的时候可以把这些数据转换为模拟的电平信号再送到喇叭播出。除非另有说明外，本申请实施例中的语音数据指的数字语音数据。

4)帧序列，表示一连串具有先后顺序关系的数据的排列，其中每帧代表一个最小单位的数据，例如一个音频帧表示单位长度的音频数据，图像帧代表一幅图像数据，由于视频图像数据包括多个连续的图像帧，因此视频图像数据又可以看作是视频图像帧序列，同理，音频数据例如语音数据可以看作是语音帧序列。

5)音素，是根据语音的自然属性划分出来的最小语音单位或最小的语音片段，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等。用国际音标标注语音的方法称作标音法，有宽式和严式两种。国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”“万国语音学字母”)的音标符号与全人类语言的音素一一对应。

6)视觉特征，视觉特征指图像中能被计算机所识别或区分的特征，换句话说，计算机能够从图像数据中提取视觉特征，例如图像中的颜色、纹理、形状、结构等视觉特征。

7)全连接层(Full-connected layer，FC层)，全连接层可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，例如可以均设置为512个，或者，也可以均设置为128个等。

8)深度残差网络(Deep residual network,ResNet)，ResNet是一些列残差网络模块堆叠得到的网络结构，ResNet模型的核心是通过建立前面层与后面层之间的“短路连接”(shortcuts，skip connection)，这有助于训练过程中梯度的反向传播，从而能训练出更深的CNN网络，ResNet随着网络深度的增加训练误差会一直减小。使用ResNet这种结构可以避免出现模型性能退化问题。ResNet的隐藏层数量可以根据需求而设定，例如ResNet-101 表示包含101个隐藏层的深度残差网络。

9)循环神经网络(Recurrent Neural Network，RNN)，RNN是一类以序列(sequence) 数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

10)序列短时分类网络(Connectionist Temporal Classification，CTC)，CTC网络可以理解为基于神经网络的时序类分类，CTC的网络只需要一个输入序列和一个输出序列即可以训练，不需要对数据对齐和一一标注，所以能够解决训练时字符无法对齐的问题。

本申请实施例所提供的语音数据处理方法和模型训练方法均可以应用于人工智能之中。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

需要说明的是，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

另外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等；随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。在本发明实施例中，将对人工智能在音频技术领域，特别是语音识别的应用进行说明。

语音识别的研究起源于上世纪50年代，早期的语音识别***是简单的孤立词识别***，上世纪70年代，计算机性能的大幅度提升，以及模式识别基础研究的发展，例如码本生成算法(LBG)和线性预测编码(LPC)的出现，促进了语音识别的发展，上世纪80年代是语音识别快速发展的时期，此时语音识别开始从孤立词识别***向大词汇量连续语音识别***发展。随着人工智能神经网络和机器学习算法的发展，掀起了深度学习的热潮，而语音识别领域也逐渐采用基于深度学习的声学模型，而且近年来取得了显著的进步，在工业、通信、医疗等领域都有广泛应用。在相关技术中对发声对象的语音进行识别的技术中，大多数是单纯对音频帧进行语音特征信息提取，再基于所提取的语音特征信息进行语音识别并转化为语音文本。为了提高语音识别的准确率，目前主要的研究方向主要是如何对模型、算法进行优化。然而在此类方法中，仅仅使用发声对象的语音模态信息进行语音识别，并未考虑发声对象的图像模态信息(例如发声对象的唇部运动图像特征)，由于视频图像数据中也包含了发声对象的唇部运动特征，这属于对于语音识别有较大帮助的重要信息，有利于增强语音识别的准确性。

基于此，本发明实施例提供了一种语音数据处理方法、模型训练方法、装置及存储介质，能搞提高语音识别的准确性。

下面结合附图，对本申请的具体实施方式进行说明，本发明实施例通过视频语音识别模型对发声对象的视频数据进行识别处理，具体采用下文提及的语音数据处理方法，得到发声对象的语音内容信息。当然，在使用视频语音识别模型进行语音识别之前，要预先对视频语音识别模型进行训练。本申请实施例中，通过视频语音识别模型训练***对视频语音识别模型进行训练，具体采用的是下文提及的模型训练方法。

参照图1所示,是本发明实施例提供的语音数据处理方法的使用场景示意图,***架构可以包括终端101、服务器102和网络103。网络103用于在终端101和服务器102之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

参照图1所示，本申请实施例提供一种语音数据处理方法，用于对发声对象的视频数据进行语音识别处理，以得到对应的语音内容信息，语音数据处理方法可以应用于终端101中，也可应用于服务器102中，还可以是运行于终端或服务器中的软件。

在一些实施例中，由终端101执行语音数据处理方法，终端101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居设备等等，终端101也可以为需要应用到语音识别的现场环境设备，例如教学***终端、门禁***终端、直播***终端、会议***终端或视频播放***终端。终端101存储了用于执行语音数据处理方法的算法或者模型。

在另一些实施例中，由服务器102执行语音数据处理方法，服务器102可以是提供各种服务的服务器，例如对用户利用终端101所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端。其中服务器102可以是一个实体的服务器，还可以为多个服务器组成(例如分布式服务器)，根据实际需要，可以具有任意数目的终端设备、网络和服务器。另外，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。

在另一些实施例中，可以由服务器102配合终端101执行语音数据处理方法，其中终端 101用于获取发声对象的语音数据和视频图像数据，服务器102与终端101通信连接，用于接收终端101发送的语音数据和视频图像数据。其中服务器102存储有用于执行语音数据处理方法的算法或者模型。服务器102对终端101发送的语音数据和视频图像数据执行语音数据处理方法，得到对应的语音内容信息，并将语音内容信息反馈至终端101中。

参照图2所示，为本申请实施例提供的语音数据处理方法，包括以下步骤：

步骤210,获取发声对象的语音数据和视频图像数据，其中，语音数据包括多个音频帧，视频图像数据包括多个图像帧。

在本步骤中，发声对象为可以发出语音的对象，一实施例中，发声对象可以是用户本身，例如用户说话时发出的语音信号被拾音设备(例如终端101的麦克风)采集生成语音数据，用户说话时的画面被视频录制设备(例如终端101的摄像头)采集生成视频图像数据，其中语音数据和视频图像数据在用户说话过程中被同时采集。另一实施例中，发声对象可以是预先录制并存储视频中的说话对象，例如是教学视频中正在授课的老师。另一实施例中，发声对象也可以是直播或者网络会议中的说话对象。另一实施例中，发声对象可以是使用语音输入的用户，例如可以是通过说话向导航***输入语音指令的用户或者使用云技术智能语音助手的用户。另一实施例中，发声对象可以是模拟用户发出声音的对象，例如模拟人类说话的机器人、人工智能合成的具有真人形象的虚拟对象等。

获取的视频图像数据和语音数据均由多个数据帧构成。视频图像数据表示为图像帧序列 Vd＝{vd_1，vd_2，...，vd_N}，图像帧序列Vd包括多个图像帧vd_i，其中i为自然数。每个图像帧表示一个图像，该图像可以是发声对象的说话图像，例如是发声对象在说话时的面部图像，局部面部图像或肢体图像等。参见图3所示，为一个实施提供的图像帧序列示意图，每行图像帧序列表示一个发声对象，例如图3所示的发声对象(a)，发声对象(b)，发声对象(c)和发声对象(d)，同一发声对象的不同列的图案表示该发声对象在说话时的唇部动作，各个图像帧表示用户在说话时不同时刻对应的唇部动作图像，即每个图像帧序列表示用户说话时的唇部动作视频图像数据。语音数据表示为语音帧序列Vo＝{vo_1，vo_2，...，vo_N}，语音帧序列Vi包括多个音频帧vo_i，其中i为自然数。参见图4所示，为上述发声对象(a)的图像帧序列对应的原始语音时域信号，为了实现准确的语音识别，需要语音帧序列与图像帧序列在时序上相对应，由于发声对象(a)的图像帧序包含4个图像帧，因此语音帧序列也包括为4个音频帧，可以通过对原始语音时域信号划分为4个语音片段，进一步进行数字编码形成与图像帧序列对应的语音帧序列。

一实施例中，语音数据和视频图像数据可以分别获取，例如语音数据和视频图像数据可以是分别存储的两个数据文件，为了提高语音识别的效果，可以对语音数据中的音频帧和视频图像数据中的图像帧进行帧对齐，使图像帧与音频帧相匹配对应。另一实施例中，语音数据和视频图像数据可以在同一个视频数据中分离得到，由于视频的音频和图像一般是同步的，因此分离得到的语音数据和视频图像数据的各个数据帧在时序上是对齐的。

步骤220,对所述语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第一音素特征信息。

本步骤中，语音数据的每个音频帧携带有对应语音片段的语音频谱数据，为了提取语音内容需要提取语音频谱数据中的语音音素特征，一实施例中，可以通过预设的语音音素特征提取算法进行提取，这里的音素特征提取算法可以采用MFCC(Mel-frequencyCepstrum Coefficients，梅尔频率倒谱系数)算法或者FBank(Mel-scale Filter Bank，梅尔标度滤波器组)算法，分别可对应提取语音数据的MFCC特征和FBank特征。另一实施例中，也可以通过预先训练的语音音素特征提取模型进行语音音素特征的提取。例如对于语音帧序列Vo＝ {vo_1，vo_2，...，vo_N}，通过语音音素特征提取算法或者语音音素特征提取模型对每个音频帧分别进行特征提取，得到语音音素特征序列Vo_v＝{vo_v_1，vo_v_2，...，vo_v_N}。其中每个音频帧对应的语音音素特征可以使用特征向量或特征矩阵的形式进行表示。

然后，对语音音素特征序列中的所有语音音素特征进行拼接(concat)，得到第一音素特征信息Vo_vec，其中，若语音音素特征使用特征向量表示，则各个语音音素特征拼接后形成一个特征向量，若语音音素特征使用特征矩阵的形式进行表示，则各个语音音素特征拼接后形成一个新的特征矩阵。

步骤230,将第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息。本步骤中，第一全连接层为预先训练好的分类模型，起到分类器的作用，通过将第一音素特征Vo_vec输入至第一全连接层进行特征分类，可以将第一音素特征Vo_vec映射为一维 M列的第二音素特征信息，该第二音素特征信息包含了语音数据中所有音频帧的语音特征信息。

步骤240,对所述视频图像数据中的各个所述图像帧进行视觉特征提取，得到多个视觉特征，对多个所述视觉特征进行拼接，得到第一视觉特征信息。

本步骤中，视频图像数据的每个图像帧携带有对应视频图像片段的图像数据，为了提高语音识别的准确性，需要提取图像数据中的视觉特征，一实施例中，可以通过预设的视觉特征提取算法进行提取，这里的视觉特征提取算法可以采用SIFT(Scale-invariantfeature transform,尺度不变特征变换)、HOG(histogram of Oriented Gradient,方向梯度直方图)、 DOG(Difference of Gaussian,高斯函数差分)等。另一实施例中，也可以通过预先训练的视觉特征提取模型进行视觉特征的提取，例如预先训练完成的人脸识别模型、神经网络模型等。例如对于图像帧序列Vd＝{vd_1，vd_2，...，vd_N}，通过视觉特征提取算法或者视觉特征提取模型对每个图像帧分别进行特征提取，得到视觉特征序列Vd_v＝{vd_v_1，vd_v_2，...， vd_v_N}。其中每个图像帧对应的视觉特征可以使用特征向量或特征矩阵的形式进行表示。

然后，对视觉特征序列中的所有视觉特征进行拼接(concat)，得到第一视觉特征信息 Vd_vec，其中，若视觉特征使用特征向量表示，则各个视觉特征拼接后形成一个特征向量，若视觉特征使用特征矩阵的形式进行表示，则各个视觉特征拼接后形成一个新的特征矩阵。

步骤250,将所述第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息。

本步骤中，第二全连接层为预先训练好的分类模型，起到分类器的作用，通过将一视觉特征信息Vd_vec输入至第二全连接层进行特征分类，可以将一视觉特征信息Vd_vec映射为一维N列的第二视觉特征信息，该第二音素特征信息包含了图像数据中所有图像帧的视觉特征信息。

步骤260,将第二音素特征信息和第二视觉特征信息进行拼接，得到融合特征信息。

本步骤中，第二音素特征信息和第二视觉特征信息为同一特征类型的信息，例如第二音素特征信息和第二视觉特征信息均为特征向量，又或者第二音素特征信息和第二视觉特征信息均为特征矩阵。通过将第二音素特征信息和所述第二视觉特征信息进行拼接，得到融合特征信息V_vec，该融合特征信息V_vec既包含语音数据中所有音频帧的语音特征信息，又包含视频图像数据中所有图像帧的视觉特征信息。

步骤270,对融合特征信息进行语音识别，得到与语音数据对应的语音内容信息。

一实施例中，可以通过预先训练好的语音识别模型对融合特征信息V_vec进行语音识别，得到与语音数据对应的语音内容信息。其中语音内容信息可以是语音文本信息或者能够表达语音内容及其信息，例如语音数据的分类信息或标签信息又或者是便于人工智能(AI)理解语音内容的特征信息等。

本申请实施提供的技术方案，通过获取发声对象的语音数据和视频图像数据，提取语音数据中各个音频帧的语音音素特征，并将各个语音音素特征进行拼接得到第一音素特征信息，通过第一全连接层对第一音素特征信息进行特征分类，得到第二音素特征信息，其中第二音素特征信息包含了语音数据中各个音频帧的语音音素特征，通过提取视频图像数据中各个图像帧的视觉特征，并将各个视觉特征进行拼接得到第一视觉特征信息，通过第二全连接层对第一视觉特征信息进行特征分类，得到第二视觉特征信息，将第二音素特征信息和第二视觉特征信息进行拼接，得到融合特征信息，最后对融合特征信息进行语音识别，得到语音内容信息，本申请融合了语音数据中的音素特征和视频图像数据中的视觉特征进行语音识别，视觉特征模态的融合丰富了用于进行语音识别的特征，能有效提高语音识别的准确性，另外，本申请不仅对每个视频帧和音频帧进行提取，而且对第一音素特征信息和第一视觉特征信息分别通过第一全连接层和第二全连接层进行特征分类后再融合拼接，使语音数据中的音素特征信息和视频数据中的视觉特征能够更加充分地融合，进一步提高了语音识别的准确性。

本申请实施例中并非简单地对第一音素特征信息和第一视觉特征信息简单地拼接融合，而是分别经过第一全连接层和第二全连接层分类后再拼接融合，融合程度更高，如果只是简单地对第一音素特征信息和第一视觉特征信息拼接，只是简单地对各个数据帧进行拼接，由于音素特征和视觉特征是两种不同模态的特征，语音识别算法或语音识别模型无法识别不同类型的数据帧，容易导致识别失败，甚至会出现模型训练失败的问题。而本申请实施例相当于对各个数据中先进行了一次分类处理，得到分类结果后再进行特征融合，其融合程度更高更充分，使后面语音识别的准确率更高，模型的训练也更容易成功。

一实施例中，还可以根据所获取语音数据和视频图像数据特点对第一全连接层和第二全连接层的结构进行调节，使语音数据和视频图像数据能够更加充分地融合。例如，可以对第一全连接层和第二全连接层的神经元节点数量进行调节，进而对融合特征信息的融合程度进行调节，例如，若第一全连接层的神经元节点数量比第二全连接层更多，则表示融合特征信息中更加重视语音数据中的音素特征。一实施例中，第一全连接层和第二全连接层的神经元节点数量相同。另一实施例中，可以对第一全连接层和第二全连接层中神经元节点的权重进行限制或预设，使语音数据和视频图像数据能够更加充分地融合。本申请实施例中对第一全连接层和第二全连接层结构的调整也可以视为对第一音素特征信息、第一视觉特征信息的特征维度处理。一实施例中，还可以根据发声对象的不同对第一全连接层和第二全连接层的结构进行调节，例如针对成人和小孩可以设置不同的第一全连接层和第二全连接层结构。另一实施例中，也可以根据语音识别的使用场景对第一全连接层和第二全连接层的结构进行调节，例如对于直播、会议等不同场景可以设置不同的第一全连接层和第二全连接层的结构。

参照图5所示，一实施例中，所述步骤210获取发声对象的语音数据和视频图像数据之后，还包括以下步骤：

步骤510，对视频图像数据进行分帧处理，得到多个图像帧。

本步骤的一个实施例中，可以根据视频图像数据中自身的帧数将视频图像数据划分成多个图像帧，组成图像帧序列Vd＝{vd_1，vd_2，...，vd_N}，另一实施例中，可以根据预设的帧数对视频图像数据进行输出抽取，得到图像帧序列。例如，预设的帧数为视频图像数据自身帧数的一半，则可以每隔一帧抽取一个图像帧加入图像帧序列。同理，可以根据预设帧数与视频图像数据自身帧数的比例确定从视频图像数据中抽取图像帧的间隔。

步骤520，对语音数据进行分帧处理，得到多个音频帧。

本步骤的一个实施例中，可以根据语音数据中的自身的帧数将语音数据划分成多个音频帧，组成语音帧序列Vo＝{vo_1，vo_2，...，vo_N}。语音数据中的自身的帧数与对原始音频数据进行数字化处理的采样频率有关。另一实施例中，可以根据预设的帧数对语音数据进行输出抽取。例如，预设的帧数为语音数据自身帧数的一半，则可以每隔一帧抽取一个音频帧加入语音帧序列。同理，可以根据预设帧数与语音数据自身帧数的比例确定从语音数据中抽取音频帧的间隔。

另一实施例中，可以根据图像帧序列中图像帧的数量或者时序对语音数据进行分帧处理，得到多个音频帧。例如参见图6所示，通过上述步骤510，对视频图像数据进行分帧处理，得到图像帧序列Vd＝{vd_1，vd_2，vd_3，vd_4}，图6中还展示了对应图像帧序列的语音数据，根据图像帧序列Vd各个图像帧的时序关系，相应地对语音数据进行划分为4个音频帧 vo_1，vo_2，vo_3，vo_4，组成语音帧序列Vo＝{vo_1，vo_2，vo_3，vo_4}。

一实施例中，上述步骤220中的对多个语音音素特征进行拼接，得到第一音素特征信息，具体包括：

根据语音数据的分帧顺序，对多个语音音素特征依次进行拼接，得到第一音素特征信息。

本步骤中，依据语音帧序列的帧序(即语音数据的分帧顺序)对各个语音音素特征依次进行拼接，得到第一音素特征信息，例如对于Vo＝{vo_1，vo_2，...，vo_N}，则按照vo_1，vo_2，...，vo_N的顺序依次进行拼接，得到第一音素特征信息Vo_ve。由于语音识别除了音素本身外，音素的排列顺序也是重要的信息，因此依据语音数据的分帧顺序，对多个语音音素特征依次进行拼接，不会损失音素的次序关系，能提高语音识别的准确性。

一实施例中，上述步骤240中的对多个视觉特征进行拼接，得到第一视觉特征信息，具体包括：

根据视频图像数据的分帧顺序，对多个视觉特征依次进行拼接，得到第一视觉特征信息。

本步骤中，依据图像帧序列的帧序(即图像数据的分帧顺序)对各个视觉特征依次进行拼接，得到第一视觉特征信息，例如对于Vd＝{vd_1，vd_2，...，vd_N}，则按照vd_1，vd_2，...， vd_N的顺序依次进行拼接，得到第一音素特征信息Vd_ve。由于用户说话时的视觉特征除了各个图像帧的视觉信息外，图像帧的排列顺序也是重要的信息，因为这反映了用户说话时的动作，因此依据图像数据的分帧顺序，对多个视觉特征依次进行拼接，不会损失图像动作的次序关系，能提高语音识别的准确性。

一实施例中，上述步骤210具体包括：

获取发声对象的视频数据，对视频数据进行分离，得到发声对象的语音数据和原始视频图像数据，提取原始视频图像数据中发声对象的唇部动作视频图像，得到视频图像数据。

本步骤中，使用视频数据中的所有数据进行语音识别，其中首先对视频数据进行分离得到发声对象的语音数据和原始视频图像数据，其中，对原始视频图像数据进行处理，提取原始视频图像数据的唇部动作视频图像，一实施例中，可以采用人脸识别模型对发声对象的人脸特征进行识别，确定发声对象的唇部位置，对唇部位置的图像进行剪裁，得到视频图像数据，例如参见图3所示，为剪裁后的视频图像数据。

另一实施例中，上述步骤210具体包括：

获取发声对象的视频数据，在视频数据中分离出原始视频图像数据，提取原始视频图像数据中发声对象的唇部动作视频图像，得到视频图像数据，并在视频数据中提取出与视频图像数据在时序上对应的语音数据。

本步骤中，首先分离出视频数据中的原始视频图像数据，对原始视频图像数据进行处理，提取原始视频图像数据的唇部动作视频图像，一实施例中，可以采用人脸识别模型对发声对象的人脸特征进行识别，确定发声对象的唇部位置，对唇部位置的图像进行剪裁，得到视频图像数据，例如参见图3所示，为剪裁后的视频图像数据。由于视频数据中并非所有数据均是发声对象说话的有效内容，本实施例中首先确定包含发声对象的唇部动作视频图像作为视频图像数据，先确定包含发声对象唇部动作的图像帧序列，再对应确定语音数据中的有效音频数据，提取在时序上与图像帧序列对应的语音帧序列，进而得到语音数据。本步骤中，通过识别有效的图像数据，能够实现去噪的效果，提高语音识别的准确性。

一实施例中，上述步骤220具体包括：

将语音数据中的各个音频帧输入至声学神经网络中，得到各个音频帧的语音音素特征。

本步骤的一个实施例中，声学神经网络可以采用时延神经网络TDNN-LSTM，循环神经网络RNN-T,序列短时分类网络CTC等神经网络模型，其作用是用来预测输入音频的发音序列。一实施例中，声学神经网络采用循环神经网络RNN结合序列短时分类网络CTC实现，即将RNN 的输出结果输入至CTC中，其中RNN对当前语音帧进行判断时，不仅可以利用历史的语音信息，还可以利用未来的语音信息，从而进行更加准确的决策，CTC使得训练过程无需帧级别的标注，实现有效的“端对端”训练，最终实现更好的语音识别效果。

一实施例中，上述步骤240具体包括：

将视频图像数据中的各个图像帧输入至视频特征提取网络中进行视觉特征提取，得到各个图像帧的视觉特征。一实施例中，视频特征提取网络可以采用残差网络Resnet(例如一实施例中可以采用具有101个隐藏层的残差网络作为视频特征提取网络)。另外，也可以采用其他人脸识别模型进行视觉特征提取，在此不再一一列举。

参见图7所示，一实施例中，上述步骤270具体包括：

步骤710，将所述融合特征信息输入至第三全连接层进行特征分类，得到语音分类特征。

本步骤中，第三全连接层为预先训练好的分类模型，起到分类器的作用，参见图8所示，第三全连接层包括多个节点f，全连接层的输入为步骤260得到的融合特征信息801。第三全连接层对输入的融合特征信息进行非线性变换，并输出语音分类特征802，其中非线性变换的计算公式为：Y＝f(W_x+b)，其中，f为图8中的节点，即为激活函数，W为权重矩阵，b为偏置常量。

步骤720，将语音分类特征输入至归一化层进行归一化处理，得到与所述语音数据对应的语音内容信息。

本步骤中，对第三全连接层的语音分类特征通过归一化层进行归一化处理，得到语音内容信息的分类概率，其中计算方法如下：

其中，其中，Z_j为全连接层输出，W、b为该层待训练参数。

参照图8所示，为本申请一个实施例提供的视频语音识别模型架构，以下结合视频语音识别模型架构，对语音数据处理方法的流程进行描述。

首先，获取发声对象的视频数据，对视频数据进行分离处理，得到语音数据和视频图像数据，其中，分别对语音数据和视频图像数据进行分帧处理，得到图像帧序列Vd＝{vd_1， vd_2，...，vd_N}和语音帧序列Vo＝{vo_1，vo_2，...，vo_N}。

对于语音帧序列Vo，通过声学神经网络(循环神经网络RNN结合序列短时分类网络CTC) 对语音帧序列Vo中的各个音频帧进行语音音素特征的提取，形成语音音素特征序列Vo_v＝ {vo_v_1，vo_v_2，...，vo_v_N}，对语音音素特征序列中的所有语音音素特征进行拼接 (concat)，得到第一音素特征信息Vo_vec，将第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息Vo1。

对于图像帧序列Vd，通过视频特征提取网络(残差网络Resnet)对图像帧序列Vd中的各个图像帧进行视觉特征提取，形成视觉特征序列Vd_v＝{vd_v_1，vd_v_2，...，vd_v_N}，对视觉特征序列中的所有视觉特征进行拼接(concat)，得到第一视觉特征信息Vd_vec，将第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息Vd1。

然后，将第二音素特征信息Vo1和第二视觉特征信息Vd1进行拼接，得到融合特征信息 V_vec。将融合特征信息V_vec输入第三全连接层进行特征分类，得到语音分类特征，将语音分类特征输入至归一化层进行归一化处理，得到与所述语音数据对应的语音内容信息。

上述任意实施例提供的一种语音数据处理方法，融合了语音数据中的音素特征和视频图像数据中的视觉特征进行语音识别，视觉特征模态的融合丰富了用于进行语音识别的特征，能有效提高语音识别的准确性，另外，本申请实施例不仅对每个视频帧和音频帧进行特征提取，而且对第一音素特征信息和第一视觉特征信息分别通过第一全连接层和第二全连接层进行特征分类后再融合拼接，使语音数据中的音素特征信息和视频数据中的视觉特征能够更加充分地融合，进一步提高了语音识别的准确性。本申请实施例提供的语音数据处理方法，可以应用在各种有语音识别需求或存在音视频数据处理需求的场景，例如视频播放、直播、视像会议、云技术、人工智能(AI)、智慧交通、车联网等场景。例如可以用于对网络/本地视频的字幕翻译、直播/会议现场语音翻译、人工智能对人类语音的理解、语音导航、语音打车等场景。

参照图10所示，是本申请实施例提供的一种模型训练方法的流程图。通过该方法进行训练的模型，可以应用于如图2所示的语音数据处理方法中。本申请实施例中，以图1所示的服务器102为执行主体为例子进行说明。服务器102中设置有视频语音识别模型，其中包括第一全连接层和第二全连接层。该模型的训练方法包括以下步骤：

步骤1010,获取发声对象的训练语音数据、训练视频图像数据以及训练语音数据的目标语音内容信息，其中，训练语音数据包括多个音频帧，训练视频图像数据包括多个图像帧。

本步骤中，获取的训练视频图像数据和训练语音数据均由多个数据帧构成。训练视频图像数据表示为训练图像帧序列Vd’＝{vd’_1，vd’_2，...，vd’_N}，训练图像帧序列Vd’包括多个图像帧vd’_i，其中i为自然数。每个图像帧表示一个图像，该图像可以是发声对象的说话图像，例如是发声对象在说话时的面部图像，局部面部图像或肢体图像等。训练语音数据表示为训练语音帧序列Vo’＝{vo’_1，vo’_2，...，vo’_N}，语音帧序列Vi’包括多个音频帧vo_i，其中i为自然数。

一实施例中，训练语音数据和训练视频图像数据可以分别获取，例如训练语音数据和训练视频图像数据可以是分别存储的两个数据文件，为了提高对模型的训练效果，可以对训练语音数据中的音频帧和训练视频图像数据中的图像帧进行帧对齐，使图像帧与音频帧相匹配对应。另一实施例中，训练语音数据和训练视频图像数据可以在同一个训练视频数据中分离得到，由于视频的音频和图像一般是同步的，因此分离得到的语音数据和视频图像数据的各个数据帧在时序上是对齐的。

一实施例中，获取发声对象的训练视频数据和训练视频数据对应的目标语音内容信息，对训练视频数据进行分离，得到发声对象的训练语音数据和原始训练视频图像数据，提取原始训练视频图像数据中发声对象的唇部动作视频图像，得到训练视频图像数据。

另一实施例中，获取发声对象的训练视频数据和训练视频数据对应的目标语音内容信息，在训练视频数据中分离出原始训练视频图像数据，提取原始训练视频图像数据中发声对象的唇部动作视频图像，得到训练视频图像数据，并在训练视频数据中提取出与训练视频图像数据在时序上对应的训练语音数据。本实施例中首先确定包含发声对象的唇部动作训练视频图像作为训练视频图像数据，先确定包含发声对象唇部动作的训练图像帧序列，在对应确定语音数据中的有效音频数据，提取在时序上与训练图像帧序列对应的训练语音帧序列，进而得到训练语音数据。本步骤中，通过识别有效的训练视频图像数据，能够实现去噪的效果，提高语音识别的准确性。

步骤1020,对训练语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第三音素特征信息。

本步骤中，将训练语音数据中的各个音频帧输入至声学神经网络中，得到各个音频帧的语音音素特征，其中声学神经网络可以采用时延神经网络TDNN-LSTM，循环神经网络RNN-T, 序列短时分类网络CTC等神经网络模型。例如对于语音帧序列Vo’＝{vo’_1，vo’_2，...， vo’_N}，通过语音音素特征提取算法或者语音音素特征提取模型对每个音频帧分别进行特征提取，得到语音音素特征序列Vo’_v＝{vo’_v_1，vo’_v_2，...，vo’_v_N}。其中每个音频帧对应的语音音素特征可以使用特征向量或特征矩阵的形式进行表示。然后，对语音音素特征序列中的所有语音音素特征进行拼接(concat)，得到第三音素特征信息Vo’_vec。其中，一实施例中，根据语音音素特征序列Vo’_v的帧顺序依次对各个语音音素特征进行拼接。由于语音帧序列Vo’可以通过训练语音数据进行分帧处理得到，因此也可以根据训练语音数据的分帧顺序，对多个语音因素特征依次进行拼接，得到第三音素特征信息Vo’_vec。

步骤1030,将第三音素特征信息输入至第一全连接层进行特征分类，得到第四音素特征信息。

本步骤中，第一全连接层起到分类器的作用，通过将第三音素特征信息Vo’_vec输入至第一全连接层进行特征分类，可以将第三音素特征信息Vo’_vec映射为一维M列的第四音素特征信息，该第四音素特征信息包含了训练语音数据中所有音频帧的语音特征信息。

步骤1040,对所述训练视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第三视觉特征信息。

本步骤中，将所述训练视频图像数据中的各个所述图像帧输入至视频特征提取网络中进行视觉特征提取，得到各个所述图像帧中的视觉特征，其中视频特征提取网络可以是人脸识别模型、神经网络模型等对训练视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第三视觉特征信息。例如对于图像帧序列Vd’＝ {vd’_1，vd’_2，...，vd’_N}，通过视觉特征提取模型对每个图像帧分别进行特征提取，得到视觉特征序列Vd’_v＝{vd’_v_1，vd’_v_2，...，vd’_v_N}。其中每个图像帧对应的视觉特征可以使用特征向量或特征矩阵的形式进行表示。

然后，对视觉特征序列中的所有视觉特征进行拼接(concat)，得到第三视觉特征信息 Vd’_vec，其中，若视觉特征使用特征向量表示，则各个视觉特征拼接后形成一个特征向量，若视觉特征使用特征矩阵的形式进行表示，则各个视觉特征拼接后形成一个新的特征矩阵。其中，一实施例中，根据Vd’_v的帧顺序依次对各个视觉特征进行拼接。由于图像帧序列 Vd’可以通过训练视频图像数据进行分帧处理得到，因此也可以根据训练视频图像特征的分帧顺序，对多个视觉特征依次进行拼接，得到第三视觉特征信息Vd’_vec。

步骤1050,将第三视觉特征信息输入至第二全连接层进行特征分类，得到第四视觉特征信息。

本步骤中，第二全连接层起到分类器的作用，通过将三视觉特征信息Vd’_vec输入至第二全连接层进行特征分类，可以将三视觉特征信息Vd’_vec映射为一维N列的第四视觉特征信息，该第四音素特征信息包含了训练图像数据中所有图像帧的视觉特征信息。

步骤1060,将第四音素特征信息和第四视觉特征信息进行拼接，得到训练融合特征信息。

本步骤中，第四音素特征信息和第四视觉特征信息为同一特征类型的信息，例如第四音素特征信息和第四视觉特征信息均为特征向量，又或者第四音素特征信息和第四视觉特征信息均为特征矩阵。通过将第第四素特征信息和所述第四视觉特征信息进行拼接，得到训练融合特征信息V_vec’，该训练融合特征信息V_vec’既包含训练语音数据中所有音频帧的语音特征信息，又包含训练视频图像数据中所有图像帧的视觉特征信息。

步骤1070,对训练融合特征信息进行语音识别，得到与训练语音数据对应的预测语音内容信息。

本步骤的一个实施例中，训练融合特征信息输入至第三全连接层进行特征分类，得到语音分类特征；将所述语音分类特征输入至归一化层，得到与所述训练语音数据对应的预测语音内容信息。

步骤1080,根据预测语音内容信息和目标语音内容信息，对模型的参数进行修正。

本步骤中，通过将目标语音内容信息与预测语音内容信息进行对比，计算交叉熵，然后通过BP(Backpropagation，即误差反向传播)算法，来更新视频语音识别模型的参数。BP 网络的输入输出关系实质上是一种映射关系：一个输入m个输出的BP神经网络所完成的功能是从一维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。这是BP算法得以应用的基础。反向传播算法主要由两个环节(激励传播、权重更新)反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。在模型学***方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成，当误差达到所期望值时，网络学习结束。

其中，一实施例中，可以对上述视频语音识别模型中的第一全连接层、第二全连接层进行联合训练修正第一全连接层、第二全连接层的参数；又或者，对声学神经网络的参数进行修正；又或者，对视频特征提取网络的参数进行修改；又或者，对第三全连接层的参数。一实施例中，也可以对视频语音识别模型中的所有网络模型进行联合训练，即同时对声学神经网络、视频语音识别模型、第一全连接层、第二全连接层和第三全连接层的参数进行修正。

上述任意实施例提供的模型训练方法，通过融合训练语音数据中的音素特征和训练视频图像数据中的视觉特征对视频语音识别模型进行训练，视觉特征模态的融合丰富了用于进行模型训练的训练特征数据，能有效提高视频语音识别模型的语音识别准确性。另外，本申请实施例不仅对每个视频帧和音频帧进行特征提取，而且对第三音素特征信息和第三视觉特征信息分别通过第一全连接层和第二全连接层进行特征分类后再融合拼接，使训练语音数据中的音素特征信息和训练视频图像数据中的视觉特征能够更加充分地融合，进一步提高了视频语音识别模型的语音识别的准确性。通过本申请实施例提供的模型训练方法训练得到的视频语音识别模型，可以应用在各种有语音识别需求或存在音视频数据处理需求的场景，例如视频播放、直播、视像会议、云技术、人工智能(AI)、智慧交通、车联网等场景。例如可以用于对网络/本地视频的字幕翻译、直播/会议现场语音翻译、人工智能对人类语音的理解、语音导航、语音打车等场景。

参见图11所示，本申请实施例提供了一种语音数据处理装置，包括：

获取单元1110，用于获取发声对象的语音数据和视频图像数据，其中，语音数据包括多个音频帧，视频图像数据包括多个图像帧；

音素特征提取单元1120，用于对语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第一音素特征信息；

第一处理单元1130，用于将第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息；

视觉特征提取单元1140，用于对视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第一视觉特征信息；

第二处理单元1150，用于将第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息；

融合单元1160，用于将第二音素特征信息和第二视觉特征信息进行拼接，得到融合特征信息；

语音识别单元1170，用于对融合特征信息进行语音识别，得到与语音数据对应的语音内容信息。

进一步，语音数据处理装置还包括：

参见图11所示，本申请实施例提供了一种模型训练装置，包括：

训练数据提取单元1210，用于获取发声对象的训练语音数据、训练视频图像数据以及训练语音数据的目标语音内容信息，其中，训练语音数据包括多个音频帧，训练视频图像数据包括多个图像帧；

音素训练特征提取单元1220，用于对训练语音数据中的各个音频帧进行音素特征提取，得到多个语音音素特征，对多个语音音素特征进行拼接，得到第三音素特征信息；

第三处理单元1230，用于将第三音素特征信息输入至第一全连接层进行特征分类，得到第四音素特征信息；

视觉训练特征提取单元1240，用于对训练视频图像数据中的各个图像帧进行视觉特征提取，得到多个视觉特征，对多个视觉特征进行拼接，得到第三视觉特征信息；

第四处理单元1250，用于将第三视觉特征信息输入至第二全连接层进行特征分类，得到第四视觉特征信息；

训练特征融合单元1260，用于将第四音素特征信息和第四视觉特征信息进行拼接，得到训练融合特征信息；

语音训练数据识别单元1270，用于对训练融合特征信息进行语音识别，得到与训练语音数据对应的预测语音内容信息；

修正单元1280，用于根据预测语音内容信息和目标语音内容信息，对模型的参数进行修正。

本申请实施例提供了一种语音数据处理装置，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载程序以执行上述任意实施例提供的语音数据处理方法或者模型训练方法。

本申请实施例公开一种存储介质，其存储有程序，所述程序被处理器执行时实现上述任意实施例提供的语音数据处理方法或者模型训练方法。

本申请实施例公开一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述任意实施例提供的语音数据处理方法或者实现上述任意实施例提供的模型训练方法。

本申请实施例公开一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执上述任意实施例提供的语音数据处理方法或者模型训练方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和 /或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a， b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a 和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音数据处理方法，其特征在于，包括以下步骤：

获取发声对象的语音数据和视频图像数据，其中，所述语音数据包括多个音频帧，所述视频图像数据包括多个图像帧；

对所述语音数据中的各个所述音频帧进行音素特征提取，得到多个语音音素特征，对多个所述语音音素特征进行拼接，得到第一音素特征信息；

将所述第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息；

对所述视频图像数据中的各个所述图像帧进行视觉特征提取，得到多个视觉特征，对多个所述视觉特征进行拼接，得到第一视觉特征信息；

将所述第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息；

将所述第二音素特征信息和所述第二视觉特征信息进行拼接，得到融合特征信息；

对所述融合特征信息进行语音识别，得到与所述语音数据对应的语音内容信息。

2.根据权利要求1所述的一种语音数据处理方法，其特征在于，所述获取发声对象的语音数据和视频图像数据之后，还包括：

对所述视频图像数据进行分帧处理，得到多个图像帧；

对所述语音数据进行分帧处理，得到多个音频帧。

3.根据权利要求1所述的一种语音数据处理方法，其特征在于，所述对多个所述语音音素特征进行拼接，得到第一音素特征信息，包括：

根据所述语音数据的分帧顺序，对多个所述语音音素特征依次进行拼接，得到第一音素特征信息；

所述对多个所述视觉特征进行拼接，得到第一视觉特征信息，包括：

根据所述视频图像数据的分帧顺序，对多个所述视觉特征依次进行拼接，得到第一视觉特征信息。

4.根据权利要求1至3任意一项所述的一种语音数据处理方法，其特征在于，所述获取发声对象的语音数据和视频图像数据，包括：

获取发声对象的视频数据，对所述视频数据进行分离，得到所述发声对象的语音数据和原始视频图像数据，提取所述原始视频图像数据中所述发声对象的唇部动作视频图像，得到视频图像数据；

或者，获取发声对象的视频数据，在所述视频数据中分离出原始视频图像数据，提取所述原始视频图像数据中所述发声对象的唇部动作视频图像，得到视频图像数据，并在所述视频数据中提取出与所述视频图像数据在时序上对应的语音数据。

5.根据权利要求1所述的一种语音数据处理方法，其特征在于，所述对所述语音数据中的各个所述音频帧进行音素特征提取，得到多个语音音素特征，包括：

将所述语音数据中的各个所述音频帧输入至声学神经网络中，得到各个所述音频帧的语音音素特征。

6.根据权利要求1所述的一种语音数据处理方法，其特征在于，所述对所述视频图像数据中的各个所述图像帧进行视觉特征提取，得到多个视觉特征，包括：

将所述视频图像数据中的各个所述图像帧输入至视频特征提取网络中进行视觉特征提取，得到各个所述图像帧的视觉特征。

7.根据权利要求1所述的一种语音数据处理方法，其特征在于，所述对所述融合特征信息进行语音识别，得到与所述语音数据对应的语音内容信息，包括：

将所述融合特征信息输入至第三全连接层进行特征分类，得到语音分类特征；

将所述语音分类特征输入至归一化层进行归一化处理，得到与所述语音数据对应的语音内容信息。

8.一种模型训练方法，其特征在于，包括以下步骤：

获取发声对象的训练语音数据、训练视频图像数据以及所述训练语音数据的目标语音内容信息，其中，所述训练语音数据包括多个音频帧，所述训练视频图像数据包括多个图像帧；

对所述训练语音数据中的各个所述音频帧进行音素特征提取，得到多个语音音素特征，对多个所述语音音素特征进行拼接，得到第三音素特征信息；

将所述第三音素特征信息输入至第一全连接层进行特征分类，得到第四音素特征信息；

对所述训练视频图像数据中的各个所述图像帧进行视觉特征提取，得到多个视觉特征，对多个所述视觉特征进行拼接，得到第三视觉特征信息；

将所述第三视觉特征信息输入至第二全连接层进行特征分类，得到第四视觉特征信息；

将所述第四音素特征信息和所述第四视觉特征信息进行拼接，得到训练融合特征信息；

对所述训练融合特征信息进行语音识别，得到与所述训练语音数据对应的预测语音内容信息；

根据所述预测语音内容信息和所述目标语音内容信息，对所述模型的参数进行修正。

9.根据权利要求8所述的一种模型训练方法，其特征在于，所述获取发声对象的训练语音数据、训练视频图像数据以及所述训练语音数据的目标语音内容信息，包括：

获取发声对象的训练视频数据和所述训练视频数据对应的目标语音内容信息，对所述训练视频数据进行分离，得到所述发声对象的训练语音数据和原始训练视频图像数据，提取所述原始训练视频图像数据中所述发声对象的唇部动作视频图像，得到训练视频图像数据；

或者，获取发声对象的训练视频数据和所述训练视频数据对应的目标语音内容信息，在所述训练视频数据中分离出原始训练视频图像数据，提取所述原始训练视频图像数据中所述发声对象的唇部动作视频图像，得到训练视频图像数据，并在所述训练视频数据中提取出与所述训练视频图像数据在时序上对应的训练语音数据。

10.根据权利要求8所述的一种模型训练方法，其特征在于，所述对所述训练语音数据中的各个所述音频帧进行音素特征提取，得到多个语音音素特征，包括：

将所述训练语音数据中的各个所述音频帧输入至声学神经网络中，得到各个所述音频帧的语音音素特征；

所述对所述训练视频图像数据中的各个所述图像帧进行视觉特征提取，得到多个视觉特征，包括：

将所述训练视频图像数据中的各个所述图像帧输入至视频特征提取网络中进行视觉特征提取，得到各个所述图像帧中的视觉特征；

所述模型的参数包括所述声学神经网络的参数和所述视频特征提取网络的参数，所述根据所述预测语音内容信息和所述目标语音内容信息，对所述模型的参数进行修正包括：根据所述预测语音内容信息和所述目标语音内容信息，对所述声学神经网络的参数和所述视频特征提取网络的参数中的至少一个进行修正。

11.根据权利要求8所述的一种模型训练方法，其特征在于，所述对所述训练融合特征信息进行语音识别，得到与所述训练语音数据对应的预测语音内容信息，包括：

将所述训练融合特征信息输入至第三全连接层进行特征分类，得到语音分类特征；

将所述语音分类特征输入至归一化层，得到与所述语音数据对应的预测语音内容信息；

所述模型的参数包括第一全连接层的参数、第二全连接层的参数和第三全连接层的参数，所述根据所述预测语音内容信息和所述目标语音内容信息，对所述模型的参数进行修正包括：根据所述预测语音内容信息和所述目标语音内容信息，对所述第一全连接层的参数、第二全连接层的参数和第三全连接层的参数进行修正。

12.一种语音数据处理装置，其特征在于，包括：

获取单元，用于获取发声对象的语音数据和视频图像数据，其中，所述语音数据包括多个音频帧，所述视频图像数据包括多个图像帧；

音素特征提取单元，用于对所述语音数据中的各个所述音频帧进行音素特征提取，得到多个语音音素特征，对多个所述语音音素特征进行拼接，得到第一音素特征信息；

第一处理单元，用于将所述第一音素特征信息输入至第一全连接层进行特征分类，得到第二音素特征信息；

视觉特征提取单元，用于对所述视频图像数据中的各个所述图像帧进行视觉特征提取，得到多个视觉特征，对多个所述视觉特征进行拼接，得到第一视觉特征信息；

第二处理单元，用于将所述第一视觉特征信息输入至第二全连接层进行特征分类，得到第二视觉特征信息；

融合单元，用于将所述第二音素特征信息和所述第二视觉特征信息进行拼接，得到融合特征信息；

语音识别单元，用于对所述融合特征信息进行语音识别，得到与所述语音数据对应的语音内容信息。

13.一种语音数据处理装置，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行权利要求1至7任意一项所述的语音数据处理方法或者执行上述权利要求8至11任意一项所述的模型训练方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于：所述计算机可执行指令用于执行权利要求1至7任意一项所述的语音数据处理方法或者执行上述权利要求8至12任意一项所述的模型训练方法。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7任意一项所述的语音数据处理方法或者实现上述权利要求8至11任意一项所述的模型训练方法。