WO2024140430A1

WO2024140430A1 - 基于多模态深度学习的文本分类方法、设备及存储介质

Info

Publication number: WO2024140430A1
Application number: PCT/CN2023/140831
Authority: WO
Inventors: 李华刚; 曾谁飞; 孔令磊; 张景瑞; 李敏; 刘卫强
Original assignee: 青岛海尔电冰箱有限公司; 海尔智家股份有限公司
Priority date: 2022-12-31
Filing date: 2023-12-22
Publication date: 2024-07-04
Also published as: CN116108176A

Abstract

本发明公开了一种基于多模态深度学习的文本分类方法，包括：获取文本数据的上下文信息和文本语义特征的权重信息；将所述上下文信息和文本语义特征的权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息。该方法有效的提高了音视频生成文本分类的准确率和泛化能力，提升用户的体验效果。

Description

基于多模态深度学习的文本分类方法、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体地涉及一种基于多模态深度学习的文本分类方法、设备及存储介质。

背景技术

随着多模态深度学习技术的应用落地，目前智能冰箱与用户交互的大多数是语音和文本数据，不但基于视频数据的交互方式微乎其微，而且传统方法就冰箱智能语音与视频普遍存在如下问题：特征提取不准确和不充分，导致语音识别精度、视频内容的文本分类准确率偏低，从而影响冰箱音视频的用户使用效果，甚至影响高端冰箱的智能化和信息化程度。

因此，如何借助多通道多尺寸深度卷积神经网络模型构建冰箱音视频生成文本分类模型成为文本分类准确率提高的关键技术。而智能冰箱交互离不开语音、文本、视频等多源异构数据，故针对所述多源异构数据如何基于多模态或跨模态数据实现最优的特征信息提取方法，从而优化智能冰箱音视频生成文本分类准确率进而提升冰箱使用的体验效果，目前业界尚未提出较为有效的解决方案。

发明内容

本发明的目的在于提供一种基于多模态深度学习的文本分类方法、设备及存储介质。

本发明提供种基于多模态深度学习的生成文本分类方法，包括步骤：

获取实时音视频数据和历史音视频数据；对所述实时音视频数据和历史音视频数据进行预处理，获取有效的语音数据和视频数据；转写所述有效语音数据为语音文本数据；获取所述有效视频数据中局部区域的视频图像，并转写所述视频图像为图像文本数据；根据所述语音文本数据和图像文本数据，获取该文本数据的上下文信息和文本语义特征的权重信息；将所述上下文信息和文本语义特征的权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息，并判断所述音视频数据生成文本的类别信息；输出所述生成文本的类别信息。

作为本发明的进一步改进，所述“对所述实时音视频数据和历史音视频数据进行预处理，获取有效的语音数据和视频数据”，具体包括：对所述实时音视频数据和历史音视频数据进行数据清洗、格式解析、格式转换和数据存储，获得有效的音视频数据；采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离，以获得所述语音数据和视频数据；对所述语音数据和视频数据进行预处理，包括：对所述语音数据进行分帧和加窗处理，对所述视频数据进行裁剪、分帧处理。

作为本发明的进一步改进，所述“转写所述有效语音数据为语音文本数据”，具体包括：提取所述有效语音数据特征，得到语音特征；将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据；基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据；基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息；将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。

作为本发明的进一步改进，所述“提取所述有效语音数据特征”，具体包括：提取所述有效语音数据特征，获取其梅尔频率倒谱系数特征。

作为本发明的进一步改进，所述“获取所述视频数据中局部区域视频图像，并转写所述视频图像为图像文本数据”，具体包括：根据所述有效视频数据，获取嘴唇区域的视频图像；将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算，得到图像特征；基于图像唇语识别方法，将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写，获得第一图像文本数据；基于连接时序分类方法输出所述语音特征序列和所述第一图像文本数据的对齐关系，以得到第二图像文本数据；将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。

作为本发明的进一步改进，所述“将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算，得到图像特征”，具体包括：对嘴唇局部视频数据分割成连续嘴唇图片帧；将所述连续嘴唇图片帧输入3D卷积神经网络模型计算，提取多种特征，得到所述图像特征。

作为本发明的进一步改进，所述“基于图像唇语识别方法，将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写，获得第一图像文本数据”，具体包括：将所述图像特征输入所述多通道多尺寸时间深度卷积神经网络计算，得到时序图像特征；根据所述图像唇语识别方法，将所述时序图像特征映射为拼音语句的拼音序列；再将所述拼音序列翻译为对应汉字语句的汉字序列。

作为本发明的进一步改进，所述“根据所述语音文本数据和图像文本数据，获取该文本数据的上下文信息和文本语义特征的权重信息”，具体包括：将所述语音文本数据和图像文本数据转换为语音文本词向量和图像文本词向量；将所述语音文本词向量和图像文本词向量输入双向长短记忆网络模型，获取包含所述语音文本数据和图像文本数据特征信息的上下文特征向量。

作为本发明的进一步改进，基于注意力机制模型，区分所述语音文本数据和图像文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息，获得所述文本语义特征的权重信息。

作为本发明的进一步改进，所述“基于注意力机制模型，区分所述语音文本数据和所述图像文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息”，具体包括：分别将所述语音文本上下文特征向量和所述图像文本上下文特征向量输入自注意力机制和互注意力机制；获取包含所述语音文本语义特征和图像文本语义特征自身权重信息的自身权重文本注意力特征向量；获取包含所述语音文本语义特征和图像文本语义特征关联权重信息的关联权重文本注意力特征向量。

作为本发明的进一步改进，所述“将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息，并判断所述音视频数据生成文本的类别信息”，具体包括：将所述上下文特征向量和文本注意力权重特征向量经全连接层组合后，输出至分类函数，计算所述语音文本数据和所述图像文本数据文本语义的得分及其归一化得分结果，得到生成文本的类别信息。

作为本发明的进一步改进，所述“转写所述语音数据为语音文本数据”，还包括：获取存储于外部缓存的配置数据，将所述语音数据基于所述配置数据执行所述多通道多尺寸深度卷积神经网络模型计算，进行文本转写和提取文本特征。

本发明还提供一种电器设备，包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于多模态深度学习的文本分类方法。

本发明还提供一种冰箱，包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于多模态深度学习的文本分类方法。

本发明还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的基于多模态深度学习的文本分类方法。

本发明的有益效果是：本发明所提供的方法完成了对所获取的音视频生成文本的识别与分类任务，首先将语音文本数据和说话人嘴唇区域视频图像特征识别文本内容相结合的方式，获得文本语义特征信息的互补性、关联性及语义特征的加强等效果，进而实现了音视频生成文本分类任务的精准性。其次，通过综合考虑实时音视频数据和历史音视频数据，将历史音视频数据作为补充数据，弥补了语音数据文本和视频文本数据语义信息较少的问题，有效提高了文本分类准确度。最后，通过构建融合了多通道多尺寸深度卷积神经网络和时间深度卷积神经网络模型提高了实时音视频生成文本分类识别的精度，具体通过构建融合了上下文信息机制、自注意力机制和互注意力机制的卷积神经网络模型，更加充分地挖掘出文本数据丰富的语义特征信息。因此，整体模型充分利用了实时和历史音视频数据以及上下文数据，具有优秀的语义表征能力，对音视频生成文本分类的准确率高，有效的提高了音视频生成文本分类的准确率和泛化能力，提升用户的体验效果。

附图说明

图1是本发明一实施方式中的基于多模态深度学习的文本分类方法所涉及模型的结构框图。

图2是本发明一实施方式中的基于多模态深度学习的文本分类方法步骤示意图。

图3是本发明一实施方式中获取实时音视频数据和历史音视频数据步骤示意图。

图4是本发明一实施方式中对所述实时音视频数据和历史音视频数据进行数据预处理步骤示意图。

图5是本发明一实施方式中转写所述有效语音数据为语音文本数据步骤示意图。

图6是本发明一实施方式中获取所述视频数据中局部区域视频图像，并转写所述视频图像为图像文本数据步骤示意图。

图7是本发明一实施方式中根据所述语音文本数据和图像文本数据，获取该文本数据的上下文信息和权重信息步骤示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

需要说明的是，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明的实施例是一种基于多模态深度学习的文本分类方法。虽然本申请提供了如下述实施方式或流程图1所述的方法操作步骤，但是基于常规或者无需创造性的劳动，所述方法在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施方式中所提供的执行顺序。

如图1所示，为本发明所提供的一种基于多模态深度学习的文本分类方法所涉及模型的结构框图，如图2所示，为基于多模态深度学习的文本分类方法步骤示意图，其包括：

S1：获取实时音视频数据和历史音视频数据。

S2：对所述实时音视频数据和历史音视频数据进行预处理，获取有效的语音数据和视频数据。

S3：转写所述有效语音数据为语音文本数据。

S4：获取所述有效视频数据中局部区域的视频图像，并转写所述视频图像为图像文本数据。

S5：根据所述语音文本数据和图像文本数据，获取该文本数据的上下文信息和文本语义特征的权重信息。

S6：将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息，并判断所述音视频数据生成文本的类别信息。

S7：输出所述生成文本的类别信息。

本发明提供的方法可供智能电子设备基于用户的实时音视频数据输入，来实现与用户之间的实时交互或消息推送等功能。示例性的，在本实施方式中，以智能冰箱为例，并结合预先训练好的深度学习模型对本方法进行说明。基于用户的音视频输入，智能冰箱对用户音视频数据所生成的对应文本内容进行分类，并根据分类结果信息计算需要输出的文本内容分类结果信息。

如图3所示，在步骤S1中，其具体包括：

S11：获取采集装置所采集的所述实时音视频数据，和/或

获取自客户终端传输的所述实时音视频数据。

S12：获取内部存储的历史音视频数据，和/或

获取外部存储的历史音视频数据，和/或

获取客户终端传输的历史音视频数据。

这里所述的实时音视频数据包括实时语音数据和实时视频数据，所述实时语音指的是用户当前对智能电子设备或对与智能电子设备通信连接的客户终端设备等说出的询问性或指令性语句，同样的，也可以是语音采集装置采集用户发出的语音信息。如在本实施方式中，用户可提出诸如“今天冰箱里有啥蔬菜”、“今天冰箱里牛肉食材有哪些”等问题，或用户可发出诸如“删除全部食材”等命令指令。所述实时视频数据是利用智能电子设备或智能电子设备通信连接的客户终端设备实时拍摄而获得的实时视频图像，如在本实时方式中，利用内置在智能冰箱内的视像头拍摄到用户的脸部图像，从脸部图像中提取嘴唇区域特征图像以识别该图像对应的文本内容，比如识别出“今天冰箱里有啥蔬菜”的图像文本数据。

这里所述的历史音视频数据是指以往使用过程中用户的实时音视频数据，进一步的，其还可以包括用户自行输入的历史音视频数据等。具体的，在本实施方式中，所述历史音视频数据可包括：获取以往用户发出的指令或提出的问题的音视频数据，所获取到的音视频数据包含与当前实时音视频数据有关联的信息，也可以是以往使用过程中用户依据放入的物品发出的说明性的音视频信息，比如“冰箱里没有牛奶了”，历史音视频数据的获取可以作为预训练和预测模型的数据集的一部分，能够有效地补充实时音视频数据的单一语音表征，丰富语义特征。

如步骤S11所述，在本实施方式中，可通过设置于智能冰箱内的照相机、摄像头等音视频采集装置采集用户实时音视频，在使用过程中，当用户需要与智能冰箱进行交互时，直接对智能冰箱发出语音即可。并且，也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户实时音视频数据，客户终端为具有信息发送功能的电子设备，如手机、平板电脑、智能摄像机、智能手表、APP或蓝牙等智能电子设备，在使用过程中，用户直接对客户终端发出语音或直接使用冰箱内置的摄像头进行拍摄即可，客户终端采集音视频后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的实时音视频获取方式，并不局限于必须面向智能冰箱发出语音。当用户有交互需求时，通过任意便捷渠道发出实时语音即可，从而能够显著提高用户的使用便捷度。在本发明的其他实施方式中，也可采用上述实时音视频数据获取方法中一种或任意多种，或者也可基于现有技术通过其他渠道获取所述实时音视频数据，本发明对此不作具体限制。

如步骤S12所述，在本实施方式中，可读取智能冰箱的内部存储器所存储的历史音视频数据。并且，也可通过读取智能冰箱配置的外部存储装置所存储的历史音视频数据，外部存储装置为诸如U盘、SD卡等移动存储设备，通过设置外部存储装置可进一步拓展智能冰箱的存储空间。并且，也可通过获取存储在诸如手机、平板电脑等客户终端或应用软件服务器端等处的所述历史音视频数据。实现多渠道的历史音视频数据获取渠道，能够大幅提高历史音视频的数据量，从而提高后续语音识别和视频图像识别的准确度。在本发明的其他实施方式中，也可采用上述历史音视频数据获取方法中的一种或任意多种，或者也可基于现有技术通过其他渠道获取所述历史音视频数据，本发明对此不作具体限制。

进一步的，在本实施方式中，智能冰箱配置有外部缓存，至少有部分所述历史音视频数据被储存在所述外部缓存中，随着使用时间增加，历史音视频数据增多，通过将部分数据存储在外部缓存中，能够节省智能冰箱内部存储空间，并且在进行神经网络计算时，直接读取存储于外部缓存中的所述音视频数据，能够提高算法效率。

具体的，在本实施方式中，采用Redis组件作为所述外部缓存，Redis组件为当前一种使用较为广泛的key/value存储结构的分布式缓存***，其可用作数据库，高速缓存和消息队列代理。在本发明的其他实施方式中也可采用诸如Memcached等其他外部缓存，本发明对此不作具体限制。

综上所述，在步骤S11和步骤S12中，能够通过多渠道灵活获取实时音视频数据和历史音视频数据，在提升了用户体验的同时，保证了数据量，并有效提升了算法效率。

如图4所示，在步骤S2中，其具体包括步骤：

S21：对所述实时音视频数据和历史音视频数据进行数据清洗，获得有效的音视频数据。

S22：将所述有效音视频数据进行语音和视频分离，以获得所述语音数据和视频数据。

S23：对所述语音数据和视频数据进行预处理，包括：对所述语音数据进行分帧和加窗处理，对所述视频数据进行裁剪、分帧处理。

在步骤S21中，对所述实时音视频数据和历史音视频数据进行数据清洗具体包括：

获取一定数量的实时音视频数据集和历史音视频数据集，示例性的，可以以文件的形式导入数据清洗模型进行处理，为了防止数据导入失败，对不满足文件导入格式的数据进行数据格式解析和数据格式转换，然后再删除数据集中的无关数据、重复数据以及处理异常值和缺失值数据等，初步筛选掉与分类无关的信息，对所述音视频数据进行清洗处理，同时将清洗后的数据以指定格式输出并保存起来，从而获得有效的音视频数据。

在步骤S22中，采用脚本或者第三方音视频分离工具对所述有效的音视频数据进行语音和视频分离，从而获得了语音数据和视频数据。

在本发明实施例中，可以采用python语言进行音视频分离脚本的编写，或者是第三方的音视频分离工具，将输入的音视频数据进行分离操作，实现语音、视频的分离，得到分类后的语音和视频数据。

在步骤S23中，对分类后的语音根据指定的时间段或采样数进行分段，完成对语音的分帧处理以得到语音信号数据，再通过窗函数的作用，使得原本含有噪声的语音信号呈现出信号加强和信号周期性的特征，完成加窗处理，便于后续更好的提取语音的特征参数。示例性的，步骤S23还包括对有效的视频数据进行裁剪，产生多帧图片，具体的，可以采用编写脚本的方式首先加载视频数据并读取视频信息，然后根据视频信息对视频进行解码，确定视频每秒钟展示多少张图片，从而获取单帧图像信息，所述单帧图像信息包括每帧图片的宽度和高度，最后将视频保存成多张图片。所以，经过步骤S23的处理，可以得到有效的语音数据和图像数据。在本发明的其他实施方式中也可采用诸如第三方视频裁剪工具等其他视频分帧方法，本发明对此不作具体限制。

如图5所示，在步骤S3钟，其具体包括：

S31：提取所述有效语音数据特征，得到语音特征。

S32：将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据。

S33：基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据。

S34: 基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息。

S35：将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。

在步骤S31钟，提取所述有效语音数据特征具体包括：

提取所述语音数据特征，获取其梅尔频率倒谱系数特征（Mel-scale Frequency Cepstral Coefficients，简称MFCC）。MFCC是一种语音信号中具有辨识性的成分，是在Mel标度频率域提取出来的倒谱参数，其中，Mel标度描述了人耳频率的非线性特性，MFCC的参数考虑到了人耳对不同频率的感受程度，特别适用于语音辨别和语者辨识。

在本发明实施例中，也可以通过不同算法步骤获取所述语音数据的感知线性预测特征（Perceptual Linear Predictive，简称PLP）或线性预测系数特征（Linear Predictive Coding，简称LPC）等特征参数来取代MFCC特征，具体可根据实际应用场景和采用的模型参数进行具体的调整，本发明对此不做具体限制。

上述步骤中所涉及的具体的算法步骤可参考当前本领域的现有技术，具体的内容在此不做具体描述。

在步骤S32中，通过自动语音识别技术中的网络模型对所述有效语音数据实现文本内容转写，得到所述的第一语音文本数据。

在本实施方式中，通过增加网络的宽度途径构建多通道多尺寸深度卷积神经网络模型实现语音转文本的任务，该深度网络模型是由多层深度卷积网络模型构成，深度卷积神经网络模型一般是由若干卷积层加若干全连接层组成，中间包含各种的非线性操作、池化操作，主要用于处理网格结构的数据，因此该模型可以利用滤波器将相邻像素之间的轮廓过滤出来。另外，该模型它是先提出语音特征值，然后再对特征值进行计算而不是对原始语音数据值进行计算。因此，相比于传统的循环神经网络来说，深度卷积神经网络模型具有计算量小、容易刻画局部特征的优势，而且共享权重以及池化层可以赋予该模型更好的时域或频域的不变性，另外更深层的非线性结构也可以让该模型具备强大的表征能力。另外，多通道多尺寸可以从不同的视角去提取语音特征，获取更多的语音特征信息，具有更好的语音识别精度。

具体的，在本实施方式中，在步骤S32中，所采用的多通道多尺寸深度卷积神经网络由3*3卷积层、32通道数和一层最大池化构成。

在步骤S33中，利用连接时序分类方法（Connectionist temporal classification，CTC）得到输入语音特征序列和输出的语音文本特征序列的对齐关系。

在本实施方式中，所述有效语音数据和所述第一语音文本数据的文字很难构建精准的映射关系，从而增加了后续语音识别的难度。为了解决这个问题，采用了时序分类方法，该方法一般是在使用卷积网络模型之后使用的，是一种完全端到端的声学模型训练，不需要预先对数据做对齐处理，只需要一个输入序列和一个输出序列即可训练，不需要对数据做对齐和一一标注处理，同时可以直接输出序列预测的概率。根据这个预测概率，我们可以获得最有可能的文本输出结果，以得到第二语音文本数据。

进一步的，在步骤S34中，所述注意力机制可以引导深度卷神经网络去关注更为关键的特征信息而抑制其他非关键的特征信息，因此，通过引入注意力机制，能够得到所述第二语音文本数据的局部关键特征或权重信息，从而进一步减少模型训练时出现序列的不规则误差对齐现象。

这里，在步骤S35中，根据所述第二语音文本数据以及其关键特征或关键特征的权重信息，通过自注意力机制和全连接层相融合的模型将所述第二语音文本数据赋予其自身权重信息，从而更好的获得所述语音文本数据文本语义特征的内部权重信息，以增强文本语义特征信息不同部分的重要性，最后再经过分类函数计算得分得到所述语音文本数据。

如图6所示，在步骤S4中，其具体包括：

S41：根据所述视频数据，获取嘴唇区域的视频图像。

S42：将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算，得到图像特征。

S43：基于图像唇语识别方法，将所述图像特征输入多通道多尺寸时间深度卷积神经网络转写，获得第一图像文本数据。

S44：基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系，以得到第二图像文本数据。

S45：将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。

在步骤S41和步骤S42中，考虑到根据人的嘴唇区域视频图像特征，可能识别到的句子比较复杂，比如句子长度不一、句子停顿位置或单词构成不一样以及其图像特征存在关联性等多种情况，所以我们可以根据所述有效的视频数据，对其进行裁剪分帧等视频处理操作，获取嘴唇区域的视频图像，并对嘴唇区域的视频图像进行裁剪、分割，以得到多张连续的嘴唇图片帧。在本实施例中，将所述多张连续的嘴唇图片帧输入到3D卷积神经网络模型中，通过增加时间维度的信息，能够提取到更具表达性的特征，所述3D卷积神经网络模型可以解决多张图片之间的关联信息，是以连续的多帧图像作为输入，通过增加了一个新的维度信息，捕捉到输入帧中的运动信息，从而更好的获得其图像特征。

在步骤S43中，将步骤S42中3D卷积神经网络模型产生的结果输入到多通道多尺寸时间深度卷积神经网络模型中，对其进行多通道多卷积核的运算后，输出与卷积核数量相同的多个特征图，比如以3通道输入，2个卷积核的卷积层为例，通过卷积计算后输出2个特征图。考虑到句子层面的视频图像唇语识别方法，在本实施方式中，采用了拼音序列识别（LipPic to Pinyin，P2P）和汉字序列识别（Pinyin to Chinese-Character，P2CC）两个步骤实现了所述视频图像唇语识别方法，该方法实现的是一种中文唇语识别方法。具体的，将所述多通道多尺寸时间深度卷积神经网络模型处理产生的时序图像特征映射为拼音语句的拼音序列，再将该拼音序列翻译为汉字语句的汉字序列，最后获得所述第一图像文本数据。当然，对于其它中文唇语识别的方法也不做具体的限制，只要能实现视频图像转换成对应的文本数据都在本发明的保护范围内。

在步骤S44核S45中，同样也是和上述语音数据处理的方法一样，也采用了连续时序分类方法，实现了所述有效视频数据和所述第一图像文本数据的文字之间的映射关系，以得到第二图像文本数据。再通过自注意力机制和全连接层相融合的模型将所述第二图像文本数据赋予其自身权重信息和/或关联权重信息，从而更好的获得所述图像文本数据文本语义特征的内部权重信息和/或关联权重信息，以增强文本语义特征信息不同部分的重要性，最后再经过分类函数计算得分得到所述图像文本数据。具体的处理过程同上述语音数据处理步骤，在此不做赘述。

如图7所示，在步骤S5中，其具体包括：

S51：将所述语音文本数据和图像文本数据转换为语音文本词向量和图像文本词向量。

S52：将所述语音文本词向量和图像文本词向量输入双向长短记忆网络模型，获取包含所述语音文本数据和图像文本数据特征信息的上下文特征向量。

S53：基于注意力机制模型，区分所述语音文本数据和所述图像文本数据的文本特征中的词和/或词语的自身权重信息和/或关联权重信息，获得所述文本语义特征的权重信息。

在步骤S51中，为了将文本数据转化为计算机能够识别和处理的向量化形式，可通过Word2Vec算法，将所述语音文本数据和图像文本数据转化为所述语音文本词向量和图像文本词向量，或者也可通过其他诸如Glove算法等本领域现有算法转化得到所述词向量，本发明对此不做具体限制。

在步骤S52中，双向长短记忆网络（Bi-directional Long Short-Term Memory，简写BiLSTM）由前向长短记忆网络（Long Short-Term Memory，简写LSTM）和后向长短记忆网络组合而成，LSTM模型能够更好地获取文本语义长距离的依赖关系，而在其基础上，BiLSTM模型能更好地获取文本双向语义。将所述语音文本词向量和图像文本词向量输入BiLSTM模型中，经过前向LSTM和后向LSTM处理后，其中前向LSTM和后向LSTM都是等到所有时间步都计算完成后，才能产生两个结果向量，再将这两个结果向量拼接起来，输出带有语境上下文信息的所述上下文特征向量。

在本发明实施方式中，也可以通过构建其他结构的神经网络模型来实现语音数据和视频数据转写为所述的语音文本数据和视频文本数据，具体的方法不做限制。

在步骤S53中，为了区分所述语音文本数据和图像文本数据中不同词或词语的自身的权重信息或不同文本数据之间的关联权重信息，分别将所述语音文本上下文特征向量和所述图像文本上下文特征向量输入自注意力机制和互注意力机制中，获取包含所述语音文本语义特征和图像文本语义特征自身权重信息的自身权重特征向量以及包含所述语音文本语义特征和图像文本语义特征关联权重信息的关联权重特征向量，充分利用了音视频转文本的上下文信息，补充了语音和视频数据中单一特征的不足，丰富了文本数据中的语义表征能力，优化了后续的文本分类能力。

在步骤S6中，其具体包括：

将所述语音的上下文特征向量和权重文本注意力特征向量（包括自身权重文本注意力特征向量和关联权重文本注意力特征向量）经全连接层组合后，输出至分类函数，计算所述语音文本数据和所述图像文本数据中文本语义的得分及其归一化得分结果，得到分类结果信息。

综上所述，依次通过上述步骤可以得到本发明所提供的音视频生成文本的分类方法。通过获取所述实时的音视频数据和历史的音视频数据，对其进行数据清洗，同时对其进行语音和视频的分离，分别产生有效的语音数据和视频数据，并将其都作为预训练和预测模型的数据集的一部分，从而更全面的获取了文本语义特征。另外，通过构建融合了连接时序分类方法和注意力机制的多通道多尺寸的深度卷积网络模型以及基于时间深度卷积神经网络模型与句子层面的视频图像唇语识别方法，从而挖掘并获得了更加丰富的高层语义特征信息。最后，通过构建融合了语义文本数据和视频文本数据的上下文信息机制、自注意力机制和互注意力机制，更加充分的利用了语义表征能力，弥补了语音和视频数据中单一特征的不足，提高了音视频生成文本分类的准确性。另外，通过获取外部存储的配置数据进行计算，提高了模型的计算效率。整体模型结构具有很好的文本数据语义表征能力，从语义特征熵体现了良好的互补性和关联性特点，提高了对音视频生成文本分类的准确率。

在步骤S7中，其具体包括：

将所述生成文本的类别信息转换为语音进行输出，和/或

将所述生成文本的类别信息转换为语音传输至客户终端输出，和/或

将所述生成文本的类别信息转换为文本进行输出，和/或

将所述生成文本的类别信息转换为文本传输至客户终端输出，和/或

将所述生成文本的类别信息转换为图像进行输出，和/或

将所述生成文本的类别信息转换为图像传输至客户终端输出。

如步骤S7所述，在本实时方式中，在通过上述所述步骤获得分类结果信息后，可将其转换成语音，通过智能冰箱内置的声音播放设备播报所述结果信息，或者也可以将所述结果信息转换为文本，直接通过智能冰箱配置的显示设备显示，或者也可以将所述结果信息转换图像，直接通过智能冰箱的大屏显示。并且，也可将结果信息语音通信传输至客户终端输出，这里，客户终端为具有信息接收功能的电子设备，如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报，或将分类结果信息以文本或图像形式通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件，供用户查阅。从而实现多渠道多种类的分类结果信息输出方式，用户并不局限于只能在智能冰箱附近处获得相关信息，配合本发明所提供的多渠道多种类实时语音获取方式，使得用户能够直接在远程与智能冰箱进行交互，具有极高的便捷性，大幅提高了用户使用体验。在本发明的其他实施方式中，也可仅采用上述分类结果信息输出方式中的一种或几种，或者也可基于现有技术通过其他渠道输出分类结果信息，本发明对此不作具体限制。

综上所述，本发明提供的一种基于多模态深度学习的音视频生成文本分类方法，其通过多渠道获取实时音视频数据和历史音视频数据，将所述音视频数据进行数据处理之后，将所述语音数据和视频数据转换成对应的语音文本数据和图像文本数据，结合音视频生成文本后的上下文信息通过多通道多尺寸深度卷积神经网络模型和多通道多尺寸时间深度卷积神经网络模型充分提取了文本语义特征，获得生成文本分类结果，并将所述文本分类结果通过多渠道进行输出，所述方法不仅显著提高了生成文本分类的准确率，而且使得用户和智能冰箱的交互方式更加便捷、多元化，大大提高了用户的体验。

基于同一发明构思，本发明还提供一种电器设备，其包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于多模态深度学习的文本分类方法。

基于同一发明构思，本发明还提供一种冰箱，其包括：

存储器，用于存储可执行指令；

基于同一发明构思，本发明还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的基于多模态深度学习的文本分类方法。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

一种基于多模态深度学习的文本分类方法，其特征在于，包括步骤：

获取实时音视频数据和历史音视频数据；

对所述实时音视频数据和历史音视频数据进行预处理，获取有效的语音数据和视频数据；

转写所述有效语音数据为语音文本数据；

获取所述有效视频数据中局部区域的视频图像，并转写所述视频图像为图像文本数据；

根据所述语音文本数据和图像文本数据，获取该文本数据的上下文信息和文本语义特征的权重信息；

将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息，并判断所述音视频数据生成文本的类别信息；

输出所述生成文本的类别信息。
根据权利要求1所述的基于多模态深度学习的文本分类方法，其特征在于，所述“对所述实时音视频数据和历史音视频数据进行预处理，获取有效的语音数据和视频数据”，具体包括：

对所述实时音视频数据和历史音视频数据进行数据清洗、格式解析、格式转换和数据存储，获得有效的音视频数据；

采用脚本或第三方工具将所述有效音视频数据进行语音和视频分离，以获得所述语音数据和视频数据；

对所述语音数据和视频数据进行预处理，包括：对所述语音数据进行分帧和加窗处理，对所述视频数据进行裁剪、分帧处理。
根据权利要求1所述的基于多模态深度学习的文本分类方法，其特征在于，所述“转写所述有效语音数据为语音文本数据”，具体包括：

提取所述有效语音数据特征，得到语音特征；

将所述语音特征输入语音识别多通道多尺寸深度卷积神经网络模型转写得到第一语音文本数据；

基于连接时序分类方法输出所述语音特征和所述第一语音文本数据的对齐关系，以得到第二语音文本数据；

基于注意力机制，获取所述第二语音文本数据的关键特征或所述关键特征的权重信息；

将所述第二语音文本数据以及其关键特征或关键特征的权重信息经全连接层组合后，再经过分类函数计算得分得到所述语音文本数据。
根据权利要求3所述的基于多模态深度学习的文本分类方法，其特征在于，所述“提取所述有效语音数据特征”，具体包括：

提取所述有效语音数据特征，获取其梅尔频率倒谱系数特征。
根据权利要求1所述的基于多模态深度学习的文本分类方法，其特征在于，所述“获取所述有效视频数据中局部区域的视频图像，并转写所述视频图像为图像文本数据”，具体包括：

根据所述视频数据，获取嘴唇区域的视频图像；

将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算，得到图像特征；

基于图像唇语识别方法，将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写，获得第一图像文本数据；

基于连接时序分类方法输出所述图像特征和所述第一图像文本数据的对齐关系，以得到第二图像文本数据；

将所述第二图像文本数据经全连接层组合后，再经过分类函数计算得分得到所述图像文本数据。
根据权利要求5所述的基于多模态深度学习的文本分类方法，其特征在于，所述“将所述嘴唇区域的视频图像输入3D卷积神经网络模型计算，得到图像特征”，具体包括：

对嘴唇局部视频数据分割成连续嘴唇图片帧；

将所述连续嘴唇图片帧输入3D卷积神经网络模型计算，提取多种特征，得到所述图像特征。
根据权利要求6所述的基于多模态深度学习的文本分类方法，其特征在于，所述“基于图像唇语识别方法，将所述图像特征输入多通道多尺寸时间深度卷积神经网络模型转写，获得第一图像文本数据”，具体包括：

将所述图像特征输入所述多通道多尺寸时间深度卷积神经网络计算，得到时序图像特征；

根据所述图像唇语识别方法，将所述时序图像特征映射为拼音语句的拼音序列；

再将所述拼音序列翻译为对应汉字语句的汉字序列。
根据权利要求1所述的基于多模态深度学习的文本分类方法，其特征在于，所述“根据所述语音文本数据和图像文本数据，获取该文本数据的上下文信息和文本语义特征的权重信息”，具体包括：

将所述语音文本数据和图像文本数据转换为语音文本词向量和图像文本词向量；

将所述语音文本词向量和图像文本词向量输入双向长短记忆网络模型，获取包含所述语音文本数据和图像文本数据特征信息的上下文特征向量。
根据权利要求8所述的基于多模态深度学习的文本分类方法，其特征在于，所述方法还包括：

基于注意力机制模型，区分所述语音文本数据和图像文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息，获得所述文本语义特征的权重信息。
根据权利要求9所述的基于多模态深度学习的文本分类方法，其特征在于，所述“基于注意力机制模型，区分所述语音文本数据和所述图像文本数据的文本特征中的词、词语的自身权重信息和/或关联权重信息”，具体包括：

分别将所述语音文本上下文特征向量和所述图像文本上下文特征向量输入自注意力机制和互注意力机制；

获取包含所述语音文本语义特征和图像文本语义特征自身权重信息的自身权重文本注意力特征向量；

获取包含所述语音文本语义特征和图像文本语义特征关联权重信息的关联权重文本注意力特征向量。
根据权利要求10所述的基于多模态深度学习的文本分类方法，其特征在于，所述“将所述上下文信息和权重信息经全连接层组合后，输出至分类器计算得分得到分类结果信息，并判断所述音视频数据生成文本的类别信息”，具体包括：

将所述上下文特征向量和权重文本注意力特征向量经全连接层组合后，输出至分类函数，计算所述语音文本数据和所述图像文本数据文本语义的得分及其归一化得分结果，得到生成文本的类别信息。
根据权利要求1所述的基于多模态深度学习的文本分类方法，其特征在于，所述“转写所述语音数据为语音文本数据”，还包括：

获取存储于外部缓存的配置数据，将所述语音数据基于所述配置数据执行所述多通道多尺寸深度卷积神经网络模型计算，进行文本转写和提取文本特征。
一种电器设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述的基于多模态深度学习的文本分类方法。
一种冰箱，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述的基于多模态深度学习的文本分类方法。
一种计算机可读存储介质，其存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的基于多模态深度学习的文本分类方法。