CN114398889A

CN114398889A - 基于多模态模型的视频文本摘要方法、设备及存储介质

Info

Publication number: CN114398889A
Application number: CN202210056075.6A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-26
Also published as: WO2023137913A1

Abstract

本发明涉及人工智能技术，其实施例提供了基于多模态模型的视频文本摘要方法、设备及存储介质，该方法包括以下步骤：对视频数据进行特征提取，得到视频特征，视频数据为需要提取文本摘要的视频数据；将视频特征进行向量化处理，得到视频特征向量；对视频数据进行语音提取，得到独白语音信息；通过自动语音识别技术ASR将独白语音信息转换为文本信息；将文本信息进行分词处理，得到多个词信息；将视频特征向量和多个词信息输入至transformer模型进行训练，得到文本摘要结果，transformer模型的编码器中设置用于将图像类特征和文本类特征进行融合的子层，能够改善在视频中提取的文本摘要内容的准确性。

Description

基于多模态模型的视频文本摘要方法、设备及存储介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种基于多模态模型的视频文本摘要方法、设备及存储介质。

背景技术

目前，在业内智能视频摘要的方法大多使用文本抽取式方法，因为视频中有语音独白，通常使用自动语音识别技术(Automatic Speech Recognition，ASR)把声音转成文本，再使用自然语言处理技术，例如计算句子的重要程度，把计算结果为重要的句子抽取出来，由于此方法是从独白中抽取若干句子，所以结果会导致语句之间不通顺。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例的主要目的在于提出一种基于多模态模型的视频文本摘要方法，能够有效改善在视频中提取的文本摘要内容的准确性。

第一方面，本发明实施例提供了一种基于多模态模型的视频文本摘要方法，包括：

对视频数据进行特征提取，得到视频特征，所述视频数据为需要提取文本摘要的视频数据；

将所述视频特征进行向量化处理，得到视频特征向量；

对所述视频数据进行语音提取，得到独白语音信息；

通过自动语音识别技术ASR将所述独白语音信息转换为文本信息；

将所述文本信息进行分词处理，得到多个词信息；

将所述视频特征向量和多个所述词信息输入至transformer模型进行训练，得到文本摘要结果，所述transformer模型的编码器中设置用于将图像类特征和文本类特征进行融合的子层，所述子层包括Text-vision fusion和Add&Norm。

在一实施例中，所述将所述视频特征向量和所述字典输入至transformer模型进行训练，得到文本摘要结果包括：

将所述视频特征向量和所述字典输入至所述transformer模型的设置有用于将图像特征和文本特征进行融合的子层的编码器中进行融合处理，得到融合编码信息；

将所述融合编码信息传递至解码器中进行解码处理，生成文本摘要结果。

在一实施例中，所述将所述视频特征向量和所述字典输入至transformer模型的设置有用于将图像类特征和文本类特征进行融合的子层的编码器进行融合处理，得到融合编码信息，包括：

将所述字典输入至所述transformer模型的所述编码器，并将所述字典依次通过所述编码器中的第一子层和第二子层进行提取处理，得到文本特征向量，所述第一子层包括multi-head self-attention和Add&Norm，所述第二子层包括FFN和Add&Norm；

将所述文本特征向量和所述视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层进行融合处理，得到融合编码信息。

在一实施例中，所述将所述文本特征向量和所述视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层进行融合处理，得到融合编码信息包括：

将所述文本特征向量和所述视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层；

将Z_v与权重矩阵进行矩阵相乘处理，得到Z_v'，所述Z_v为所述视频特征向量；

将所述Z_v'进行矩阵转置处理，得到Z_v'^T；

将Z_v'^T与Z_t进行矩阵相乘并通过softmax函数进行计算处理，得到A，A为注意力权重；

将所述A与Z_v进行相乘处理得到AZ_v，并将AZ_v与Z_t进行向量拼接处理，得到Z’_t,Z’_t为融合编码信息。

在一实施例中，所述对所述视频数据进行特征提取，得到视频特征向量包括：

利用3D ResNet-101模型对所述视频数据进行特征提取，得到视频特征向量。

在一实施例中，所述将所述文本信息进行分词处理，得到多个词信息包括：

使用hanlp分词工具将所述文本信息进行分词处理，得到多个词信息。

在一实施例中，所述使用hanlp分词工具将所述文本信息进行分词处理，得到多个词信息包括：

所述使用hanlp分词工具将所述文本信息进行分词处理，得到排列在同一行的多个词信息；

将多个所述词信息进行分行处理，得到以分行字典结构排列的多个词信息。

第二方面，本发明实施例提供了一种基于多模态模型的视频文本摘要装置，包括：

第一提取模块，用于对视频数据进行特征提取，得到视频特征，所述视频数据为需要提取文本摘要的视频数据；

向量化模块，用于将所述视频特征进行向量化处理，得到视频特征向量；

第二提取模块，用于对所述视频数据进行语音提取，得到独白语音信息；

转换模块，用于通过自动语音识别技术ASR将所述独白语音信息转换为文本信息；

分词模块，用于将所述文本信息进行分词处理，得到多个词信息；

训练模块，用于将所述视频特征向量和多个所述词信息输入至transformer模型进行训练，得到文本摘要结果，所述transformer模型的编码器中设置用于将图像类特征和文本类特征进行融合的子层，所述子层包括Text-vision fusion和Add&Norm。

在一实施例中，训练模块还用于将所述视频特征向量和所述字典输入至所述transformer模型的设置有用于将图像特征和文本特征进行融合的子层的编码器中进行融合处理，得到融合编码信息；将所述融合编码信息传递至解码器中进行解码处理，生成文本摘要结果。

在一实施例中，训练模块还用于将所述字典输入至所述transformer模型的所述编码器，并将所述字典依次通过所述编码器中的第一子层和第二子层进行提取处理，得到文本特征向量，所述第一子层包括multi-head self-attention和Add&Norm，所述第二子层包括FFN和Add&Norm；将所述文本特征向量和所述视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层进行融合处理，得到融合编码信息。

在一实施例中，训练模块还用于将所述文本特征向量和所述视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层；将Z_v与权重矩阵进行矩阵相乘处理，得到Z_v'，所述Z_v为所述视频特征向量；将所述Z_v'进行矩阵转置处理，得到Z_v'^T；将Z_v'^T与Z_t进行矩阵相乘并通过softmax函数进行计算处理，得到A，A为注意力权重；将所述A与Z_v进行相乘处理得到AZ_v，并将AZ_v与Z_t进行向量拼接处理，得到Z_t',Z_t'为融合编码信息。

在一实施例中，提取模块还用于利用3D ResNet-101模型对所述视频数据进行特征提取，得到视频特征向量。

在一实施例中，分词模块还用于使用hanlp分词工具将所述文本信息进行分词处理，得到多个词信息。

在一实施例中，分词模块还用于所述使用hanlp分词工具将所述文本信息进行分词处理，得到排列在同一行的多个词信息；

第三方面，本发明实施例提供了一种设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于多模态模型的视频文本摘要方法。

第四方面，一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行第一方面所述的基于多模态模型的视频文本摘要方法。

本发明实施例包括：基于多模态模型的视频文本摘要方法包括以下步骤：对视频数据进行特征提取，得到视频特征，所述视频数据为需要提取文本摘要的视频数据；将所述视频特征进行向量化处理，得到视频特征向量；对所述视频数据进行语音提取，得到独白语音信息；通过自动语音识别技术ASR将所述独白语音信息转换为文本信息；将所述文本信息进行分词处理，得到多个词信息；将所述视频特征向量和多个所述词信息输入至transformer模型进行训练，得到文本摘要结果，所述transformer模型的编码器中设置用于将图像类特征和文本类特征进行融合的子层，所述子层包括Text-vision fusion和Add&Norm。在本实施例的技术方案中，在transformer模型的编码器中新设置用于将图像类特征和文本类特征进行融合的子层，使得视频特征向量和字典在transformer模型训练得出的文本摘要结果更加准确，即能够有效改善在视频中提取的文本摘要内容的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明一个实施例提供的用于执行基于多模态模型的视频文本摘要方法的***架构平台的示意图；

图2是本发明一个实施例提供的基于多模态模型的视频文本摘要方法的流程图；

图3是本发明一个实施例提供的基于多模态模型的视频文本摘要方法中改进的transformer模型的示意图；

图4是本发明一个实施例提供的基于多模态模型的视频文本摘要方法中的生成文本摘要结果的流程图；

图5是本发明一个实施例提供的基于多模态模型的视频文本摘要方法中生成融合编码信息的示意图；

图6是本发明一个实施例提供的基于多模态模型的视频文本摘要方法中编码器中新增子层中融合处理的流程图；

图7是本发明一个实施例提供的基于多模态模型的视频文本摘要方法中编码器中新增子层的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于多模态模型的视频文本摘要方法，该视频文本摘要方法包括以下步骤：对视频数据进行特征提取，得到视频特征，所述视频数据为需要提取文本摘要的视频数据；将所述视频特征进行向量化处理，得到视频特征向量；对所述视频数据进行语音提取，得到独白语音信息；通过自动语音识别技术ASR将所述独白语音信息转换为文本信息；将所述文本信息进行分词处理，得到多个词信息；将所述视频特征向量和多个所述词信息输入至transformer模型进行训练，得到文本摘要结果，所述transformer模型的编码器中设置用于将图像类特征和文本类特征进行融合的子层，所述子层包括Text-vision fusion和Add&Norm。在本实施例的技术方案中，在transformer模型的编码器中新设置用于将图像类特征和文本类特征进行融合的子层，使得视频特征向量和字典在transformer模型训练得出的文本摘要结果更加准确，能够有效改善在视频中提取的文本摘要内容的准确性。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的用于执行基于多模态模型的视频文本摘要方法的***架构平台100的示意图。

在图1的示例中，该***架构平台100设置有处理器110和存储器120，其中，处理器110和存储器120可以通过总线或者其他方式连接，图1中以通过总线连接为例。

存储器120作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器120可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至该***架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解的是，该***架构平台可以应用于5G通信网络***以及后续演进的移动通信网络***等，本实施例对此并不作具体限定。

本领域技术人员可以理解的是，图1中示出的***架构平台并不构成对本发明实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

***架构平台100可以是独立的***架构平台100，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云***架构平台100。

基于上述***架构平台，下面提出本发明的基于多模态模型的视频文本摘要方法的各个实施例。

如图2所示，图2是本发明一个实施例提供的基于多模态模型的视频文本摘要方法的流程图，该基于多模态模型的视频文本摘要方法应用于上述架构平台，并且该基于多模态模型的视频文本摘要方法包括但不限于有步骤S100、步骤S200、步骤S300、步骤S400和步骤S500。

步骤S100，对视频数据进行特征提取，得到视频特征，视频数据为需要提取文本摘要的视频数据；

步骤S200，将视频特征进行向量化处理，得到视频特征向量；

步骤S300，对视频数据进行语音提取，得到独白语音信息；

步骤S400，通过自动语音识别技术ASR将独白语音信息转换为文本信息；

步骤S500，将文本信息进行分词处理，得到多个词信息；

步骤S600，将视频特征向量和多个词信息输入至transformer模型进行训练，得到文本摘要结果，transformer模型的编码器中设置用于将图像类特征和文本类特征进行融合的子层，子层包括Text-vision fusion和Add&Norm。

在一实施例中，获取需要提取文本摘要的视频数据，视频数据包括视频图像信息和语音信息，其中语音信息包括独白语音信息和背景语音信息，然后对视频数据进行特征提取得到视频特征，并将视频特征进行向量化处理得到视频特征向量，其中视频特征向量为后续训练步骤做准备；同时可以对视频数据进行语音提取得到独白语音信息，并通过自动语音识别技术ASR将独白语音信息转换为文本信息，再将文本信息进行分词处理得到多个词信息；接着将已经处理好的视频特征向量和多个词信息输入至transformer模型中进行训练，得到经过将图像类特征和文本类特征进行融合的子层训练处理后的文本摘要结果。由于在transformer模型的编码器中新设置用于将图像类特征和文本类特征进行融合的子层，该子层包括Text-vision fusion和Add&Norm，使得视频特征向量和字典在transformer模型训练得出的文本摘要结果更加准确，能够有效改善在视频中提取的文本摘要内容的准确性。需要说明的是，可以利用3D ResNet-101模型对视频数据进行特征提取得到视频特征向量，也可以利用其它模型对视频数据中的视频特征进行提取，本实施例对其不作唯一限定。

可以理解的是，将文本信息进行分词处理得到多个词信息的步骤可以是使用hanlp分词工具将文本信息进行分词处理得到多个词信息，还可以是所述使用hanlp分词工具将所述文本信息进行分词处理，得到排列在同一行的多个词信息；将多个所述词信息进行分行处理，得到以分行字典结构排列的多个词信息，本实施例对其不作具体限定。可以理解的是，本实施例中的字典包括多个词信息，在字典中每个词信息均独立为一行，每个词信息对应一个行位置编号。

需要说明的是，参照图3，本实施例在传统的transformer模型中的Encoder Layer增加一个子层，该子层用于将图像类特征和文本类特征进行融合，包括Text-visionfusion和Add&Norm。那么改进后的transformer模型包括Encoder端(编码器)和Decoder端(解码器)，Encoder端中的Encoder Layer包括三个子层：第一子层(multi-head self-attention和Add&Norm)、第二子层(FFN和Add&Norm)和第三子层(Text-vision fusion和Add&Norm)，Decoder端的Decoder Layer包括三个子层：第四子层(Masked multi-headself-attention和Add&Norm)、第五子层(Multi-head Enc-Dec Attention和Add&Norm)和第六子层(FFN和Add&Norm)。

需要说明的是，Text Inputs是输入分好词的文本(字典)，传统的transformer模型中这些词会对应有3个embedding。一个是token embedding令牌嵌入，可以叫标记嵌入(token embedding)也叫词嵌入(word embedding))作用是将人类的语言映射到几何空间中，一个是segment embedding分段嵌入，还有一个是positional embedding位置嵌入。在实施例中只使用了token embedding和segment embedding。其中Token embedding的获取方法是：将text inputs与一个大小为N*512的权重矩阵相乘，得到向量长度为512的tokenembedding，其中text inputs是由一个长度为字典行数N作为维度的向量，而且textinputs里的每一个词都会对应字典中的一个位置，在这个位置上标注1，其余位置标注0。

参照图4，在一实施例中，步骤S500包括但不限于步骤S410和步骤S420。

步骤S410，将视频特征向量和字典输入至transformer模型的设置有用于将图像特征和文本特征进行融合的子层的编码器中进行融合处理，得到融合编码信息；

步骤S420，将融合编码信息传递至解码器中进行解码处理，生成文本摘要结果。

具体地，将视频特征向量和字典可以分别输入至transformer模型的设置有用于将图像特征和文本特征进行融合的子层的编码器中进行融合处理，得到融合编码信息，然后再将融合编码信息传递至解码器中进行解码处理，从而生成文本摘要结果。由于在transformer模型的编码器中新设置用于将图像类特征和文本类特征进行融合的子层，而不是单纯通过文本特征向量训练出来的，使得视频特征向量和字典在transformer模型训练得出的文本摘要结果更加准确，能够有效改善在视频中提取的文本摘要内容的准确性。

参照图5，在一实施例中，步骤S410包括但不限于步骤S510和步骤S520。

步骤S510，将字典输入至transformer模型的编码器，并将字典依次通过编码器中的第一子层和第二子层进行提取处理，得到文本特征向量，第一子层包括multi-headself-attention和Add&Norm，第二子层包括FFN和Add&Norm；

步骤S520，将文本特征向量和视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层进行融合处理，得到融合编码信息。

具体地，可以先将字典输入至transformer模型的编码器进行处理，如先将字典依次通过编码器中的第一子层(multi-head self-attention和Add&Norm)和第二子层(FFN和Add&Norm)进行提取处理，得到文本特征向量，然后再将文本特征向量和视频特征向量输入新增的子层中进行图像类特征和文本类特征融合处理得到融合编码信息，由于融合编码信息是由文本特征向量和视频特征向量融合而成的，而不是单纯通过文本特征向量训练出来的，那么将融合编码信息通过解码器进行解码生成文本摘要结果更加准确，能够有效改善在视频中提取的文本摘要内容的准确性。

参照图6，在一实施例中，步骤S510包括但不限于步骤S610、步骤S620、步骤S630、步骤S640、步骤S650。

步骤S610，将文本特征向量和视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层；

步骤S620，将Z_v与权重矩阵进行矩阵相乘处理，得到Z_v'，Z_v为视频特征向量；

步骤S630，将Z’_v进行矩阵转置处理，得到

步骤S640，将

与Z_t进行矩阵相乘并通过softmax函数进行计算处理，得到A，A为注意力权重；

步骤S650，将A与Z_v进行相乘处理得到AZ_v，并将AZ_v与Z_t进行向量拼接处理，得到Z’_t,Z’_t为融合编码信息。

具体地，将文本特征向量和视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层，在子层中先将Z_v与权重矩阵进行矩阵相乘处理，得到Z’_v，然后将Z’_v进行矩阵转置处理得到

再将

与Z_t进行矩阵相乘并通过softmax函数进行计算处理得到A，将A与Z_v进行相乘处理得到AZ_v，并将AZ_v与Z_t进行向量拼接处理，得到Z’_t。其中Z_v为视频特征向量，A为注意力权重，Z’_t为融合编码信息。

在一实施例中，在transformer模型的编码器中新增的用于将图像类特征和文本类特征进行融合的子层中的Text-vision fusion的结构参照图7，基于Text-visionfusion的结构对文本特征向量和视频特征向量在Text-vision fusion中的融合过程，可以通过数学公式表达，具体如下：

Z′_t＝Concat(Z_t，AZ_v)W₂

其中W₁为权重矩阵，Z_v为视频特征向量，A为注意力权重，Z’_t为融合编码信息。

本实施的方法由于引入图像类特征，能够达到在自动文本摘要更好的效果，例如在ROUGE-1,ROUGE-2,ROUGE-L等评估方法中得分更高。

基于上述基于多模态模型的视频文本摘要方法，下面分别提出本发明的基于多模态模型的视频文本摘要方法装置、控制器和计算机可读存储介质的各个实施例。

本发明的一个实施例还提供了基于改进题目反应理论的答题序列的预测装置，包括：

在一实施例中，训练模块还用于将视频特征向量和字典输入至transformer模型的设置有用于将图像特征和文本特征进行融合的子层的编码器中进行融合处理，得到融合编码信息；将融合编码信息传递至解码器中进行解码处理，生成文本摘要结果。

在一实施例中，训练模块还用于将字典输入至transformer模型的编码器，并将字典依次通过编码器中的第一子层和第二子层进行提取处理，得到文本特征向量，第一子层包括multi-head self-attention和Add&Norm，第二子层包括FFN和Add&Norm；将文本特征向量和视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层进行融合处理，得到融合编码信息。

在一实施例中，训练模块还用于将文本特征向量和视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层；将Z_v与权重矩阵进行矩阵相乘处理，得到Z_v'，Z_v为视频特征向量；将Z_v'进行矩阵转置处理，得到Z_v'^T；将Z_v'^T与Z_t进行矩阵相乘并通过softmax函数进行计算处理，得到A，A为注意力权重；将A与Z_v进行相乘处理得到AZ_v，并将AZ_v与Z_t进行向量拼接处理，得到Z_t',Z_t'为融合编码信息。

在一实施例中，提取模块还用于利用3D ResNet-101模型对视频数据进行特征提取，得到视频特征向量。

在一实施例中，分词模块还用于使用hanlp分词工具将文本信息进行分词处理，得到多个词信息。

需要说明的是，上述基于多模态模型的视频文本摘要装置的各个实施例与基于多模态模型的视频文本摘要方法的实施例中所使用的技术手段、解决的技术问题以及达到的技术效果一致，此处不作具体赘述，详见基于多模态模型的视频文本摘要方法的实施例。

另外，本发明的一个实施例提供了一种设备，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

需要说明的是，本实施例中的设备，可以对应为包括有如图1所示实施例中的存储器和处理器，能够构成图1所示实施例中的***架构平台的一部分，两者属于相同的发明构思，因此两者具有相同的实现原理以及有益效果，此处不再详述。

实现上述实施例的设备侧的基于多模态模型的视频文本摘要方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例的基于多模态模型的视频文本摘要方法，例如，执行以上描述的图2中的方法步骤S100至S600、图4中的方法步骤S410至S420、图5中的方法步骤S510至S520、图6中的方法步骤S610至步骤S650。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，当计算机可执行指令用于执行上述终端侧的基于多模态模型的视频文本摘要方法，例如，执行以上描述的图2中的方法步骤S100至S600、图4中的方法步骤S410至S420、图5中的方法步骤S510至S520、图6中的方法步骤S610至步骤S650。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种基于多模态模型的视频文本摘要方法，包括：

将所述视频特征进行向量化处理，得到视频特征向量；

对所述视频数据进行语音提取，得到独白语音信息；

将所述文本信息进行分词处理，得到多个词信息；

2.根据权利要求1所述的基于多模态模型的视频文本摘要方法，其特征在于，所述将所述视频特征向量和多个所述词信息输入至transformer模型进行训练，得到文本摘要结果包括：

将所述视频特征向量和多个所述词信息输入至所述transformer模型的设置有用于将图像特征和文本特征进行融合的子层的编码器中进行融合处理，得到融合编码信息；

3.根据权利要求2所述的基于多模态模型的视频文本摘要方法，其特征在于，所述将所述视频特征向量和多个所述词信息输入至transformer模型的设置有用于将图像类特征和文本类特征进行融合的子层的编码器进行融合处理，得到融合编码信息，包括：

将多个所述词信息输入至所述transformer模型的所述编码器，并将多个所述词信息依次通过所述编码器中的第一子层和第二子层进行提取处理，得到文本特征向量，所述第一子层包括multi-head self-attention和Add&Norm，所述第二子层包括FFN和Add&Norm；

4.根据权利要求3所述的基于多模态模型的视频文本摘要方法，其特征在于，所述将所述文本特征向量和所述视频特征向量输入至用于将图像类特征和文本类特征进行融合的子层进行融合处理，得到融合编码信息包括：

将Z_v与权重矩阵进行矩阵相乘处理，得到Z′_v，所述Z_v为所述视频特征向量；

将所述Z′_v进行矩阵转置处理，得到Z′_v ^T；

将Z′_v ^T与Z_t进行矩阵相乘并通过softmax函数进行计算处理，得到A，A为注意力权重；

将所述A与Z_v进行相乘处理得到AZ_v，并将AZ_v与Z_t进行向量拼接处理，得到Z′_t,Z′_t为融合编码信息。

5.根据权利要求1所述的基于多模态模型的视频文本摘要方法，其特征在于，所述对所述视频数据进行特征提取，得到视频特征向量包括：

6.根据权利要求1所述的基于多模态模型的视频文本摘要方法，其特征在于，所述将所述文本信息进行分词处理，得到多个词信息包括：

7.根据权利要求6所述的基于多模态模型的视频文本摘要方法，其特征在于，所述使用hanlp分词工具将所述文本信息进行分词处理，得到多个词信息包括：

8.一种基于多模态模型的视频文本摘要方法装置，其特征在于，包括：

9.一种设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于多模态模型的视频文本摘要方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7任意一项所述的基于多模态模型的视频文本摘要方法。