CN111767726B

CN111767726B - 数据处理方法及装置

Info

Publication number: CN111767726B
Application number: CN202010588592.9A
Authority: CN
Inventors: 张轩玮
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2024-02-06
Anticipated expiration: 2040-06-24
Also published as: CN111767726A

Abstract

本发明实施例提供了一种数据处理方法及装置，其中方法包括：获取用于生成内容标签的视频信息和用于对所述视频信息进行描述的文本信息；确定所述文本信息中每个分词的词向量；对所述视频信息进行特征提取，得到所述视频信息对应的视频特征向量；通过互注意力机制将所述词向量的特征与所述视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量；根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签。通过本实施例中的方法可以将文本信息和视频信息的特征进行交叉融合，将文本信息和视频信息的交叉信息得到提取，使得内容标签结果更为准确。

Description

数据处理方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种数据处理方法及装置。

背景技术

目前对数据打标签的方法主要基于文本，但是，由于视频内容能够表现的特征很多，仅通过文本难以完全的表征出视频中的所有信息。当文本内容仅包括若干个词组时，词组所能提供的信息有限，若不结合具体的视频内容，很有可能该文本内容是无法表征出主要的信息，甚至很难从中解析得到有用的信息。

针对上述问题，现有技术也提供了相关的解决方法，但是现有技术中提供的图文融合的方法大多基于在输入端将两者的特征进行简单拼接使用，这样只在编码器使用，只是得到了更多的特征，而文本与视频之间仍然特征之间相互独立，效果有限，在解码器不能充分利用视频信息。

针对相关技术中存在的诸多技术问题，目前尚未提供有效的解决方案。

发明内容

本发明实施例的目的在于提供一种数据处理方法及装置，以解决相关技术中存在的至少一个技术问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种数据处理方法，包括：

获取用于生成内容标签的视频信息和用于对所述视频信息进行描述的文本信息；

确定所述文本信息中每个分词的词向量；

对所述视频信息进行特征提取，得到所述视频信息对应的视频特征向量；

通过互注意力机制将所述词向量的特征与所述视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量；

根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签。

可选的，如前述的方法，所述确定所述文本信息中每个分词的词向量，包括：

对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；

根据所述分词以及预设的标签词得到对应的词表；

根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量。

可选的，如前述的方法，所述对所述视频信息进行特征提取，得到所述视频信息对应的视频特征向量，包括：

对所述视频信息按帧进行图像提取，得到至少两个视频帧图像；

将所述视频帧图像分别输入深度神经网络中；

获取所述深度神经网络中的特征提取层对所述视频帧图像进行特征提取后得到的所述视频特征向量。

可选的，如前述的方法，所述通过互注意力机制将所述词向量的特征与所述视频特征向量的特征进行交叉融合，得到融合后词向量和融合后视频特征向量，包括：

对所述词向量进行向量维度调整得到调维词向量，对所述视频特征向量进行向量维度调整得到所述调维视频特征向量；

将各个所述调维词向量与所述调维视频特征向量进行拼接后，获得所述调维词向量的初始词向量信息，以及所述调维视频特征向量的初始视频向量信息；

确定互注意力层的层级关系，所述层级关系表征不同互注意力层之间的连接关系；

将所述词向量信息与所述视频向量信息输入设于第一层的所述互注意力层进行特征的交叉融合，根据各个所述初始词向量信息对各个所述初始视频向量信息的第一词向量影响权重，得到融合了所有所述初始词向量信息的各个第一视频向量信息，以及根据各个所述初始视频向量信息对各个所述初始词向量信息的第一视频向量影响权重，得到融合了所有所述初始视频向量信息的各个第一词向量信息；

按照所述层级关系将所述第一词向量信息与所述第一视频向量信息输入下一层的所述互注意力层再次进行特征的交叉融合，并分别得到第二词向量信息以及第二视频向量影响权重；按此循环，直至通过最后一层的所述互注意力层输出得到融合后词向量信息和融合后视频特征向量信息；

将融合后词向量信息进行解码得到所述融合后词向量；

将融合后视频特征向量信息进行解码得到所述融合后视频特征向量。

可选的，如前述的方法，所述根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签，包括：

确定所述词表中各个词语的候选词向量；

分别确定与各个输出向量的第一距离最近的所述候选词向量，所述输出向量包括：所述融合后词向量和所述融合后视频特征向量；

将第一距离最近的所述候选词向量对应的词语作为所述输出向量对应的所述内容标签。

可选的，如前述的方法，在根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签之后，还包括：

获取所述内容标签的总数；

在所述内容标签的总数大于预设的上限阈值时，获取对应于同一所述内容标签的所述候选词向量与所述输出向量之间的第二距离；

确定所述内容标签与第二距离之间的对应关系；

按照所述第二距离由小至大对所述内容标签进行排列；

按照所述对应关系删除排列次序大于所述上限阈值的所述内容标签。

可选的，如前述的方法，对所述视频信息按帧进行图像提取，得到至少两个视频帧图像，包括：

获取所述视频信息包括的图像的总帧数；

确定预设的图像数量上限阈值；

根据所述总帧数以及图像数量上限阈值之间的数值关系，确定对所述视频信进行图像提取的预设的提取策略；

按照所述提取策略对所述视频信息按帧进行图像提取，得到小于或等于所述图像数量上限阈值对应个数的视频帧图像。

在本发明实施的第二方面，还提供了一种数据处理装置，包括：

获取模块，用于获取用于生成内容标签的视频信息和用于对所述视频信息进行描述的文本信息；

确定模块，用于确定所述文本信息中每个分词的词向量；

向量获取模块，用于对所述视频信息进行特征提取，得到所述视频信息对应的视频特征向量；

特征融合模块，用于通过互注意力机制将所述词向量的特征与所述视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量；

标签确定模块，用于根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签。

可选的，如前述的装置，所述确定模块，包括：

分词单元，用于对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；

词表单元，用于根据所述分词以及预设的标签词得到对应的词表；

词向量单元，用于根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量。

可选的，如前述的装置，所述向量获取模块，包括：

提取单元，用于对所述视频信息按帧进行图像提取，得到至少两个视频帧图像；

输入单元，用于将所述视频帧图像分别输入深度神经网络中；

获取单元，用于获取所述深度神经网络中的特征提取层对所述视频帧图像进行特征提取后得到的所述视频特征向量。

可选的，如前述的装置，所述特征融合模块包括：

调维单元，用于对所述词向量进行向量维度调整得到调维词向量，对所述视频特征向量进行向量维度调整得到所述调维视频特征向量；

拼接单元，用于将各个所述调维词向量与所述调维视频特征向量进行拼接后，获得所述调维词向量的初始词向量信息，以及所述调维视频特征向量的初始视频向量信息；

关系确定单元，用于确定互注意力层的层级关系，所述层级关系表征不同互注意力层之间的连接关系；

融合单元，用于将所述词向量信息与所述视频向量信息输入设于第一层的所述互注意力层进行特征的交叉融合，根据各个所述初始词向量信息对各个所述初始视频向量信息的第一词向量影响权重，得到融合了所有所述初始词向量信息的各个第一视频向量信息，以及根据各个所述初始视频向量信息对各个所述初始词向量信息的第一视频向量影响权重，得到融合了所有所述初始视频向量信息的各个第一词向量信息；

输出单元，用于按照所述层级关系将所述第一词向量信息与所述第一视频向量信息输入下一层的所述互注意力层再次进行特征的交叉融合，并分别得到第二词向量信息以及第二视频向量影响权重；按此循环，直至通过最后一层的所述互注意力层输出得到融合后词向量信息和融合后视频特征向量信息；

第一解码单元，用于将融合后词向量信息进行解码得到所述融合后词向量；

第二解码单元，用于将融合后视频特征向量信息进行解码得到所述融合后视频特征向量。

可选的，如前述的装置，所述标签确定模块，包括：

第一确定单元，用于确定所述词表中各个词语的候选词向量；

第二确定单元，用于分别确定与各个输出向量的第一距离最近的所述候选词向量，所述输出向量包括：所述融合后词向量和所述融合后视频特征向量；

标签确定单元，用于将第一距离最近的所述候选词向量对应的词语作为所述输出向量对应的所述内容标签。

可选的，如前述的装置，还包括：标签筛选模块；所述标签筛选模块包括：

总数单元，用于获取所述内容标签的总数；

第二距离单元，用于在所述内容标签的总数大于预设的上限阈值时，获取对应于同一所述内容标签的所述候选词向量与所述输出向量之间的第二距离；

第三确定单元，用于确定所述内容标签与第二距离之间的对应关系；

排列单元，用于按照所述第二距离由小至大对所述内容标签进行排列；

筛选单元，用于按照所述对应关系删除排列次序大于所述上限阈值的所述内容标签。

可选的，如前述的装置，所述提取单元包括：

总帧数子单元，用于获取所述视频信息包括的图像的总帧数；

阈值子单元，用于确定预设的图像数量上限阈值；

策略子单元，用于根据所述总帧数以及图像数量上限阈值之间的数值关系，确定对所述视频信进行图像提取的预设的提取策略；

图像确定子单元，用于按照所述提取策略对所述视频信息按帧进行图像提取，得到小于或等于所述图像数量上限阈值对应个数的视频帧图像。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

本发明实施例提供的一种数据处理方法及装置，其中方法包括：获取用于生成内容标签的视频信息和用于对所述视频信息进行描述的文本信息；确定所述文本信息中每个分词的词向量；对所述视频信息进行特征提取，得到所述视频信息对应的视频特征向量；通过互注意力机制将所述词向量的特征与所述视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量；根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签。通过本实施例中的方法可以将文本信息和视频信息的特征进行交叉融合，将文本信息和视频信息的交叉信息得到提取，使得内容标签结果更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中一种数据处理方法的流程图；

图2为本发明另一实施例中一种数据处理方法的流程图；

图3为本发明另一实施例中一种数据处理方法的流程图；

图4为本发明实施例中一种数据处理装置的框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

如图1所示为本申请一种实施例中数据处理方法，包括如下所述步骤S1至S5：

步骤S1.获取用于生成内容标签的视频信息和用于对视频信息进行描述的文本信息。

具体的，视频信息为能够展示平滑连续的视觉效果的连续的画面；具体的，视频信息一般大于每秒24帧；文本信息可以是：一个或多个关键词、长句或文章等等；由于本申请是用于对包含视频信息及文本信息的数据进行关键词提取，并进行打标签，因此文本信息与视频信息是属于同一个数据的信息；举例来说：当视频信息是一段视频时，则文本信息可以是用于对该段视频进行内容概述的文本内容。

步骤S2.确定文本信息中每个分词的词向量。

具体的，不管是机器学习还是深度学习本质上都是对数字的数字，词向量做的事情就是将词语映射到向量空间里，并用向量来表示。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络，单词共生矩阵的降维，概率模型，可解释的知识库方法，和术语的显式表示单词出现的背景。

确定文本信息中每个分词的词向量可以通过诸如word2vec、glove、ELMo、BERT等语言模型方法实现。

步骤S3.对视频信息进行特征提取，得到视频信息对应的视频特征向量。

具体的，对视频信息进行特征提取，一般先需要对视频进行图像提取，也就是说，将每一帧图像提取出来后再对其进行识别得到该视频信息中的关键信息，在一些可选的技术方案中，可以通过CNN等神经网络模型对提取出的图像信息进行特征提取，进而得到对应的视频特征信息。

步骤S4.通过互注意力机制将词向量的特征与视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量。

具体的，采用互注意力机制机制可以找到词向量和视频特征向量之间隐藏的依赖关系，从而通过视频特征向量为词向量提供更多的补充信息，也可以通过词向量为视频特征向量提供更多的补充信息，进而使两者的信息融合度更高。

步骤S5.根据融合后词向量和融合后视频特征向量得到对应的内容标签。

具体的，根据融合后词向量和融合后视频特征向量得到对应的内容标签可以是：

1)分别根据融合后词向量以及融合后视频特征向量得到对应的标签，然后根据两者的标签得到内容标签；

2)将融合后词向量和融合后视频特征向量进行融合，使得融合后视频特征向量与融合后词向量再次相互产生影响融合，进而根据受影响后的融合后词向量和融合后视频特征向量得到内容标签。

采用本实施例中的方法，可以在文本信息缺乏全面或关键信息的情况下，通过使用视频特征，进而能够结合视频信息本身包含的信息，从而最终达到提高标签的召回和准确率的优点。

在一些实施例中，如前述的方法，确定文本信息中每个分词的词向量，包括如下所述步骤A1至A3：

步骤A1.对文本信息进行分词处理，得到构成文本信息的分词；

步骤A2.根据分词以及预设的标签词得到对应的词表；

步骤A3.根据预先训练得到的词向量模型以及词表确定每个分词的词向量。

具体的，对文本信息进行分词处理是用于将一个文本拆分为多个分词，举例来说：当文本信息为“奇葩音效师坑惨演员为配合音效也是拼了演个戏容易吗”，对其进行分词处理后，得到的分词包括：“奇葩”、“音效”、“师”、“坑惨”、“演员”、“为”、“配合”、“音效”、“也”、“是”、“拼”、“了”、“演”、“个”、“戏”、“容易”、“吗”。

预设的标签词可以是预先选择得到的词组，且所述词表中的词包括标签词以及根据文本信息进行分词处理得到的分词。

其中，预先训练得到的词向量模型可以是word2vec模型(用于计算词向量的工具)；因此得到每个分词的词向量可以通过训练得到的word2vec模型进行确定。

具体的，在确定词表以及模型之后，即可确定词表中每个分词的词向量。进一步的，可以对词表中的词分别进行随机初始化成512维的向量作为每个分词的词向量和标签向量(标签词的词向量)。

通过本实施例中的方法，可以通过词向量得到文本信息中各个分词之间的联系，可以有效获取每个分词在文本信息中的语义，进而可以有效提高标签结果的准确性。

如图2所示，在一些实施例中，如前述的方法，所述步骤S3对视频信息进行特征提取，得到视频信息对应的视频特征向量，包括如下所述步骤S31和S33：

步骤S31.对视频信息按帧进行图像提取，得到至少两个视频帧图像；

步骤S32.将视频图像输入深度神经网络中；

步骤S33.获取深度神经网络中的特征提取层对视频信息进行特征提取后得到的视频特征向量。

具体的，对视频信息按帧进行图像提取，可以是逐帧进行图像提取，此外，由于相邻帧的图像信息可能接近，因此也可以是以固定间隔进行图像提取，具体图像提取的策略可以根据实际情况进行选择；视频帧图像即为对视频信息进行图像提取的得到的图像信息。

由于深度神经网络具有对图像信息进行特征提取的能力，因此将视频帧图像输入深度神经网络可以得到对应的视频特征向量。

其中一种可选的实现方法为：将视频信息输入xception(深度可分离卷积)模型中，由于xception模型倒数第二层的提取的视频特征最为丰富，因此提取模型倒数第二层2048维的向量作为视频特征。

采用本实施例中的方法，通过对视频信息按帧进行图像提取，可以过滤重复性高的图像，避免重复性提取相同的视频特征向量，且能够有效提高特征提取的效率；通过深度神经网络中的特征提取层对视频信息进行特征提取可以提取得到丰富的视频特征向量，以得到视频提供的更多信息。

如图3所示，在一些实施例中，如前述的方法，所述步骤S4根据词向量和视频特征向量得到对应的内容标签，包括如下所述步骤S41至S47：

步骤S41.对词向量进行向量维度调整得到调维词向量，对视频特征向量进行向量维度调整得到调维视频特征向量。

具体的，在前述实施例的基础上，由于分词的词向量可能为512维，而视频特征向量却可能为2048维；因此导致两者的维度各不相同，若要将词向量和视频特征向量进行拼接融合，需要对两者的维度进行统一；可选的，由于视频特征向量的维度更高，可以只对其进行降维处理，一般可以通过全连接网络降维度的方法，将2048维的视频特征向量降维得到512维的调维视频特征向量。

步骤S42.将各个调维词向量与调维视频特征向量进行拼接后，获得调维词向量的初始词向量信息，以及调维视频特征向量的初始视频向量信息；

具体的，之所以对调维词向量与调维视频特征向量进行拼接融合，是为了使其构成上下文关系，以便于找到各个调维词向量与调维视频特征向量之间的全局联系。此外，可以采用编码器对输入的数据进行编码得到对应的信息，一般的，编码器为一种循环神经网络，循环神经网络是一种将序列建模转变为时序建模的网络模型，通常以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。而初始词向量信息和初始视频向量信息即为调维词向量与调维视频特征向量输入编码器编码得到的信息。

拼接融合的方法可以是：将各个调维视频特征向量作为一个词向量和各个调维词向量的维度设为同一等级之后，再进行连接即可。

步骤S43.确定互注意力层的层级关系，层级关系表征不同互注意力层之间的连接关系。

具体的，每一层的互注意力层都可以执行一次通过互注意力机制，对词向量信息与视频特征向量信息各自的深层特征进行提取以及交叉融合。

层级关系用于表征不同的互注意力层之间的前后连接关系，前一层的互注意力层的输出会进入后一互注意力层中再次进行深层特征进行提取以及交叉融合。

步骤S44.将词向量信息与视频向量信息输入设于第一层的互注意力层进行特征的交叉融合，根据各个初始词向量信息对各个初始视频向量信息的第一词向量影响权重，得到融合了所有初始词向量信息的各个第一视频向量信息，以及根据各个初始视频向量信息对各个初始词向量信息的第一视频向量影响权重，得到融合了所有初始视频向量信息的各个第一词向量信息。

具体的，以将词向量信息与视频向量信息输入设于第一层的互注意力层进行特征的交叉融合为例，其中，根据各个初始词向量信息对各个初始视频向量信息的第一词向量影响权重可以是:在对一个初始视频向量信息采用互注意力机制进行特征融合时，会确定每一个初始词向量对初始视频向量信息的影响权重，举例的，当初始视频向量信息包括a1、b1和c1，存在初始词向量a2、b2和c2；其中，a2对a1，b2对a1，以及c2对a1的影响权重分别为n1、m1和t1时，那么a1对应的第一视频向量信息则为：a1+a2×n1+b2×m1+c2×t1。当a1对a2，b1对a2，以及c1对a2的影响权重分别为n2、m2和t2时，那么a2对应的第一词向量信息则为：a2+a1×n2+b1×m2+c1×t2；相似的，向量b1，c1以及b2，c2的全局向量信息可采用相同方法获得。

步骤S45.按照层级关系将第一词向量信息与第一视频向量信息输入下一层的互注意力层再次进行特征的交叉融合，并分别得到第二词向量信息以及第二视频向量影响权重；按此循环，直至通过最后一层的互注意力层输出得到融合后词向量信息和融合后视频特征向量信息。

具体的，在得到第一词向量信息与第一视频向量信息之后，然后再将各个第一视频向量信息和第一词向量信息输入下一层的互注意力层再次进行特征的交叉融合，其中交叉融合的方法可以参照步骤S44中所举示例进行，按此循环，直至最后一层的互注意力层输出得到通过所有互注意力层进行特征交叉融合后的融合后词向量信息和融合后视频特征向量信息即可。

步骤S46.将融合后词向量信息进行解码得到融合后词向量；

步骤S47.将融合后视频特征向量信息进行解码得到融合后视频特征向量。

具体的，可以通过解码器用于对向量信息进行解码，得到对应的向量，并进行输出。一般的，解码器也为一种循环神经网络。

通过本实施例中的方法，可以通过视频特征向量对词向量进行影响，以及通过词向量对视频特征向量进行影响；使最终得到的融合后词向量能够融合得到视频特征向量的特征，并且使融合后视频特征向量能够融合得到词向量的特征，进而使最终得到的融合后词向量和融合后视频特征向量都能够更加准确地表征出文本信息和视频信息的特征。

在一些实施例中，如前述的方法，步骤S5根据融合后词向量和融合后视频特征向量得到对应的内容标签，包括如下所述步骤S51至S53：

步骤S461.确定词表中各个词语的候选词向量；

步骤S462.分别确定与各个输出向量的第一距离最近的候选词向量，输出向量包括：融合后词向量和融合后视频特征向量；

步骤S463.将第一距离最近的候选词向量对应的词语作为输出向量对应的内容标签。

具体的，先确定词表中的每个词语对应的候选词向量；然后确定每一个输出向量与词表中各个候选词向量之间的第一距离(一般的，第一距离可以是余弦距离)，并从中确定与每一个输出向量第一距离最近的候选词向量；最后，将与各个输出向量的第一距离最近的候选词向量对应的词语作为该输出向量对应的内容标签。

通过本实施例中的方法，可以将各个特征快速匹配得到最接近的内容标签，以得到能够准确表征视频信息的标签。

在一些实施例中，如前述的方法，在根据融合后词向量和融合后视频特征向量得到对应的内容标签之后，还包括如下所述步骤B1至B5：

步骤B1.获取内容标签的总数。

具体的，本步骤即用于确定步骤S4得到的所有内容标签的总数。

步骤B2.在内容标签的总数大于预设的上限阈值时，获取对应于同一内容标签的候选词向量与输出向量之间的第二距离。

具体的，上限阈值可以根据实际情况进行设定，并且在内容标签总数大于上线阈值时，需要对内容标签进行舍弃，以防止内容标签过多，影响简洁性；根据前述实施例中的步骤可知，将与各个输出向量的第一距离最近的候选词向量对应的词语作为该输出向量对应的内容标签，因此，内容标签、候选词向量与输出向量之间是有唯一对应关系的；

步骤B3.确定内容标签与第二距离之间的对应关系；

具体的，在步骤B3确定了内容标签、候选词向量与输出向量之间是有唯一对应关系之后，由于候选词向量与输出向量都是确定的，因此，其两者之间的第二距离也是确定的，因而能够得到内容标签与第二距离之间的对应关系。

步骤B4.按照第二距离由小至大对内容标签进行排列；

步骤B5.按照对应关系删除排列次序大于上限阈值的内容标签。

具体的，在按照第二距离由小至大对内容标签进行排列之后，即可确定第二距离的排列次序；由于距离越远，说明两个词语之间的相关性越低，因此只保留排列在上限阈值之内的内容标签，可以保障内容标签语义表达的准确性。

在一些实施例中，如前述的方法，步骤S31对视频信息按帧进行图像提取，得到至少两个视频帧图像，包括如下所述步骤S311至S314：

步骤S311.获取视频信息包括的图像的总帧数。

具体的，一般每个视频信息的每秒的帧数都是固定的，因此，只要获取了该视频信息的时长以及每秒帧数即可确定得到该视频信息包括的图像的总帧数。

步骤S312.确定预设的图像数量上限阈值。

具体的，在对图像进行特征提取是需要耗费大量的计算资源，同时，在相邻帧的图像，特别是一些过渡帧，在展示的信息上一般不会突然出现新的特征，因此对其进行特征提取会造成计算资源的浪费，预先确定图像数量上限阈值，则可以对特征提取的计算量进行有效控制。

步骤S313.根据总帧数以及图像数量上限阈值之间的数值关系，确定对视频信进行图像提取的预设的提取策略。

具体的，总帧数以及图像数量上限阈值之间的数值关系可以是比值关系或者差值关系；不同的数值关系可以对应有不同的提取策略，举例来说：当数值关系为比值关系时，且总帧数为图像数量上限阈值的10倍时，则提取策略可以是：每10帧提取一张图像。

步骤S314.按照所述提取策略对所述视频信息按帧进行图像提取，得到小于或等于所述图像数量上限阈值对应个数的视频帧图像。

具体的，匹配得到的提取策略一般在对视频信息进行图像提取时，都能够满足最终得到的视频帧图像的数量小于或等于图像数量上限阈值；在得到提取策略之后，即可按照其对应的规则对视频信息进行图像提取，进而使最终的视频帧图像的数量满足要求，避免出现视频帧图像数量过多，造成处理耗时过长，浪费计算资源等情况，有效提高处理效率。

应用例：

采用前述任一实施例中的方法进行测试并与相关技术中的已有模型进行比较，测试集:6000条两人标注的数据效果如表1所示，其中，两人标注的数据为：对同一条数据，标签包括两个人标注的结果：

表1

由此可见，采用本实施例方法得到模型在召回率、准确率以及F值三个评判标准上均有显著的进步。

如图4所示，根据本发明另一方面的一种实施例，还提供了一种数据处理装置，包括：

获取模块1，用于获取用于生成内容标签的文本信息和视频信息；

确定模块2，用于确定文本信息中每个分词的词向量；

向量获取模块3，用于对视频信息进行特征提取，得到视频信息对应的视频特征向量；

特征融合模块4，用于通过互注意力机制将词向量的特征与视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量；

标签确定模块5，用于根据融合后词向量和融合后视频特征向量得到对应的内容标签。

在一些实施例中，如前述的装置，确定模块2包括：

分词单元，用于对文本信息进行分词处理，得到构成文本信息的分词；

词表单元，用于根据分词以及预设的标签词得到对应的词表；

词向量单元，用于根据预先训练得到的词向量模型以及词表确定每个分词的词向量。

在一些实施例中，如前述的装置，向量获取模块3包括：

提取单元，用于对视频信息按帧进行图像提取，得到至少两个视频帧图像；

输入单元，用于将视频帧图像分别输入深度神经网络中；

获取单元，用于获取深度神经网络中的特征提取层对视频帧图像进行特征提取后得到的视频特征向量。

在一些实施例中，如前述的装置，特征融合模块4包括：

调维单元，用于对词向量进行向量维度调整得到调维词向量，对视频特征向量进行向量维度调整得到调维视频特征向量；

拼接单元，用于将各个调维词向量与调维视频特征向量进行拼接后，获得调维词向量的初始词向量信息，以及调维视频特征向量的初始视频向量信息；

关系确定单元，用于确定互注意力层的层级关系，层级关系表征不同互注意力层之间的连接关系；

融合单元，用于将词向量信息与视频向量信息输入设于第一层的互注意力层进行特征的交叉融合，根据各个初始词向量信息对各个初始视频向量信息的第一词向量影响权重，得到融合了所有初始词向量信息的各个第一视频向量信息，以及根据各个初始视频向量信息对各个初始词向量信息的第一视频向量影响权重，得到融合了所有初始视频向量信息的各个第一词向量信息；

输出单元，用于按照层级关系将第一词向量信息与第一视频向量信息输入下一层的互注意力层再次进行特征的交叉融合，并分别得到第二词向量信息以及第二视频向量影响权重；按此循环，直至通过最后一层的互注意力层输出得到融合后词向量信息和融合后视频特征向量信息；

第一解码单元，用于将融合后词向量信息进行解码得到融合后词向量；

第二解码单元，用于将融合后视频特征向量信息进行解码得到融合后视频特征向量。

在一些实施例中，如前述的装置，标签确定模块5包括：

第一确定单元，用于确定词表中各个词语的候选词向量；

第二确定单元，用于分别确定与各个输出向量的第一距离最近的候选词向量，输出向量包括：融合后词向量和融合后视频特征向量；

标签确定单元，用于将第一距离最近的候选词向量对应的词语作为输出向量对应的内容标签。

在一些实施例中，如前述的装置，还包括：标签筛选模块；标签筛选模块包括：

总数单元，用于获取内容标签的总数；

第二距离单元，用于在内容标签的总数大于预设的上限阈值时，获取对应于同一内容标签的候选词向量与输出向量之间的第二距离；

第三确定单元，用于确定内容标签与第二距离之间的对应关系；

排列单元，用于按照第二距离由小至大对内容标签进行排列；

筛选单元，用于按照对应关系删除排列次序大于上限阈值的内容标签。

在一些实施例中，如前述的装置，提取单元包括：

总帧数子单元，用于获取视频信息包括的图像的总帧数；

阈值子单元，用于确定预设的图像数量上限阈值；

策略子单元，用于根据总帧数以及图像数量上限阈值之间的数值关系，确定对视频信进行图像提取的预设的提取策略；

图像确定子单元，用于按照提取策略对视频信息按帧进行图像提取，得到小于或等于图像数量上限阈值对应个数的视频帧图像。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信，

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

确定所述文本信息中每个分词的词向量，包括：对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；根据所述分词以及预设的标签词得到对应的词表；根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量；

通过互注意力机制将所述词向量的特征与所述视频特征向量的特征进行交叉融合，分别得到融合后词向量和融合后视频特征向量，包括：对所述词向量进行向量维度调整得到调维词向量，对所述视频特征向量进行向量维度调整得到调维视频特征向量；将各个所述调维词向量与所述调维视频特征向量进行拼接后，获得所述调维词向量的初始词向量信息，以及所述调维视频特征向量的初始视频向量信息；确定互注意力层的层级关系，所述层级关系表征不同互注意力层之间的连接关系；将所述词向量信息与所述视频向量信息输入设于第一层的所述互注意力层进行特征的交叉融合，根据各个所述初始词向量信息对各个所述初始视频向量信息的第一词向量影响权重，得到融合了所有所述初始词向量信息的各个第一视频向量信息，以及根据各个所述初始视频向量信息对各个所述初始词向量信息的第一视频向量影响权重，得到融合了所有所述初始视频向量信息的各个第一词向量信息；按照所述层级关系将所述第一词向量信息与所述第一视频向量信息输入下一层的所述互注意力层再次进行特征的交叉融合，并分别得到第二词向量信息以及第二视频向量影响权重；按此循环，直至通过最后一层的所述互注意力层输出得到融合后词向量信息和融合后视频特征向量信息；将融合后词向量信息进行解码得到所述融合后词向量；将融合后视频特征向量信息进行解码得到所述融合后视频特征向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频信息进行特征提取，得到所述视频信息对应的视频特征向量，包括：

将所述视频帧图像分别输入深度神经网络中；

3.根据权利要求1所述的方法，其特征在于，所述根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签，包括：

确定所述词表中各个词语的候选词向量；

4.根据权利要求3所述的方法，其特征在于，在根据所述融合后词向量和融合后视频特征向量得到对应的所述内容标签之后，还包括：

获取所述内容标签的总数；

确定所述内容标签与第二距离之间的对应关系；

按照所述第二距离由小至大对所述内容标签进行排列；

5.根据权利要求3所述的方法，其特征在于，对所述视频信息按帧进行图像提取，得到至少两个视频帧图像，包括：

获取所述视频信息包括的图像的总帧数；

确定预设的图像数量上限阈值；

6.一种数据处理装置，其特征在于，包括：

确定模块，用于确定所述文本信息中每个分词的词向量；

所述确定模块包括；

词向量单元，用于根据预先训练得到的词向量模型以及词表确定每个分词的词向量；

所述特征融合模块包括：

第二解码单元，用于将融合后视频特征向量信息进行解码得到融合后视频特征向量；

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。