CN111767727A

CN111767727A - 数据处理方法及装置

Info

Publication number: CN111767727A
Application number: CN202010589941.9A
Authority: CN
Inventors: 张轩玮
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-13
Anticipated expiration: 2040-06-24
Also published as: CN111767727B

Abstract

本发明实施例提供了一种数据处理方法及装置，方法包括：获取用于生成内容标签的多媒体数据和用于对多媒体数据进行描述的文本信息；确定文本信息中每个分词的词向量；对多媒体数据进行特征提取，得到多媒体数据对应的图像特征向量；通过自注意力机制对词向量和图像特征向量之间的全局联系，并得到全局向量信息；将图像特征向量作为解码器的第一输入之后，将全局向量信息依次输入解码器，以得到在图像特征向量指导下对各个全局向量进行解码后的输出向量；确定与输出向量对应的内容标签。本申请可以在文本信息缺乏全面或关键信息的情况下，通过使用图像特征，使内容标签能够结合多媒体数据包含的信息，从而达到提高标签准确率的优点。

Description

数据处理方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种数据处理方法及装置。

背景技术

目前对数据打标签的方法主要基于文本，但是，由于视频内容能够表现的特征很多，仅通过文本难以完全的表征出视频中的所有信息。当文本内容仅包括若干个词组时，词组所能提供的信息有限，若不结合具体的视频内容，很有可能该文本内容是无法表征出主要的信息，甚至很难从中解析得到有用的信息。

针对上述问题，现有技术也提供了相关的解决方法，但是现有技术中提供的图文融合的方法大多基于在输入端将两者的特征进行简单拼接使用，这样只在编码器使用，只是得到了更多的特征，而文本与视频之间仍然特征之间相互独立，效果有限，在解码器不能充分利用视频等多媒体数据的内容。

针对相关技术中存在的无法利用多媒体数据得到准确标签的问题，目前尚未提供有效的解决方案。

发明内容

本发明实施例的目的在于提供一种数据处理方法及装置，以解决相关技术中无法利用多媒体数据得到准确标签的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种数据处理方法，包括：

获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像；

确定所述文本信息中每个分词的词向量；

对所述多媒体数据进行特征提取，得到所述多媒体数据对应的图像特征向量；

通过自注意力机制获取所述词向量和图像特征向量之间的全局联系，根据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信息；

将所述图像特征向量作为解码器的第一输入之后，将所述全局向量信息依次输入所述解码器，以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量；

确定与所述输出向量对应的所述内容标签。

可选的，如前述的方法，所述确定所述文本信息中每个分词的词向量，包括：

对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；

根据所述分词以及预设的标签词得到对应的词表；

根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量。

可选的，如前述的方法，所述对所述多媒体数据进行特征提取，得到所述多媒体数据对应的图像特征向量，包括：

将所述多媒体数据输入预设的深度神经网络中；

获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述图像特征向量。

可选的，如前述的方法，所述通过自注意力机制对所述词向量和图像特征向量之间的全局联系，根据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信息，包括：

对所述词向量进行向量维度调整得到调维词向量，对所述图像特征向量进行向量维度调整得到所述调维图像特征向量；

将各个所述调维词向量与所述调维图像特征向量输入编码器进行拼接融合后，获得各个所述调维词向量与所述调维图像特征向量的对应的向量信息；

通过自注意力机制得到各个所述向量信息之间的全局联系；

根据所述全局联系对所述向量信息进行调整，得到所述全局向量信息。

可选的，如前述的方法，所述将所述图像特征向量作为解码器的第一输入之后，将所述全局向量信息依次输入所述解码器，以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量，包括：

将所述图像特征向量输入所述解码器作为第一输入；

确定将所述全局向量信息按序输入至所述解码器的次序信息；

确定所述图像特征向量对初始全局向量信息的第一影响权重，所述初始全局向量信息为第一个输入所述解码器的全局向量信息；

按照所述第一影响权重，根据所述图像特征向量对所述初始全局向量进行调整，得到调整后初始全局向量；所述初始全局向量为解码器对初始全局向量信息进行解码后得到；

确定所述调整后初始全局向量对所述次序信息中的下一全局向量信息的第二影响权重，并根据所述调整后初始全局向量、下一全局向量信息和第二影响权重得到调整后的下一全局向量；按此循环直至得到所有调整后的全局向量；

根据调整后的所述全局向量得到所述输出向量。

可选的，如前述的方法，所述确定与所述输出向量对应的所述内容标签，包括：

确定所述词表中各个词语的候选词向量；

分别确定与各个所述输出向量的第一距离最近的所述候选词向量；

将第一距离最近的所述候选词向量对应的词语作为所述输出向量对应的所述内容标签。

可选的，如前述的方法，在根据所述词向量和所述图像特征向量得到对应的所述内容标签之后，还包括：

获取所述内容标签的总数；

在所述内容标签的总数大于预设的上限阈值时，获取对应于同一所述内容标签的所述候选词向量与所述输出向量之间的第二距离；

确定所述内容标签与第二距离之间的对应关系；

按照所述第二距离由小至大对所述内容标签进行排列；

按照所述对应关系删除排列次序大于所述上限阈值的所述内容标签。

在本发明实施的第二方面，还提供了一种数据处理装置，包括：

获取模块，用于获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像；

确定模块，用于确定所述文本信息中每个分词的词向量；

向量获取模块，用于对所述多媒体数据进行特征提取，得到所述多媒体数据对应的图像特征向量；

全局模块，用于通过自注意力机制对所述词向量和图像特征向量之间的全局联系，根据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信息；

解码模块，用于将所述图像特征向量作为解码器的第一输入之后，将所述全局向量信息依次输入所述解码器，以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量；

标签确定模块，用于确定与所述输出向量对应的所述内容标签。

可选的，如前述的装置，所述确定模块包括：

分词单元，用于对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；

词表单元，用于根据所述分词以及预设的标签词得到对应的词表；

词向量单元，用于根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量。

可选的，如前述的装置，所述向量获取模块包括：

第一输入单元，用于将所述多媒体数据输入预设的深度神经网络中；

提取单元，用于获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述图像特征向量。

可选的，如前述的装置，所述全局模块包括：

调维单元，用于对所述词向量进行向量维度调整得到调维词向量，对所述图像特征向量进行向量维度调整得到所述调维图像特征向量；

融合单元，用于将各个所述调维词向量与所述调维图像特征向量输入编码器进行拼接融合后，获得各个所述调维词向量与所述调维图像特征向量的对应的向量信息；

自注意力单元，用于通过所述自注意力机制得到各个所述向量信息之间的全局联系；

调整单元，用于根据所述全局联系对所述向量信息进行调整，得到所述全局向量信息。

可选的，如前述的装置，所述解码模块包括：

第二输入单元，用于将所述图像特征向量输入所述解码器作为第一输入；

次序单元，用于确定将所述全局向量信息按序输入至所述解码器的次序信息；

第一确定单元，用于确定所述图像特征向量对初始全局向量信息的第一影响权重，所述初始全局向量信息为第一个输入所述解码器的全局向量信息；

影响单元，用于按照所述第一影响权重，根据所述图像特征向量对所述初始全局向量进行调整，得到调整后初始全局向量；所述初始全局向量为所述解码器对初始全局向量信息进行解码后得到；确定所述调整后初始全局向量对所述次序信息中的下一全局向量信息的第二影响权重，并根据所述调整后初始全局向量、下一全局向量信息和第二影响权重得到调整后的下一全局向量；按此循环直至得到所有调整后的全局向量；

输出向量单元，用于根据所述调整后的全局向量得到所述输出向量。

可选的，如前述的装置，所述标签确定模块包括：

候选词向量确定单元，用于确定所述词表中各个词语的候选词向量；

词向量筛选单元，用于分别确定与各个所述输出向量的第一距离最近的所述候选词向量；

标签确定单元，用于将第一距离最近的所述候选词向量对应的词语作为所述输出向量对应的所述内容标签。

可选的，如前述的装置，还包括：标签筛选模块；所述标签筛选模块包括：

总数确定单元，用于获取所述内容标签的总数；

筛选单元，用于在所述内容标签的总数大于预设的上限阈值时，获取对应于同一所述内容标签的所述候选词向量与所述输出向量之间的第二距离；

对应关系单元，用于确定所述内容标签与第二距离之间的对应关系；

排列单元，用于按照所述第二距离由小至大对所述内容标签进行排列；

删除单元，用于按照所述对应关系删除排列次序大于所述上限阈值的所述内容标签。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

本发明实施例提供的一种数据处理方法及装置，其中方法包括：获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像；确定所述文本信息中每个分词的词向量；对所述多媒体数据进行特征提取，得到所述多媒体数据对应的图像特征向量；通过自注意力机制对所述词向量和图像特征向量之间的全局联系，根据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信息；将所述图像特征向量作为解码器的第一输入之后，将所述全局向量信息依次输入所述解码器，以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量；确定与所述输出向量对应的所述内容标签。通过所述词向量和所述图像特征得到对应的所述内容标签，可以在文本信息缺乏全面或关键信息的情况下，通过使用图像特征，使内容标签在生成时能够结合多媒体数据本身包含的信息，从而最终达到提高标签的召回和准确率的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中一种数据处理方法的流程图；

图2为本发明另一实施例中一种数据处理方法的流程图；

图3为本发明另一实施例中一种的数据处理方法的流程图；

图4为本发明另一实施例中一种数据处理方法的流程图；

图5为本发明实施例中一种数据处理装置的框图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

如图1所示为本申请一种实施例中数据处理方法，包括如下所述步骤S1至S6：

步骤S1.获取用于生成内容标签的多媒体数据和用于对多媒体数据进行描述的文本信息；其中，多媒体数据包括：视频或图像。

具体的，多媒体数据可以包括但不限于：图片、视频或动图文件中的一种或多种；文本信息可以是：一个或多个关键词、长句或文章等等；由于本申请是用于对包含多媒体数据及文本信息的数据进行关键词提取，并进行打标签，因此文本信息与多媒体数据是属于同一个数据的信息；举例来说：当多媒体数据是一段视频时，则文本信息可以是用于对该段视频进行内容概述的文本内容。

步骤S2.确定文本信息中每个分词的词向量。

具体的，不管是机器学习还是深度学习本质上都是对数字的数字，词向量做的事情就是将词语映射到向量空间里，并用向量来表示。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络，单词共生矩阵的降维，概率模型，可解释的知识库方法，和术语的显式表示单词出现的背景。

确定文本信息中每个分词的词向量可以通过诸如word2vec、glove、ELMo、BERT等语言模型方法实现。

步骤S3.对多媒体数据进行特征提取，得到多媒体数据对应的图像特征向量。

具体的，对多媒体数据进行特征提取，是用于识别得到该多媒体数据中的关键信息，且可以通过CNN等神经网络模型对多媒体数据进行特征提取，进而得到对应的图像特征信息。

步骤S4.通过自注意力机制获取词向量和图像特征向量之间的全局联系，根据全局联系分别得到与词向量和图像特征向量对应全局向量信息。

通过自注意力机制得到的全局联系可以捕捉各个特征的内部相关性，进而使得到的全局向量信息可以更加准确地表征的具体含义，进而可以有效提高标签结果的准确性。

步骤S5.将图像特征向量作为解码器的第一输入之后，将全局向量信息依次输入解码器，以得到在图像特征向量指导下对各个全局向量进行解码后的输出向量。

具体的，在现有技术中，解码器进行解码时会参考前一解码的信息对当前的待解码信息进行处理，但是，当第一个需要进行解码信息输入解码器时，由于不存在前序的已解码信息，因此会将前序输入解码器的信息记为0，因此，第一个需要进行解码的信息不存在对其产生影响的其他信息，本实施例中，将图像特征向量作为解码器的第一个输入，进而可以通过图像特征向量指导接下来对全局向量信息的解码过程，使得多媒体数据能够进一步对最终标签的生成产生影响。

其中，解码器可以用于对编码器的输出结果进行解码，并进行输出，得到输出向量。一般的，解码器是一种循环神经网络。

步骤S6.确定与输出向量对应的内容标签。

由于通过前述步骤，虽然各个输出向量都是通过输入编码器的调维词向量与调维图像特征向量得到，但是在通过前述步骤处理之后，又与输入编码器的调维词向量与调维图像特征向量存在差异，因此无法直接得到对应的词语作为内容标签，需要通过输入向量在词表中进行选择得到。

采用本实施例中的方法，可以在文本信息缺乏全面或关键信息的情况下，通过使用图像特征，进而能够结合多媒体数据本身包含的信息，从而最终达到提高标签的召回和准确率的优点。

在一些实施例中，如前述的方法，确定文本信息中每个分词的词向量，包括如下所述步骤A1至A3：

步骤A1.对文本信息进行分词处理，得到构成文本信息的分词；

步骤A2.根据分词以及预设的标签词得到对应的词表；

步骤A3.根据预先训练得到的词向量模型以及词表确定每个分词的词向量。

具体的，对文本信息进行分词处理是用于将一个文本拆分为多个分词，举例来说：当文本信息为“奇葩音效师坑惨演员为配合音效也是拼了演个戏容易吗”，对其进行分词处理后，得到的分词包括：“奇葩”、“音效”、“师”、“坑惨”、“演员”、“为”、“配合”、“音效”、“也”、“是”、“拼”、“了”、“演”、“个”、“戏”、“容易”、“吗”。

预设的标签词可以是预先选择得到的词组，且所述词表中的词包括标签词以及根据文本信息进行分词处理得到的分词。

其中，预先训练得到的词向量模型可以是word2vec模型(用于计算词向量的工具)；因此得到每个分词的词向量可以通过训练得到的word2vec模型进行确定。

具体的，在确定词表以及模型之后，即可确定词表中每个分词的词向量。进一步的，可以对词表中的词分别进行随机初始化成512维的向量作为每个分词的词向量和标签向量(标签词的词向量)。

通过本实施例中的方法，可以通过词向量得到文本信息中各个分词之间的联系，可以有效获取每个分词在文本信息中的语义，进而可以有效提高标签结果的准确性。

如图2所示，在一些实施例中，如前述的方法，所述步骤S3对多媒体数据进行特征提取，得到多媒体数据对应的图像特征向量，包括如下所述步骤S31和S32：

步骤S31.将多媒体数据输入预设的深度神经网络中；

步骤S32.获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到的图像特征向量。

具体的，深度神经网络具有对多媒体数据进行特征提取的能力，因此将多媒体数据输入深度神经网络可以得到对应的图像特征向量。

其中一种可选的实现方法为：将多媒体数据输入xception(深度可分离卷积)模型中，由于xception模型倒数第二层的提取的图像特征最为丰富，因此提取模型倒数第二层2048维的向量作为图像特征。

采用本实施例中的方法，通过深度神经网络中的特征提取层对视频信息进行特征提取可以提取得到丰富的视频特征向量，以得到视频提供的更多信息。

如图3所示，在一些实施例中，如前述的方法，所述步骤S4通过自注意力机制对所述词向量和图像特征向量之间的全局联系，根据全局联系分别得到与词向量和图像特征向量对应全局向量信息，包括如下所述步骤S41至S44：

步骤S41.对词向量进行向量维度调整得到调维词向量，对图像特征向量进行向量维度调整得到调维图像特征向量。

具体的，在前述实施例的基础上，由于分词的词向量为512维，而图像特征向量为2048维；由于两者的维度各不相同，因此两者无法进行拼接融合，需要对两者的维度进行统一；可选的，由于图像特征向量的维度更高，可以对其进行降维处理，通过全连接网络降纬度，得到512维的调维图像特征向量。

步骤S42.将各个调维词向量与调维图像特征向量输入编码器进行拼接融合后，获得各个调维词向量与调维图像特征向量的对应的向量信息；

具体的，编码器可以对输入的数据进行编码，一般的，编码器为一种循环神经网络。之所以对调维词向量与调维图像特征向量输入编码器进行拼接融合,是为了使其构成上下文关系，以便于找到各个调维词向量与调维图像特征向量之间的全局联系，且实现方法可以是：将调维图像特征向量作为一个词向量和各个调维词向量放到同一等级；而向量信息即为调维词向量与调维图像特征向量输入编码器即可快速实现拼接融合的目的。

步骤S43.通过自注意力机制得到各个向量信息之间的全局联系。

具体的，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。因此，通过自注意力机制，可以得到各个向量信息之间的全局联系。

步骤S44.根据全局联系对向量信息进行调整，得到全局向量信息；比如存在向量a、b、c；其中a和b,a和c的权重分别为a1,a2,那么a对应的全局向量信息：a1*b+a2*c,b，c类似。

综上所述，采用本实施例中的方法，通过先将各个调维词向量与调维图像特征向量进行拼接融合，再通过自注意力机制可以捕捉各个向量信息的内部相关性，可以更加准确地分析得到在文本信息和多媒体数据的具体含义，进而可以有效提高标签结果的准确性。

如图4所示，在一些实施例中，如前述的方法，步骤S5将图像特征向量作为解码器的第一输入之后，将全局向量信息依次输入解码器，以得到在图像特征向量指导下对各个全局向量进行解码后的输出向量，包括如下所述步骤S51至S56：

步骤S51.将图像特征向量输入解码器作为第一输入。

具体的，在现有技术中，解码器进行解码时会参考前一解码的信息对当前的待解码信息进行处理，但是，当第一个需要进行解码信息输入解码器时，由于不存在前序的已解码信息，因此会将前序输入解码器的信息记为0，因此，第一个需要进行解码的信息不存在对其产生影响的其他信息，本实施例中，将图像特征向量作为解码器的第一个输入，进而可以指导接下来对全局向量信息的解码过程，使得多媒体数据能够进一步对最终标签的生成产生影响。

步骤S52.确定将全局向量信息按序输入至解码器的次序信息。

具体的，一般各个全局向量信息是逐个输入解码器中的，次序信息可以根据文本信息中各个分词的次序得到；举例的：由于全局向量信息对应有特定的调维词向量，而每个调维词向量都有对应的词向量，且每个词向量对应有分词，因此，可以通过分词的次序确定词向量对应的各个全局向量信息的次序，最后只需再确定调维图像特征向量对应的次序(可以置于首位或末尾)，即可得到次序信息。

步骤S53.确定图像特征向量对初始全局向量信息的第一影响权重，初始全局向量信息为第一个输入解码器的全局向量信息。图像在全局向量信息上进行融合，比如图像a对于全局向量b,c,图像a对全局向量b的影响为a1,c的影响为a2,那么全局信息为a1*b+a2*c。

具体的，一般通过解码器确定图像特征向量对初始全局向量信息的第一影响权重。

步骤S54.按照第一影响权重，根据图像特征向量对初始全局向量进行调整，得到调整后初始全局向量；初始全局向量为解码器对初始全局向量信息进行解码后得到。

具体的，根据图像特征向量对初始全局向量信息进行调整，可以是：在得到第一影响权重后，假定第一影响权重为t，则当图像特征向量信息为M，初始全局向量信息为N，则调整后初始全局向量信息可以是N(1-t)+Mt。

步骤S55.确定调整后初始全局向量对次序信息中的下一全局向量信息的第二影响权重，并根据调整后初始全局向量、下一全局向量信息和第二影响权重得到调整后的下一全局向量；按此循环直至得到所有调整后的全局向量。

具体的，按照步骤S54中方法，依次循环即可得到所有在图像特征向量指导下生成的向量(即调整后的全局向量)，具体实现方法可以参照步骤S454中所述，在此不再进行赘述。

步骤S56.根据调整后的全局向量得到输出向量。

具体的，可以将按照前述步骤调整后的全局向量直接输出并作为输出向量。

综上所述，采用本实施例中的方法，可以在图像特征向量的引导下对各个全局向量信息进行解码，进而可以将图像特征向量对应的特征进一步融入之后解码得到的输出向量中，以使输出向量中能够获取更多多媒体数据中携带的特征；体现多媒体数据中携带的更多有效信息。

在一些实施例中，如前述的方法，步骤S6确定与输出向量对应的内容标签，包括如下所述步骤S61至S63：

步骤S61.确定词表中各个词语的候选词向量；

步骤S62.分别确定与各个输出向量的第一距离最近的候选词向量；

步骤S63.将第一距离最近的候选词向量对应的词语作为输出向量对应的内容标签。

具体的，先确定词表中的每个词语对应的候选词向量；然后确定每一个输出向量与词表中各个候选词向量之间的第一距离(一般的，第一距离可以是余弦距离)，并从中确定与每一个输出向量第一距离最近的候选词向量；最后，将与各个输出向量的第一距离最近的候选词向量对应的词语作为该输出向量对应的内容标签。

综上所述，采用本实施例中的方法，可以捕捉各个候选词向量和输出向量的相关性，进而更加准确地对通过文本信息和多媒体数据得到的输出向量进行分析得到其中的具体含义，进而可以有效提高标签结果的准确性。

在一些实施例中，如前述的方法，在根据词向量和图像特征向量得到对应的内容标签之后，还包括如下所述步骤B1至B5：

步骤B1.获取内容标签的总数。

具体的，本步骤即用于确定步骤S4得到的所有内容标签的总数。

步骤B2.在内容标签的总数大于预设的上限阈值时，获取对应于同一内容标签的候选词向量与输出向量之间的第二距离。

具体的，上限阈值可以根据实际情况进行设定，并且在内容标签总数大于上线阈值时，需要对内容标签进行舍弃，以防止内容标签过多，影响简洁性；根据前述实施例中的步骤可知，将与各个输出向量的第一距离最近的候选词向量对应的词语作为该输出向量对应的内容标签，因此，内容标签、候选词向量与输出向量之间是有唯一对应关系的；

步骤B3.确定内容标签与第二距离之间的对应关系；

具体的，在步骤B3确定了内容标签、候选词向量与输出向量之间是有唯一对应关系之后，由于候选词向量与输出向量都是确定的，因此，其两者之间的第二距离也是确定的，因而能够得到内容标签与第二距离之间的对应关系。

步骤B4.按照第二距离由小至大对内容标签进行排列；

步骤B5.按照对应关系删除排列次序大于上限阈值的内容标签。

具体的，在按照第二距离由小至大对内容标签进行排列之后，即可确定第二距离的排列次序；由于距离越远，说明两个词语之间的相关性越低，因此只保留排列在上限阈值之内的内容标签，可以保障内容标签语义表达的准确性。

如图5所示，在本发明实施的第二方面，还提供了一种数据处理装置，包括：

获取模块1，用于获取用于生成内容标签的多媒体数据和用于对多媒体数据进行描述的文本信息；多媒体数据包括：视频或图像；

确定模块2，用于确定文本信息中每个分词的词向量；

向量获取模块3，用于对多媒体数据进行特征提取，得到多媒体数据对应的图像特征向量；

全局模块4，用于通过自注意力机制对所述词向量和图像特征向量之间的全局联系，根据全局联系分别得到与词向量和图像特征向量对应全局向量信息；

解码模块5，用于将所述图像特征向量作为解码器的第一输入之后，将所述全局向量信息依次输入所述解码器，以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量；

标签确定模块6，用于确定与输出向量对应的内容标签。

获取模块，用于获取用于生成内容标签的多媒体数据和用于对多媒体数据进行描述的文本信息；其中，多媒体数据包括：视频信息和/或图像信息；

确定模块，用于确定文本信息中每个分词的词向量；

向量获取模块，用于对多媒体数据进行特征提取，得到多媒体数据对应的图像特征向量；

全局模块，用于通过自注意力机制对词向量和图像特征向量之间的全局联系，根据全局联系分别得到与词向量和图像特征向量对应全局向量信息；

解码模块，用于将图像特征向量作为解码器的第一输入之后，将全局向量信息依次输入解码器，以得到在图像特征向量指导下对各个全局向量进行解码后的输出向量；

标签确定模块，用于确定与输出向量对应的内容标签。

在一些实施例中，如前述的装置，确定模块包括：

分词单元，用于对文本信息进行分词处理，得到构成文本信息的分词；

词表单元，用于根据分词以及预设的标签词得到对应的词表；

词向量单元，用于根据预先训练得到的词向量模型以及词表确定每个分词的词向量。

在一些实施例中，如前述的装置，向量获取模块包括：

第一输入单元，用于将多媒体数据输入预设的深度神经网络中；

提取单元，用于获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到的图像特征向量。

在一些实施例中，如前述的装置，全局模块包括：

调维单元，用于对词向量进行向量维度调整得到调维词向量，对图像特征向量进行向量维度调整得到调维图像特征向量；

融合单元，用于将各个调维词向量与调维图像特征向量输入编码器进行拼接融合后，获得各个调维词向量与调维图像特征向量的对应的向量信息；

自注意力单元，用于通过自注意力机制得到各个向量信息之间的全局联系；

调整单元，用于根据全局联系对向量信息进行调整，得到全局向量信息。

在一些实施例中，如前述的装置，解码模块包括：

第二输入单元，用于将图像特征向量输入解码器作为第一输入；

次序单元，用于确定将全局向量信息按序输入至解码器的次序信息；

第一确定单元，用于确定图像特征向量对初始全局向量信息的第一影响权重，初始全局向量信息为第一个输入解码器的全局向量信息；

影响单元，用于按照第一影响权重，根据图像特征向量对初始全局向量进行调整，得到调整后初始全局向量；初始全局向量为解码器对初始全局向量信息进行解码后得到；确定调整后初始全局向量对次序信息中的下一全局向量信息的第二影响权重，并根据调整后初始全局向量、下一全局向量信息和第二影响权重得到调整后的下一全局向量；按此循环直至得到所有调整后的全局向量；

输出向量单元，用于根据调整后的全局向量得到输出向量。

在一些实施例中，如前述的装置，标签确定模块包括：

候选词向量确定单元，用于确定词表中各个词语的候选词向量；

词向量筛选单元，用于分别确定与各个输出向量的第一距离最近的候选词向量；

标签确定单元，用于将第一距离最近的候选词向量对应的词语作为输出向量对应的内容标签。

在一些实施例中，如前述的装置，还包括：标签筛选模块；标签筛选模块包括：

总数确定单元，用于获取内容标签的总数；

筛选单元，用于在内容标签的总数大于预设的上限阈值时，获取对应于同一内容标签的候选词向量与输出向量之间的第二距离；

对应关系单元，用于确定内容标签与第二距离之间的对应关系；

排列单元，用于按照第二距离由小至大对内容标签进行排列；

删除单元，用于按照对应关系删除排列次序大于上限阈值的内容标签。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信，

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

确定所述文本信息中每个分词的词向量；

确定与所述输出向量对应的所述内容标签。

2.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息中每个分词的词向量，包括：

根据所述分词以及预设的标签词得到对应的词表；

3.根据权利要求1所述的方法，其特征在于，所述对所述多媒体数据进行特征提取，得到所述多媒体数据对应的图像特征向量，包括：

将所述多媒体数据输入预设的深度神经网络中；

4.根据权利要求1所述的方法，其特征在于，所述通过自注意力机制对所述词向量和图像特征向量之间的全局联系，根据所述全局联系得到与所述词向量和图像特征向量对应全局向量信息，包括：

通过所述自注意力机制得到各个所述向量信息之间的全局联系；

5.根据权利要求1所述的方法，其特征在于，所述将所述图像特征向量作为解码器的第一输入之后，将所述全局向量信息依次输入所述解码器，以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量，包括：

将所述图像特征向量输入所述解码器作为第一输入；

按照所述第一影响权重，根据所述图像特征向量对所述初始全局向量进行调整，得到调整后初始全局向量；所述初始全局向量为所述解码器对初始全局向量信息进行解码后得到；

根据所述调整后的全局向量得到所述输出向量。

6.根据权利要求2所述的方法，其特征在于，所述确定与所述输出向量对应的所述内容标签，包括：

确定所述词表中各个词语的候选词向量；

7.根据权利要求6所述的方法，其特征在于，在根据所述词向量和所述图像特征向量得到对应的所述内容标签之后，还包括：

获取所述内容标签的总数；

确定所述内容标签与第二距离之间的对应关系；

按照所述第二距离由小至大对所述内容标签进行排列；

8.一种数据处理装置，其特征在于，包括：

确定模块，用于确定所述文本信息中每个分词的词向量；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。