CN114418038A

CN114418038A - 基于多模态融合的天基情报分类方法、装置及电子设备

Info

Publication number: CN114418038A
Application number: CN202210317228.8A
Authority: CN
Inventors: 刘禹汐; 姜青涛; 侯立旺; 王慧静
Original assignee: Beijing Daoda Tianji Technology Co ltd
Current assignee: Beijing Daoda Tianji Technology Co ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-04-29

Abstract

本公开的实施例提供了一种基于多模态融合的天基情报分类方法、装置及电子设备。所述方法包括：分别获取待分类天基情报的文本情报特征和图片情报特征；根据文本情报特征和图片情报特征提取对应的文本特征向量与图片特征向量；对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征；将所述融合特征输入至预设的分类模型进行分类。以此方式，可以能合理的处理多模态信息，得到丰富特征信息，并根据特征之间的交互进行合理分类，提高情报分类效率，便于后续的情报快速查找等工作。

Description

基于多模态融合的天基情报分类方法、装置及电子设备

技术领域

本公开涉及数据分类技术领域，尤其涉及情报分类技术领域。

背景技术

目前，互联网上航天开源多模态数据的***式增长和可访问性为我们提供了广阔的机会，可以从多个方面融合异构情报的内在知识，这对传统的情报文本分类技术提出了挑战。而对于天基开源情报的分类问题的研究，现有的技术方案和研究大都基于文本，利用自然处理技术来对情报分类。

现有天基开源情报分类技术基于文本这一单模态，没有融合开源情报中的图片多源信息，单源信息可信度不高，而且天基情报内容较长且含有大量专有名词，影响了情报分类的效果。

发明内容

本公开提供了一种基于多模态融合的天基情报分类方法、装置及电子设备。

根据本公开的第一方面，提供了一种基于多模态融合的天基情报分类方法。该方法包括：

分别获取待分类天基情报的文本情报特征和图片情报特征；

根据文本情报特征和图片情报特征提取对应的文本特征向量与图片特征向量；

对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征；

将所述融合特征输入至预设的分类模型进行分类。

在第一方面的一些可实现方式中，根据文本情报特征提取对应的文本特征向量包括：

获取待分类天基情报中的文本，对所述文本进行向量化表示，将向量化文本输入预先训练的文本情报特征提取模型，得到对应的文本特征向量。

在第一方面的一些可实现方式中，根据图片情报特征提取对应的图片特征向量包括：

获取待分类天基情报中的图片，将所述图片输入预先训练的图片情报特征提取模型，得到对应的图片特征向量。

在第一方面的一些可实现方式中，所述预先训练的文本情报特征提取模型为Bi-GRU模型；

所述预先训练的图片情报特征提取模型为VGG-16模型，包括13层卷积层、5层池化层以及2层全连接层。

在第一方面的一些可实现方式中，所述对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征包括：

根据皮尔逊相关系数对所述文本情报特征与所述图片情报特征进行相似度计算；若相似度达到阈值，则进行联合拼接；若相似度未达到阈值，则不进行联合拼接。

在第一方面的一些可实现方式中，所述分类模型为MLP模型；

所述MLP模型包括一个隐藏层，所述隐藏层使用dropout算法；

所述MLP模型的输出层包括softmax分类器，所述softmax分类器采用多分类交叉熵损失函数进行分类。

根据本公开的第二方面，提供了一种基于多模态融合的天基情报分类装置。该装置包括：

获取模块，用于分别获取待分类天基情报的文本情报特征和图片情报特征；

特征提取模块，用于根据文本情报特征和图片情报特征提取对应的文本特征向量与图片特征向量；

第一次融合模块，用于对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征；

第二次融合模块，用于将所述融合特征输入至预设的分类模型进行分类。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开中，将文本情报特征和图片情报特征融合来进行情报分类，由于不同模态的表现方式不同，所以存在一些交叉、互补的现象，甚至模态间可能还存在多种不同的信息交互，本公开将文本情报特征与图片情报特征结合，能合理的处理多模态信息，得到丰富特征信息，并根据特征之间的交互进行合理分类，提高情报分类效率，便于后续的情报快速查找等工作。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的基于多模态融合的天基情报分类方法的流程图；

图2示出了根据本公开的实施例的基于多模态融合的天基情报分类方法的逻辑图；

图3示出了文本特征向量的提取过程图；

图4示出了图片特征向量的提取过程图；

图5示出了联合拼接过程示意图；

图6示出了根据本公开的实施例的基于多模态融合的天基情报分类装置的框图；

图7示出了用来实现本公开实施例的基于多模态融合的天基情报分类方法的电子设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，将文本情报特征和图片情报特征融合来进行情报分类，提高情报分类效率，便于后续的情报快速查找等工作。

图1示出了根据本公开的实施例的基于多模态融合的天基情报分类方法100的流程图。

如图1所示，所述基于多模态融合的天基情报分类方法100包括：

S101: 分别获取待分类天基情报的文本情报特征和图片情报特征；

S102: 根据文本情报特征和图片情报特征提取对应的文本特征向量与图片特征向量；

S103: 对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征；

S104: 将所述融合特征输入至预设的分类模型进行分类。

图2示出了根据本公开的实施例的基于多模态融合的天基情报分类方法的逻辑图。

如图2所示，本公开所述的基于多模态融合的天基情报分类方法以多模态融合情报分类识别为核心，即对于不同模态进行特征提取以及对提取后的模态特征进行融合然后分类。本公开在第三步特征层和第四步决策层各融合一次，第一次拼接融合使特征融合更充分，多模态特征互补，第二次dropout层融合，可以对多模态间存在一些交叉或信息冗余进行过滤和消除。经过两次融合，可以正确地捕获多模态数据的模态表示和跨模态互补相关性，合理地处理了多模态信息，得到丰富特征信息，进而提高天基情报分类效果。

在步骤S102中，根据文本情报特征提取对应的文本特征向量包括：

其中，图3示出了文本特征向量的提取过程图。

如图3所示，对文本进行向量化表示首先要训练词向量，训练词向量包括：在大规模语料上利用词向量模型来训练词向量，之后用训练好的词向量模型对文本进行向量化表示，其中，所述词向量模型可以为CBOW模型，利用gensim包中的CBOW模型来训练词向量，其中，window设置为5，min_count设置为3，词向量的维度设置为100维。

在一些实施方式中，所述预先训练的文本情报特征提取模型为Bi-GRU模型。即将向量化文本输入至Bi-GRU进行特征提取，利用传统的自然处理技术来训练得到文本特征向量。具体为：将词嵌入层接入Bi-GRU层，GRU和LSTM的性能相似，但是GRU参数更少，因此更容易收敛。GRU中每个单元都可以通过重置门和更新门来控制信息的流动。相较于单项的GRU，Bi-GRU能够更好地捕捉和考虑上下文信息，因此，本公开实施例中选用Bi-GRU来提取文本情报特征。其中Bi-GRU隐藏单元个数设置为64，采用drop-out技术防止过拟合，参数设置为0.5，模型通过全连接层和softmax层训练，得到文本特征向量。

在步骤S102中，根据图片情报特征提取对应的图片特征向量包括：

其中，图4示出了图片特征向量的提取过程图。

在一些实施方式中，所述预先训练的图片情报特征提取模型为VGG-16模型，包括13层卷积层、5层池化层以及2层全连接层。

卷积神经网络模型通常包含需要学习的大量参数，为了训练这些参数,也需要大量的训练集，因算力有限需利用迁移学习技术，在预训练好的模型基础上进行微调，因此，本公开实施例中选用Keras中使用ImageNet预训练好的VGG-16模型作为基准模型。

如图4所示，根据图片情报类别，本公开实施例中修改原模型中最后一层全连接输出，并替换之前的全连接层，将神经元个数设置为3，模型包括13层卷积层、5层池化层以及2层全连接层。于是，本公开实施例利用微调方式训练得到了图片特征向量。

根据本公开的实施例，构建基于迁移学习的微调CNNs提取图片情报特征，图片情报中含有丰富的信息量，将图片进行向量化表示，在提取图片丰富信息量的同时，便于与文本情报特征融合。

在步骤S103中，所述对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征包括：

其中，图5示出了联合拼接过程示意图。

分别获得上述Bi-GRU模型和微调VGG-16模型提取的文本和图片的情感特征后，需要判断两个模态之间的关联性，并将具有关联性的文本特征向量与图片特征向量进行联合拼接，使各种单一模态在约束条件的作用下实现相互协同。

由于各个模态中所包含的信息有所差异，多模态协同需要保留每个模态独特的特征，协同方法是基于跨模态相似性方法，该方法旨在直接测量向量与不同模态的距离来学习公共子空间。基于跨模态相关性的方法旨在学习一个共享子空间，从而使不同模态表示集的相关性最大化。跨模态相似性方法在相似性度量的约束下保持模态间的相似性结构，使得相同语义或相关对象的跨模态相似距离尽可能小，不同语义的距离尽可能大。

采用皮尔森相关系数来进行两个模态特征向量间的相似度计算，假设Q和D分别表示前边第一步情报文本和第二步图像两种模态得到的固定长度的特征向量，则计算公式如下：

式中，Q_i和D_i分别表示向量所在位的位置，

和

分别是Q和D的平均值。r的范围是-1到+1。相关系数的绝对值越大，相关性越强，相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

所述阈值可以用r来表示，若r的绝对值小于0.7，则认为图文无关不予融合，此时直接由文本特征向量决定分类结果；若r的绝对值大于等于0.7，将其拼接成长向量进行特征层融合。

根据本公开的实施例，如图5所示，本公开的实施例进行的是第一次融合，对抽象的特征进行融合拼接。通过融合拼接获取特征数据得到有效的跨模态特征，从而准确地捕获多模态数据的模态表示和跨模态互补相关性。

在步骤S104中，所述分类模型为MLP模型；

所述MLP模型包括一个隐藏层，所述隐藏层使用dropout算法；

由于天基开源情报提取出的融合特征向量较为复杂，为了能够更好地考虑这些复杂特征对情报分类效果的影响，选取带dropout的MLP多层感知机神经网络模型对前面第一次融合后的特征向量进行分类，添加dropout层的原因是因为步骤S103中图片特征和文本特征向量采用拼接方式融合，防止模型出现过拟合问题，dropout层可以看作是对图片特征和文本特征的第二次融合。本公开的实施例中采用的MLP只含一个隐层，即三层神经网络结构，对隐藏层使用dropout，就是在训练过程中随机将该层的一些输出特征设置为0，此处设置为0.2，通常设置为0.2-0.5范围内，数值越大丢弃的特征越多，该参数属于超参数。输出层softmax分类器，采用多分类交叉熵损失函数，MLP所有的参数就是各个层之间的连接权重以及偏置，包括W1、b1、W2、b2。

可以采用运用梯度下降法（SGD）确定参数，具体的，首先随机初始化所有参数，然后迭代地训练，不断地计算梯度和更新参数，直到满足误差足够小为止。由此，可以充分地利用数据特征拟合数据，所以模型对融合后的特征向量进行分类的结果更加可信。

在一些实施方式中，将融合特征分为训练集样本和测试集样本，将训练集样本输入MLP模型中训练，然后将测试集样本输入训练好的MLP模型，观察是否能输出分类结果，从而判断是否训练完成。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图6示出了根据本公开的实施例的基于多模态融合的天基情报分类装置600的框图。

如图6所示，所述基于多模态融合的天基情报分类装置600包括：

获取模块601，用于分别获取待分类天基情报的文本情报特征和图片情报特征；

特征提取模块602，用于根据文本情报特征和图片情报特征提取对应的文本特征向量与图片特征向量；

第一次融合模块603，用于对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征；

第二次融合模块604，用于将所述融合特征输入至预设的分类模型进行分类。

在一些实施方式中，还包括提取文本特征向量模块，用于获取待分类天基情报中的文本，对所述文本进行向量化表示，将向量化文本输入预先训练的文本情报特征提取模型，得到对应的文本特征向量。

在一些实施方式中，还包括提取图片特征向量模块，用于获取待分类天基情报中的图片，将所述图片输入预先训练的图片情报特征提取模型，得到对应的图片特征向量。

在一些实施方式中，还包括联合拼接模块，用于根据皮尔逊相关系数对所述文本情报特征与所述图片情报特征进行相似度计算；若相似度达到阈值，则进行联合拼接；若相似度未达到阈值，则不进行联合拼接。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法100。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元801执行时，可以执行上文描述的方法100的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法100。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于多模态融合的天基情报分类方法，其特征在于，包括：

分别获取待分类天基情报的文本情报特征和图片情报特征；

将所述融合特征输入至预设的分类模型进行分类。

2.如权利要求1所述的基于多模态融合的天基情报分类方法，其特征在于，根据文本情报特征提取对应的文本特征向量包括：

3.如权利要求2所述的基于多模态融合的天基情报分类方法，其特征在于，根据图片情报特征提取对应的图片特征向量包括：

4.如权利要求3所述的基于多模态融合的天基情报分类方法，其特征在于，

所述预先训练的文本情报特征提取模型为Bi-GRU模型；

5.如权利要求1所述的基于多模态融合的天基情报分类方法，其特征在于，所述对文本特征向量与图片特征向量进行计算，将具有相关性的文本特征向量与图片特征向量进行联合拼接，得到待分类天基情报的融合特征包括：

6.如权利要求1所述的基于多模态融合的天基情报分类方法，其特征在于，所述分类模型为MLP模型；

所述MLP模型包括一个隐藏层，所述隐藏层使用dropout算法；

7.一种基于多模态融合的天基情报分类装置，其特征在于，

8.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。