CN113157678A

CN113157678A - 一种多源异构数据关联方法

Info

Publication number: CN113157678A
Application number: CN202110421743.6A
Authority: CN
Inventors: 吕亚飞; 张筱晗; 石敏; 江志浩; 王雅芬; 黄猛; 涂卫红
Original assignee: Unit 91977 Of Pla
Current assignee: Unit 91977 Of Pla
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-23
Anticipated expiration: 2041-04-19
Also published as: CN113157678B

Abstract

本发明公开了一种多源异构数据关联方法，属于数据融合技术领域，主要解决现有技术中多源异构数据中不同模态的信息间存在异质鸿沟的问题。本方法构造多源异构数据关联模型，使用深度神经网络对所述多源异构数据进行非线性映射，构建不同模态信息之间的关联关系。本方法融合各数据源的共有特征与特有特征，充分利用特有特征包含着各数据源间的互补信息，对促进多源异构数据间的关联判别具有积极的促进作用。

Description

一种多源异构数据关联方法

技术领域

本发明涉及数据融合技术领域，特别是涉及一种多源异构数据关联方法。

背景技术

近年来，随着各类数据探测平台的飞速发展，传感器的类型和数量不断增长，探测数据的积累已达到大数据的规模。以图像类、位置类这两类信息为例，图像类数据的获取一般具有探测范围广、重访周期长、定位精度高、视觉特征明显等特点，可用于预警探测过程中的前期大范围预警和末端的身份识别；雷达、AIS等位置类数据具有实时性强、但视觉特征弱的特点，可用于预警探测过程中的目标跟踪、态势生成和意图判断等环节。如果能通过对多种数据进行关联融合，弥补不同信源之间的缺点，则可以实现信息互补，提高目标的识别精度和准确的意图判断。因此，解决多源异构数据间的关联关系建立问题是实现多源异构数据有效融合，进而实现大数据充分挖掘利用的关键问题。

而多源异构数据关联关系建立的难点主要在于多源异构数据中不同模态的信息间存在“异质鸿沟”的问题，即不同模态的信息特征表示和特征分布间不一致性比较强，现有的欧式距离、马氏距离等方法难以直接进行相似性度量。

发明内容

有鉴于此，本发明提供的一种多源异构数据关联方法，主要目的在于解决现有技术中多源异构数据是处于不同的概率分布空间和特征空间中，难以直接建立关联关系的问题。

本发明技术方案如下，包括：步骤1：使用多种传感器对同一目标进行探测，获取多数据源探测数据；步骤2：对所述多数据源探测数据进行预处理，设置语义类别标签，形成多源异构数据；步骤3：构造多源异构数据关联模型，使用深度神经网络对所述多源异构数据进行非线性映射，构建不同模态信息之间的关联关系；步骤4：将所述多源异构数据输入多源异构数据关联模型，获取关联结果。

作为本发明的进一步改进，所述多源异构数据关联模型包括：信息融合网络与关联度量空间，其中信息融合网络进行各多源异构数据的特征提取以获取各数据源特征表示向量，并融合为融合特征表示向量；关联度量空间用于将所述融合特征表示向量迁移到各多源异构数据的特征提取网络中，以加强所述多源异构数据之间的语义关联性。

作为本发明的进一步改进，进行各多源异构数据的特征提取具体为：使用卷积神经网络对所述语义类别标记为图像类的多源异构数据提取图像类特征，使用循环神经网络对所述语义类别标记为序列类的多源异构数据提取序列类特征。

作为本发明的进一步改进，所述融合特征表示向量的构建步骤具体为：多源异构数据的特征表示向量F为所述卷积神经网络和所述循环神经网络的最后一个全连接层所代表的高维向量

其中，k表示各特征向量的维度；M表示数据源的种类数；N表示整个数据集的数量，i表示数据量的大小；d属于多源异构数据关联学习训练数据集D；在所述多源异构数据的特征表示向量F的基础上，分别连接一个全连接层后，采用特征相连的方式得到融合了各数据源的共有特征和特有特征的融合特征表示向量；以交叉熵损失函数和中心损失函数为目标函数，使用所述数据集D进行所述信息融合网络的训练，使所述融合特征表示向量更准确。

作为本发明的进一步改进，所述关联度量空间的构建步骤具体为：进行各多源异构数据的特征提取，得到多源异构数据的特征表示向量：

其中，k表示各特征向量的维度；M表示数据源的种类数，N表示整个数据集的数量，i表示数据量的大小；d属于多源异构数据关联学习训练数据集D；

表示数据源M的特征表示向量；通过L2约束拉近各数据源特征表示向量和所述融合特征表示向量间的距离；以所述数据集D中的所述语义类别标签为监督信息，以排序损失函数为目标函数，进行所述关联度量空间的训练，使关联结果更准确。

籍由上述技术方案，本发明提供的有益效果如下：

(1)收集同一目标的多源数据进行人工关联，形成多源异构数据关联学习训练数据，使用两大类深度神经网络进行非线性映射，构建不同模态信息之间的关联关系。

(2)通过构建多源异构数据信息融合网络以提取多源异构数据间的融合特征表示向量，融合特征表示向量融合了各数据源的共有特征与特有特征，由于各数据源的特有特征包含着各数据源间的互补信息，对促进多源异构数据间的关联判别具有积极的促进作用。

(3)通过将融合特征表示向量迁移至各模态信息特征提取神经网络中，使得各数据源的特征表示能获取到多种数据源间的融合特征和其自身的特有特征，能够提高各数据源特征表示的准确度，并加强待关联的多源异构数据特征表示间的关联性，有利于提高关联的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种多源异构数据关联方法流程示意图；

图2示出了多源异构数据之间的共有特征与互补特征的关系示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明主要解决现有技术中多源异构数据中由于不同模态的信息间存在“异质鸿沟”，所以无法进行有效关联问题。

本发明通过构造多源异构数据关联模型，使用深度神经网络对所述多源异构数据进行非线性映射，构建不同模态信息之间的关联关系。进一步融合各数据源的共有特征与特有特征，充分利用特有特征包含着各数据源间的互补信息，提高各数据源特征表示的准确度，并加强待关联的多源异构数据特征表示间的关联性。

图1为本发明实施例提供的一种多源异构数据关联方法流程示意图，如图1所示，本实施例所述方法的技术方案包括以下步骤：

步骤1：使用多种传感器对同一目标进行探测，获取多数据源探测数据。

多源是指从多个不同种类的传感器获取的数据，包括但不限于卫星、无人机、雷达、AIS等；异构数据是指图像数据、文字数据、语音数据、位置数据等结构不同的数据。

步骤1.1：收集不同传感器对同一场景或同一目标的探测数据，数据类型包括图像、文本、语音和位置级数据。

步骤2：对所述多数据源探测数据进行预处理，并进行语义类别标记，形成多源异构数据；

步骤2.1：进行数据清洗和预处理，数据清洗动作包括对步骤1.1中收集到的多源探测数据进行去噪、缺失值补充、异常值剔除，预处理包括对多源数据进行图像校正、图像增强、数据切片、数据标准化操作。

步骤3：构造多源异构数据关联模型，使用深度神经网络对所述多源异构数据进行非线性映射，构建不同模态信息之间的关联关系；

构造多源异构数据关联模型，包括信息融合网络与关联度量空间，其中信息融合网络进行各多源异构数据的特征提取以获取各数据源特征表示向量，并融合为融合特征表示向量；关联度量空间用于将融合特征表示向量迁移到各多源异构数据的特征提取网络中，以加强多源异构数据之间的语义关联性；

多源异构数据间的融合特征包括共有特征和特有特征，各数据源的特有特征包含着各数据源间的互补信息，对促进多源异构数据间的关联判别具有积极的促进作用。

现有技术中只关注多源异构数据之间的共有特征，通过共有特征建立多源异构数据之间的关联关系，关联过程中忽视了多源异构数据特有特征之间所具有的信息互补性，导致关联准确度不高。

举例来说，图2示出了多源异构数据之间的共有特征与特有特征的关系示意图，以图2中所示的图像和文本为例，将图像类信息与文本类信息分别进行特征提取后得到各自的特征表示。两种模态的特征表示中可以分为共有特征和特有特征，现有技术中仅对共有特征的语义一致性加以利用，而忽略了特有特征间的信息互补作用。例如，文本类信息中对飞机数量的描述“five”是图像类信息中所难以提取的重要高层语义信息，若能够将此飞机数量的信息迁移到图像训练的深度网络中，作为图像特征提取的监督信息，则会提高图像特征表示的准确度。因此利用异构数据之间特有特征间的互补性，以提高各模态信息间的特征表示能力，能够提高多源异构数据之间的关联关系的准确度。

构造多源异构数据关联模型的步骤如下：

步骤3.1：构建多源异构数据关联模型的学习训练数据集。

对同一目标的多源探测数据进行语义类别标记，形成多源异构数据关联学习训练数据集D＝{(xⁱ ₁，xⁱ ₂，...xⁱ _m，yⁱ)，i∈(0，N)}，其中，xⁱ _m表示第m个数据源对目标的探测数据，m表示数据源的种类数，yⁱ表示该m个数据源对应目标的语义类别标签，N表示整个数据集的数量，i表示数据量的大小；

步骤3.2：构建多源异构数据信息融合网络以提取多源异构数据间的融合特征表示向量。

本发明实施例所称的多源异构数据信息融合网络，具体包括各数据源的特征提取、多源特征融合网络和构建目标函数三部分。

其中：

步骤3.2.1：各数据源的特征提取。包括使用两大类深度神经网络：利用卷积神经网络对图像类数据的表征能力，提取图像类数据的特征表示向量；利用循环神经网络对文本、语音、位置等序列信息数据的表征能力，提取序列信息数据的特征表示向量；多源异构数据的特征表示向量F为卷积神经网络和循环神经网络的最后一个全连接层所代表的高维向量：

其中，k表示各特征向量的维度；M表示数据源的种类数。

本实施例中所使用的卷积神经网络包括：VGG、ResNet、SeNet、ShuffleNet、GoogleNet；实际应用时可选择其中任意一种卷积神经网络。

本实施例中所使用的循环神经网络包括：RNN或GRU；实际应用时可选择其中任意一种循环神经网络。

步骤3.2.2：多源特征融合网络。在多源异构数据的特征表示向量F的基础上，分别连接一个全连接层后，采用特征相连的方式得到各数据源的融合特征表示向量。

具体来说，分别连接一个全连接层是指对已获取的特征表示向量再进行一步非线性处理，激活函数为relu函数，处理过程和relu函数的公式分别见公式(1)(2)所示，

其中，FC代表全连接层，

bⁱ分别是维度为(k×k)、(M×k，1)的矩阵和向量。

具体来说，特征相连的方式指对各数据源的特征表示向量以首尾相连的方式获得融合后的特征表示向量，处理过程见公式(3)所示：

Conc表示首尾相连函数，所得的融合特征表示向量

步骤3.2.3：构建目标函数。

目标函数的构建是指对融合特征表示向量进行目标约束，目的是使获得的多源异构数据的融合特征表示向量能准确地融合各数据源的共有特征和特有特征，主要包括交叉熵损失函数和中心损失函数两部分。

具体来说，交叉熵损失函数以数据集D中的yi为真值，以整个网络的输出为预测值，见公式(4)所示。

表示信息融合网络的输出，即对输入各数据源预测结果的概率分布，q(yⁱ)表示真实的标签yⁱ的概率分布；

具体来说，中心损失函数如公式(5)所示，

其中，

代表第j组多源数据的融合特征表示向量，

表示身份类别标签为y^j的所有特征表示向量的平均值，M代表数据集中身份类别标签为y^j的各源数据的总数；

步骤3.3：将多源异构数据间的融合特征表示向量迁移至各数据源特征提取网络中，包括各多源异构数据的特征提取、融合特征表示向量的迁移和构建目标函数三部分。

步骤3.3.1：多源异构数据的特征提取。该步骤采用与步骤3.2.1相同的特征提取网络，得到多源异构数据的特征表示向量：

其中，k表示各特征向量的维度；M表示数据源的种类数。

步骤3.3.2：融合特征表示向量的迁移。通过L₂约束拉近各数据源特征表示向量和融合特征表示向量间的距离，以实现融合特征表示向量中的融合信息向各数据源中迁移的目的。L₂约束对数据源M的特征表示向量和融合特征表示向量的约束见公式(6)所示，

其中，

代表第j组多源数据的融合特征表示向量；

代表数据源M的特征表示向量；

本步骤使得各数据源的特征表示能获取到多种数据源间的融合特征和特有特征，以提高各数据源特征表示的准确度，并加强待关联的多源异构数据特征表示间的关联性，有利于提高关联的准确度。

步骤3.3.3，以数据集D中的语义类别标签yⁱ为监督信息，以排序损失函数为目标函数，完成多源异构数据关联度量空间的构建。

具体来说，排序损失函数见公式(7)所示：

其中，

表示标签性质一致的数据源1和数据源2的数据之间的相似性分数，

和

是标签性质不一致的数据源1和数据源2的数据之间的相似性分数，常数α为预设的边界，[x]₊表示max(x，0)，在排序损失约束下，关联度量空间中的标签一致数据对之间的相似度分数要以边界α的值超过标签不一致数据对的相似性分数。

步骤3.4：对多源异构数据关联模型进行多轮训练，确定最终多源异构数据关联模型。

具体来说，本实施例在配置有GPU的计算机上对以上构建方法进行学习、训练；随机挑选数据集D中90％的数据作为训练集，其余的作为测试集。

在训练过程中，随机读取语义类别标签一致的多源异构数据，在一种应用场景中，将排序损失约束中参数α的大小设置为0.2，整个方法采用Adam优化器进行训练，训练时读取的数据批大小根据GPU的计算能力可选择为2，4，8，16，32，64，整个数据集训练迭代100个循环，学习率设置为2e-4，以余弦距离作为不同数据源之间的相似性度量标准。

训练完成的多源异构数据关联模型(表中称为模型1)在多源数据集UCM_Captions及RSICD上进行实验，与去掉了本实施例所述的多源异构数据关联模型中的信息融合网络以后所构成的模型(表中称为模型2)在同样的数据集上进行实验，两者的实验结果如下表1与表2。

表1在多源数据集UCM_Captions上的实验对比结果

表2在多源数据集RSICD上的实验对比结果

其中：“图像-＞文本”任务是指，将一个图像输入模型后，该模型从文本库中按照关联程度的由大至小依次返回相关联的文本，“R@k”表示返回的文本序列中，前K个中包含真值的比例，该指标的值越大算法性能越好；Med_r表示返回的序列中，真值第一次出现的顺序中位数，该指标的值越小证明算法性能越好。

由表1、2可以看出，本实施例方法在两个多源数据集上都较明显的提升了多源异构数据的关联准确度。

步骤4：将所述多源异构数据输入多源异构数据关联模型，获取关联结果。

训练完成的多源异构数据关联模型，在使用时，分别读取待关联判别的多源数据，进入到关联判别空间，进行特征提取，得到各多源数据的特征表示向量，对得到的特征表示向量直接计算其余弦距离进行相似性判断，信息融合网络只在训练过程中对关联判别空间的特征提取网络起到引导和“老师”的作用，在多源异构数据关联模型训练完成后的使用过程中不再起作用。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。