CN111291204A

CN111291204A - 一种多媒体数据融合方法及设备

Info

Publication number: CN111291204A
Application number: CN201911259689.9A
Authority: CN
Inventors: 何志强; 刘鑫; 张继勇; 庄浩
Original assignee: Huarui Xinzhi Technology Beijing Co ltd; Hebei Finance University
Current assignee: Hebei Finance University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-06-16
Anticipated expiration: 2039-12-10
Also published as: CN111291204B

Abstract

本申请实施例提供了一种多媒体数据融合方法及设备，其包括：接收来自多个终端设备的多媒体数据，多媒体数据的数据类型包括以下至少两种：文本、图像、音频。分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量，特征向量用于表示各多媒体数据的特征。基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间。根据转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类。

Description

一种多媒体数据融合方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种多媒体数据融合方法及设备。

背景技术

随着信息技术的高度发展，从多个维度产生了大规模的多媒体数据。例如从摄像机得到视频数据和图片数据，从文本里面得到文本数据，通过埋点技术得到音频数据。面对许多不同形式的数据表达了同一主题，他们的高层语义非常相似，但它们在不同媒体之间的底层特征却相差甚远，这样的数据具有很强的关联性。这种具有关联性的数据可以运用到很多方面，例如搜索，每个人可以搜索其中一个可以关联其他相关的事件。比如说，用一个名人的名字某某作为关键词搜索通过百度搜索引擎，就可以查到该莫某的信息。这些材料包括该莫某的照片、个人资料、演讲音频、视频等。因此，多媒体数据融合就变得至关重要。

现有数据融合技术中，往往通过人工标注的方法，为多媒体数据标注相应的标签，通过多媒体数据的标签再进行聚类，以实现多媒体数据的融合。通过这种方法，一方面是需要大量的标注人员和审核人员，耗费大量的人力。另一方面，由于标注人员和审核人员的主观性、以及语义内容的丰富性，往往对多媒体数据进行标注的标签，并不能足够清楚和完整的表述数据所代表的含义，致使多媒体数据的关联性较弱。

发明内容

本说明书实施例提供一种多媒体数据融合方法及设备，用于解决现有技术中进行多媒体数据融合时，需要人为的对多媒体数据进行标注所带来的多媒体数据融合的效率低和质量差等问题。

一方面，本申请实施例提供了一种多媒体数据融合方法，该方法包括：接收来自各个多个终端设备的多媒体数据，多媒体数据的数据类型包括以下至少两种：文本、图像、音频中的一个或多个；分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量，特征向量用于表示各多媒体数据的特征；基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间；根据转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类。

在一种可能实现的方式中，基于各多媒体数据的特征向量、预设的多媒体数据的类别的数目，对各多媒体数据的特征向量进行向量转换，具体预设算法如下公式所示：

其中，k为预设的多媒体数据的类别的数目，θ_k为第k种多媒体数据的特征向量，x为预设的转换向量，T表示转置，P(i)为向量转换后的特征向量。

在一种可能实现的方式中，根据向量转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类，具体包括：根据转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类；基于预设的聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

在一种可能实现的方式中，根据向量转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类，具体为：计算不同数据类型的多媒体数据向量转换后的特征向量之间的欧拉距离；在欧拉距离小于预设阈值的情况下，确定不同数据类型的多媒体数据为一类。

在一种可能实现的方式中，多媒体数据的数据类型还包括：视频。

在一种可能实现的方式中，在分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量之前，方法还包括：分别对不同数据类型的多媒体数据进行相应的预处理。

另一方面，本申请实施例还提供了一种多媒体数据融合设备，其包括：接收模块，用于接收来自多个终端设备的多媒体数据，多媒体数据的数据类型包括以下至少两种：文本、图像、音频；识别模块，用于分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量；其中，，特征向量用于表示各多媒体数据的特征；向量转换模块，用于基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间；聚类模块，用于根据转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类。

在一种可能实现的方式中，聚类模块包括：确定单元和聚类单元；确定单元，用于根据转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类；聚类单元，用于基于预设的聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

在一种可能实现的方式中，确定单元具体用于：计算不同数据类型的多媒体数据向量转换后的特征向量之间的欧拉距离；在欧拉距离小于预设阈值的情况下，确定不同数据类型的多媒体数据为一类。

本申请实施例提供的一种多媒体数据融合方法及设备，能够通过各多媒体数据的特征向量，将不同数据类型的多媒体数据进行分类，并将一类的多媒体数据进行聚类。一方面，相较于人工标注的方法进行分类，可以节约大量的人力物力，并且可以使其更具有客观性。另一方面，在进行多媒体数据集合时，避免通过人为标注对多媒体数据进行聚类，从而进一步提高数据融合的效率和质量，同时也提高了用户体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种多媒体数据融合方法的流程图；

图2为本申请实施例提供的一种多媒体数据融合设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的一种多媒体数据融合方法的流程图。如图1所示，该数据处理方法包括以下步骤：

S101，服务器接收来自多个终端设备的多媒体数据。

其中，多媒体数据的数据类型包括以下至少一种：文本、图像、音频。在本申请的一些实施例中，多媒体数据的数据类型还包括视频，这里所说的视频可以是带有声音的视频，也可以是无音视频。

上述终端设备可以是硬件，也可以是软件。当终端设备为硬件时，可以是各种电子设备，例如计算机、摄影机、扫描仪等等。当终端设备为软件是，可以安装在上述所列举的电子设备中。例如，在终端设备为摄影机时，服务器接收的多媒体数据为视频数据；在终端设备为音乐类软件时，服务器接收的多媒体数据为音频数据；在终端设备为相机时，服务器接收的多媒体数据为图像数据。

S102，分别对不同数据类型的多媒体数据进行预处理。

对于文本类型的多媒体数据(以下简称文本数据)进行预处理，可以通过例如正则化处理大小写，语义消除歧义、同义词替换处理等方式进行数据清理，也就是对文本数据进行预处理。

对于图像类型的多媒体数据(以下简称图像数据)进行的预处理，可以适当舍弃低质量的图像。例如模糊图像，人物场景复杂性强的图像。

需要说明的是，在对文本数据、图像数据进行预处理并不仅限于上述方式，还可以通过其他方式进行预处理。例如对图像数据进行PS以提高图像的分辨率。

对于音频类型的多媒体数据(以下简称音频数据)进行预处理，可以对音频数据进行降噪处理，以降低噪声的影响。

对于视频类型的多媒体数据(以下简称视频数据)进行预处理，可以根据视频数据的视频帧序列生成该视频数据的组合图，在根据图像数据的预处理方法进行处理。

需要说明的是，服务器可以向相应的终端设备发送请求信息，终端设备基于接收到的请求信息向服务器发送相应的多媒体数据。

S103，分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量。

这里所说的特征向量是指用于表示多媒体数据的特征。例如图像类型的多媒体数据对应的特征向量为图像特征向量，用来表示图像中形状的特征。

对于文本数据，可以通过预设的文本特征提取模型获取文本数据的特征向量。这里所说的文本特征提取模型可以是预先训练好的神经网络模型，比如BERT模型。BERT模型的训练分为预训练和微调两步。预训练和下游任务无关，却是一个非常耗时耗钱的过程。对此应该采取调用开源的神经网络模型，而不需要重复这一过程。神经网络模型是对语言的先验知识的总结，一旦拥有就不需要重复构造。所以可以采用微调进行具体下游任务的网络扩展结构。总体来说，对BERT的微调是一个轻量级任务，微调主要调整的是扩展网络而非BERT本身。再者，BERT模型其中一个重要作用是可以生成词向量，它可以用来解决word2vec模型无法解决的一词多义问题。

对于图像数据，可以通过图像特征提取模型得到图像数据的特征向量，这里所说的图像特征提取模型为神经网络模型。例如，采用采用比较经典的深层卷积神经网络结合池化层获得。由于图像作为信号源，神经网络的参数巨大，为了减少训练的计算量，给出了池化层将神经网络模型卷积层计算的结果进行进一步的抽象化，减少要训练的权值量，同时也防止过拟合。

对于音频数据，可以通过相应的音频特征提取模型直接得出音频数据的特征向量，也可以现将音频数据转化为文本数据，在将文本数据输入相应的文本特征提取模型中，得出该音频数据的特征向量。

对于视频数据，可以通过相应的视频特征提取模型直接得出视频数据的特征向量；也可以将视频数据按照其视频序列帧生成组合图，在将生成的组合图输入相应的图像特征提取模型中，得出该视频数据对应的特征向量。

上述所说的音频特征提取模型、视频特征提取模型均为预先训练好的神经网络模型。

需要说明的是，对于多媒体数据的特征向量不仅可以通过相应的模型得到，还可以通过其他算法得出，在本申请实施例中不加以限定。

S104，基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间。

上述预设的转换向量可以是通过神经网络模型进行学习获得的。

由于多媒体数据的数据类型不同，无法直接根据相应的特征向量确定不同数据类型的多媒体数据是否为一类。

因此，在本申请的一些实施例中，可以按照预设算法对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间。

在本申请的一些实施例中，基于各多媒体数据的特征向量、预设的多媒体数据的类别的数目，对各多媒体数据的特征向量进行向量转换，具体如下公式所示：

其中，所述k为预设的多媒体数据的类别的数目，所述θ_k为第k种多媒体数据的特征向量，所述x为预设的转换向量，T表示转置，P(i)为向量转换后的特征向量。

上述k可以是自行定义的一个参数。

通过上述公式，可以将不同数据类型的多媒体数据的特征向量，转化为同一向量空间的向量。

S105，根据转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类。

具体地，计算不同数据类型的多媒体数据的向量转换后的特征向量之间的欧拉距离；

在欧拉距离小于预设阈值的情况下，确定不同数据类型的多媒体数据为一类。

例如，计算文本数据的转换后的特征向量，与图像数据的转换后的特征向量之间的欧拉距离，在欧拉距离小于预设阈值的情况下，确定该文本数据与该图像数据为一类。

再例如，在一文本数据与一图像数据为一类的情况下，该文本数据的转换后的特征向量，与其他一音频数据的转换后的特征向量的欧拉距离也小于预设阈值，则确定该文本数据、该图像数据以及该音频数据为一类。

需要说明的，上述预设阈值可以是提前设定好的，也可以根据实际情况进行实时的调整。

S106，基于预设的聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

在本申请实施例中，可以通过预设的聚类算法，例如k-means聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

基于上述方案，本申请实施例提供的一种多媒体数据融合方法，能够通过各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类，并将一类的不同数据类型的多媒体数据进行聚类，以实现多媒体数据的融合。一方面，相较于人工标注的方法进行分类，可以节约大量的人力物力，并且可以使其更具有客观性。另一方面，在进行多媒体数据集合时，避免通过人为标注对多媒体数据进行聚类，从而进一步提高数据融合的效率和质量，同时也提高了用户体验。

基于同样的思路，本申请的一些实施例还提供了上述方法对应的设备。

图2为本申请实施例提供的一种多媒体数据融合设备的结构示意图。如图2所示，该设备200包括：接收模块210、识别模块220、向量转换模块230、聚类模块240

接收模块210用于接收来自多个终端设备的多媒体数据，多媒体数据的数据类型包括以下至少两种：文本、图像、音频。识别模块220用于分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量；其中，特征向量用于表示各多媒体数据的特征。向量转换模块230用于基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间。聚类模块240用于根据转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类。

在一种可能实现的方式中，聚类模块240包括：确定单元(图中未示出)和聚类单元(图中未示出)。确定单元，用于根据转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类。聚类单元，用于基于预设的聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备与方法是一一对应的，因此，设备也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备的有益技术效果。

本发明实施例本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围中。

Claims

1.一种多媒体数据融合方法，其特征在于，所述方法包括：

接收来自多个终端设备的多媒体数据，所述多媒体数据的数据类型包括以下至少两种：文本、图像、音频；

分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量，所述特征向量用于表示各多媒体数据的特征；

基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间；

根据转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类。

2.根据权利要求1所述的方法，其特征在于，基于各多媒体数据的特征向量、预设的多媒体数据的类别的数目，对各多媒体数据的特征向量进行向量转换，具体如下公式所示：

3.根据权利要去1所述的方法，其特征在于，根据向量转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类，具体包括：

根据转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类；

基于预设的聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

4.根据权利要求3所述的方法，其特征在于，根据向量转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类，具体为：

计算不同数据类型的多媒体数据向量转换后的特征向量之间的欧拉距离；

在所述欧拉距离小于预设阈值的情况下，确定不同数据类型的多媒体数据为一类。

5.根据权利要求1所述的方法，其特征在于，所述多媒体数据的数据类型还包括：视频。

6.根据权利要求1所述的方法，其特征在于，在分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量之前，所述方法还包括：

分别对不同数据类型的多媒体数据进行相应的预处理。

7.一种多媒体数据融合设备，其特征在于，所述设备包括：

接收模块，用于接收来自多个终端设备的多媒体数据，所述多媒体数据的数据类型包括以下至少两种：文本、图像、音频；

识别模块，用于分别对各数据类型的多媒体数据进行相应的识别，得到各多媒体数据的特征向量；其中，所述特征向量用于表示各多媒体数据的特征；

向量转换模块，用于基于各多媒体数据的特征向量、预设的转换向量之间的关系，对各多媒体数据的特征向量进行向量转换，以使不同数据类型的多媒体数据的特征向量处于同一向量空间；

聚类模块，用于根据转换后的各多媒体数据的特征向量，将不同数据类型的多媒体数据进行聚类。

8.根据权利要求7所述的设备，其特征在于，基于各多媒体数据的特征向量、预设的多媒体数据的类别的数目，对各多媒体数据的特征向量进行向量转换，具体如下公式所示：

9.根据权利要求7所述的设备，其特征在于，所述聚类模块包括：确定单元和聚类单元；

所述确定单元，用于根据转换后的各多媒体数据的特征向量，确定不同数据类型的多媒体数据是否为一类；

所述聚类单元，用于基于预设的聚类算法，将一类的不同数据类型的多媒体数据进行聚类。

10.根据权利要求9所述的设备，其特征在于，所述确定单元具体用于：