CN111949806A

CN111949806A - 一种基于Resnet-Bert网络模型的跨媒体检索方法

Info

Publication number: CN111949806A
Application number: CN202010767866.0A
Authority: CN
Inventors: 闫盈盈; 张婧慧; 洒科进; 曹扬; 丁剑飞
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-17

Abstract

本发明提供了一种基于Resnet‑Bert网络模型的跨媒体检索方法；采用Resnet‑Bert网络模型，对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索，返回对应的分类结果。本发明与传统的两种媒体类型互相检索相比，四种媒体类型的相互检索更能够实现较为广泛的市场应用；采用了效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型，模型本身能够得到更高层、更抽象以及更丰富的特征表达；使用的四种模态数据，信息间相互迁移，关联学习加强，实现了更强的知识表示能力；得益于计算机性能的提升，Resnet‑Bert网络模型经过复杂的计算，能够实现较好的跨媒体训练效果和跨媒体检索效果。

Description

一种基于Resnet-Bert网络模型的跨媒体检索方法

技术领域

本发明涉及一种基于Resnet-Bert网络模型的跨媒体检索方法，属于。

背景技术

大数据时代，多种媒体数据类型，如文本、图像、视频、音频等已经成为了人们获取知识的主要数据形式。越来越多的用户渴望通过多种媒体数据内容及其之间的相互关联关系学习和掌握更为全面的知识信息，辅助自身的认知和问题的解决。

检索是用户获取知识的常用方式之一，传统的跨媒体检索研究主要集中在以文搜图和以图搜文两种媒体数据之间。事实上，随着大数据时代的来临，人们通过互联网会产生大量的文本数据如新闻报道、微博淘宝等评论数据、微信聊天记录、弹幕数据等，图片数据如表情包、文章配图、手机照片、医疗影像等，视频数据如抖音、快手等视频媒体软件数据、城市摄像头数据等，同时伴随着有音频信息，如微信语音、视频配音等信息。在人们信息交流的过程中，上述的四种媒体常常会同时出现且语义具有相关性。但现有跨媒体检索技术都局限于两种媒体数据之间，事实上，这种搜索已经不能够满足人们日益增加的数据检索需求，尤其存在着跨模态检索精度低的问题。

发明内容

为解决上述技术问题，本发明提供了一种基于Resnet-Bert网络模型的跨媒体检索方法，该基于Resnet-Bert网络模型的跨媒体检索方法能在图像、视频、音频以及文本四种媒体类型数据之间建立跨媒体统一表征空间，实现了更高的跨模态检索精度。

本发明通过以下技术方案得以实现。

本发明提供的一种基于Resnet-Bert网络模型的跨媒体检索方法；采用Resnet-Bert网络模型，对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索，返回对应的分类结果；当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时，进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致；Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型，对文本数据进行分类检索时采用Bert模型。

所述Resnet-Bert网络模型通过图像数据、视频数据、音频数据和文本数据的联合数据训练而成；每一项联合数据中，图像数据、视频数据、音频数据和文本数据的分类标签一致。

所述图像数据、视频数据均通过对源数据进行图像转化、图像裁剪、去中心化、标准化操作后得到。

所述音频数据通过对源数据进行傅里叶变换、图像转化、图像裁剪、去中心化、标准化操作后得到。

所述文本数据通过对源数据进行数据解码、不规范字符检查、移除表情符、去除URL、去中心化、标准化、固定文本长度操作后得到。

所述Resnet-Bert网络模型中，Resnet模型接受图像数据、视频数据和音频数据的输入，Bert模型接受文本数据的输入，Resnet模型和 Bert模型的输出接入至统一表征空间，统一表征空间输出分类结果。

所述Resnet模型为Resnet50卷积神经网络。

所述Bert模型通过多项双层的Transformer编码器构建。

所述统一表征空间为全连接层神经网络。

本发明的有益效果在于：与传统的两种媒体类型互相检索相比，四种媒体类型的相互检索更能够实现较为广泛的市场应用；采用了效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型，模型本身能够得到更高层、更抽象以及更丰富的特征表达；使用的四种模态数据，信息间相互迁移，关联学习加强，实现了更强的知识表示能力；得益于计算机性能的提升，Resnet-Bert网络模型经过复杂的计算，能够实现较好的跨媒体训练效果和跨媒体检索效果。

附图说明

图1是本发明中Resnet-Bert网络模型的架构示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

提供高效的跨媒体检索方法满足人们精准且丰富的数据检索需求，提升用户的知识获取效率和检索体验是目前跨媒体检索技术的研究热点。在进行检索时，用户给定一种媒体类型数据，如一张“黄果树瀑布”照片，利用跨媒体检索技术能够自动检索到与“黄果树瀑布”相关的各种媒体类型数据，不仅包括有关“黄果树瀑布”的图像，也包括“黄果树瀑布”的文字描述、视频展示、音频讲解等。显然，由于不同媒体类型数据之间存在语义相关性、互补性，与单一媒体类型相比，能够实现更加准确全面地语义表达，从而帮助用户丰富认知和提升检索体验。

基于上述构思，本发明提供一种基于Resnet-Bert网络模型的跨媒体检索方法；采用如图1所示的Resnet-Bert网络模型，对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索，返回对应的分类结果；当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时，进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致；Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型，对文本数据进行分类检索时采用Bert模型。

所述Resnet模型为Resnet50卷积神经网络。

所述Bert模型通过多项双层的Transformer编码器构建。

所述统一表征空间为全连接层神经网络。

实施例1

采用上述方案，结合现有技术的技术手段，按照如下步骤实现：

步骤1：跨媒体数据采集。通过爬虫、查询、交流等多种方式，本发明获得了主题相关、语义一致且标签相同的跨媒体数据。该数据包括图像、视频、音频、文本四种类型数据，每种媒体类型数据均包括200种鸟类。其中图像数据为CUB-200-2011数据集，共11788幅图片， 5994张训练集和5794张测试集。视频数据采用YouTube Birds数据集，训练集为12666个视频，测试集为5864个视频。文本数据集为4000篇训练集和4000个测试集。音频数据包括6000个训练频谱图和6000个测试频谱图。其中,图像CUB-200-2011数据是通过相关网站下载获得，视频YouTube Birds数据是通过爬虫方式获得。文本和音频数据由北京大学多媒体信息处理研究室(MIPL)实验室提供。图像、音频及文本的数据标签与数据呈现一一对应关系。视频数据的标签与视频数目呈现一一对应关系。

步骤2：跨媒体数据清洗和转换。对采集的跨媒体数据进行数据清洗和转换，形成可用干净的数据。主要包括：

步骤2.1：去除噪声图像和无关图像。由于图像CUB-200-2011数据是标准公开数据集，因此该步骤不做任何处理；

步骤2.2：由于YouTube Birds视频具有时间序列信息，因此需要进一步进行处理。本发明将爬取的12666个训练集视频和5864个视频分别利用python脚本进行分帧实验，每个视频获取50帧，剔除无用帧和质量较低的帧，最终保留每个视频为25个帧，即25幅图像。

步骤2.3、由于音频是具有时间序列信息的数据，因此针对每个音频数据，通过傅里叶变换技术将音频数据转为频谱图，将频谱图作为该音频的结果数据。由于本发明实施例使用的音频数据集是标准数据集，因此该步骤不做任何处理。

步骤2.4、针对每个文本数据，通过python脚本进行数据解码、不规范字符检查、移除表情符、去除URL等文本数据清洗操作，形成规范化的文本内容。由于本发明实施例使用的文本数据集是标准数据集，因此该步骤不做任何处理。

步骤3、跨媒体数据预处理。跨媒体数据的预处理主要包括数据的去中心化、标准化、文本长度统一等内容。

步骤3.1、图像、视频与音频预处理。将数据集中的图像数据、视频数据、音频数据向量化之后，通过pytorch框架中的图像转化、图像裁剪、去中心化、标准化操作，形成固定大小为448*448*3的向量表示。

步骤3.2、文本预处理。将每个文本数据向量化后，设置固定长度为80，然后对向量进行短填长切。

步骤4、网络模型构建。构建Resnet-Bert网络模型，使用Resnet-Bert 网络模型，可以生成符合数据特征的网络模型。

步骤4.1、Resnet网络模型构建。基于Pytorch深度学习框架搭建卷积神经网络Resnet的网络模型。

步骤4.2、Bert网络模型构建。使用Pytorch深度学习框架搭建自然语言处理方法Bert的网络模型。

步骤4.3、Resnet-Bert网络模型训练。加载Reset在ImageNet数据集上的预训练模型，将图像数据、视频数据与音频数据输入到Resnet 中进行训练，得到符合鸟类数据集的Resnet的网络模型参数。加载谷歌提供的Bert预训练模型“uncased_L-12_H-768_A-12”，将文本数据输入到Bert中进行训练，得到符合训练数据的Bert的网络模型参数。具体训练实施，包括如下步骤：

步骤4.3.1、从图像训练集、视频训练集、音频训练集、文本训练集中取出图像、视频、音频、文本数据一个批次的训练样本，一个训练批次的各模态的样本个数为。

步骤4.3.2、将图像、视频、音频训练数据输入到resnet模型，同时将文本训练数据输入到Bert模型中，通过网络模型的前向传播，计算得到图像、视频、音频及文本各条数据的分类特征表示。

步骤4.3.4、利用交叉熵计算四种模态的分类特征表示与四种模态正确的标签向量之间的损失函数，并计算各损失函数之和。损失函数被定义为：

其中，l(xk,yk)是交叉熵损失函数。I、V、A以及T分别表示图像、视频、音频以及文本媒体类型。以图像为例，NI表示训练集中图像的总数量，表示模型学习的第k个图像数据的分类特征，表示第k个图像数据的真实标签。为视频分帧后的所有的帧的总数量。

步骤4.3.5、利用损失函数计算网络每个参数的梯度值，利用随机梯度下降(Stochastic Gradient Descent,SGD)方法更新resnet的网络参数。

步骤4.3.6、重复步骤4.3.1、步骤4.3.2、步骤4.3.2、步骤4.3.4、步骤4.3.5，直至Resnet-Bert网络模型收敛。获得符合鸟类数据分布的Resnet的网络模型参数和Bert的网络模型参数。

步骤5、获取鸟类数据集各模态数据的分类特征表示。给定鸟类的所有图像数据、视频数据、音频数据与文本数据集，通过Resnet-Bert 网络模型分别计算出图像数据、视频数据、音频数据和文本数据的分类特征表示向量，针对每个媒体类型数据，建立分类特征矩阵。

步骤6、实现跨媒体检索。假设给定鸟类的“图像数据”作为查询，获取与之相关的其余媒体数据，从而实现检索。

步骤6.1、单一媒体数据分类特征计算。通过Resnet-Bert模型计算该鸟类“图像数据”数据的分类特征表示向量。

步骤6.2、相似度计算。利用余弦距离计算该“图像”媒体数据的分类特征表示与各媒体类型数据分类特征矩阵每一行的相似度。余弦距离的计算公式为：

其中，x是检索输入数据的分类特征表示向量，y是各媒体类型数据的分类特征矩阵中的一行，即某个数据的分类特征向量。

步骤6.3、排序。将计算的距离从小到大进行排序，余弦距离越小，相似度越大。选择每种媒体相似度排名前20的数据作为该“图片数据”检索结果。

将Resnet-Bert网络模型的检索结果与现有的Resnet跨媒体检索结果进行对比，评价指标为MAP(Mean Average Precise)；MAP是信息检索领域常用的评价检索结果优劣的标准。MAP的计算公式为：

其中，M表示任一媒体数据作为查询检索到的结果数量，R表示检索的结果数据量，p(r)表示在第r位数据的准确率，rel(r)表示该媒体数据与第r位数据的结果的相关性。

表1分类检索结果对比表

分类检索结果如表1所示，image2text表示由图像检索文本， text2image表示由文本检索图像，其余类似。image2all表示由图像检索图像、视频、音频及文本所有媒体数据，其余类似。从表1可以看出，本发明提供的方案(右列的Resnet-Bert项)在鸟类数据集上的检索精度均高于Resnet，可见基于本发明提供的基于Resnet-Bert模型的跨模态检索方法能够更准确的学习到了不同模态间的语义关系，跨模态检索精度更高。

由此，本发明利用卷积神经网络模型Resnet与自然语言处理模型 Bert良好的编码能力，在图像、视频、音频以及文本四种媒体类型数据之间建立跨媒体统一表征空间，通过不同模态间信息的迁移辅助与关联理解，使得模型具有较好的表达能力，实现了更高的跨模态检索精度。

Claims

1.一种基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：采用Resnet-Bert网络模型，对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索，返回对应的分类结果；当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时，进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致；Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型，对文本数据进行分类检索时采用Bert模型。

2.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述Resnet-Bert网络模型通过图像数据、视频数据、音频数据和文本数据的联合数据训练而成；每一项联合数据中，图像数据、视频数据、音频数据和文本数据的分类标签一致。

3.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述图像数据、视频数据均通过对源数据进行图像转化、图像裁剪、去中心化、标准化操作后得到。

4.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述音频数据通过对源数据进行傅里叶变换、图像转化、图像裁剪、去中心化、标准化操作后得到。

5.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述文本数据通过对源数据进行数据解码、不规范字符检查、移除表情符、去除URL、去中心化、标准化、固定文本长度操作后得到。

6.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述Resnet-Bert网络模型中，Resnet模型接受图像数据、视频数据和音频数据的输入，Bert模型接受文本数据的输入，Resnet模型和Bert模型的输出接入至统一表征空间，统一表征空间输出分类结果。

7.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述Resnet模型为Resnet50卷积神经网络。

8.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述Bert模型通过多项双层的Transformer编码器构建。

9.如权利要求6所述的基于Resnet-Bert网络模型的跨媒体检索方法，其特征在于：所述统一表征空间为全连接层神经网络。