CN115908870A

CN115908870A - 一种基于异构数据融合的图文匹配方法及***

Info

Publication number: CN115908870A
Application number: CN202211280916.8A
Authority: CN
Inventors: 张勇; 张恺玉; 李森
Original assignee: Hainan Port And Shipping Holding Co ltd
Current assignee: Hainan Port And Shipping Holding Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-04-04

Abstract

本发明提供一种基于异构数据融合的图文匹配方法及***，包括：确定待匹配的图像数据集和文本数据集；将所述图像数据集输入到im2txt模型，以为图像数据集中的每张图像生成对应的图像描述文本；将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算，将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本，完成对图像数据集和文本数据集两种异构数据的匹配。本发明使用im2txt模型实现图像模态数据到文本模态数据的转换，借由模态转换，能够将多模态数据匹配转为单模态数据匹配，单模态数据匹配只需对一种模态的语义信息进行提取，且可避免不同模态数据语义信息的差异性，直接进行匹配。

Description

一种基于异构数据融合的图文匹配方法及***

技术领域

本发明属于图文匹配领域，更具体地，涉及一种基于异构数据融合的图文匹配方法及***。

背景技术

随着社会进入了大数据时代。信息形式变得多种多样，像视频、音频、文本、图像等，人们可以从各种各样的渠道上获取和传播信息，并逐渐演变成多媒体形式。然而，传统形式上获取信息是从海量数据中根据有限的条件提取用户需求的数据，并直接返回给用户，这样会导致缺乏对不同模态数据的内在联系的挖掘，用户只能自己以现有知识概念去理解和筛选数据。而数据融合是集成多源数据、消除结构差异、提升数据质量与完整性、挖掘数据关联、提高数据可分析性的有效解决方案。通过挖掘出不同模态数据的语义关联并进行数据融合，可以为用户提供更良好的服务。

在图文匹配领域，早期图文匹配主要依靠的是对图片和文本的标注信息，或形成图片和文本的关键字，依据标注信息和关键字，将文本和图像进行匹配，此技术也叫图像搜索技术(Text-based Image Retrieval，TBIR)，其主要借助人工对各自模态数据的标注，当用户需要获取某一事物的其他模态数据时，***会对用户的键入关键词或类似的标注信息进行精确或模糊的检索并返回对应数据。但人工标注有着很大的缺点，首先人工标注会耗费大量人力物力，其次，人工标注存在人对图像，文本的主观理解，会因为不同人的理解不同而对标注的准则产生分歧，进而影响图文匹配的准确率。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于异构数据融合的图文匹配方法及***，旨在解决现有图文匹配涉及不同模态，需要人工标注耗费大量人力且因人理解力不同导致匹配准确率不高的问题。

为实现上述目的，第一方面，本发明提供了一种基于异构数据融合的图文匹配方法，包括如下步骤：

确定待匹配的图像数据集和文本数据集；

将所述图像数据集输入到im2txt模型，以为图像数据集中的每张图像生成对应的图像描述文本；

将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算，将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本，完成对图像数据集和文本数据集两种异构数据的匹配。

在一个可选的示例中，所述im2txt模型包括：Encoder端和Decoder端；

在Encoder端经由CNN提取出固定维度的图像特征向量，再输入到Decoder端；

在Decoder端经由LSTM网络生成一句关于图像内容的描述，作为图像描述文本。

在一个可选的示例中，将所述图像数据集输入到im2txt模型，还包括如下步骤：

对图像数据集中的每张图像进行预处理，所述预处理为：对图像解码得到图像的三维矩阵张量，并将三维矩阵张量转化为预设维度和预设数据类型的张量，随后对转化后张量的各个元素归一化处理，之后采用激活函数对归一化后的张量进行处理，得到图像的稀疏特征图，并将稀疏特征图降维成预设维度的向量；

将所述图像数据集输入到im2txt模型具体为：将图像数据集中每张图像预处理后得到的向量输入到im2txt模型。

在一个可选的示例中，im2txt模型为图像数据集中的每张图像生成对应的图像描述文本，具体为：

CNN基于每张图像预处理后的向量提取图像特征信息作为初始状态信息并实例化Initial Caption；将Initial Caption输入到partial_captions堆，将partial_captions排序提取后读取partial_captions堆中每个Caption对应的sentence和state，输入到LSTM网络；

LSTM网络获取新的状态信息new_state以及下一个可能词汇和概率的列表，针对每一个的下一预测词，更新对应参数信息并实例化Caption，根据预测的下一个预测词是否为终止符放到不同的Caption堆中，直至所有预测文本结束，输出前几个最大可能性的预测文本作为图像描述文本。

在一个可选的示例中，所述输出前几个最大可能性的预测文本作为图像描述文本，具体为：

式中，score为预测文本得分，len(sentence)表示预测文本长度，log(p_i)表示预测文本第i个词汇P_i的对数似然估计；

将得分值大于预设值的预测文本输出作为图像的描述文本。

第二方面，本发明提供了一种基于异构数据融合的图文匹配***，包括：

待匹配数据确定单元，用于确定待匹配的图像数据集和文本数据集；

图像文本描述单元，用于将所述图像数据集输入到im2txt模型，以为图像数据集中的每张图像生成对应的图像描述文本；

图文匹配单元，用于将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算，将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本，完成对图像数据集和文本数据集两种异构数据的匹配。

在一个可选的示例中，所述图像文本描述单元所用的im2txt模型包括：Encoder端和Decoder端；在Encoder端经由CNN提取出固定维度的图像特征向量，再输入到Decoder端；在Decoder端经由LSTM网络生成一句关于图像内容的描述，作为图像描述文本。

在一个可选的示例中，所述图像文本描述单元对图像数据集中的每张图像进行预处理，所述预处理为：对图像解码得到图像的三维矩阵张量，并将三维矩阵张量转化为预设维度和预设数据类型的张量，随后对转化后张量的各个元素归一化处理，之后采用激活函数对归一化后的张量进行处理，得到图像的稀疏特征图，并将稀疏特征图降维成预设维度的向量；

所述图像文本描述单元将图像数据集中每张图像预处理后得到的向量输入到im2txt模型。

在一个可选的示例中，所述图像文本描述单元所用的im2txt模型为图像数据集中的每张图像生成对应的图像描述文本，具体为：CNN基于每张图像预处理后的向量提取图像特征信息作为初始状态信息并实例化Initial Caption；将Initial Caption输入到partial_captions堆，将partial_captions排序提取后读取partial_captions堆中每个Caption对应的sentence和state，输入到LSTM网络；LSTM网络获取新的状态信息new_state以及下一个可能词汇和概率的列表，针对每一个的下一预测词，更新对应参数信息并实例化Caption，根据预测的下一个预测词是否为终止符放到不同的Caption堆中，直至所有预测文本结束，输出前几个最大可能性的预测文本作为图像描述文本。

在一个可选的示例中，所述图像文本描述单元所用的im2txt模型输出前几个最大可能性的预测文本作为图像描述文本，具体为：

将得分值大于预设值的预测文本输出作为图像的描述文本。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种基于异构数据融合的图文匹配方法及***，使用im2txt模型实现图像模态数据到文本模态数据的转换，借由模态转换，能够将多模态数据匹配转为单模态数据匹配。本发明相比于对多模态数据的语义信息提取所需的技术，单模态数据匹配只需对一种模态的语义信息进行提取，且可避免不同模态数据语义信息的差异性，直接进行匹配。

附图说明

图1是本发明实施例提供的基于异构数据融合的图文匹配方法流程图；

图2是本发明实施例提供的图文匹配算法流程图；

图3是本发明实施例提供的基于异构数据融合的图文匹配***架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

某港航商服平台是一个面向服务商的平台，商务客户会将商品在该平台上交易。类似某宝，某港航商服平台也存在不同厂家使用不同的描述销售同一个商品的问题。由于同类物品较多，为了方便用户通过平台智能的进行比较，本发明研究一种异构数据融合的图文匹配算法，该方法通过结合im2txt模型的图像描述技术和文本匹配算法实现一种不同的图文匹配算法。该方法收集到图像和文本数据对(图像和文本的语义内容大部分为日常生活场景)，而后对图像数据进行预处理(如图像大小调整，亮度、对比度等特征微调，以及图像特征提取和图片嵌入)，并根据已有的语料库生成词典数据，上述得到的图像特征向量和词典数据一同输入到基于im2txt模型的图像描述生成器中，生成一段关于图像内容信息的文本数据，在对生成的文本数据和收集到的文本数据集进行相似度计算(即文本匹配)，进而实现图文匹配。该方法的主要目的是为了避免不同模态数据结构上的巨大差异，进而导致的不同模态数据在语义空间上的对齐难度问题，将不同模态的匹配转化为同模态的匹配，可以有效地利用更成熟的某一模态匹配算法进而获得更好的匹配准确率。

文本和图像数据是本发明的主要研究对象，基于现有的数据融合和图文匹配的国内外研究现状，现无明确的标准用于准确计算图文之间的相似度，因此本发明提出借助Flickr30K图文数据集进行基于数据融合的图文匹配的研究，本发明文使用与训练的im2txt模型，将输入的图像数据在Encoder端通过卷积神经网络提取图像特征向量，并对图像特征向量降维和固定维度。使用基于词频生成的语料库，生成词向量，在Decoder端，对于每个输入的图像特征，经由LSTM模型预测可能的词汇，并最终生成一句话，作为图像描述的文本。将生成的文本数据和已有的文本数据集用文本匹配算法计算相似度值，得到最近似的文本序列，而后计算准确率和召回率，用于衡量此图文匹配方法的可行性。

图1是本发明实施例提供的基于异构数据融合的图文匹配方法流程图；如图1所示，包括如下步骤：

S101，确定待匹配的图像数据集和文本数据集；

S102，将所述图像数据集输入到im2txt模型，以为图像数据集中的每张图像生成对应的图像描述文本；

S103，将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算，将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本，完成对图像数据集和文本数据集两种异构数据的匹配。

图2是本发明实施例提供的图文匹配算法流程图；如图2所示，包括：：

1、收集图像和文本数据集。

2、对图像数据进行预处理。

3、输入到基于im2txt模型的图像生成描述器中。

4、基于判定标准：

选择出可能性最大的前几个预测生成语句。

5、计算生成的文本与收集的文本数据集的相似度，将相似度最高的文本数据作为匹配结果。

其中，图像描述生成器提取图像特征信息作为初始状态信息并实例化InitialCaption，并生成2个堆结构partial_captions和complete_captions用于存放图像描述文本相关信息，每次将partial_captions排序提取后读取每个Caption对应的sentence和state，输入到LSTM网络，获取新的状态信息new_state以及下一个可能词汇和概率的列表，针对每一个的下一预测词，更新对应参数信息并实例化Caption，根据预测的下一个预测词是否为终止符放到不同的堆中，直至所有预测文本结束，输出前N个最大可能性的图像生成描述文本。

需要说明的是，图像作为im2txt模型的原始输入，在Encoder端经由CNN提取出固定维度的图像特征向量，再输入到Decoder端，语料库中的基础单元词汇或词组，{W_eS₀,W_eS₁,...,W_eS_N-1}表示经由文本特征提取模型，如Word2vec，Bert等提取出对应词汇/词组的词向量，两个模态的特征向量会在LSTM网络中一同输入，集合{P₁,P₂,...,P_N}表示基于当前图像，在LSTM模型中预测的下一个描述图像内容词汇对应的概率分布。集合

表示对正确单词的对数似然估计，该集合之和则作为此网络的损失函数，Decoder端最终会生成一句关于图像内容的描述。

本发明将使用现实数据集Flickr30K，基于im2txt模型对Flickr30K的图像数据以及现有的词汇文本数据结合，在Encoder端采用InceptionV3的卷积神经网络提取图像特征向量，作为Decoder端的一部分输入，同时，基于现有的词汇文本数据生成词向量一并输入到Decoder端，Decoder端采用LSTM模型将两个模态的向量结合，生成出一句关于图像内容的文本描述作为图像标注。

本发明使用的Flickr30K数据集中的图像文件统一为JPG格式，由于网络上传输的图片是被记录的压缩编码后的结果，无法正常被Tensorflow读取数据，因此先使用tf.gfile.Gfile读取图像文件(本发明将图片格式统一为JPEG格式)获得句柄f，进而通过f.read获取该图像文件的二进制流String类型数据，将这个二进制流数据输入到image_processing.py中，之后调用tf.image.decode_jpeg将该二进制流数据解码为图像文件原本的三维矩阵张量(JPEG图片格式与JPG相同，因此解码函数采用image.decode_jpeg)。

而后调用tf.image.resize_images将图片像素规格转化为height＝346px,width＝346px的大小。现需要转化成Tensorflow常用的TFRecord的张量格式，调用tf.image.convert_image_dtype成维度为[height,width,3]的float32类型的张量，为了加速和提高im2txt模型的运行效率和模型精度，其中张量的各个元素都已做归一化处理，最后将张量的元素重新调节归一化到[-1,1]的范围。

需要说明的是，在与图像有关的数据中，颜色的取值在[0,255]中，一般而言，0这个数值对应白色或该像素点不表示内容，像素点数值越大，表明该像素点邻域的颜色越突出，对应图像中具有关键的事物特征或者该区域表示图像的主体内容，这个特点在进行归一化处理后仍然保持，将张量数值归一化到[-1,1]后，原本图像中较浅的区域数值会变负。此外，由InceptionV3的网络结构可知，Inception V3网络中采用的激活函数为ReLU，ReLU激活函数的表达式如下：

如果将张量归一化到[0,1]，依据ReLU的函数功能，就会违背ReLU半区抑制(张量负数部分梯度不传递)的初衷，ReLU激活函数会转变为identity mapping，失去加入非线性因素的调整作用。将张量归一化到[-1,1]，那么图像中不明显的特征则在ReLU激活层后数值被置0，缩小需要优化的空间，同时还可以很好保留图中重要的图像特征。但与此同时归一化到[-1,1]也伴随着一定的问题，如果存在图像大部分区域在归一化都被划分为负值的情况，直接ReLU后，该图像的几乎所有特征信息都被过滤，影响后续的结果。为此需要让生成的张量尽量保持正负值平衡，如InceptionV3的网络结构所示，会在每次ReLU前进行BN处理，进而避免上述的问题。

另外，当进行模型训练时，还会对图形进行其他处理，如将图片水平翻转，调整图片色调，亮度，饱和度和对比度。

图片嵌入主要目的是将特征图(特别是ReLU激活函数后的稀疏特征图)数据降维成固定大小维度的特征向量，一方面，将稀疏特征图转换成一维向量，可以有效的压缩数据，不仅能保留特征图的重要信息，而且计算也会相对快得多，另一方面，相对于矩阵的运算，处理向量数据有更充足的方法工具集。本发明使用的Inception V3网络结构将在最后一部分结构(该结构中的卷积层作用类似于CNN中的全连接层)实现图片嵌入。tf.contrib.slim是对原有Tensorflow结构的优化和精简。slim内包含经典模型如VGG、AlexNet等，且可以自定义层和参数信息实现扩展。本发明使用slim搭建Inception V3中实现图片嵌入功能的结构。

由上述搭建好的模型和根据现有词频统计语料库(与预训练好的模型适配)生成的词典作为输入，实例化一个描述生成器，同时生成的图片嵌入向量会输入到一个Caption实例作为初始状态，并初始化Caption的其他参数设置，本发明使用的im2txt模型设置对于每张图像生成3句描述文本(即beam_size＝3)，这三句为正确描述图像中可能性最高的。为了实现此目的，需要借助堆结构，实例化partial_captions和complete_captions两个堆，其中堆内部存放Caption实例，并且堆容量N＝beam_size。

其中Caption实例的成员变量中sentence表示预测的文本描述(在未读取到结束符时，sentence仅是预测出的部分文本)，state表示在某一时间步t下的状态信息，logprob表示对于当前sentence中各个预测词汇概率的对数似然估计和，score和logprob表示同一属性，但由于需要在描述生成完成后，作为评判依据而对logprob作平均值处理，因此将score单独出来，

metadata存储有关当前sentence的相关信息，如时间步等，该成员变量也可作处理，默认情况下metadata保存和sentence一样的文本描述。

下面介绍图像描述生成的具体流程：

(1)初始化

不同于上文对im2txt模型的初始化，这里的初始化是将加载好的预训练im2txt模型以及基于现有语料库生成的词典文本数据(需要经过Vocabulary.py读取语料库文件生成dictionary类型数据)一同作为参数实例化一个Caption Generator。

(2)提取图像特征信息作为初始状态信息并实例化Initial Caption

通过调用sess.run()使得定义好的运算进行起来(如前文描述对于图像的预处理、图片嵌入等)获得图像的特征信息，并基于此初始状态信息参数实例Initial Caption，实现图片描述生成的初始工作。

(3)预测不同阶段图像生成描述文本的下一个可能词汇

此步骤是图像生成描述的核心部分，将Initial Caption输入到堆partial_captions后，每次将partial_captions排序提取后读取每个Caption对应的sentence和state，输入到LSTM网络，获取新的状态信息new_state以及下一个可能词汇和概率的列表，针对每一个的下一预测词，更新对应参数信息并实例化Caption，随后判断基于此下一预测词是否为终止符来决定生成的Caption存放位置，如果不是，生成的Caption将会存入partial_captions(partial_captions堆满时，会比较当前Caption的与堆中其他Caption的logprob，logprob最小的Caption会被生成的Caption替换)；如果是，意味此Caption的sentence已到达句末，则将生成Caption的score作如公式(3.2)的处理，并将生成的Caption存到complete_captions，以上循环至partial_captions.size＝0。

(4)输出TopN的图像生成描述文本

当(3)的工作完成后，随后读取complete_captions的TopN并返回完整句子及对应概率的列表，图像生成描述至此完成，实现了从图像模态数据到文本模态数据的转变。

本发明的实验思路是将待匹配的图文数据集中，将图像模态数据通过im2txt模型生成对应的图像描述文本，将图像模态数据的语义信息转由文本模态数据表达，避免不同模态数据的巨大差异问题。用生成的图像描述文本和待匹配文本数据集做相似度计算，实现文本匹配，从而间接地实现图文匹配的目的。

Flickr30K是Flickr8K数据集的扩展，该数据集同时拥有图像和对应的文本描述，其中共计收录了30K图像，每个图片对应5句文本描述，因此收录的文本数据量级达150K。较之于之前的Flickr8K数据集，数据集大小扩大了3倍，Flickr30K添加了许多表述热门日常活动的事件图片和图片描述。总体的图像类型包括日常活动，事件和自然场景。Flickr30K每个图片都有5句文本描述，每个描述都采用了不同的描述方式，但是每个描述的核心语义含义是相近的。因此，Flickr30K数据集在图像分析和文本描述上适用于本发明使用的im2txt模型+文本匹配算法组合而成的图文匹配要求，选取此数据集进行测试。

目前，对于图像和文本匹配还没有固定的评价标准。本发明将图像模态数据转换为文本模态数据，在进行图像和文本匹配时使用的是计算文本相似度的匹配方法近似替代图文匹配，所以在本发明使用的是文本匹配常用的两个指标：准确率和召回率。准确率表示所有待匹配的句子中与最相似描述正确匹配的句子的比率。召回率(Recall@K)表示所有待匹配的句子中在前K个最近似描述候选结果中正确匹配到的句子的占比。

经试验发现，图文数据量级在10¹-10²的情况下，本发明算法都能由较不错的准确率和召回率。因此，本发明方法在小规模的精确图文匹配的有着较良好的实现，对于大规模的图文匹配，对照上述召回率值，本发明方法可作为模糊匹配的一种可行方案。本发明涉及到不同模态的数据匹配需求的领域还有实体抽取、知识图谱等，比方说，知识图谱中的实体有着不同的属性，鉴于不同模态数据的互补性，不同模态的数据可以从不同角度对一事物进行刻画，实体的属性需要多种模态的数据表示从而让实体的信息更加充分具体，因而图文匹配技术可作为其他领域的前置工具。

本发明提供一种基于异构数据融合的图文匹配方法及***，本发明使用im2txt模型，提取图像数据提取特征信息后，拼接融合语料库的文本信息输入到LSTM网络，生成一段关于图像内容的文本字段，同时，将生成的文本数据和已有的文本数据集在不同规模下，采用不同的文本匹配算法，计算文本相似度得出匹配结果，后续计算准确率和召回率。

本发明提供一种基于异构数据融合的图文匹配方法及***，本发明通过不同文本匹配算法在不同数据规模下的实验结果的比对分析，确认了此次实验的可行性，并得出以下实验结论：本图文匹配思路在小规模数据的匹配有不错的准确度，在大规模数据下有较好的召回率，因此，此方法可应用于小规模的精确匹配，在大规模下的模糊匹配。

图3是本发明实施例提供的基于异构数据融合的图文匹配***架构图，如图3所示，包括：

待匹配数据确定单元310，用于确定待匹配的图像数据集和文本数据集；

图像文本描述单元320，用于将所述图像数据集输入到im2txt模型，以为图像数据集中的每张图像生成对应的图像描述文本；

图文匹配单元330，用于将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算，将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本，完成对图像数据集和文本数据集两种异构数据的匹配。

可以理解的是，上述各个单元的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异构数据融合的图文匹配方法，其特征在于，包括如下步骤：

确定待匹配的图像数据集和文本数据集；

2.根据权利要求1所述的方法，其特征在于，所述im2txt模型包括：Encoder端和Decoder端；

3.根据权利要求1所述的方法，其特征在于，将所述图像数据集输入到im2txt模型，还包括如下步骤：

4.根据权利要求3所述的方法，其特征在于，im2txt模型为图像数据集中的每张图像生成对应的图像描述文本，具体为：

5.根据权利要求4所述的方法，其特征在于，所述输出前几个最大可能性的预测文本作为图像描述文本，具体为：

将得分值大于预设值的预测文本输出作为图像的描述文本。

6.一种基于异构数据融合的图文匹配***，其特征在于，包括：

7.根据权利要求6所述的***，其特征在于，所述图像文本描述单元所用的im2txt模型包括：Encoder端和Decoder端；在Encoder端经由CNN提取出固定维度的图像特征向量，再输入到Decoder端；在Decoder端经由LSTM网络生成一句关于图像内容的描述，作为图像描述文本。

8.根据权利要求6所述的***，其特征在于，所述图像文本描述单元对图像数据集中的每张图像进行预处理，所述预处理为：对图像解码得到图像的三维矩阵张量，并将三维矩阵张量转化为预设维度和预设数据类型的张量，随后对转化后张量的各个元素归一化处理，之后采用激活函数对归一化后的张量进行处理，得到图像的稀疏特征图，并将稀疏特征图降维成预设维度的向量；

9.根据权利要求8所述的***，其特征在于，所述图像文本描述单元所用的im2txt模型为图像数据集中的每张图像生成对应的图像描述文本，具体为：CNN基于每张图像预处理后的向量提取图像特征信息作为初始状态信息并实例化Initial Caption；将InitialCaption输入到partial_captions堆，将partial_captions排序提取后读取partial_captions堆中每个Caption对应的sentence和state，输入到LSTM网络；LSTM网络获取新的状态信息new_state以及下一个可能词汇和概率的列表，针对每一个的下一预测词，更新对应参数信息并实例化Caption，根据预测的下一个预测词是否为终止符放到不同的Caption堆中，直至所有预测文本结束，输出前几个最大可能性的预测文本作为图像描述文本。

10.根据权利要求9所述的***，其特征在于，所述图像文本描述单元所用的im2txt模型输出前几个最大可能性的预测文本作为图像描述文本，具体为：

将得分值大于预设值的预测文本输出作为图像的描述文本。