CN110929640B

CN110929640B - 一种基于目标检测的宽幅遥感描述生成方法

Info

Publication number: CN110929640B
Application number: CN201911143698.1A
Authority: CN
Inventors: 王爽; 田敬贤; 侯彪; 张磊; 叶秀眺; 孟芸; 谷裕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-04-07
Anticipated expiration: 2039-11-20
Also published as: CN110929640A

Abstract

本发明公开了一种基于目标检测的宽幅遥感描述生成方法，首先获取遥感图像；构建训练样本集与测试样本集，并对该两个样本集进行归一化；使用Faster‑RCNN网络模型对遥感图像进行处理，得到相应的目标；使用K‑means聚类算法对目标进行聚类；根据得到的聚类中心对宽幅遥感图像进行分割；其他没有用到的区域进行随机分割；使用ResNet101网络模型对分割的图片进行处理；使用LSTM得到相应的图片描述；再次检测目标检测的结果是否在描述中，从而得到最后的结果。本发明通过基于目标检测的宽幅遥感图像描述方法，提高了描述的准确性，可以更好的得到用户想要的信息。

Description

一种基于目标检测的宽幅遥感描述生成方法

技术领域

本发明属于遥感图像描述生成技术领域，具体涉及一种基于目标检测的宽幅遥感描述生成方法。

背景技术

现代航天遥感技术随着卫星技术的发展，对地观测能力大幅提升，通过获取到的遥感数据，可以在军用和民用上都发挥重要的作用。为了更加充分利用这些遥感数据并且减少人力物力的耗费，设计网络自动地理解遥感图像并且在语义层面上将遥感图像的内容准确流畅地描述出来成为一个十分有意义的工作。然而在高分辨遥感领域主要的关注点还是集中在目标检测，地物分类，语义分割等方面，这些研究可以识别图片中的物体但无法给出图片中物体之间的关系，而遥感图像描述自动生成的句子可以大体反映图片内容并且给出更多的对象关系等细节信息。

在自然图像描述生成的方法中，基于神经网络的方法是目前最主流的方法，这种方法大多数基于编码器-解码器的模型框架，编码器一般是一个CNN网络用于提取图片特征，解码器是一个循环神经网络(RNN或LSTM)，它将图片特征作为输入产生图片的句子描述。受启发于自然图像领域描述生成的发展，遥感图像的描述生成也借鉴了自然图像中的方法提高生成句子的准确性和流畅度。

遥感图像是采取自上而下的拍摄方式捕捉的地面物体的图像，对象的不同层次的信息会非常丰富。而且在采集遥感图像过程中容易受到光照、遮挡、距离等周围环境的影响，会造成目标遥感图像特征模糊，这使得遥感图像的语义层次的理解变得更加困难。针对遥感图像描述生成的难点，在使用语言模型之前首先使用目标检测得到所想要得到的关键信息然后再使用语言模型，生成更加流畅且符合图片内容的描述。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于目标检测的宽幅遥感描述生成方法，通过目标检测得到先验信息，再通过卷积神经网络得到图像特征最后通过语言模型生成符合用户要求的语言描述。

本发明采用以下技术方案：

一种基于目标检测的宽幅遥感描述生成方法，包括以下步骤：

S1、利用Faster-RCNN对遥感图像进行目标检测，得到目标检测框的中心点的坐标和目标框的大小信息；

S2、根据目标检测的中心点坐标对目标进行聚类分析，使用密度聚类得到聚类个数，然后再通过K-means得到聚类结果；

S3、采用基于聚类结果分割的方法，根据目标检测的聚类结果，以各个聚类中心点切割出1000×1000的图片作为待处理图片；

S4、采用随机分割的方法，在目标检测的其他区域，随机切割多个1000×1000的图片作为待处理图片；

S5、利用卷积神经网络提取遥感图片的卷积特征，得到遥感图像的局部特征；

S6、在每个时刻，通过注意力机制计算不同局部特征的标准化注意力权重，对局部区域加权得到加权局部特征；

S7、将步骤S6得到的加权局部特征，以及当前时刻输入的单词向量和前一个时刻的LSTM隐藏态作为LSTM单元的输入向量，获得当前时刻的隐藏态；

S8、基于当前的隐藏态，输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布；

S9、利用最大似然估计方法训练图像描述生成模型，得到模型中需要学习的参数；

S10、利用强化学习算法继续训练语言生成模型，得到在这一过程中的奖励回报，即CIDEr得分；

S11、在测试阶段仅保留语言生成模型，从生成起始符开始，由上一个时刻的隐藏态引导下一个时刻单词的生成，每个时刻生成一个单词，直到生成停止符，句子生成结束，若生成的句子与目标检测的不对应则进行语言后处理，得到用户需要的信息。

具体的，步骤S2具体为：

S201、定义样本x_i和x_j的欧式距离，目标样本x_i到所有目标样本距离的平均值，目标样本x_i的方差、待聚类数据集的平均距离和准测函数；

S202、采用K-means聚类方法得到目标检测的聚类结果。

进一步的，步骤S202具体为：

S2021、从目标检测结果中任意选择k个对象作为初始聚类中心；

S2022、循环步骤S2023到S2024，直到准则函数收敛到设定阈值或前后获得聚类中心不再发生变化为止；

S2023、根据每个聚类中所有对象的均值计算样本集中每个对象与中心对象的欧几里得距离，根据最小距离重新划分相应对象；

S2024、计算每个聚类的均值。

具体的，步骤S5中，采用ResNet101网络对遥感图像提取卷积特征，得到特征图；将特征图的形状重塑，接全连接层，对特征图进行处理得到降低维度的特征图，每个降低维度特征图的向量表示图像一个局部区域的特征。

具体的，步骤S6具体为：

S601、根据LSTM单元前一时刻的隐藏态经过一个注意力模块产生对所有的局部区域特征的标准化的注意力权重；

S602、通过分配给所有的局部区域由采用K-means聚类方法得到目标检测的聚类结果，加上注意力后局部区域特征。

具体的，步骤S7具体为：

S701、当前时刻输入的单词向量w_t通过词向量表示模型GloVe作为嵌入工具表示得到的；

S702、在每个时刻t，把当前时刻输入的单词向量w_t，利用注意力机制加权后的局部区域特征^

以及LSTM单元的前一时刻的隐藏态h_t-1作为当前时刻解码器模块的输入x_t，得到当前时刻的隐藏态输出h_t。

具体的，步骤S8具体为：

S801、根据当前时刻的隐藏态输出h_t，通过softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果，根据概率分布结果抽样得到预测的单词，把数据集中所有的图片描述转为小写，去掉在整个数据集中出现次数少于5次的单词，建立包含多个单词的词汇表；

S802、确定整个遥感图像描述句子的条件分布p(Y|I)为：

其中，p(y_t|y_1:t-1,I)为为在图片I和之前生成的单词y_1:t-1条件下生成单词y_t的概率。

具体的，步骤S9中，训练目标为最小化交叉熵损失，交叉熵损失表示为：

其中，θ是模型中要学习的参数，

是当前遥感图片的人工描述语句。

具体的，步骤S10具体为：

S1001、在利用强化学习算法训练模型时，确定目标为最小化采样得到的句子描述的负的期望奖励；

S1002、使用带有基线的强化学习算法，计算期望奖励的梯度；

S1003、在模型中，对于每个抽样得到的句子描述，由生成描述的评价标准CIDEr表示奖励。

10.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S11具体为：

S1101、在聚类结果得到的切割图中，对目标检测的个数、大小、坐标信息进行记录，并填充到生成的句子中；

S1102、在聚类结果得到的切割图中，对套用预定义的模板生成一条新的语言信息代替之前的语言信息。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于目标检测的宽幅遥感描述生成方法，针对遥感图像场景中对象关系较为固定，人工标注描述句子较为简单的特点，设计了对遥感图像进行目标检测的策略，这可以得到语言描述的先验信息，这有效的提高了生成描述的方向性和准确性；利用目标检测网络得到遥感图像目标检测的结果，从而得到语言描述的先验信息；针对遥感图像中可能生成的描述语句与原始图像不对应的问题，在生成语句之后，生成的语言描述与原始图像进行对比，并进一步补充细节性信息，从而可以得到遥感图像更加详细准确的描述。

进一步的，在步骤S2中利用目标检测进行聚类分析，从而得到关于相要描述对象的具体信息，从而进一步细化图像特征。

进一步的，在步骤S5中利用卷积神经网络能够捕捉图片在不同尺度上的特征，提取到丰富的图片信息。

进一步的，步骤S6中利用attention模块为不同的区域分配权重，得到加权图片特征，将加权图像特征作为单词预测的指导信息。模型根据权值的不同，在生成单词时选择性地关注当前应当关注的图片区域，提高预测单词与图片区域的对应关系，提高语句的准确度。

进一步的，在步骤S7中，加权图像特征、当前时刻输入的单词向量以及前一时刻的隐藏态共同作为LSTM单元的输入，获得当前时刻的隐藏态，当前时刻的隐藏态作为指导信息，预测当前时刻生成的单词。

进一步的，在步骤S8中，当前时刻的隐藏态作为指导信息送入softmax层，得到在整的词汇表上的概率分布，取概率最大的单词作为当前时刻的预测结果。

进一步的，步骤S9中，利用交叉熵损失训练当前的模型，得到一个基本的描述生成模型，以这个初始模型作为基础，进行第二阶段细节性描述生成的训练。

进一步的，步骤S10中将模型生成的句子CIEDr得分作为强化学习中奖励的两个组成部分，其中CIDEr得分可以保证生成的句子的准确性。

进一步的，步骤S11中在聚类结果得到的切割图中，对目标检测的个数、大小、坐标信息进行记录，并填充到生成的句子中。并且在聚类结果得到的切割图中，有对应的目标检测结果，但是生成语言描述中没有生成相应的目标信息。那么就需要对套用预定义的模板生成一条新的语言信息来代替之前的语言信息。

综上所述，本发明基于目标检测的结果和对生成语言描述的信息丰富化可以对遥感图像生成更加准确且符合用户需求的图像描述，对遥感图像进行目标检测得到目标的特征信息，并将目标的特征信息作为生成语言描述的先验信息，提高生成的语言的准确性。另外对生成的语言描述进行详细化补充可以得到更加符合用户需求的语言描述。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的实现流程图；

图2为本发明目标检测和聚类分割结果图；

图3为本发明的随机分割结果图；

图4为本发明仿真结果图。

具体实施方式

本发明提供了一种基于目标检测的宽幅遥感描述生成方法，用于解决现有遥感图像图像大，包含信息多，人工解译耗时长的问题；宽幅遥感描述的网络模型，由Faster-RCNN网络模型、ResNet101网络模型和LSTM网络模型组成，在LSTM网络模型中加入注意力机制；首先根据获取的遥感图像构建训练样本集与测试样本集，并对该两个样本集进行归一化；然后使用Faster-RCNN网络模型对遥感图像进行处理，得到相应的目标；再使用K-means聚类算法对目标进行聚类；根据得到的聚类中心对宽幅遥感图像进行分割；对其他没有用到的区域进行随机分割；然后使用ResNet101网络模型对分割的图片进行处理；使用LSTM得到相应的图片描述；最后再次检测目标检测的结果是否在描述中，从而得到最后的结果。本发明通过基于目标检测的宽幅遥感图像描述方法，提高了描述的准确性，可以更好的得到用户想要的信息。

请参阅图1，本发明一种基于目标检测的宽幅遥感描述生成方法，包括以下步骤：

S1、利用目标检测网络得到遥感图像中的目标特征信息；

采用Faster-RCNN对遥感图像进行目标检测，得到目标检测框的中心点的坐标和目标框的大小信息。

S2、根据目标检测的中心点的坐标对目标进行聚类分析可以使用密度聚类得到聚类的个数，然后再通过K-means得到聚类的结果；

S201、定义样本x_i和x_j的欧式距离：

其中，j＝1,2,3，...，n。

定义目标样本x_i到所有目标样本距离的平均值h_i为：

定义目标样本x_i的方差v_i为：

定义待聚类数据集的平均距离h_AV为：

定义准测函数E为：

其中，k为聚类的中心的个数，b为样本空间。

S202、采用K-means聚类方法：

S2022、循环下述流程S2023到S2024，直到准则函数E收敛到一定阈值或者前后获得聚类中心不再发生变化；

S2023、根据每个聚类中所有对象的均值(中心对象)计算样本集中每个对象与这些中心对象的欧几里得距离,并根据最小距离重新划分相应对象；

S2024、类均值，即计算每个(有变化)聚类的均值(中心对象)；

得到目标检测的聚类结果。

S3、根据得到的聚类中心对宽幅遥感图像进行分割；

请参阅图2，采用基于聚类结果分割的方法，根据目标检测的聚类结果，以各个聚类中心点切割出1000×1000的图片作为待处理图片。

S4、对其他区域进行随机分割处理；

请参阅图3，采用随机分割的方法，在目标检测的其他区域，随机切割5—10个1000×1000的图片作为待处理图片。

采用ResNet101网络对遥感图像提取卷积特征，得到形状为14*14*2048的特征图；

将特征图的形状重塑为196*2048，接全连接层，将特征图的维度由2048降至512，得到196*512的特征图，每个512维的向量表示图像一个局部区域的特征，记录为v₁,v₂,v₃...v₁₉₆；卷积神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet；

S601、根据LSTM单元前一时刻的隐藏态h_t-1经过一个注意力模块可以产生对所有的局部区域特征的标准化的注意力权重，计算过程为：

β_t＝softmax(b_t)

其中，b_i,t是β_t的第i个元素，

是学习的参数，β_t表示标准化的区域注意力分布，它的第i个元素b_i,t是区域特征v_i的注意力概率值；

S602、通过分配给所有的局部区域由S202步骤得到的不同注意力权重，加上注意力后局部区域特征

为：

其中，v_j为局部区域特征，K为局部区域特征的个数，β_j,t为对局部区域特征加权的权重。

S7、将步骤S6得到的加权局部特征，以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量，获得当前时刻的隐藏态；

S702、当前时刻的隐藏态的计算过程为：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

g_t＝σ(W_gx_t+U_gh_t-1+b_g)

m_t＝f e m_t-1+i_t e g_t

h_t＝o_t eφ(m_t)

其中，i_t为LSTM中输入门得到的结果，f_t为LSTM的遗忘门，o_t为LSTM的输出门得到的结果，g_t为LSTM的遗忘门得到的结果，m_t为更新LSTM的记忆单元状态。

为了简化表示，把基本的LSTM更新过程写作：

h_t＝LSTM(x_t,h_t-1)

在每个时刻t，把当前时刻输入的单词向量w_t，利用注意力机制加权后的局部区域特征^

以及LSTM单元的前一时刻的隐藏态h_t-1作为当前时刻解码器模块的输入x_t，得到当前时刻的隐藏态输出h_t；

S801、根据h_t通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果，根据概率分布结果抽样得到预测的单词，计算公式表示为：

其中，

是要学习的权重参数，d是隐藏态的数量，v是词汇表的大小；

把数据集中所有的图片描述转为小写，去掉在整个数据集中出现次数少于5次的单词，建立了一个包含了多个单词的词汇表；

S802、整个遥感图像描述句子的条件分布表示为：

。

S9、利用最大似然估计方法训练图像描述生成模型，得到模型中需要学习的参数，训练目标是最小化交叉熵损失，交叉熵损失表示为：

其中，θ是模型中要学习的参数，

是当前遥感图片的人工描述语句(GroundTruth)；

S1001、在利用强化学习算法训练模型时，目标是最小化采样得到的句子描述的负的期望奖励：

其中，

是根据单词的概率分布抽样得到的预测句子，r表示该句子所得到的奖励，θ是模型学习到的参数，它能够决定下一个单词的预测结果；

S1002、使用带有基线的强化学习算法，期望奖励的梯度▽_θL_RL(θ)近似计算为：

其中，b是取的贪婪解码得到的句子描述的回报；

S1003、在模型中，对于每个抽样得到的句子描述

奖励由生成描述的评价标准CIDEr表示，具体为：

S11、在测试阶段仅保留语言生成模型，从生成起始符“<BOS>”开始，由上一个时刻的隐藏态引导下一个时刻单词的生成，每个时刻生成一个单词，直到生成停止符“<EOS>”，句子生成结束，若生成的句子与目标检测的不对应则进行语言后处理，从而得到用户需要的信息。

S1101、在聚类结果得到的切割图中，对目标检测的个数、大小、坐标信息进行记录，并填充到生成的句子中。

S1102、在聚类结果得到的切割图中，有对应的目标检测结果，但是生成的语言描述中没有生成相应的目标信息。那么就需要对套用预定义的模板生成一条新的语言信息来代替之前的语言信息。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1.仿真条件

本发明仿真实验的硬件平台是：戴尔计算机Intel(R)Core5处理器，主频3.20GHz，内存64GB；仿真软件平台是：Python3.5，pytorch 0.4.1平台。

2.仿真内容

在RSICD数据集上，完成本发明的方法。RSICD数据集的划分标准为90％训练，10％测试。为了证明本发明的有效性，选用Attention to in模型作为基本模型，并在这个模型的基础上使用了本发明提出的方法，得到改进后的实验结果如下表所示。

使用的评价标准是是针对图像描述算法公认的评价指标，包括BLEU-1、BLEU-4、METEOR、ROUGE_L、CIDEr、SPICE。在六个评价指标中，得分越高表示句子描述效果越好，实验结果如下表：

从表中可以看出，本发明中的网络相比于使用图片注意力SCST:Att2in的方法，在各种直接标上都获得了更高的分数，因而表现更好，能够生成更精确的图像描述。

请参阅图4，在测试集上得到的仿真结果，根据目标检测得到多条语言描述。生成的结果表明，本发明的方法生成的图像描述较为准确，且更加符合用户的需求。

本发明基于目标检测的结果和对生成语言描述的信息丰富化可以对遥感图像生成更加准确且符合用户需求的图像描述。其中对遥感图像进行目标检测得到目标的特征信息，并将目标的特征信息作为生成语言描述的先验信息，提高生成的语言的准确性。另外对生成的语言描述进行详细化补充可以得到更加符合用户需求的语言描述。本发明针对遥感图像的特点，提出了两种改进方法，使模型的性能得到了显著的提高。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于目标检测的宽幅遥感描述生成方法，其特征在于，包括以下步骤：

S2、根据步骤S1得到的目标检测框的中心点坐标对目标进行聚类分析，使用密度聚类得到聚类个数，然后再通过K-means得到聚类结果；

S3、采用基于聚类结果分割的方法，根据步骤S2得到的目标检测的聚类结果，以各个聚类中心点切割出1000×1000的图片作为待处理图片；

S4、采用随机分割的方法，在步骤S2得到的目标检测的其他区域，随机切割多个1000×1000的图片作为待处理图片；

S5、利用卷积神经网络提取步骤S3和步骤S4得到的待处理图片的卷积特征，得到待处理图片的局部特征；

S6、在每个时刻，通过注意力机制计算步骤S5得到的不同局部特征的标准化注意力权重，对局部区域加权得到加权局部特征；

S8、基于步骤S7当前时刻的隐藏态，输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布；

S9、利用最大似然估计方法训练步骤S7和步骤S8得到的语言生成模型，得到语言生成模型中需要学习的参数；

S10、利用强化学习算法继续训练步骤S9得到的语言生成模型，得到在这一过程中的奖励回报，即CIDEr得分；

2.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S2具体为：

S201、定义样本x_i和x_j的欧式距离，目标样本x_i到所有目标样本距离的平均值，目标样本x_i的方差、待聚类数据集的平均距离和准则函数；

S202、采用K-means聚类方法得到目标检测的聚类结果。

3.根据权利要求2所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S202具体为：

S2024、计算每个聚类的均值。

4.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S5中，采用ResNet101网络对遥感图像提取卷积特征，得到特征图；将特征图的形状重塑，接全连接层，对特征图进行处理得到降低维度的特征图，每个降低维度特征图的向量表示图像一个局部区域的特征。

5.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S6具体为：

S602、将步骤S601得到的注意力权重与局部区域特征进行加权，得到加权局部特征。

6.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S7具体为：

S702、在每个时刻t，把当前时刻输入的单词向量w_t，利用注意力机制加权后的局部区域特征

7.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S8具体为：

S802、确定整个遥感图像描述句子的条件分布p(Y|I)为：

其中，p(y_t|y_1:t-1,I)为在图片I和之前生成的单词y_1:t-1条件下生成单词y_t的概率。

8.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S9中，训练目标为最小化交叉熵损失，交叉熵损失表示为：

其中，θ是模型中要学习的参数，

是当前遥感图片的人工描述语句。

9.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法，其特征在于，步骤S10具体为：