CN115223021A

CN115223021A - 一种基于视觉问答的果树全生长期农事作业决策方法

Info

Publication number: CN115223021A
Application number: CN202210863967.7A
Authority: CN
Inventors: 邓小玲; 郭雅琦; 陈奇真; 兰玉彬; 陈欣; 林晓晴
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-21

Abstract

本发明公开了一种基于视觉问答的果树全生长期农事作业决策方法，包括：获取用于目标果树生长周期的图像样本和第一文本样本；第一文本样本包括果树病害治理问题；分别对图像样本和第一文本样本进行特征提取，获得对应的图像特征向量和问题关键词特征向量；引入多模态融合模型；将图像特征向量和问题关键词特征向量分别传入多模态融合模型，输出融合后的多模态特征；将融合后的多模态特征输入至训练好的分类器中，输出与果树病害治理问题对应的正确答案；通过该方法可以将多模态数据融合和视觉问答相结合，应用于果树图像文本数据集上，得到较好的准确率，实现了一种基于视觉问答的果树全生长期农事作业决策方法。

Description

一种基于视觉问答的果树全生长期农事作业决策方法

技术领域

本发明属于多模态数据融合技术领域、基于计算机视觉和自然语言处理相结合的视觉问答技术领域，以及多模态数据间的双线性融合技术领域，特别是一种基于视觉问答的果树全生长期农事作业决策方法。

背景技术

随着智慧农业的发展，人工智能领域与农业的结合高效解决了很多精准作业问题，目前果树生长周期的决策信息大部分基于图像或者文本知识库等单模态的数据，但是单源信息的应用十分有限，可以通过图像信息进行病虫害识别，或者通过文本知识库得到对果树进行施肥、施药以及病虫害防治和果树生长周期的治理。因此可以对两种模态进行融合，将融合得到的文本决策输入果园中的无人车或者无人遥感施药飞机对果树进行精准决策，对智慧果园实现精准管控。

视觉问答技术就是给定一张图像，然后输入与图像相关的问题，模型根据图像和文本的关联性得到合适的答案进行自然语言的输出。但是目前视觉问答领域所存在的问题是模态间特征提取不足，以及忽略图像和文本之间的细粒度交互。因此直接将视觉问答模型用于果树图像文本数据集中是不可行的，必须对模型进行改进。

与本发明最接近的一份专利技术方案文件为：申请号为201910647573.6，公开号为CN 110348535 A，名称为一种视觉问答模型训练方法及装置，该专利方法包括：获取图像和文本数据集，得到训练样本和标签；对数据集中的图像进行特征提取，得到图像的视觉特征，以及对该图像所提出的问题进行特征提取，得到文本关键词的特征；将图像特征和文本特征进行交互性处理，得到特征融合之后的图像特征中带有文本特征的特征向量；将融合后的特征向量进行双线性池化处理，输入到视觉问答模型中通过所述视觉问答模型得到预测答案；基于注释好的正确答案和所预测的答案确定损失函数的损失值对该方法中的视觉问答模型进行更新。但该方法仅在公开数据集上进行训练，并未得到现实生活中的应用，且该专利并没有给出如何将视觉问答技术应用于果树生长期的决策中。

因此，如何将多模态数据融合和视觉问答相结合，应用于果树全生长期农事作业精准决策，成为当前研究的关键问题。

发明内容

针对上述存在的问题，即视觉问答技术参数过大，不能直接应用于农业领域，并且目前智慧果园领域所存在的单源信息不足的问题，本发明提供一种至少解决上述部分技术问题的一种基于视觉问答的果树全生长期农事作业决策方法；通过该方法可以将多模态数据融合和视觉问答相结合，应用于果树图像文本数据集上，得到较好的准确率，实现了一种基于视觉问答的果树全生长期农事作业决策方法。

本发明实施例提供了一种基于视觉问答的果树全生长期农事作业决策方法，包括：

S1、获取用于目标果树生长周期的图像样本和第一文本样本；所述第一文本样本包括果树病害治理问题；

S2、分别对所述图像样本和所述第一文本样本进行特征提取，获得对应的图像特征向量和问题关键词特征向量；

S3、引入多模态融合模型；将所述图像特征向量和问题关键词特征向量分别传入所述多模态融合模型，输出融合后的多模态特征；

S4、将所述融合后的多模态特征输入至训练好的分类器中，输出与所述果树病害治理问题对应的正确答案。

进一步地，所述图像特征向量包括果树图像特征向量和病害图像位置特征向量。

进一步地，所述S2具体包括：

通过基于残差网络ResNet-152的目标检测算法对所述图像样本进行特征提取，获得图像特征向量；

使用词向量嵌入法和长短期记忆神经网络对所述第一文本样本进行特征提取，获得问题关键词特征向量。

进一步地，所述图像特征向量，即将每个图像样本划分为多个区域；每个所述区域均采用一个2048维的向量表示，作为后续网络的输入；

其中，对每个所述区域配置对应的对象检测器和属性分类器；每个对象检测器的对象包围框均具有一个对应的属性类。

进一步地，所述使用词向量嵌入法和长短期记忆神经网络对所述第一文本样本进行特征提取，获得问题关键词特征向量，具体包括：

将输入的所述果树病害治理问题处理为多个单个单词，在所述多个单个单词中截取N个单词；若所述多个单个单词的数量少于N，则用0填充；

结合300维的词向量模型(Glove)捕捉所截取的单词的语义特征，并将所述语义特征转化为问题特征向量；

利用长短期记忆神经网络(LSTM)对所述问题特征向量进行编码，并从中抽取问题关键词特征信息，获得问题关键词特征向量。

进一步地，所述S4中，分类器通过如下方式进行训练：

获取大量用于果树生长周期的图像样本和第二文本样本；所述第二文本样本包括果树病害治理问题，以及与所述果树病害治理问题对应的真实答案；

分别对所述图像样本和所述第二文本样本进行特征提取，获得图像特征向量和问题关键词特征向量；

对所述图像特征向量和问题关键词特征向量进行预处理；

引入多模态融合模型；将预处理后的图像特征向量和问题关键词特征向量分别传入所述多模态融合模型，输出融合后的多模态特征；

将融合后的多模态特征作为输入，将与果树病害治理问题对应的真实答案作为输出，用于训练分类器。

进一步地，所述预处理具体包括：

通过多视角注意力机制从所述图像特征向量中提取出果树图像特征向量和病害图像位置特征向量；

捕捉所述果树图像特征向量和问题关键词特征向量之间的关系，进行文本表示学习，获得目标果树的果树图像特征与问题关键词特征之间的相关性；

对所述果树图像特征向量和病害图像位置特征向量进行交互，获取果树图像特征和病害图像位置特征之间的相关性。

进一步地，所述多模态融合模型采用多视角注意力机制，根据问题关键词特征向量对病害图像位置区域嵌入进行评分，并计算一个全局视觉向量作为由这些分数加权的和池。

进一步地，所述多模态融合模型采用了基于张量分解的双线性融合机制；通过全张量来模拟所述果树图像特征向量和问题关键词特征向量之间的相关性；采用双线性融合法对所述全张量进行分解，得到一个具有三个内模态矩阵以及一个核心张量的结构。

进一步地，所述核心张量的复杂度是通过对张量切片矩阵的结构稀疏约束来控制的。

与现有技术相比，本发明记载的一种基于视觉问答的果树全生长期农事作业决策方法，具有如下有益效果：

现有智慧农业相关技术都采用单模态数据，很难得到智能化应用。而本发明的果树视觉问答模型能自动提取果树生长周期间的图像中包含的信息，捕捉病虫害位置等；通过果树的实时检测图像数据，融合果树治理知识库的相关文本知识，使得文本与图像数据的融合得到更加精准的果树生长周期的精准决策；可以为果园管理人员提供对图像进行分析的较为专家的建议，有利于为该果树选择更有针对性的农事作业决策。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于视觉问答的果树全生长期农事作业决策方法流程示意图。

图2为本发明实施例提供的果树图像问题文本数据集格式示意图。

图3为本发明实施例提供的训练分类器的流程示意图。

图4为本发明实施例提供的训练分类器的框架示意图。

图5为本发明实施例提供的基于视觉问答的果树全生长期农事作业决策方法准确率示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1所示，本发明实施例提供了一种基于视觉问答的果树全生长期农事作业决策方法，具体包括如下步骤：

下面分别对上述各个步骤进行详细的说明。

在上述步骤S1中，在具体获取图像样本和第一文本样本时，可以选择在实验基地进行果树可见光图像拍摄工作，并且从相关网址上下载部分病害数据图像，根据果树治理书籍和网上搜集得到的知识库，进行人工注释图像的问答对。其中图像样本主要包括目标果树(例如柑橘、荔枝、龙眼、葡萄等果)的近距离图像和无人机遥感图像；第一文本样本主要包括果树病害治理问题。本发明实施例提供的果树图像问题文本数据集格式示意图如图2所示。

在上述步骤S2中，在对图像样本进行特征提取时，输入一幅图像后，使用基于残差网络ResNet-152的目标检测算法对所述图像样本进行特征提取，获得图像特征向量；该图像特征向量包括果树图像特征向量和病害图像位置特征向量；该图像特征向量即将每个图像样本划分为多个区域；每个区域均采用一个2048维的向量表示；对每个区域配置对应的对象检测器和属性分类器；每个对象检测器的对象包围框均具有一个对应的属性类，这样可以获得对象的二元描述；

在对第一文本样本进行特征提取时，输入一个英文句子的问题，使用词向量嵌入法和长短期记忆神经网络对第一文本样本进行特征提取，获得问题关键词特征向量；具体为：将输入的果树病害治理问题处理为多个单个单词，在多个单个单词中截取N个单词；若这多个单个单词的数量多余N个单词，则将多余的删除；若这多个单个单词的数量少于N，则用0填充；在该过程中，使用TrimZero函数来避免填充中的零值；然后结合300维的词向量模型(即GloVe模型)捕捉所截取的单词的语义特征，并将语义特征转化为问题特征向量；利用长短期记忆神经网络(即LSTM网络)对问题特征向量进行编码，并从中抽取问题关键词特征信息，获得问题关键词特征向量；期间采用预训练的Bert-base模型作为文本特征提取模型，作为后续网络的输入；

其中，采用LSTM网络获取问题关键词特征向量，具体包括：根据问题特征向量计算L2距离矩阵；根据距离矩阵进行句子级别的无监督聚类，将构成报告的句子分入不同病虫害对应组别；根据聚类算法的结果对聚类后的类内句子进行相似度排序，根据排序结果选取排序靠前的句子，利用语法分析工具恢复动词原形并统计当前句子组中的词汇；根据词汇分析结果设定阈值选定组内高频词汇，并根据词性分析筛选高频词获取其中的名词和名词词组，将其中的名词部分设置为问题核心部分，形容词和副词部分设为回答核心内容，根据语法规则补全问题-回答组合对中的其他部分，生成视觉问答模型所需的问答部分数据集。

在上述步骤S3中，采用多模态融合方案，主要是为了控制模型参数的数量，从而减小单模态嵌入的大小。通过全张量T表示来模拟所述果树图像特征向量和问题关键词特征向量之间的相关性；以进一步控制模型参数的数量；该多模态融合模型应用于训练过程中时可作为一个正则化器使用，防止过拟合，提高调整输入/输出的大小的灵活性。采用双线性融合法对全张量进行分解，得到一个具有三个内模态矩阵以及一个核心张量的结构；其中，核心张量的复杂度是通过对张量切片矩阵的结构稀疏约束来控制的；用公式表示为：

T＝((T_C×1W_q)×2W_v)×3W_o

式中，T表示全张量；W_q、W_v和W_o表示三个内模态矩阵；T_c表示核心张；q表示果树图像特征向量；v表示问题关键词特征向量；

多模态融合模型为H个并行头的注意力机制模型，它允许模型同时关注来自不同位置的不同表示子空间的信息，将输出特征矩阵计算为:

F＝MultiHead(q,k,v)＝Concat([head₁,head₂,…head_H])W₀

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

F表示将这H个注意力池化的输出head_i拼接在一起，并且通过另一个可以学习的线性投影W₀进行变换，以产生最终输出。

head_i表示每个注意力头的计算方法。

W_i ^q W_i ^k W_i ^v表示可学习的参数，也即权重矩阵，Q、K和V表示三个固定的矩阵。

学习注意力特征得到权重后，输出问题特征；然后将它们输入LayerNorm层；前馈层包含两个全连接层以及ReLu函数和Dropout函数，最后LayerNorm层，经过自我关注得到最终的特征y；表示为：

y＝((T_C×1(q^TW_q))×2(v^TW_v))×3W_o

在上述步骤S4中，参照图3和图4所示，分类器通过如下方式进行训练：

获取大量用于果树生长周期的图像样本和第二文本样本；第二文本样本包括果树病害治理问题，以及与果树病害治理问题对应的真实答案；基于此可以组成果实视觉问题数据集；

分别对图像样本和第二文本样本进行特征提取，获得图像特征向量和问题关键词特征向量；对图像特征向量和问题关键词特征向量进行预处理；该预处理具体包括：通过多视角注意力机制从所述图像特征向量中提取出果树图像特征向量和病害图像位置特征向量；捕捉果树图像特征向量和问题关键词特征向量之间的关系，进行文本表示学习，获得目标果树的果树图像特征与问题关键词特征之间的相关性；对果树图像特征向量和病害图像位置特征向量进行交互，获取果树图像特征和病害图像位置特征之间的相关性；这样有助于更好理解果树病虫害图像，经过位置关系建模，能有效处理位置关系的问题，例如前、后、左、右，前景、背景等，便于定位果树病虫害区域，方便为果农和专家提供有效的诊断。

引入基于模态间双线性相互作用的多模态融合模型；将预处理后的图像特征向量和问题关键词特征向量分别传入多模态融合模型，输出融合后的多模态特征；将融合后的多模态特征通过一个s形函数映射到向量空间s∈RL，其中L为训练集中最频繁答案的个数；表示为：

s＝Linear(f)

A＝sigmoid(s)

其中，A表示模型预测答案；

多模态融合模型采用多视角注意力机制，根据问题关键词特征向量对病害图像位置区域嵌入进行评分，并计算一个全局视觉向量作为由这些分数加权的和池；该多模态融合模型采用了基于张量分解的双线性融合机制；通过全张量来模拟所述果树图像特征向量和问题关键词特征向量之间的相关性；采用双线性融合法对所述全张量进行分解，得到一个具有三个内模态矩阵以及一个核心张量的结构；该核心张量的复杂度是通过对张量切片矩阵的结构稀疏约束来控制的。

最后，将融合后的多模态特征作为输入，将与果树病害治理问题对应的真实答案作为输出，用于训练分类器。

本发明实施例中，还包括对分类器进行评估，即当模型预测一个视觉问答任务时，VQA数据集的准确性度量标准如下：

如果预测的答案至少与3个注释者提供的答案相同，则认为预测精确度为100％。这个度量标准考虑了注释者之间的共识，并且为大部分研究者所采用。评价指标通常采用平均精度均值(MAP)、准确率(Precision)、召回率(Recall)和F1值作为准确率的评价指标。

该预测阶段可以看作是预测每个候选答案正确性的逻辑回归；从所有预测的答案中选择概率最高的答案作为最终预测；使用二元交叉熵函数来回归预测；根据真实答案与预测答案确定损失函数的损失值，根据损失值对模型进行更新。基于视觉问答的果树全生长期农事作业决策方法准确率示意图如图5所示。

本发明实施例中，通过获取用于果树生长周期的图像样本和问题样本，组合成果树视觉问答数据集。通过分别提取图像和文本特征。不仅仅只提取图像和问题特征，还利用多视角注意力机制探索单词和图像对问题的相关性，从而有效利用图像和文本间的语义关系挖掘文本的重要信息，融合方式采用了张量分解的双线性融合机制，并使用多头注意力机制来训练模型优化本发明的方法，最终提高了果树生长周期决策任务的准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，包括：

2.如权利要求1所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述S2中，所述图像特征向量包括果树图像特征向量和病害图像位置特征向量。

3.如权利要求1所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述S2具体包括：

4.如权利要求3所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述图像特征向量，即将每个图像样本划分为多个区域；每个所述区域均采用一个2048维的向量表示，作为后续网络的输入；

5.如权利要求3所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述使用词向量嵌入法和长短期记忆神经网络对所述第一文本样本进行特征提取，获得问题关键词特征向量，具体包括：

结合300维的词向量模型捕捉所截取的单词的语义特征，并将所述语义特征转化为问题特征向量；

利用长短期记忆神经网络对所述问题特征向量进行编码，并从中抽取问题关键词特征信息，获得问题关键词特征向量。

6.如权利要求1所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述S4中，分类器通过如下方式进行训练：

对所述图像特征向量和问题关键词特征向量进行预处理；

7.如权利要求6所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述预处理具体包括：

8.如权利要求7所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述多模态融合模型采用多视角注意力机制，根据问题关键词特征向量对病害图像位置区域嵌入进行评分，并计算一个全局视觉向量作为由这些分数加权的和池。

9.如权利要求6所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述多模态融合模型采用了基于张量分解的双线性融合机制；通过全张量来模拟所述果树图像特征向量和问题关键词特征向量之间的相关性；采用双线性融合法对所述全张量进行分解，得到一个具有三个内模态矩阵以及一个核心张量的结构。

10.如权利要求9所述的一种基于视觉问答的果树全生长期农事作业决策方法，其特征在于，所述核心张量的复杂度是通过对张量切片矩阵的结构稀疏约束来控制的。