CN116664944A

CN116664944A - 一种基于属性特征知识图谱的葡萄园害虫识别方法

Info

Publication number: CN116664944A
Application number: CN202310689138.6A
Authority: CN
Inventors: 郑增威; 李彦臻; 刘益; 孙霖
Original assignee: Zhejiang University ZJU; Zhejiang University City College ZUCC
Current assignee: Zhejiang University ZJU; Zhejiang University City College ZUCC
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-08-29

Abstract

本发明涉及一种基于属性特征知识图谱的葡萄园害虫识别方法，包括：构建葡萄园害虫属性特征知识图谱；采集葡萄园害虫图像，制作数据集；提取葡萄园害虫图像的MF特征和ViT特征；将属性特征、MF特征和ViT特征进行特征融合，将该特征输入ViT模型中训练，得到害虫预测类别。本发明的有益效果是：本发明提高了葡萄园害虫图像分类的准确性，引入了知识图谱约束，并利用深度特征模板图提取和匹配，增强了对小尺寸害虫图像的识别能力。

Description

一种基于属性特征知识图谱的葡萄园害虫识别方法

技术领域

本发明涉及害虫识别技术领域，更确切地说，它涉及一种基于属性特征知识图谱的葡萄园害虫识别方法。

背景技术

随着葡萄园的规模化、集约化发展，对葡萄园害虫的有效识别和管理成为了一个重要的问题。目前，利用深度学习技术识别虫害种类的方法已经得到了广泛的应用。这种方法通常包括数据收集、数据预处理、模型训练以及模型测试和优化等步骤。然而，这种方法存在一些技术问题。首先，虫害种类繁多，且每种虫害的形态、颜色、大小等特征都有所不同，因此需要收集大量且多样化的虫害图像数据，这在实际操作中可能会遇到困难。其次，虫害图像的标注需要大量的人工工作，且需要专业知识，这使得数据标注成为一个耗时且成本高的过程。最后，由于虫害的形态、颜色、大小等特征的多样性，以及图像背景的复杂性，现有的深度学习模型可能在处理一些复杂场景时，泛化能力不足，识别效果不佳。

发明内容

本发明的目的是针对现有技术的不足，提出了一种基于属性特征知识图谱的葡萄园害虫识别方法，包括：

S1、构建葡萄园害虫属性特征知识图谱；

S2、采集葡萄园害虫图像，制作数据集；

S3、提取葡萄园害虫图像的MF特征和ViT特征；

S4、将属性特征、MF特征和ViT特征进行特征融合，将该特征输入ViT模型中训练，得到害虫预测类别。

作为优选，S1包括：

S101、收集葡萄园虫害数据；

S 102、将所述葡萄园虫害数据进行转化和规范化；

S103、根据转化和规范化后的葡萄园虫害数据，构建葡萄园病虫害的知识图谱(Graph of Pest Knowledge，GPKG)；实例集合定义为＜虫害类别，关系，属性特征>三元组，将葡萄园病虫害的实体作为图谱的节点，将它们之间的关系作为图谱的边。

作为优选，S102中，所述葡萄园虫害数据为半结构化数据时，直接从文本中提取出实体信息，所述实体信息包括虫害名称和特征描述；所述葡萄园虫害数据为结构化数据时，使用深度学习模型进行实体抽取，将虫害相关的实体标注出来。

作为优选，S2包括：

S201、采集多种葡萄园害虫的图像数据，制作数据集；

S202、将所述数据集按照3：1的比例划分为训练集和测试集。

作为优选，S3包括：

S301、输入葡萄园害虫图像，计算其颜色矩作为颜色特征f_c；

S302、利用局部二值模式和灰度共生矩阵提取葡萄园害虫图像的纹理特征，并将二者拼接为全局纹理特征f_t；

S303、采用坎尼边缘检测算法提取图像的轮廓特征f_o；

S304、通过拼接操作将颜色特征f_c、纹理特征f_t和轮廓特征f_o拼接在一起，得到传统特征向量f_MF，表示为：

式中表示拼接操作；

S305、使用ViT模型从图像中提取高层语义表征特征f_SF。

作为优选，S4包括：

S401、利用图卷积神经网络抽取知识图谱中概念节点的深度特征模板图，通过输入图像的标签在模板图中进行索引，得到该类害虫在知识图谱中对应节点的属性特征向量f_CF；然后，与传统特征向量f_MF进行余弦相似度计算，得到相似度损失

式中，n代表特征向量的维度，与虫害类别总数相等；

然后利用每张图像的手工特征向量，与ACKG中所有表示害虫类别的节点所对应的特征向量进行余弦相似度计算，组合得到属性相似性特征向量用l_k表示害虫类别节点索引，则/>表示为：

S402、将属性特征向量f_CF、传统特征向量f_MF和高层语义表征特征f_SF进行特征融合得到训练虫害图像特征f_train，表示为：

f_train＝f_CF+f_SF+f_MF

将属性相似性特征向量和高层语义表征特征f_SF进行特征融合得到训练虫害图像特征f_test，表示为：

S403、将训练虫害图像特征f_train或测试虫害图像特征f_test输入分类器，得到预测虫害类别；模型损失用交叉熵损失函数/>和余弦损失函数/>表示：

上式中，y_i和分别表示输入虫害图像的真实标签和预测标签，/>表示/>的预测概率。

第二方面，提供了一种基于属性特征知识图谱的葡萄园害虫识别装置，用于执行第一方面任一所述的基于属性特征知识图谱的葡萄园害虫识别方法，包括：

构建模块，用于构建葡萄园害虫属性特征知识图谱；

采集模块，用于采集葡萄园害虫图像，制作数据集；

提取模块，用于提取葡萄园害虫图像的MF特征和ViT特征；

融合模块，用于将属性特征、MF特征和ViT特征进行特征融合，将该特征输入ViT模型中训练，得到害虫预测类别。

第三方面，提供了一种计算机存储介质，所述计算机存储介质内存储有计算机程序；所述计算机程序在计算机上运行时，使得计算机执行权利要求1至6任一所述的基于属性特征知识图谱的葡萄园害虫识别方法。

本发明的有益效果是：

1.本发明提高了葡萄园害虫图像分类的准确性：本发明通过使用多种特征提取方法和混合特征表示，能够更全面地捕捉葡萄园害虫图像的颜色、纹理和轮廓等特征信息，从而提高了分类模型的准确性和鲁棒性。

2.本发明引入了知识图谱约束：本发明构建了葡萄园病害虫属性特征知识图谱，通过将虫害图像与知识图谱中的概念节点进行关联，可以约束分类模型对特定害虫类别的学习，避免模型过度关注背景特征，提高了对害虫的专注度和分类性能。

3.本发明利用深度特征模板图提取和匹配：本发明利用GCN抽取知识图谱中概念节点的深度特征模板图，并通过与输入图像的相似度匹配，生成新的特征向量。这种特征提取和匹配方法能够更好地表征害虫图像，减少背景噪声的干扰，提高了分类模型的鉴别能力。

4.本发明增强了对小尺寸害虫图像的识别能力：本发明通过引入传统特征和知识图谱约束，能够有效地识别小尺寸害虫图像，避免由于图像尺寸较小而导致的识别困难和误分类问题。

附图说明

图1为本发明构建的知识图谱结构图；

图2为本发明提供的网络模型结构图；

图3为本发明提供的基于属性特征知识图谱的葡萄园害虫识别方法的工作原理图；

图4为本发明提供的基于属性特征知识图谱的葡萄园害虫识别方法的流程图；

图5为本发明提供的可视化效果对比图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

实施例1：

一种基于属性特征知识图谱的葡萄园害虫识别方法，包括：

S1、构建葡萄园害虫属性特征知识图谱。

S1包括：

S101、收集葡萄园虫害数据。

比如，采用Scrapy框架从专业农业网站、昆虫科学网站、***、百度百科等知识库中爬取了与葡萄园虫害相关的数据。具体的，通过编写Scrapy爬虫，指定起始URL和数据提取规则，将葡萄园虫害数据收集下来。经过***搜索和收集，本申请实施例成功获取了1264条与葡萄园常见病虫害(包括绿盲蝽、大青叶蝉、葡萄二星叶蝉等)有关的数据。

S 102、将葡萄园虫害数据进行转化和规范化。

S102中，利用正则表达式和深度学习模型(如Bi-LSTM-CRF)，对葡萄园虫害数据进行处理和转化，将其转化为规范化的知识语料。具体的，葡萄园虫害数据为半结构化数据时，直接从文本中提取出实体信息，实体信息包括虫害名称和特征描述；葡萄园虫害数据为结构化数据时，使用深度学习模型进行实体抽取，将虫害相关的实体标注出来。

S103、根据转化和规范化后的葡萄园虫害数据，构建葡萄园病虫害的知识图谱。

具体的，知识图谱通过三元组(虫害类别、关系、属性特征)的形式，将葡萄园虫害的相关信息组织起来，其中，将葡萄园病虫害的实体作为图谱的节点，将它们之间的关系作为图谱的边；并利用图数据库Neo4j作为知识的存储方式。这样的构建方式能够提供更准确、全面的害虫属性特征支持，并为后续的分析和决策提供更多的可靠信息。

如图1所示，利用GAT网络将知识图谱GPKG映射为可以训练的深度学习网络；知识图谱的结点包括虫害类别N_l和虫害特征N_f两种类型：

式中，n和m分别代表虫害类别总数和图谱中所有属性节点的数量。

S2、采集葡萄园害虫图像，制作数据集。

S2包括：

S201、采集多种葡萄园害虫的图像数据，制作数据集。

本申请实施例中，在杭州浙大城市学院植物工厂基地，使用远程可视化自动害虫监测***iMETOS iSCOUT，采集了包含绿盲蝽、大青叶蝉和麦二叉蚜等8种当季葡萄园害虫的图像数据。在3位农业专家的指导下，对这些图像进行人工筛选和标注，确定每张图像所包含的害虫种类和数量。

S202、将采集到的GP8数据集按照3：1的比例划分为训练集和测试集。其中，训练集包含1023个样本，测试集包含342个样本。确保训练集和测试集的样本数量合理分配，以便进行模型训练和性能评估。

S3、提取葡萄园害虫图像的MF特征和ViT特征。

S3包括：

S301、输入葡萄园害虫图像，计算其颜色矩作为颜色特征f_c；颜色矩是对图像颜色分布的统计量，用于表征图像的颜色信息。

S302、利用局部二值模式和灰度共生矩阵提取葡萄园害虫图像的纹理特征，并将二者拼接为全局纹理特征f_t；局部二值模式用于捕捉图像局部纹理信息，灰度共生矩阵则用于描述像素灰度值之间的空间关系。

S303、采用坎尼边缘检测算法提取图像的轮廓特征f_o；坎尼边缘检测算法能够识别出图像中的边缘部分，从而捕捉到虫害图像的轮廓信息。

式中表示拼接操作。

S305、使用ViT模型从图像中提取高层语义表征特征f_SF。ViT模型通过将图像分割为固定大小的块，并将它们线性嵌入到特征空间中，然后应用Transformer结构进行特征抽取。这样，ViT可以捕获图像中的全局上下文信息，从而生成具有高层语义的特征f_SF。

S4包括：

式中，n代表特征向量的维度，与虫害类别总数相等；

f_train＝f_CF+f_SF+f_MF

为了验证上述方法的效果，本申请实施例于浙大城市学院智能植物工厂实验室采集数据集，使用远程可视化自动害虫监测***iMETOS iSCOUT，采集了包含绿盲蝽、大青叶蝉和麦二叉蚜等8种当季葡萄园害虫的图像数据如表1所示。

表1 GP数据集具体数据

实验共设计了两种对比方案：

方案一是基于GP数据集，和不同的方法进行比较，以验证总体模型基本的分类准确性程度；因为本实施例的虫害细粒度识别方法依赖于ViT模型，因此总体模型应比ViT表现出更加理想的效果，结果如下表2所示：

表2不同模型性能对比

模型	准确率/％	F1分数/％	精确率/％	召回率/％
					VGG-16	88.30	86.75	87.21	86.29
ResNet-152	91.23	89.33	90.11	88.56
					Inception-V3	90.64	88.71	89.92	87.53
Xception	87.72	85.34	87.66	83.14
					MobileNet	88.89	87.01	88.96	85.14
SqueezeNet	80.12	78.26	83.39	73.72
					ViT	93.86	92.05	94.28	89.92
ACKGViT	95.03	93.98	95.17	92.82

表2分别列出了预训练网络VGG-16、ResNet-152、Inception-V3、Xception、MobileNet、SqueezeNet和ViT在GP21测试集上的性能。从表2中可以看出，ViT模型在Accuracy和F1指标上都明显优于其它模型。相比于目前视觉任务中最高频使用的模型之一ResNet-152，ViT的Accuracy和F1值均有提升，表明利用ViT提取的高层表征能够更精细地整合虫害图像全局和局部信息，因此，本申请将ViT作为骨干网络构建GPKG-ViT模型具备合理性。

ACKGViT的性能在表2最后一行展示，相比于ViT，ACKGViT的Accuracy和F₁值分别提高了1.17和1.93个百分点，这是因为ViT在识别形状相似的物体时能力不足，而知识图谱能够提供不同类别害虫之间的细节信息，从而辅助ViT区分害虫类型。

方案二是消融实验，为了进一步分析知识图谱对于葡萄园病虫害分类性能的提升作用，本申请进行了3组消融测试，结果如表3所示。

表3消融测试结果

模型	Accuracy	F1	Precision	Recall
					GPKG-ViT	91.21	85.95	87.52	84.99
w/o MF	89.86(-1.35)	83.63(-2.32)	86.24	81.84
					w/o KG	89.66(-1.55)	83.59(-2.36)	86.00	81.85
w/o MFUKG	89.57(-1.64)	83.05(-2.90)	84.98	81.70

其中，“w/o”表示移除操作。MF表示手工特征，KG表示知识图谱。

从表中可以看出，移除知识图谱所在分支(w/o MFUKG)使得模型性能Accuracy和F1分别下降1.64和2.90％。移除手工特征(w/o MF)和移除知识图谱(w/o KG)使得模型性能F1分别下降1.35％和1.55％，Accuracy分别下降2.32％和2.36％。上述结果表明：1)通过引入知识图谱的方式辅助ViT获取更加精确的虫害信息是有效的；2)仅使用传统特征和知识图谱在提升模型性能上作用不大，主要原因是：传统特征提取方法在表达图像高层语义信息方面存在缺陷，而仅使用知识图谱无法有效训练图卷积网络，从而使得结点特征向量表征不足。

由实验结果可以看出本发明在葡萄园虫害识别方面取得了比较理想的效果。

实施例2：

在实施例1的基础上，本申请实施例2提供了一种基于属性特征知识图谱的葡萄园害虫识别装置，包括：

构建模块，用于构建葡萄园害虫属性特征知识图谱；

采集模块，用于采集葡萄园害虫图像，制作数据集；

提取模块，用于提取葡萄园害虫图像的MF特征和ViT特征；

具体的，本实施例所提供的装置为实施例1提供的方法对应的装置，因此，在本实施例中与实施例1相同或相似的部分，可相互参考，在本申请中不再赘述。

综上所述，本发明利用知识图谱在描述害虫实体属性特征和害虫实体间关联方面的优势，将知识图谱所提供的细粒度属性特征和害虫实体关联特征信息用于葡萄园害虫分类研究，从而实现葡萄园害虫的精确识别。

Claims

1.一种基于属性特征知识图谱的葡萄园害虫识别方法，其特征在于，包括：

S1、构建葡萄园害虫属性特征知识图谱；

S2、采集葡萄园害虫图像，制作数据集；

S3、提取葡萄园害虫图像的MF特征和ViT特征；

2.根据权利要求1所述的基于属性特征知识图谱的葡萄园害虫识别方法，其特征在于，S1包括：

S101、收集葡萄园虫害数据；

S102、将所述葡萄园虫害数据进行转化和规范化；

S103、根据转化和规范化后的葡萄园虫害数据，构建葡萄园病虫害的知识图谱；实例集合定义为<虫害类别，关系，属性特征>三元组，将葡萄园病虫害的实体作为图谱的节点，将它们之间的关系作为图谱的边。

3.根据权利要求2所述的基于属性特征知识图谱的葡萄园害虫识别方法，其特征在于，S102中，所述葡萄园虫害数据为半结构化数据时，直接从文本中提取出实体信息，所述实体信息包括虫害名称和特征描述；所述葡萄园虫害数据为结构化数据时，使用深度学习模型进行实体抽取，将虫害相关的实体标注出来。

4.根据权利要求3所述的基于属性特征知识图谱的葡萄园害虫识别方法，其特征在于，S2包括：

S201、采集多种葡萄园害虫的图像数据，制作数据集；

S202、将所述数据集按照3:1的比例划分为训练集和测试集。

5.根据权利要求4所述的基于属性特征知识图谱的葡萄园害虫识别方法，其特征在于，S3包括：

S301、输入葡萄园害虫图像，计算其颜色矩作为颜色特征f_c；

S303、采用坎尼边缘检测算法提取图像的轮廓特征f_o；

式中表示拼接操作；

S305、使用ViT模型从图像中提取高层语义表征特征f_SF。

6.根据权利要求5所述的基于属性特征知识图谱的葡萄园害虫识别方法，其特征在于，S4包括：

式中，n代表特征向量的维度，与虫害类别总数相等；

f_train＝f_CF+f_SF+f_MF

7.一种基于属性特征知识图谱的葡萄园害虫识别装置，其特征在于，用于执行权利要求1至6任一所述的基于属性特征知识图谱的葡萄园害虫识别方法，包括：

构建模块，用于构建葡萄园害虫属性特征知识图谱；

采集模块，用于采集葡萄园害虫图像，制作数据集；

提取模块，用于提取葡萄园害虫图像的MF特征和ViT特征；

8.一种计算机存储介质，其特征在于，所述计算机存储介质内存储有计算机程序；所述计算机程序在计算机上运行时，使得计算机执行权利要求1至6任一所述的基于属性特征知识图谱的葡萄园害虫识别方法。