CN117576571A - 基于图像和文本的多模态果蔬叶片病害识别方法及*** - Google Patents
基于图像和文本的多模态果蔬叶片病害识别方法及*** Download PDFInfo
- Publication number
- CN117576571A CN117576571A CN202410057430.0A CN202410057430A CN117576571A CN 117576571 A CN117576571 A CN 117576571A CN 202410057430 A CN202410057430 A CN 202410057430A CN 117576571 A CN117576571 A CN 117576571A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- disease
- image
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 226
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 226
- 235000012055 fruits and vegetables Nutrition 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000003902 lesion Effects 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 239000003086 colorant Substances 0.000 claims description 16
- 239000002689 soil Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000035784 germination Effects 0.000 claims description 4
- 208000015181 infectious disease Diseases 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000001556 precipitation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000035800 maturation Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 4
- 235000017060 Arachis glabrata Nutrition 0.000 description 6
- 241001553178 Arachis glabrata Species 0.000 description 6
- 235000010777 Arachis hypogaea Nutrition 0.000 description 6
- 235000018262 Arachis monticola Nutrition 0.000 description 6
- 235000020232 peanut Nutrition 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011796 hollow space material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明涉及植物病害识别技术领域,尤其涉及基于图像和文本的多模态果蔬叶片病害识别方法及***,该方法的步骤包括:获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;对文本信息进行预处理,预处理包括缺失值填充和降噪;通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;对病斑特征信息和文本特征信息进行融合,输出病害识别结果。本发明通过对图像信息和文本信息进行多模态融合并对缺失的文本信息进行有效填充,提高了病害识别的可靠性和准确率。
Description
技术领域
本发明涉及植物病害识别技术领域,尤其涉及基于图像和文本的多模态果蔬叶片病害识别方法及***。
背景技术
在果蔬叶片病害识别中,单一模态的数据往往存在信息局限性,不能完整描述病害的特征,而不同模态数据能够从多个角度描述病害特征,形成信息互补,从而更加完整的表达病害特征。同时,在果蔬生长过程中,不同生长阶段的果蔬对病害具有不同的易感性和抵抗力。但是,现有的多模态果蔬叶片病害识别方法通常存在文本信息缺失以及未将生长阶段信息纳入多模态数据的问题。
例如在公开号为CN115048537A的专利中公开了一种基于图像-文本多模态协同表示的病害识别***,涉及蔬菜叶部病害识别模型研究领域,该***包括:图像识别模块,用于识别图像数据;文本识别模块,与图像识别模块连接,用于提取文本数据特征;知识图谱模块,与文本识别模块连接,用于为病害诊断过程提供知识性指导;模型训练模块,与知识图谱模块连接,用于获取病害类别识别结果。
而在授权公告号为CN116168223B的中国专利中公开了一种基于多模态的花生叶斑病病害等级检测方法,包括以下步骤:采用K-means方法构建数据集,对采集的花生叶斑病原始数据进行分组,并训练所需的数据集;对花生叶斑病的RGB图像和光谱数据进行预处理;将预处理后的RGB图像和光谱数据分别输入至花生叶斑病多模态检测模型的Resnet101网络和改进的1D-CNN网络中进行特征提取,再通过特征融合模块将提取的特征进行融合,并输出花生叶斑病病害等级结果;选择评价指标对花生叶斑病病害等级结果进行评价。
以上专利均存在本背景技术提出的问题:现有的果蔬叶片病害多模态识别方法通常存在文本信息缺失的问题,且在识别过程中忽略了果蔬生长阶段信息对病害识别结果的影响。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供基于图像和文本的多模态果蔬叶片病害识别方法及***,通过对图像信息和文本信息进行多模态融合并对缺失的文本信息进行有效填充,提高了病害识别的可靠性和准确率。
为了达到上述目的,本发明采用以下技术方案:
本发明提供基于图像和文本的多模态果蔬叶片病害识别方法,包括下述步骤:
获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;
对文本信息进行预处理,预处理包括缺失值填充和降噪;
通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;
对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;
对病斑特征信息和文本特征信息进行融合,输出病害识别结果。
作为优选的技术方案,所述文本信息与叶片病害图像为一对一映射关系,其中,时间信息为获取叶片病害图像的时间信息,地理位置信息为获取叶片病害图像的地理位置信息,环境信息为获取叶片病害图像的环境信息,用户输入的文本描述信息以叶片病害图像为描述对象。
作为优选的技术方案,所述环境信息包括气象信息和土壤信息,其中,气象信息包括天气类型、温度信息、湿度信息、日照时长信息和降水量信息,土壤信息包括土壤温度信息和土壤湿度信息。
作为优选的技术方案,所述文本描述信息包括果蔬种类、种植时间、病斑颜色和病斑面积占叶片面积的比例。
作为优选的技术方案,所述缺失值填充用于对文本信息中的缺失值进行填充,具体步骤包括:
当地理位置信息或时间信息存在缺失时,通过叶片病害图像获取叶片病害背景图像相似性并按照从大到小排序,将排序中前个叶片病害背景图像相似性对应的叶片病害图像映射的文本信息中出现频次最高的地理位置信息或时间信息作为缺失值进行填充,其中,/>为大于0的正整数;
当环境信息存在缺失时,通过地理位置信息和时间信息获取时空信息相似性,将时空信息相似性最高的文本信息中的环境信息作为缺失值进行填充;
当文本描述信息存在缺失时,通过叶片病害图像获取病斑图像相似性,将病斑图像相似性和时空信息相似性之和最高的文本信息中的文本描述信息作为缺失值进行填充。
作为优选的技术方案,所述叶片病害背景图像相似性计算的具体步骤包括:
通过DeepLabV3+模型获取叶片病害背景图像,将缺失地理位置信息或时间信息的叶片病害背景图像记作第一背景图像,将文本信息完整的叶片病害背景图像记作第二背景图像;
计算叶片病害背景图像相似性,用下式表示:
;
式中表示第一背景图像,/>表示第二背景图像,/>表示第一背景图像的宽度,/>表示第一背景图像的高度,/>表示第二背景图像的宽度,表示第二背景图像的高度,/>表示取最小值函数,/>表示第一背景图像的平均亮度,/>表示第二背景图像的平均亮度,/>表示第一背景图像和第二背景图像的协方差,/>表示第一背景图像的方差,/>表示第二背景图像的方差,/>和/>表示稳定性常数,/>表示第一背景图像和第二背景图像的相似性。
作为优选的技术方案,所述时空信息相似性最高的文本信息获取的具体步骤包括:
将环境信息缺失的文本信息作为第一文本信息,将信息完整的文本信息作为第二文本信息;
通过地理位置信息获取距离差值,用下式表示:
;
式中表示地球半径,/>表示第一文本信息中地理位置信息的纬度与第二文本信息中地理位置信息的纬度之差,/>表示第一文本信息中地理位置信息的纬度,表示第二文本信息中地理位置信息的纬度,/>表示第一文本信息中地理位置信息的经度与第二文本信息中地理位置信息的经度之差,/>表示距离差值;
通过对第一文本信息中的时间信息和第二文本信息中的时间信息作差,获取时间差值;
将距离差值小于预设距离阈值且时间差值最小的文本信息作为时空信息相似性最高的文本信息,其中,所述预设距离阈值由本领域技术人员根据大量实验确定。
作为优选的技术方案,所述病斑图像相似性计算的具体步骤包括:
通过U-Net模型获取叶片病害图像中的病斑图像,将缺失文本描述信息的叶片病害图像的病斑图像记作第一病斑图像,将文本信息完整的叶片病害图像的病斑图像记作第二病斑图像;
计算病斑图像相似性,用下式表示:
;
式中表示权重参数,/>表示颜色空间中的颜色数量,/>表示第一病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第二病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第一病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示第二病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示病斑图像相似性。
作为优选的技术方案,所述降噪包括无效字符清洗、语法检查、语义检查、重复数据删除和标点符号删除。
作为优选的技术方案,所述生长阶段信息通过文本信息中的时间信息与用户输入的文本描述信息中的种植时间作差获取,生长阶段信息包括萌芽阶段、幼苗阶段、生长阶段和成熟阶段。
作为优选的技术方案,所述文本特征分析使用BERT模型对文本信息和生长阶段信息进行文本特征提取,其中,BERT模型由12个Transformer编码器组成,每个Transformer编码器包括多头自注意力机制层、归一化层和全连接前馈神经网络层。
作为优选的技术方案,所述病害识别结果包括病害种类、病害侵染区域和个性化防治建议。
本发明还提供基于图像和文本的多模态果蔬叶片病害识别***,包括:
多模态数据采集模块,用于获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;
文本信息预处理模块,用于对文本信息进行预处理,预处理包括缺失值填充和降噪;
神经网络模块,用于通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;
文本分析模块,用于对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;
病害结果输出模块,用于对病斑特征信息和文本特征信息进行融合,输出病害识别结果。
本发明的一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现基于图像和文本的多模态果蔬叶片病害识别方法。
本发明的一种控制器,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现基于图像和文本的多模态果蔬叶片病害识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明通过获取叶片病害图像以及采集叶片病害图像的时间信息、地理位置信息、环境信息和文本描述信息,将图像信息和文本信息进行多模态融合,在提高病害识别准确率的同时给出更具针对性的防治建议。
(2)本发明通过计算叶片病害背景图像相似性、时空信息相似性和病斑图像相似性,对文本信息中的缺失值进行有效填充,进一步提高了病害识别的可靠性和准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于图像和文本的多模态果蔬叶片病害识别方法的整体流程示意图;
图2为本发明的基于图像和文本的多模态果蔬叶片病害识别方法中所述Transformer编码器的示意图;
图3为本发明的基于图像和文本的多模态果蔬叶片病害识别***的结构示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细地说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例1:
如图1所示,本实施例提供基于图像和文本的多模态果蔬叶片病害识别方法,具体包括下述步骤:
S1:获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;
文本信息与叶片病害图像为一对一映射关系,其中,时间信息为获取叶片病害图像的时间信息,地理位置信息为获取叶片病害图像的地理位置信息,环境信息为获取叶片病害图像的环境信息,用户输入的文本描述信息以叶片病害图像为描述对象;
环境信息包括气象信息和土壤信息,其中,气象信息包括天气类型、温度信息、湿度信息、日照时长信息和降水量信息,土壤信息包括土壤温度信息和土壤湿度信息;
文本描述信息包括果蔬种类、种植时间、病斑颜色和病斑面积占叶片面积的比例。
S2:对文本信息进行预处理,预处理包括缺失值填充和降噪;
S21:缺失值填充用于对文本信息中的缺失值进行填充,具体步骤包括:
当地理位置信息或时间信息存在缺失时,通过叶片病害图像获取叶片病害背景图像相似性并按照从大到小排序,将排序中前个叶片病害背景图像相似性对应的叶片病害图像映射的文本信息中出现频次最高的地理位置信息或时间信息作为缺失值进行填充,其中,/>为大于0的正整数,本实施例中,/>优选为10;
当环境信息存在缺失时,通过地理位置信息和时间信息获取时空信息相似性,将时空信息相似性最高的文本信息中的环境信息作为缺失值进行填充;
当文本描述信息存在缺失时,通过叶片病害图像获取病斑图像相似性,将病斑图像相似性和时空信息相似性之和最高的文本信息中的文本描述信息作为缺失值进行填充;
S22:叶片病害背景图像相似性计算的具体步骤包括:
通过DeepLabV3+模型获取叶片病害背景图像,将缺失地理位置信息或时间信息的叶片病害背景图像记作第一背景图像,将文本信息完整的叶片病害背景图像记作第二背景图像;
计算叶片病害背景图像相似性,用下式表示:
;
式中表示第一背景图像,/>表示第二背景图像,/>表示第一背景图像的宽度,/>表示第一背景图像的高度,/>表示第二背景图像的宽度,表示第二背景图像的高度,/>表示取最小值函数,/>表示第一背景图像的平均亮度,/>表示第二背景图像的平均亮度,/>表示第一背景图像和第二背景图像的协方差,/>表示第一背景图像的方差,/>表示第二背景图像的方差,/>和/>表示稳定性常数,/>表示第一背景图像和第二背景图像的相似性;
其中,DeepLabv3+模型通过编码-解码结构实现对输入叶片病害图像的逐像素分割,在编码器中以Xception作为主干特征提取网络,提取叶片病害图像的浅层特征并传入解码器,在空洞空间金字塔池化单元中通过1×1卷积层、膨胀率分别为6、12、18的多尺度空洞卷积层以及池化层,将空洞空间金字塔池化单元的多个输出结果拼接融合得到深层特征图,在解码器中对获取到的深层特征进行4倍上采样,并与浅层特征融合后再经过4倍双线性插值上采样恢复到原尺寸,输出最终的叶片病害背景图像;
S23:时空信息相似性最高的文本信息获取的具体步骤包括:
将环境信息缺失的文本信息作为第一文本信息,将信息完整的文本信息作为第二文本信息;
通过地理位置信息获取距离差值,用下式表示:
;
式中表示地球半径,/>表示第一文本信息中地理位置信息的纬度与第二文本信息中地理位置信息的纬度之差,/>表示第一文本信息中地理位置信息的纬度,表示第二文本信息中地理位置信息的纬度,/>表示第一文本信息中地理位置信息的经度与第二文本信息中地理位置信息的经度之差,/>表示距离差值;
通过对第一文本信息中的时间信息和第二文本信息中的时间信息作差,获取时间差值;
将距离差值小于预设距离阈值且时间差值最小的文本信息作为时空信息相似性最高的文本信息,其中,预设距离阈值由本领域技术人员根据大量实验确定;
S24:病斑图像相似性计算的具体步骤包括:
通过U-Net模型获取叶片病害图像中的病斑图像,将缺失文本描述信息的叶片病害图像的病斑图像记作第一病斑图像,将文本信息完整的叶片病害图像的病斑图像记作第二病斑图像;
计算病斑图像相似性,用下式表示:
;
式中表示权重参数,/>表示颜色空间中的颜色数量,/>表示第一病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第二病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第一病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示第二病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示病斑图像相似性;
其中,U-Net模型由编码器和解码器两部分组成,编码器经过卷积层和池化层对输入的叶片病害图像进行特征提取,同时将数据的空间逐渐缩小;
解码器由卷积层和上采样层构成,将编码器部分提取的特征映射还原到原始分辨率,并生成病斑分割结果;
编码器和解码器通过跳跃方式进行连接,用于将编码器的高层次特征信息传递到解码器中,以帮助解码器对丢失的特征信息进行补充,更好地生成病斑分割结果。
S3:通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;
生长阶段信息通过文本信息中的时间信息与用户输入的文本描述信息中的种植时间作差获取,生长阶段信息包括萌芽阶段、幼苗阶段、生长阶段和成熟阶段。
S4:对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;
文本特征分析使用BERT模型对文本信息和生长阶段信息进行文本特征提取,BERT模型由12个Transformer编码器组成,如图2所示,每个Transformer编码器包括多头自注意力机制层、归一化层和全连接前馈神经网络层。
S5:对病斑特征信息和文本特征信息进行融合,输出病害识别结果,其中,病害识别结果包括病害种类、病害侵染区域和个性化防治建议。
实施例2:
如图3所示,本实施例提供基于图像和文本的多模态果蔬叶片病害识别***,包括:
多模态数据采集模块21,用于获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;
文本信息预处理模块22,用于对文本信息进行预处理,预处理包括缺失值填充和降噪;
神经网络模块23,用于通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;
文本分析模块24,用于对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;
病害结果输出模块25,用于对病斑特征信息和文本特征信息进行融合,输出病害识别结果。
多模态数据采集模块21,用于获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息,其中,文本信息与叶片病害图像为一对一映射关系,时间信息为获取叶片病害图像的时间信息,地理位置信息为获取叶片病害图像的地理位置信息,环境信息为获取叶片病害图像的环境信息,用户输入的文本描述信息以叶片病害图像为描述对象;
环境信息包括气象信息和土壤信息,其中,气象信息包括天气类型、温度信息、湿度信息、日照时长信息和降水量信息,土壤信息包括土壤温度信息和土壤湿度信息;
文本描述信息包括果蔬种类、种植时间、病斑颜色和病斑面积占叶片面积的比例。
文本信息预处理模块22,用于对文本信息进行预处理,预处理包括缺失值填充和降噪,其中:
缺失值填充用于对文本信息中的缺失值进行填充,具体步骤包括:
当地理位置信息或时间信息存在缺失时,通过叶片病害图像获取叶片病害背景图像相似性并按照从大到小排序,将排序中前个叶片病害背景图像相似性对应的叶片病害图像映射的文本信息中出现频次最高的地理位置信息或时间信息作为缺失值进行填充,其中,/>为大于0的正整数;
当环境信息存在缺失时,通过地理位置信息和时间信息获取时空信息相似性,将时空信息相似性最高的文本信息中的环境信息作为缺失值进行填充;
当文本描述信息存在缺失时,通过叶片病害图像获取病斑图像相似性,将病斑图像相似性和时空信息相似性之和最高的文本信息中的文本描述信息作为缺失值进行填充;
叶片病害背景图像相似性计算的具体步骤包括:
通过DeepLabV3+模型获取叶片病害背景图像,将缺失地理位置信息或时间信息的叶片病害背景图像记作第一背景图像,将文本信息完整的叶片病害背景图像记作第二背景图像;
计算叶片病害背景图像相似性,用下式表示:
;
式中表示第一背景图像,/>表示第二背景图像,/>表示第一背景图像的宽度,/>表示第一背景图像的高度,/>表示第二背景图像的宽度,表示第二背景图像的高度,/>表示取最小值函数,/>表示第一背景图像的平均亮度,/>表示第二背景图像的平均亮度,/>表示第一背景图像和第二背景图像的协方差,/>表示第一背景图像的方差,/>表示第二背景图像的方差,/>和/>表示稳定性常数,/>表示第一背景图像和第二背景图像的相似性;
时空信息相似性最高的文本信息获取的具体步骤包括:
将环境信息缺失的文本信息作为第一文本信息,将信息完整的文本信息作为第二文本信息;
通过地理位置信息获取距离差值,用下式表示:
;
式中表示地球半径,/>表示第一文本信息中地理位置信息的纬度与第二文本信息中地理位置信息的纬度之差,/>表示第一文本信息中地理位置信息的纬度,表示第二文本信息中地理位置信息的纬度,/>表示第一文本信息中地理位置信息的经度与第二文本信息中地理位置信息的经度之差,/>表示距离差值;
通过对第一文本信息中的时间信息和第二文本信息中的时间信息作差,获取时间差值;
将距离差值小于预设距离阈值且时间差值最小的文本信息作为时空信息相似性最高的文本信息,其中,预设距离阈值由本领域技术人员根据大量实验确定;
病斑图像相似性计算的具体步骤包括:
通过U-Net模型获取叶片病害图像中的病斑图像,将缺失文本描述信息的叶片病害图像的病斑图像记作第一病斑图像,将文本信息完整的叶片病害图像的病斑图像记作第二病斑图像;
计算病斑图像相似性,用下式表示:
;
式中表示权重参数,/>表示颜色空间中的颜色数量,/>表示第一病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第二病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第一病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示第二病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示病斑图像相似性;
降噪包括对文本信息进行无效字符清洗、语法检查、语义检查、重复数据删除和标点符号删除。
神经网络模块23,用于通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息,其中,生长阶段信息通过文本信息中的时间信息与用户输入的文本描述信息中的种植时间作差获取,生长阶段信息包括萌芽阶段、幼苗阶段、生长阶段和成熟阶段。
文本分析模块24,用于对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息,其中,文本特征分析使用BERT模型对文本信息和生长阶段信息进行文本特征提取,如图2所示,BERT模型由12个Transformer编码器组成,每个Transformer编码器包括多头自注意力机制层、归一化层和全连接前馈神经网络层。
病害结果输出模块25,用于对病斑特征信息和文本特征信息进行融合并输出病害识别结果,其中,融合并输出病害识别结果的过程使用CLIP模型、ViLBERT模型或LXMERT模型,病害识别结果包括病害种类、病害侵染区域和个性化防治建议。
上述关于本发明的基于图像和文本的多模态果蔬叶片病害识别***中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于基于图像和文本的多模态果蔬叶片病害识别方法的实施例中的各参数和步骤,在此不做赘述。
实施例3:
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述的基于图像和文本的多模态果蔬叶片病害识别方法。需要说明的是:基于图像和文本的多模态果蔬叶片病害识别方法的所有计算机程序均使用Python语言实现,其中,文本信息预处理模块、神经网络模块、文本分析模块和病害结果输出模块均由远程服务器控制;远程服务器的CPU为Intel Xeon Gold 5118,GPU为NVIDIA GTX2080Ti 11GB,操作***为Ubuntu 18.04.2,深度学习框架为PyTorch1.7.0,CUDA版本为10.2,使用cuDNN 7.6.5进行加速推理;Intel Xeon Gold 5118包含存储器和处理器,其中,存储器用于存储计算机程序;处理器用于执行计算机程序,使得Intel Xeon Gold 5118执行实现基于图像和文本的多模态果蔬叶片病害识别方法。
所属技术领域的技术人员知道,本发明可以实现为***、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,包括下述步骤:
获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;
对文本信息进行预处理,预处理包括缺失值填充和降噪;
通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;
对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;
对病斑特征信息和文本特征信息进行融合,输出病害识别结果;
所述缺失值填充用于对文本信息中的缺失值进行填充,具体步骤包括:
当地理位置信息或时间信息存在缺失时,通过叶片病害图像获取叶片病害背景图像相似性并按照从大到小排序,将排序中前个叶片病害背景图像相似性对应的叶片病害图像映射的文本信息中出现频次最高的地理位置信息或时间信息作为缺失值进行填充,其中,为大于0的正整数;
当环境信息存在缺失时,通过地理位置信息和时间信息获取时空信息相似性,将时空信息相似性最高的文本信息中的环境信息作为缺失值进行填充;
当文本描述信息存在缺失时,通过叶片病害图像获取病斑图像相似性,将病斑图像相似性和时空信息相似性之和最高的文本信息中的文本描述信息作为缺失值进行填充;
所述叶片病害背景图像相似性计算的具体步骤包括:
通过DeepLabV3+模型获取叶片病害背景图像,将缺失地理位置信息或时间信息的叶片病害背景图像记作第一背景图像,将文本信息完整的叶片病害背景图像记作第二背景图像;
计算叶片病害背景图像相似性,用下式表示:
;
式中表示第一背景图像,/>表示第二背景图像,/>表示第一背景图像的宽度,/>表示第一背景图像的高度,/>表示第二背景图像的宽度,/>表示第二背景图像的高度,/>表示取最小值函数,/>表示第一背景图像的平均亮度,/>表示第二背景图像的平均亮度,/>表示第一背景图像和第二背景图像的协方差,/>表示第一背景图像的方差,/>表示第二背景图像的方差,/>和/>表示稳定性常数,/>表示第一背景图像和第二背景图像的相似性;
所述时空信息相似性最高的文本信息获取的具体步骤包括:
将环境信息缺失的文本信息作为第一文本信息,将信息完整的文本信息作为第二文本信息;
通过地理位置信息获取距离差值,用下式表示:
;
式中表示地球半径,/>表示第一文本信息中地理位置信息的纬度与第二文本信息中地理位置信息的纬度之差,/>表示第一文本信息中地理位置信息的纬度,表示第二文本信息中地理位置信息的纬度,/>表示第一文本信息中地理位置信息的经度与第二文本信息中地理位置信息的经度之差,/>表示距离差值;
通过对第一文本信息中的时间信息和第二文本信息中的时间信息作差,获取时间差值;
将距离差值小于预设距离阈值且时间差值最小的文本信息作为时空信息相似性最高的文本信息;
所述病斑图像相似性计算的具体步骤包括:
通过U-Net模型获取叶片病害图像中的病斑图像,将缺失文本描述信息的叶片病害图像的病斑图像记作第一病斑图像,将文本信息完整的叶片病害图像的病斑图像记作第二病斑图像;
计算病斑图像相似性,用下式表示:
;
式中表示权重参数,/>表示颜色空间中的颜色数量,/>表示第一病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第二病斑图像颜色直方图中第/>个颜色的归一化频率,/>表示第一病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示第二病斑图像中像素灰度值/>和像素灰度值/>在相同的距离和方向上共同出现的概率,/>表示病斑图像相似性。
2.根据权利要求1所述的基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,所述文本信息与叶片病害图像为一对一映射关系,其中,时间信息为获取叶片病害图像的时间信息,地理位置信息为获取叶片病害图像的地理位置信息,环境信息为获取叶片病害图像的环境信息,用户输入的文本描述信息以叶片病害图像为描述对象。
3.根据权利要求1所述的基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,所述环境信息包括气象信息和土壤信息,其中,气象信息包括天气类型、温度信息、湿度信息、日照时长信息和降水量信息,土壤信息包括土壤温度信息和土壤湿度信息。
4.根据权利要求1所述的基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,所述文本描述信息包括果蔬种类、种植时间、病斑颜色和病斑面积占叶片面积的比例。
5.根据权利要求1所述的基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,所述生长阶段信息通过文本信息中的时间信息与用户输入的文本描述信息中的种植时间作差获取,生长阶段信息包括萌芽阶段、幼苗阶段、生长阶段和成熟阶段。
6.根据权利要求1所述的基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,所述文本特征分析使用BERT模型对文本信息和生长阶段信息进行文本特征提取,其中,BERT模型由12个Transformer编码器组成,每个Transformer编码器包括多头自注意力机制层、归一化层和全连接前馈神经网络层。
7.根据权利要求1所述的基于图像和文本的多模态果蔬叶片病害识别方法,其特征在于,所述病害识别结果包括病害种类、病害侵染区域和个性化防治建议。
8.基于图像和文本的多模态果蔬叶片病害识别***,其基于权利要求1-7中任一项所述的基于图像和文本的多模态果蔬叶片病害识别方法实现,其特征在于,所述***包括:
多模态数据采集模块,用于获取叶片病害图像和文本信息,文本信息包括时间信息、地理位置信息、环境信息和用户输入的文本描述信息;
文本信息预处理模块,用于对文本信息进行预处理,预处理包括缺失值填充和降噪;
神经网络模块,用于通过卷积神经网络提取叶片病害图像中的病斑特征信息并获取生长阶段信息;
文本分析模块,用于对文本信息和生长阶段信息进行文本特征分析,提取文本特征信息;
病害结果输出模块,用于对病斑特征信息和文本特征信息进行融合,输出病害识别结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现权利要求1-7中任一项所述的基于图像和文本的多模态果蔬叶片病害识别方法。
10.一种控制器,包括存储器和处理器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-7中任一项所述的基于图像和文本的多模态果蔬叶片病害识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057430.0A CN117576571B (zh) | 2024-01-16 | 2024-01-16 | 基于图像和文本的多模态果蔬叶片病害识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057430.0A CN117576571B (zh) | 2024-01-16 | 2024-01-16 | 基于图像和文本的多模态果蔬叶片病害识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576571A true CN117576571A (zh) | 2024-02-20 |
CN117576571B CN117576571B (zh) | 2024-04-26 |
Family
ID=89884865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410057430.0A Active CN117576571B (zh) | 2024-01-16 | 2024-01-16 | 基于图像和文本的多模态果蔬叶片病害识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576571B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514459A (zh) * | 2013-10-11 | 2014-01-15 | 中国科学院合肥物质科学研究院 | 一种基于Android手机平台的识别农作物病虫害的方法及*** |
CN112069484A (zh) * | 2020-11-10 | 2020-12-11 | 中国科学院自动化研究所 | 基于多模态交互式的信息采集方法及*** |
CN114399480A (zh) * | 2021-12-30 | 2022-04-26 | 中国农业大学 | 蔬菜叶片病害严重程度检测方法及装置 |
CN115223021A (zh) * | 2022-07-21 | 2022-10-21 | 华南农业大学 | 一种基于视觉问答的果树全生长期农事作业决策方法 |
DE202023104300U1 (de) * | 2023-07-31 | 2023-09-01 | Demissie Jobir Gelmecha | Ein auf Deep Learning basierendes System zur Erkennung, Klassifizierung und Optimierung der landwirtschaftlichen Produktivität von Obstkrankheiten |
CN116740555A (zh) * | 2023-04-06 | 2023-09-12 | 中国农业大学 | 一种基于改进YOLOv5s模型的作物叶片病害识别方法及*** |
CN116933051A (zh) * | 2023-07-10 | 2023-10-24 | 中山大学 | 一种用于模态缺失场景的多模态情感识别方法及*** |
-
2024
- 2024-01-16 CN CN202410057430.0A patent/CN117576571B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514459A (zh) * | 2013-10-11 | 2014-01-15 | 中国科学院合肥物质科学研究院 | 一种基于Android手机平台的识别农作物病虫害的方法及*** |
CN112069484A (zh) * | 2020-11-10 | 2020-12-11 | 中国科学院自动化研究所 | 基于多模态交互式的信息采集方法及*** |
CN114399480A (zh) * | 2021-12-30 | 2022-04-26 | 中国农业大学 | 蔬菜叶片病害严重程度检测方法及装置 |
CN115223021A (zh) * | 2022-07-21 | 2022-10-21 | 华南农业大学 | 一种基于视觉问答的果树全生长期农事作业决策方法 |
CN116740555A (zh) * | 2023-04-06 | 2023-09-12 | 中国农业大学 | 一种基于改进YOLOv5s模型的作物叶片病害识别方法及*** |
CN116933051A (zh) * | 2023-07-10 | 2023-10-24 | 中山大学 | 一种用于模态缺失场景的多模态情感识别方法及*** |
DE202023104300U1 (de) * | 2023-07-31 | 2023-09-01 | Demissie Jobir Gelmecha | Ein auf Deep Learning basierendes System zur Erkennung, Klassifizierung und Optimierung der landwirtschaftlichen Produktivität von Obstkrankheiten |
Non-Patent Citations (2)
Title |
---|
张会敏: ""基于知识图谱与深度学习的黄瓜叶部病害识别方法"", 《江苏农业科学》, vol. 51, no. 15, 5 August 2023 (2023-08-05), pages 173 - 178 * |
张善文;王振;王祖良;: "多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法", 农业工程学报, no. 16, 23 August 2020 (2020-08-23), pages 157 - 165 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576571B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadeghi-Tehran et al. | DeepCount: in-field automatic quantification of wheat spikes using simple linear iterative clustering and deep convolutional neural networks | |
CN108090906B (zh) | 一种基于区域提名的宫颈图像处理方法及装置 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
Junos et al. | An optimized YOLO‐based object detection model for crop harvesting system | |
CN107247971B (zh) | 一种超声甲状腺结节风险指标的智能分析方法及*** | |
CN112232371B (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN106909924A (zh) | 一种基于深度显著性的遥感影像快速检索方法 | |
CN108052966A (zh) | 基于卷积神经网络的遥感图像场景自动提取和分类方法 | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及*** | |
CN113887517B (zh) | 基于并行注意力机制的农作物遥感图像语义分割方法 | |
CN112561876A (zh) | 基于图像的池塘和水库的水质检测方法及*** | |
CN113312993B (zh) | 一种基于PSPNet的遥感数据土地覆盖分类方法 | |
CN110781948A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN110659601B (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN114299082A (zh) | 一种新冠肺炎ct图像分割方法、装置及存储介质 | |
CN116091937A (zh) | 基于深度学习的高分辨率遥感影像地物识别模型计算方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN115546553A (zh) | 一种基于动态特征抽取和属性修正的零样本分类方法 | |
CN117953299A (zh) | 基于多尺度的遥感影像土地利用分类方法 | |
CN115735233A (zh) | 对象检测模型的训练方法、对象检测方法及装置 | |
CN117576571B (zh) | 基于图像和文本的多模态果蔬叶片病害识别方法及*** | |
CN116977862A (zh) | 一种植物生长阶段视频检测方法 | |
Kumar et al. | Deep Learning-Based Web Application for Real-Time Apple Leaf Disease Detection and Classification | |
CN116258686A (zh) | 基于图像卷积特征捕捉的结肠息肉分型检测模型建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |