CN113673534B - 一种基于Faster RCNN的RGB-D图像果实检测方法 - Google Patents
一种基于Faster RCNN的RGB-D图像果实检测方法 Download PDFInfo
- Publication number
- CN113673534B CN113673534B CN202110437506.9A CN202110437506A CN113673534B CN 113673534 B CN113673534 B CN 113673534B CN 202110437506 A CN202110437506 A CN 202110437506A CN 113673534 B CN113673534 B CN 113673534B
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- network
- anchorboxes
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000007621 cluster analysis Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011056 performance test Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Faster RCNN的RGB‑D图像果实检测方法,属于目标识别技术领域。包括采集自然环境下果实的RGB‑D图像,作为原始的数据集;改进特征提取网络resnet‑50,实现不同特征尺度的特征融合;对数据集的GT进行聚类分析,利用聚类结果改进RPN网络生成anchorboxes的尺寸,更快地得到精准的预瞄框;本发明实现了多信息的输入,提高了模型识别精度,在果实的自动采摘机器人上有广泛的应用前景。
Description
技术领域
本发明涉及目标识别技术领域,更具体地说是涉及一种基于Faster RCNN的RGB-D图像果实检测方法。
背景技术
耗费大量人工的果实采摘问题成为近年来的研究热点,研制自动采摘机器人能较好的解决采摘成本过高的问题。
为实现果实的自动采摘,视觉***是其关键技术,准确快速的实现果实的识别是评价视觉***优劣的关键指标之一。在自然环境中RGB相机采集的颜色图像经常受到不同因素的影响,如果实颜色与自然环境颜色相近,采用深度学习方法训练的模型在特殊条件下识别精度不佳,识别时间较长。
发明内容
本发明的目地在于解决在颜色图像受到外界因素干扰时,复杂条件下果实与背景颜色相近时果实难以识别的问题。提出了一种基于RGB-D图像,多尺度特征融合,GT框的聚类的基于改进的Faster RCNN的果实检测方法,能够对复杂环境下的果实进行快速准确的识别定位。
本发明采用的技术方案为:
一种基于Faster RCNN的RGB-D图像果实识别方法,包括以下步骤:
步骤1:采集数据,数据集的建立,数据集的增强;
步骤2:对GT(groundtruth)框进行K-means分析获取RPN网络生成anchorboxes的最佳尺寸和比例;
步骤3:改进特征提取网络,实现4通道(RGB-D)数据的输入,利用特征金字塔结构,对于特征提取网络中生成的高尺度,中间尺度,最低尺度特征图进行多尺度特征融合;
步骤4:把步骤2得到聚类数据设置为RPN网络的anchorboxes生成比例和尺寸,把步骤4得到的多尺度特征融合图像输入RPN中进行候选框的预测;
步骤5:训练模型并预测。
进一步,所述步骤一的数据集构建具体包括:
步骤1.1,采用Kinect v2相机同时采集果实的颜色和深度图像,采集的颜色图像分辨率为1920×1080,采集的深度图像的分辨率为512×424;
步骤1.2,对颜色和深度图像进行对齐,使果实在颜色图像和深度图像的像素坐标一致,两种图片的分辨率大小一致;
步骤1.3,使用labelImg工具对图像进行标注,对于标注的物体生成的框为GT框,GT框的数据为(C,Xmin,Ymin,Xmax,Ymax),其中C为物体的类别信息,(Xmin,Ymin)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标,(Xmax,Ymax)为GT框框右上角在图像上的像素坐标,并对标注的结果生成符合pascalVOC格式的xml文件;
步骤1.4,数据集的增强,对图像进行反转等操作进行数据集的增强,提高训练结果的鲁棒性;
步骤1.5,将所得到的数据集按照6:2:2的比例分成训练集,验证集,测试集;
进一步,所述步骤2包括:
步骤2.1,对GT框的宽高及其比例进行分析,为方便聚类分析,对GT框数据处理得到GT框的(wj,hj)数据,j∈(1,2,3,…,N),(wj,hj)为第j个GT框的像素宽和高,wj=Xmax-Xmin,hj=Ymax-Ymin;
步骤2.2,宽高比例聚类,令宽高比获取GT框宽高比例M个聚类结果;
步骤2.3,初始化尺寸聚类中心为Ci(Wi,Hi),i∈(1,2,3,…,K),K为要生成的聚类框的个数,Wi,Hi分别为聚类中心点的像素宽和高;
步骤2.4,计算GT框与每个聚类中心的距离,把GT归为与聚类中心最小的聚类,直到遍历完所有的GT与聚类中心的距离,把所有的GT框分为K个簇;
距离D的计算方式采用IOU(交并比)的计算方式:
Dji=1-IOU(BOXj,Ci)
其中Dji为第j个GT框与第i个聚类中心的距离,BOXj为第j个GT框,Ci为i个聚类中心,更具体的IOU计算方式为:
SBOXj为第j个GT框的面积,SCi为第i个聚类中心面积;
步骤2.5,对于每个簇重新计算聚类中心,Ni为第i个簇的GT框的个数,更新聚类中心的值Ci(Wi,Hi);
步骤2.6,重复2.3-2.5,直到聚类中心改变量收敛,得到K个聚类中心,即K个anchorboxes的宽和高尺寸;
进一步,所述步骤3包括
步骤3.1,更改特征提取网络resnet50网络的第一个过滤器的深度,从原始的3增加到4,实现4通道(RGB-D)数据的输入;
步骤3.2,采用resNet50进行特征的提取过程中,利用特征金字塔结构,对resNet50中的conv2,conv3,conv4输出层进行多尺度特征叠加融合。
进一步,所述步骤4包括:
步骤4.1,把步骤4中得到的多尺度特征图输入RPN网络中实现region proposal的提取;
步骤4.2,采用步骤2对GT框聚类得到的宽高及比例,设置为RPN中生成anchorboxes的宽高及比例;
步骤4.3,对于生成的anchor boxes利用RPN网络生成的调整参数生成候选框,基于候选框的cls得分滤除得分较低的候选框,采用NMS算法,设置IOU阈值为0.7,进一步精简候选框的数量;
步骤4.4.,建立RPN网络损失函数,损失函数由分类损失函数和回归损失函数组成:
分类损失函数为:
其中,i是anchorboxes的索引,pi是第i个anchorboxes预测为真实标签的概率,pi*是第i个anchorboxes的真实。Lcls是分类损失,Ncls是一个batch的样本数量为256;
回归损失函数为:
其中ti是预测候选框与anchorbox的偏移量,ti*是GT框与anchorboxes的偏移量,Nreg是anchorboxes的总数,约2400个,Lreg是回归损失,Lreg(ti,ti*)=R(ti-ti*),R为smooth损失函数。由于λ为比例系数,通常取10,则上式能近似等于:
则总损失函数可定义为:
进一步,所述步骤5包括:
步骤5.1,利用训练集作为网络训练数据,训练改进的Faster RCNN网络;验证集用于在训练过程中优化果实识别网络结构参数,得到最优模型;用测试集作为训练出的网络的性能测试数据,评价模型性能;
步骤5.2,采用AP(平均准确率)值越高则证明模型检测物体的准确率越高,即模型越好;
步骤5.3,设置网络初始参数:总epoch次数,初始学习率,学习率变化系数。每个epoch结束后保留训练结果,每次迭代保留学习率的变化,和AP值。
本发明的有益效果为:在图像采集中同时采集颜色和深度图像,并用图像对齐技术把两种图像进行对齐,且在resnet50特征提取中,采用特征金字塔结构实现多尺度的特征图像融合,在输入RPN网络中使用通过对GT聚类得到的更符合果实先验框比例尺寸,实现了在复杂环境下的果实识别,增强了对果实专门化识别的效果,提高了检测精度。
附图说明
图1为本发明搭建的网络框架示意图
图2为本发明的RGB-D数据集构建流程图
图3为本发明的anchorboxes聚类分析结果图
图4为本发明的基于RBG-D图像的果实识别方法的流程图
图5为本发明的果实识别网络流程图;
具体实施方式
下面结合附图对本发明做进一步说明
如图1-5所示,一种基于RGB-D图像的的果实识别方法,具体包括如下步骤:
步骤1:采集数据,数据集的建立,数据集的增强;
步骤2:对GT(groundtruth)框进行K-means分析获取RPN网络生成anchorboxes的最佳尺寸和比例;
步骤3:改进特征提取网络,实现4通道(RGB-D)数据的输入,利用特征金字塔结构,对于特征提取网络中生成的高尺度,中间尺度,最低尺度特征图进行多尺度特征融合;
步骤4:把步骤2得到聚类数据设置为RPN网络的anchorboxes生成比例和尺寸,把步骤4得到的多尺度特征融合图像输入RPN中进行候选框的预测;
步骤5:训练模型并预测
步骤一的数据集构建包括:
1.1采用Kinect v2相机同时采集果实的颜色和深度图像,采集的颜色图像分辨率为1920×1080,采集的深度图像的分辨率为512×424;
1.2对颜色和深度图像进行对齐,使果实在颜色图像和深度图像的像素坐标一致,两种图片的分辨率大小一致;
1.3.使用labelImg工具对图像进行标注,对于标注的物体生成的框为GT框,GT框的数据为(C,Xmin,Ymin,Xmax,Ymax),其中C为物体的类别信息,(Xmin,Ymin)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标,(Xmax,Ymax)为GT框框右上角在图像上的像素坐标,并对标注的结果生成符合pascalVOC格式的xml文件;
1.4数据集的增强,对图像进行反转等操作进行数据集的增强,提高训练结果的鲁棒性;
1.5将所得到的数据集按照6:2:2的比例分成训练集,验证集,测试集;
3.根据权利要求1所述的一种基于RGB-D图像的果实检测方法,其特征在于:所述步骤2包括:
2.1对GT框的宽高及其比例进行分析,为方便聚类分析,对GT框数据处理得到GT框的(wj,hj)数据,j∈(1,2,3,…,N),(wj,hj)为第j个GT框的像素宽和高,wj=Xmax-Xmin,hj=Ymax-Ymin;
2.2宽高比例聚类,令宽高比获取GT框宽高比例M个聚类结果;
2.3初始化尺寸聚类中心为Ci(Wi,Hi),i∈(1,2,3,…,K),K为要生成的聚类框的个数,Wi,Hi分别为聚类中心点的像素宽和高;
2.4计算GT框与每个聚类中心的距离,把GT归为与聚类中心最小的聚类,直到遍历完所有的GT与聚类中心的距离,把所有的GT框分为K个簇;
距离D的计算方式采用IOU(交并比)的计算方式:
Dji=1-IOU(BOXj,Ci)
其中Dji为第j个GT框与第i个聚类中心的距离,更具体的IOU计算方式为:
SBOXj为第j个GT框的面积,SCi为第i个聚类中心面积;
2.5对于每个簇重新计算聚类中心,Ni为第i个簇的GT框的个数,更新聚类中心的值Ci(Wi,Hi);
2.6重复2.3-2.5,直到聚类中心改变量收敛,得到K个聚类中心,即K个anchorboxes的宽和高尺寸;
步骤三包括
3.1更改特征提取网络resnet50网络的第一个过滤器的深度,从原始的3增加到4,实现4通道(RGB-D)数据的输入;
3.2采用resNet50进行特征的提取过程中,利用特征金字塔结构,对resNet50中的conv2,conv3,conv4输出层进行多尺度特征叠加融合。
步骤四包括:
4.1把步骤4中得到的多尺度特征图输入RPN网络中实现region proposal的提取;
4.2采用步骤2对GT框聚类得到的宽高及比例,设置为RPN中生成anchorboxes的宽高及比例;
4.3对于生成的anchor boxes利用RPN网络生成的调整参数生成候选框,基于候选框的cls得分滤除得分较低的候选框,采用NMS算法,设置IOU阈值为0.7,进一步精简候选框的数量;
4.4.建立RPN网络损失函数,损失函数由分类损失函数和回归损失函数组成:
分类损失函数为:
其中,i是anchorboxes的索引,pi是第i个anchorboxes预测为真实标签的概率,pi*是第i个anchorboxes的真实。Lcls是分类损失,Ncls是一个batch的样本数量为256;
回归损失函数为:
其中ti是预测候选框与anchorbox的偏移量,ti*是GT框与anchorboxes的偏移量,Nreg是anchorboxes的总数,约2400个,Lreg是回归损失,Lreg(ti,ti*)=R(ti-ti*),R为smooth损失函数。由于λ为比例系数,通常取10,则上式能近似等于:
则总损失函数可定义为:
所述步骤五包括:
5.1利用训练集作为网络训练数据,训练改进的Faster RCNN网络;验证集用于在训练过程中优化果实识别网络结构参数,得到最优模型;用测试集作为训练出的网络的性能测试数据,评价模型性能;
5.2采用AP(平均准确率)值越高则证明模型检测物体的准确率越高,即模型越好;
5.3设置网络初始参数:总epoch次数,初始学习率,学习率变化系数。每个epoch结束后保留训练结果,每次迭代保留学习率的变化,和AP值。
针对复杂的自然环境,本发明构建RGB-D的数据集对果实的颜色信息和深度信息有效提取。为充分的利用RGB-D数据集,修改Faster RCNN网络模型实现特征的多模态融合,优化Faster RCNN预瞄框的生成方法。在识别中有效地提高了果实的识别精度和效率。以上所述的实例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改,补充和同等替换等,均应包含在本发明的保护范围内。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (4)
1.一种基于Faster RCNN的RGB-D图像果实检测方法,其特征在于,包括如下步骤:
步骤1:采集果实数据,数据集的建立,数据集的增强;
步骤2:对GT框进行K-means分析获取RPN网络生成anchorboxes的最佳尺寸和比例;
步骤3:改进特征提取网络,实现4通道RGB-D数据的输入,利用特征金字塔结构,对于特征提取网络中生成的高尺度,中间尺度,最低尺度特征图进行多尺度特征融合;
所述步骤3包括:
步骤3.1,更改特征提取网络resnet50网络的第一个过滤器的深度,从原始的3增加到4,实现4通道RGB-D数据的输入;
步骤3.2,采用resNet50进行特征的提取过程中,利用特征金字塔结构,对resNet50中的conv2,conv3,conv4输出层进行多尺度特征叠加融;
步骤4:把步骤2得到聚类数据设置为RPN网络的anchorboxes生成比例和尺寸,把步骤4得到的多尺度特征融合图像输入RPN中进行候选框的预测;
步骤5:训练模型并预测;
所述步骤4包括:
步骤4.1,把步骤4中得到的多尺度特征图输入RPN网络中实现region proposal的提取;
步骤4.2,采用步骤2对GT框聚类得到的宽高及比例,设置为RPN中生成anchorboxes的宽高及比例;
步骤4.3,对于生成的anchor boxes利用RPN网络生成的调整参数生成候选框,基于候选框的cls得分滤除得分较低的候选框,采用NMS算法,设置IOU阈值为0.7,进一步精简候选框的数量;
步骤4.4.,建立RPN网络损失函数,损失函数由分类损失函数和回归损失函数组成:
分类损失函数为:
其中,i是anchorboxes的索引,pi是第i个anchorboxes预测为真实标签的概率,pi*是第i个anchorboxes的真实,Lcls是分类损失,Ncls是一个batch的样本数量为256;
回归损失函数为:
其中ti是预测候选框与anchorbox的偏移量,ti*是GT框与anchorboxes的偏移量,Nreg是anchorboxes的总数,约2400个,Lreg是回归损失,Lreg(ti,ti*)=R(ti-ti*),R为smooth损失函数,由于λ为比例系数,通常取10,则上式能近似等于:
则总损失函数定义为:
2.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法,其特征在于:所述步骤1包括:
步骤1.1,采用Kinect v2相机同时采集果实的颜色和深度图像,采集的颜色图像分辨率为1920×1080,采集的深度图像的分辨率为512×424;
步骤1.2,对颜色和深度图像进行对齐,使果实在颜色图像和深度图像的像素坐标一致,两种图片的分辨率大小一致;
步骤1.3,使用labelImg工具对图像进行标注,对于标注的物体生成的信息框为GT框,GT框的数据为(C,Xmin,Ymin,Xmax,Ymax),其中C为物体的类别信息,(Xmin,Ymin)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标,(Xmax,Ymax)为以图像左下角为坐标原点GT框右上角在图像上的像素坐标,并对标注的结果生成符合pascalVOC格式的xml文件;
步骤1.4,数据集的增强,对图像进行反转等操作进行数据集的增强,提高训练结果的鲁棒性;
步骤1.5,将所得到的数据集按照6:2:2的比例分成训练集,验证集,测试集。
3.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法,其特征在于:所述步骤2包括:
步骤2.1,对GT框的宽高及其比例进行分析,为方便聚类分析,对GT框数据处理得到GT框的(wj,hj)数据,j∈(1,2,3,…,N),(wj,hj)为第j个GT框的像素宽和高,wj=Xmax-Xmin,hj=Ymax-Ymin;(Xmin,Ymin)为以图像左下角为坐标原点GT框左下角在图像上的像素坐标,(Xmax,Ymax)为以图像左下角为坐标原点GT框右上角在图像上的像素坐标;
步骤2.2,宽高比例聚类,令宽高比获取GT框宽高比例M个聚类结果;
步骤2.3,初始化尺寸聚类中心为Ci(Wi,Hi),i∈(1,2,3,…,K),K为要生成的聚类框的个数,Wi、Hi分别为聚类中心点的像素宽和高;
步骤2.4,计算GT框与每个聚类中心的距离,把GT归为与聚类中心最小的聚类,直到遍历完所有的GT与聚类中心的距离,把所有的GT框分为K个簇;
距离D的计算方式采用IOU计算方式,也就是交并比的计算方式:
Dji=1-IOU(BOXj,Ci)
其中Dji为第j个GT框与第i个聚类中心的距离,BOXj为第j个GT框,Ci为i个聚类中心,更具体的IOU计算方式为:
SBOXj为第j个GT框的面积,SCi为第i个聚类中心面积;
步骤2.5,对于每个簇重新计算聚类中心,Ni为第i个簇的GT框的个数,更新聚类中心的值Ci(Wi,Hi);
步骤2.6,重复2.3-2.5,直到聚类中心改变量收敛,得到K个聚类中心,即K个anchorboxes的宽和高尺寸。
4.根据权利要求1所述的一种基于Faster RCNN的RGB-D图像果实检测方法,其特征在于:所述步骤5包括:
步骤5.1,利用训练集作为网络训练数据,训练改进的Faster RCNN网络;验证集用于在训练过程中优化果实识别网络结构参数,得到最优模型;用测试集作为训练出的网络的性能测试数据,评价模型性能;
步骤5.2,平均准确率AP值越高则证明模型检测物体的准确率越高,即模型越好;
步骤5.3,设置网络初始参数:总epoch次数,初始学习率,学习率变化系数;每个epoch结束后保留训练结果,每次迭代保留学习率的变化、AP值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437506.9A CN113673534B (zh) | 2021-04-22 | 2021-04-22 | 一种基于Faster RCNN的RGB-D图像果实检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437506.9A CN113673534B (zh) | 2021-04-22 | 2021-04-22 | 一种基于Faster RCNN的RGB-D图像果实检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673534A CN113673534A (zh) | 2021-11-19 |
CN113673534B true CN113673534B (zh) | 2024-06-11 |
Family
ID=78538077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110437506.9A Active CN113673534B (zh) | 2021-04-22 | 2021-04-22 | 一种基于Faster RCNN的RGB-D图像果实检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673534B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063304B (zh) * | 2022-05-19 | 2023-08-25 | 湖南师范大学 | 一种多尺寸融合的金字塔神经网络图像去雾方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232675A (zh) * | 2019-03-28 | 2019-09-13 | 昆明理工大学 | 一种工业环境下的纹理表面缺陷检测与分割装置及方法 |
CN110348445A (zh) * | 2019-06-06 | 2019-10-18 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
CN110909800A (zh) * | 2019-11-26 | 2020-03-24 | 浙江理工大学 | 一种基于Faster R-CNN改进算法的车辆检测方法 |
CN111144234A (zh) * | 2019-12-10 | 2020-05-12 | 南京航空航天大学 | 一种基于深度学习的视频sar目标检测方法 |
CN111396547A (zh) * | 2020-02-17 | 2020-07-10 | 江苏大学 | 一种自适应双粒子群优化支持向量机的驾驶意图识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222700A (zh) * | 2019-05-30 | 2019-09-10 | 五邑大学 | 基于多尺度特征与宽度学习的sar图像识别方法及装置 |
-
2021
- 2021-04-22 CN CN202110437506.9A patent/CN113673534B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232675A (zh) * | 2019-03-28 | 2019-09-13 | 昆明理工大学 | 一种工业环境下的纹理表面缺陷检测与分割装置及方法 |
CN110348445A (zh) * | 2019-06-06 | 2019-10-18 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
CN110909800A (zh) * | 2019-11-26 | 2020-03-24 | 浙江理工大学 | 一种基于Faster R-CNN改进算法的车辆检测方法 |
CN111144234A (zh) * | 2019-12-10 | 2020-05-12 | 南京航空航天大学 | 一种基于深度学习的视频sar目标检测方法 |
CN111396547A (zh) * | 2020-02-17 | 2020-07-10 | 江苏大学 | 一种自适应双粒子群优化支持向量机的驾驶意图识别方法 |
Non-Patent Citations (3)
Title |
---|
基于改进Faster R-CNN图像小目标检测;王凯;潘炼;;电视技术;20191025(第20期);全文 * |
基于改进Faster R-CNN的嘴部检测方法;魏文韬;刘飞;秦常程;喻洪流;倪伟;;计算机***应用;20191215(第12期);全文 * |
基于改进Mask R-CNN模型的电力场景目标检测方法;孔英会;王维维;张珂;戚银城;;科学技术与工程;20200318(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673534A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
CN110569901B (zh) | 一种基于通道选择的对抗消除弱监督目标检测方法 | |
CN109118479B (zh) | 基于胶囊网络的绝缘子缺陷识别定位装置及方法 | |
CN111444939B (zh) | 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法 | |
CN108090472B (zh) | 基于多通道一致性特征的行人重识别方法及其*** | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113160192A (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测***及方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN109284779A (zh) | 基于深度全卷积网络的物体检测方法 | |
CN115205264A (zh) | 一种基于改进YOLOv4的高分辨率遥感船舶检测方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
CN112149758B (zh) | 一种基于欧式距离和深度学习的高光谱开放集分类方法 | |
CN110751195B (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN108229551A (zh) | 一种基于紧凑字典稀疏表示的高光谱遥感图像分类方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN103198479A (zh) | 基于语义信息分类的sar图像分割方法 | |
CN104751475A (zh) | 一种面向静态图像对象识别的特征点优选匹配方法 | |
CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
CN105574545A (zh) | 环境图像多视角语义切割方法及装置 | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
CN113657414B (zh) | 一种物体识别方法 | |
CN113673534B (zh) | 一种基于Faster RCNN的RGB-D图像果实检测方法 | |
CN114332534A (zh) | 一种高光谱图像小样本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |