CN116740758A - 一种防止误判的鸟类图像识别方法及*** - Google Patents
一种防止误判的鸟类图像识别方法及*** Download PDFInfo
- Publication number
- CN116740758A CN116740758A CN202310603161.9A CN202310603161A CN116740758A CN 116740758 A CN116740758 A CN 116740758A CN 202310603161 A CN202310603161 A CN 202310603161A CN 116740758 A CN116740758 A CN 116740758A
- Authority
- CN
- China
- Prior art keywords
- bird
- image
- birds
- representing
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013434 data augmentation Methods 0.000 claims description 7
- 210000003746 feather Anatomy 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 210000003414 extremity Anatomy 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 239000005871 repellent Substances 0.000 description 4
- 210000003032 wing Anatomy 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000000078 claw Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002940 repellent Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种防止误判的鸟类图像识别方法包括:建立自然光环境下鸟类整体和局部图像识别的数据集,对鸟类进行标注;通过鸟类整体图像识别的数据集训练用于目标检测的YOLO神经网络,对鸟类进行初步识别和粗定位;通过鸟类局部图像识别的数据集训练U‑net神经网络,对鸟类的肢体细节进行语义分割,确认图像中的鸟类信息。本发明提供的防止误判的鸟类图像识别方法通过以两种深度学习模型结合而成,将待检测图像作为输入通过目标检测算法缩小范围,再通过语义分割算法对局部图进行分割,确定局部图内包含鸟类的特征,减少识别时间,并可以判别是否存在被遮挡的鸟类、似鸟非鸟物体和小尺寸鸟类,降低误判概率。
Description
技术领域
本发明涉及人工智能识别技术领域,具体为一种防止误判的鸟类图像识别方法及***。
背景技术
近年来,由于深度学习(DL)方法在检测和识别目标方面的优异性能,人们开始研究它来完成检测和定位任务。深度学习技术在很大程度上帮助研究人员提取最能代表待描述目标物体的相关特征。事实上,这些模型已成功应用于多个领域,如图像分类、自动驾驶汽车、语音识别、行人检测、鸟类识别、癌症检测等。
由于计算机视觉算法的快速发展,鸟类检测的方法不断创新。然而,这些方法面临着一些需要精确解决的限制,由于鸟类的习性,拍摄角度一般是固定在高处俯视拍照,或者绑定在某些移动驱鸟设备上进行仰视拍照,这就导致拍完的图片内鸟类很有可能处于被遮挡的状态,此时图片内就不是一只清晰完整的鸟而是只有鸟的一部分,此时就有可能出现将其他类鸟非鸟的物体也判断成鸟类的情况,如类鸟类物体的存在、高误判率、小尺寸鸟类物体的检测和高推断时间。但由于在现实情况中,由于摄像头精度,拍摄角度,天气等外界因素,以及基于深度学习的模型训练精度,图像内鸟类信息不全等影响,导致在某些场合下,驱鸟装置会一直对类鸟类物体误判,从而浪费了驱鸟装置的资源利用率以及效率。
因此,亟需一种防止误判的鸟类图像识别方法,降低误判率并提高精度。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有的鸟类识别方法存在无法识别小尺寸鸟类、误判率高、容易受外界因素影响,以及如何识别被遮挡的鸟类的问题。
为解决上述技术问题,本发明提供如下技术方案:一种防止误判的鸟类图像识别方法,包括:
建立自然光环境下鸟类整体和局部图像识别的数据集,对鸟类进行标注;
通过鸟类整体图像识别的数据集训练用于目标检测的YOLO神经网络,对鸟类进行初步识别和粗定位;
通过鸟类局部图像识别的数据集训练U-net神经网络,对鸟类的肢体细节进行语义分割,确认图像中的鸟类信息。
作为本发明所述的防止误判的鸟类图像识别方法的一种优选方案,其中:所述建立自然光环境下鸟类整体和局部图像识别的数据集包括通过对监控视频进行抽帧、搜索摄像图像数据库以及现场拍照的方式收集自然光场景下包含鸟类信息的图像,建立鸟类整体图像识别的数据集对鸟类整体进行标注,建立鸟类局部图像识别的数据集对包含鸟类头部、翅膀、羽毛以及爪子的鸟类肢体信息进行标注,采用平移,缩放,旋转的方式集的图像进行图像数据增广,将增广后的图像数据按照9:1的比例分别作为训练集和测试集两部分。
作为本发明所述的防止误判的鸟类图像识别方法的一种优选方案,其中:所述训练用于目标检测的YOLO神经网络包括对YOLO神经网络进行训练,学习率设置为0.01,历代数设置为300,训练过程中输出损失函数的损失值,表示为:
其中,S2表示单个图像单元格面积,每个图像被分成了S*S的单元格,B表示每一个网格内生成目标边框数量,obj表示目标对象,noobj表示没有目标对象,λcoord表示位置损失权重系数,λnoobj表示边界框在损失函数中所占的比重系数,表示包含目标对象的第i个网格的第j个预测框,/>表示不包含目标对象的第i个网格的第j个预测框,/>表示包含目标的第i个网格,xi和yi表示物体的中心点坐标预测值,wi和hi表示边界框的宽和高的预测值,/>和/>表示实际物体的中心点坐标值,/>和/>表示实际边界框的宽和高,Ci表示预测到的物体的种类数,/>表示实际物体的种类数,pi(c)表示预测到的存在物体的可能性,/>表示存在物体的可能性,c表示具体的种类,classes表示物体的种类总数。
作为本发明所述的防止误判的鸟类图像识别方法的一种优选方案,其中:所述对鸟类进行初步识别和粗定位包括将鸟类整体图像识别的数据集输入进行训练,当mIOU值和损失值拟合时训练结束,输出模型,用测试集进行测试;
通过训练后的YOLO神经网络对待检测图像进行识别检测,得到第一次检测结果图,对第一次识别结果图中方形边界框所在位置进行裁剪,得到只属于边界框限制区域的图像。
作为本发明所述的防止误判的鸟类图像识别方法的一种优选方案,其中:所述通过鸟类局部图像识别的数据集训练U-net神经网络包括对U-net神经网络进行训练,学习率设置为0.0001,选用Adam作为优化器,训练过程中输出损失函数的损失值,表示为:
其中,yi和别表示像素i的预测值标签值与标签值,N表示像素点总个数;
当mIOU值和损失值拟合时训练结束,输出模型,用测试集进行测试。
作为本发明所述的防止误判的鸟类图像识别方法的一种优选方案,其中:所述确认图像中的鸟类信息包括将YOLO神经网络输出目标检测模型认为区域包含鸟类信息的方框图发送到U-net神经网络的语义分割模型的检测路径中,对图像中每个像素点进行分类,将无关的像素点分为背景类,将属于鸟类信息的像素点分到对应的肢体细节标签类中,最终生成第二次检测结果图,其中,背景类的像素信息设置为黑色,鸟类的四种类别信息分别为红,黄,绿,蓝四种颜色。
作为本发明所述的防止误判的鸟类图像识别方法的一种优选方案,其中:所述确认图像中的鸟类信息还包括当YOLO神经网络输出结果置信度高于0.8的图像且第二次识别结果存在鸟类头部或翅膀或羽毛或爪子的像素的任一一种,确认当前识别结果包含鸟类信息发送驱鸟指令;
当YOLO神经网络输出结果置信度高于0.8的图像,但第二次识别结果不存在鸟类的肢体细节,则视为初步检测结果为似鸟非鸟,不发送驱鸟指令;
当YOLO神经网络输出结果置信度低0.8的图像,视为图像中不存在鸟类和似鸟非鸟的图像,不进行第二次检测,判断为不存在鸟类。
本发明的另外一个目的是提供一种防止误判的鸟类图像识别***,其能通过二次判断识别图像中鸟类的身体局部特征,判别被遮挡的鸟类和似鸟非鸟物体,解决了现有鸟类识别方法无法识别被遮挡的鸟类和似鸟非鸟的物体。
一种防止误判的鸟类图像识别***,其特征在于:包括,数据整合模块、初步识别模块、二次检测模块;
所述数据整合模块用于采集鸟类图像数据构建数据集并分类为鸟类整体数据集和鸟类局部图像,进行图像数据增广,划分数据集和测试集;
所述初步识别模块用于对数据集进行初步识别,判别图像中是否存在鸟类和似鸟物体;
所述二次检测模块用于对初步识别后的图像进行二次识别,识别图中的鸟类局部图,判别似鸟物体是否为鸟类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现防止误判的鸟类图像识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现防止误判的鸟类图像识别方法的步骤。
本发明的有益效果:本发明提供的防止误判的鸟类图像识别方法通过以两种深度学习模型结合而成,将待检测图像作为输入通过目标检测算法缩小范围,再通过语义分割算法对局部图进行分割,确定局部图内包含鸟类的特征,减少识别时间,并可以判别是否存在被遮挡的鸟类、似鸟非鸟物体和小尺寸鸟类,降低误判概率。通过设定目标检测算法的置信度,减少图像识别时间,减少资源占用。本发明在识别时间、判断精度和识别类型方面都取得更加良好的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例提供的一种防止误判的鸟类图像识别方法的整体流程图。
图2为本发明第三个实施例提供的一种防止误判的鸟类图像识别***的整体流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种防止误判的鸟类图像识别方法,包括:
S1:建立自然光环境下鸟类整体和局部图像识别的数据集,对鸟类进行标注。
更进一步的,建立自然光环境下鸟类整体和局部图像识别的数据集包括通过对监控视频进行抽帧、搜索摄像图像数据库以及现场拍照的方式收集自然光场景下包含鸟类信息的图像,建立鸟类整体图像识别的数据集对鸟类整体进行标注,建立鸟类局部图像识别的数据集对包含鸟类头部、翅膀、羽毛以及爪子的鸟类肢体信息进行标注,采用平移,缩放,旋转的方式集的图像进行图像数据增广,将增广后的图像数据按照9:1的比例分别作为训练集和测试集两部分。
应说明的是,考虑到训练的数据量较少,所以需要进行数据增广。为了使训练的结果具有较强的鲁棒性,采用随机的方式指定平移范围和平移步长,沿水平或竖直方向进行平移。改变图像内容的位置;以及对图像按照指定的尺度因子,进行放大或缩小;或者参照SIFT特征提取思想,利用指定的尺度因子对图像滤波构造尺度空间.改变图像内容的大小或模糊程度,从而有效增加数据集的数量。
S2:通过鸟类整体图像识别的数据集训练用于目标检测的YOLO神经网络,对鸟类进行初步识别和粗定位。
更进一步的,训练用于目标检测的YOLO神经网络包括对YOLO神经网络进行训练,学习率设置为0.01,图像批量训练大小为8,历代数设置为300,图像大小设置为1024×1024,训练过程中输出损失函数的损失值,表示为:
其中,S2表示单个图像单元格面积,每个图像被分成了S*S的单元格,B表示每一个网格内生成目标边框数量,obj表示目标对象,noobj表示没有目标对象,λcoord表示位置损失权重系数,λnoobj表示边界框在损失函数中所占的比重系数,表示包含目标对象的第i个网格的第j个预测框,/>表示不包含目标对象的第i个网格的第j个预测框,/>表示包含目标的第i个网格,xi和yi表示物体的中心点坐标预测值,wi和hi表示边界框的宽和高的预测值,/>和/>表示实际物体的中心点坐标值,/>和/>表示实际边界框的宽和高,Ci表示预测到的物体的种类数,/>表示实际物体的种类数,pi(c)表示预测到的存在物体的可能性,/>表示存在物体的可能性,c表示具体的种类,classes表示物体的种类总数。
应说明的是,位置误差和分类误差对损失值的计算占比是不同的,每张图像中都有许多网格是不包含任何目标的(即没有目标的中心点落入这些网格内),这会使得大部分网格内边界框的置信度值偏向于0,变相放大了包含目标的网格内的置信度误差在计算梯度时的影响。因此在计算损失时引入λcoord=5来修正坐标损失,引入λnoobj=0.5来修正无目标置信度误差偏大这一影响。同时,因为相同的位置偏差对大物体的IOUerror的影响要远小于对小物体的影响,因此YOLO目标检测算法通过将物体大小的信息项(w,h)开平方来修正平衡二者的影响。
应说明的是,对鸟类进行初步识别和粗定位包括将鸟类整体图像识别的数据集输入进行训练,当mIOU值和损失值拟合时训练结束,输出模型,用测试集进行测试。
通过训练后的YOLO神经网络对待检测图像进行识别检测,得到第一次检测结果图,对第一次识别结果图中方形边界框所在位置进行裁剪,得到只属于边界框限制区域的图像。
还应说明的是,学习率太小,loss下降太慢,模型检测精度提升太慢,学习率太高,loss有可能反而增大导致模型检测精度不准,因此为保证模型精度设定学习率为0.01。批量训练大小和自身硬件显卡的显存有关,显存越大,批量训练大小图像可以放大,这样设置满足自身硬件配置要求,超过硬件配置要求,训练过程中会报错。
更进一步的,用TensorBoard实时可视化当前的损失值和正确率,训练停止后选择IOU值最高的轮次加载训练的模型,用测试集进行测试,测试完成后效果最好的模型作为最终的训练模型。
应说明的是,IOU是指模型对某一类别预测结果和真实值的交集与并集的比值,学习率是指表示模型学习和调整权重的速度,图像批量是指单次输入图片的数量,历代数是指训练的总次数,损失值是指分类损失和目标置信度损失和定位损失组成的总损失值。
还应说明的是,集成网络将目标检测神经网络和语义分割神经网络相结合,可以做到输入一张图经过初步检测和二次检测最后输出结果,YOLO统一为一个回归问题,而R-CNN,Faster-RCNN将检测结果分为物体类别(分类问题)和物***置(回归问题)两部分求解,所以YOLO检测速度更快。
S3:通过鸟类局部图像识别的数据集训练U-net神经网络,对鸟类的肢体细节进行语义分割,确认图像中的鸟类信息。
更进一步的,通过鸟类局部图像识别的数据集训练U-net神经网络包括对U-net神经网络进行训练,学习率设置为0.0001,选用Adam作为优化器,图像批量训练大小为4,图像大小为512×512,训练过程中输出损失函数的损失值,表示为:
其中,yi和别表示像素i的预测值标签值与标签值,N表示像素点总个数。当mIOU值和损失值拟合时训练结束,输出模型,用测试集进行测试。
应说明的是,U-Net语义分割算法常用的损失函数有交叉熵损失函数和Dice损失函数。
交叉熵损失函数是分类问题中常用的损失函数,它可以度量预测输出与真实标签之间的差异。在U-Net语义分割算法中,将图像分割任务看作一个二分类问题,将像素点分为前景与背景两类,使用交叉熵损失函数来度量模型的预测结果和真实标签之间的差异。
对于在二分类损失函数中应用,交叉熵损失函数为以下形式:
其中在二分类问题中,其取值只可能为集合{0,1}.我们假设某个样本点的真实标签为y,该样本点取y=1的概率为则可计算出交叉熵损失L。
而Dice损失函数则可以度量预测结果和真实标签之间的相似程度,Dice损失函数越小,表示模型的预测结果和真实标签之间的相似度越高。将交叉熵损失函数和Dice损失函数结合起来,可以帮助模型更好地匹配真实标签,在图像分割任务中取得更好的性能表现。
应说明的是,为保证二次检测的精确度,设置学习率为0.0001,以增强精确度,且不会对loss造成下降过慢的影响。
应说明的是,确认图像中的鸟类信息包括将YOLO神经网络输出目标检测模型认为区域包含鸟类信息的方框图发送到U-net神经网络的语义分割模型的检测路径中,对图像中每个像素点进行分类,将无关的像素点分为背景类,将属于鸟类信息的像素点分到对应的肢体细节标签类中,最终生成第二次检测结果图,其中,背景类的像素信息设置为黑色,鸟类的四种类别信息分别为红,黄,绿,蓝四种颜色。
还应说明的是,第二次检测结果图像不会出现五种颜色之外的颜色,出现其他颜色说明模型训练错误,需重新训练模型。
更进一步的,确认图像中的鸟类信息还包括当YOLO神经网络输出结果置信度高于0.8的图像且第二次识别结果存在鸟类头部或翅膀或羽毛或爪子的像素的任一一种,确认当前识别结果包含鸟类信息发送驱鸟指令;
当YOLO神经网络输出结果置信度高于0.8的图像,但第二次识别结果不存在鸟类的肢体细节,则视为初步检测结果为似鸟非鸟,不发送驱鸟指令;
当YOLO神经网络输出结果置信度低0.8的图像,视为图像中不存在鸟类和似鸟非鸟的图像,不进行第二次检测,判断为不存在鸟类。
应说明的是,初检测模型采用YOLO网络,二次检测模型采用U-net网络。目标检测是把检测问题看作是回归问题,其本质是概率问题,对模型的精度要求较高,输入图像分辨率要求较高,语义分割要对图像的每一个像素点进行分类,检测准确度较高但对于高分辨率图像,像素点增加,检测精度和速度均下降。但是目标检测的精度与训练数据集的数量,输入图像的质量以及训练的轮次有关,在现实场景中没那么好的摄像配置和拍摄角度,当输入图像较模糊,数据集数量较少时,检测效果显著降低,容易将类鸟,非鸟物体判断成鸟类,而经过初定位后的图像比原图小很多,去除了无关背景的干扰同时降低了检测图像的分辨率,语义分割可以快速进行分类,完成对初定位图像的二次检测,因此,通过集成网络的方法,避免了YOLO网络精度不足容易误判,U-net网络训练速度慢的缺点。
实施例2
本发明的一个实施例,提供了一种防止误判的鸟类图像识别方法,为了验证本发明的有益效果,通过经济效益计算和仿真实验进行科学论证。
采用被遮挡的鸟类图片20张,每张图片内均可能出现对非鸟类鸟物体的错误识别情况。
如表1鸟类图片检测准确率分析表所示,综合识别正确率均下降了17%,经过人工验证,确实都是对非鸟,类鸟的误判断,整体检测准确率明显提高。单独的目标识别或是单独的语义分割,均具有较高的纸面准确率,但是这些准确率包含了似鸟非鸟物体和类鸟物体的判断,较高的准确率反而造成驱鸟资源的浪费。通过将两种算法结合将待检测图像作为输入通过目标检测算法缩小范围,再通过语义分割算法对局部图进行分割,确定局部图内包含鸟类的特征,减少识别时间,并可以判别是否存在被遮挡的鸟类、似鸟非鸟物体和小尺寸鸟类,降低误判概率,由于仅进行了20次实验,实验中降低了100%的误判率,体现出我方发明在避免误判这方面比现有的目标识别和语义分割具有显著的提升。
表1鸟类图片检测准确率分析表
图片序号 | 目标检测识别结果 | 语义分割识别结果 | 综合识别结果 |
1 | 0.95 | 1 | 0.95 |
2 | 0.93 | 1 | 0.93 |
3 | 0.86 | 0 | 0.00 |
4 | 0.94 | 1 | 0.94 |
5 | 0.96 | 1 | 0.96 |
6 | 0.81 | 0 | 0.00 |
7 | 0.92 | 1 | 0.92 |
8 | 0.88 | 1 | 0.88 |
9 | 0.95 | 1 | 0.95 |
10 | 0.96 | 1 | 0.96 |
11 | 0.88 | 1 | 0.88 |
12 | 0.94 | 1 | 0.94 |
13 | 0.85 | 0 | 0.00 |
14 | 0.93 | 1 | 0.93 |
15 | 0.96 | 1 | 0.96 |
16 | 0.94 | 1 | 0.94 |
17 | 0.82 | 0 | 0.00 |
18 | 0.93 | 1 | 0.93 |
19 | 0.95 | 1 | 0.95 |
20 | 0.96 | 1 | 0.96 |
平均准确率 | 0.92 | 0.8 | 0.75 |
实施例3
参照图2,为本发明的一个实施例,提供了一种防止误判的鸟类图像识别***,包括:数据整合模块、初步识别模块、二次检测模块。
数据整合模块用于采集鸟类图像数据构建数据集并分类为鸟类整体数据集和鸟类局部图像,进行图像数据增广,划分数据集和测试集。
初步识别模块用于对数据集进行初步识别,判别图像中是否存在鸟类和似鸟物体。
二次检测模块用于对初步识别后的图像进行二次识别,识别图中的鸟类局部图,判别似鸟物体是否为鸟类。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种防止误判的鸟类图像识别方法,其特征在于,包括:
建立自然光环境下鸟类整体和局部图像识别的数据集,对鸟类进行标注;
通过鸟类整体图像识别的数据集训练用于目标检测的YOLO神经网络,对鸟类进行初步识别和粗定位;
通过鸟类局部图像识别的数据集训练U-net神经网络,对鸟类的肢体细节进行语义分割,确认图像中的鸟类信息。
2.如权利要求1所述的防止误判的鸟类图像识别方法,其特征在于:所述建立自然光环境下鸟类整体和局部图像识别的数据集包括通过对监控视频进行抽帧、搜索摄像图像数据库以及现场拍照的方式收集自然光场景下包含鸟类信息的图像,建立鸟类整体图像识别的数据集对鸟类整体进行标注,建立鸟类局部图像识别的数据集对包含鸟类头部、翅膀、羽毛以及爪子的鸟类肢体信息进行标注,采用平移,缩放,旋转的方式集的图像进行图像数据增广,将增广后的图像数据按照9:1的比例分别作为训练集和测试集两部分。
3.如权利要求1或2所述的防止误判的鸟类图像识别方法,其特征在于:所述训练用于目标检测的YOLO神经网络包括对YOLO神经网络进行训练,学习率设置为0.01,历代数设置为300,训练过程中输出损失函数的损失值,表示为:
其中,S2表示单个图像单元格面积,每个图像被分成了S*S的单元格,B表示每一个网格内生成目标边框数量,obj表示目标对象,noobj表示没有目标对象,λcoord表示位置损失权重系数,λnoobj表示边界框在损失函数中所占的比重系数,表示包含目标对象的第i个网格的第j个预测框,/>表示不包含目标对象的第i个网格的第j个预测框,/>表示包含目标的第i个网格,xi和yi表示物体的中心点坐标预测值,wi和hi表示边界框的宽和高的预测值,/>和/>表示实际物体的中心点坐标值,/>和/>表示实际边界框的宽和高,Ci表示预测到的物体的种类数,/>表示实际物体的种类数,pi(c)表示预测到的存在物体的可能性,/>表示存在物体的可能性,c表示具体的种类,classes表示物体的种类总数。
4.如权利要求3所述的防止误判的鸟类图像识别方法,其特征在于:所述对鸟类进行初步识别和粗定位包括将鸟类整体图像识别的数据集输入进行训练,当mIOU值和损失值拟合时训练结束,输出模型,用测试集进行测试;
通过训练后的YOLO神经网络对待检测图像进行识别检测,得到第一次检测结果图,对第一次识别结果图中方形边界框所在位置进行裁剪,得到只属于边界框限制区域的图像。
5.如权利要求4所述的防止误判的鸟类图像识别方法,其特征在于:所述通过鸟类局部图像识别的数据集训练U-net神经网络包括对U-net神经网络进行训练,学习率设置为0.0001,选用Adam作为优化器,训练过程中输出损失函数的损失值,表示为:
其中,yi和别表示像素i的预测值标签值与标签值,N表示像素点总个数;
当mIOU值和损失值拟合时训练结束,输出模型,用测试集进行测试。
6.如权利要求5所述的防止误判的鸟类图像识别方法,其特征在于:所述确认图像中的鸟类信息包括将YOLO神经网络输出目标检测模型认为区域包含鸟类信息的方框图发送到U-net神经网络的语义分割模型的检测路径中,对图像中每个像素点进行分类,将无关的像素点分为背景类,将属于鸟类信息的像素点分到对应的肢体细节标签类中,最终生成第二次检测结果图,其中,背景类的像素信息设置为黑色,鸟类的四种类别信息分别为红,黄,绿,蓝四种颜色。
7.如权利要求6所述的防止误判的鸟类图像识别方法,其特征在于:所述确认图像中的鸟类信息还包括当YOLO神经网络输出结果置信度高于0.8的图像且第二次识别结果存在鸟类头部或翅膀或羽毛或爪子的像素的任一一种,确认当前识别结果包含鸟类信息发送驱鸟指令;
当YOLO神经网络输出结果置信度高于0.8的图像,但第二次识别结果不存在鸟类的肢体细节,则视为初步检测结果为似鸟非鸟,不发送驱鸟指令;
当YOLO神经网络输出结果置信度低0.8的图像,视为图像中不存在鸟类和似鸟非鸟的图像,不进行第二次检测,判断为不存在鸟类。
8.一种采用如权利要求1~7任一所述的防止误判的鸟类图像识别方法的***,其特征在于:包括,数据整合模块、初步识别模块、二次检测模块;
所述数据整合模块用于采集鸟类图像数据构建数据集并分类为鸟类整体数据集和鸟类局部图像,进行图像数据增广,划分数据集和测试集;
所述初步识别模块用于对数据集进行初步识别,判别图像中是否存在鸟类和似鸟物体;
所述二次检测模块用于对初步识别后的图像进行二次识别,识别图中的鸟类局部图,判别似鸟物体是否为鸟类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310603161.9A CN116740758A (zh) | 2023-05-25 | 2023-05-25 | 一种防止误判的鸟类图像识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310603161.9A CN116740758A (zh) | 2023-05-25 | 2023-05-25 | 一种防止误判的鸟类图像识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740758A true CN116740758A (zh) | 2023-09-12 |
Family
ID=87903610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310603161.9A Pending CN116740758A (zh) | 2023-05-25 | 2023-05-25 | 一种防止误判的鸟类图像识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740758A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351521A (zh) * | 2023-12-04 | 2024-01-05 | 国网山东省电力公司电力科学研究院 | 基于数字孪生的输电线鸟类检测方法、***、介质及设备 |
CN117690164A (zh) * | 2024-01-30 | 2024-03-12 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及*** |
-
2023
- 2023-05-25 CN CN202310603161.9A patent/CN116740758A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351521A (zh) * | 2023-12-04 | 2024-01-05 | 国网山东省电力公司电力科学研究院 | 基于数字孪生的输电线鸟类检测方法、***、介质及设备 |
CN117351521B (zh) * | 2023-12-04 | 2024-04-09 | 国网山东省电力公司电力科学研究院 | 基于数字孪生的输电线鸟类检测方法、***、介质及设备 |
CN117690164A (zh) * | 2024-01-30 | 2024-03-12 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及*** |
CN117690164B (zh) * | 2024-01-30 | 2024-04-30 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN109657716B (zh) | 一种基于深度学习的车辆外观损伤识别方法 | |
CN108304873B (zh) | 基于高分辨率光学卫星遥感影像的目标检测方法及其*** | |
CN108229509B (zh) | 用于识别物体类别的方法及装置、电子设备 | |
US10346720B2 (en) | Rotation variant object detection in Deep Learning | |
CN109871902B (zh) | 一种基于超分辨率对抗生成级联网络的sar小样本识别方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN116740758A (zh) | 一种防止误判的鸟类图像识别方法及*** | |
CN114663346A (zh) | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 | |
CN111695373A (zh) | 斑马线的定位方法、***、介质及设备 | |
CN111274964B (zh) | 一种基于无人机视觉显著性分析水面污染物的检测方法 | |
CN113313107A (zh) | 一种斜拉桥缆索表面多类型病害智能检测和识别方法 | |
CN113033558A (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
CN110458019B (zh) | 稀缺认知样本条件下的排除倒影干扰的水面目标检测方法 | |
CN115082776A (zh) | 一种基于图像识别的电能表自动检测***及方法 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN113313678A (zh) | 一种基于多尺度特征融合的***形态学自动分析方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN116935369A (zh) | 基于计算机视觉的船舶水尺读数方法及*** | |
CN117058069A (zh) | 一种全景影像中路面表观病害自动检测方法 | |
CN116758421A (zh) | 一种基于弱监督学习的遥感图像有向目标检测方法 | |
CN114927236A (zh) | 一种面向多重目标图像的检测方法及*** | |
CN114581771B (zh) | 一种高分异源遥感坍塌建筑物检测方法 | |
CN115984219A (zh) | 产品表面缺陷检测方法、装置、电子设备及存储介质 | |
CN111402185A (zh) | 一种图像检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |