CN112906485B - 基于改进的yolo模型的视障人士辅助障碍物感知方法 - Google Patents

基于改进的yolo模型的视障人士辅助障碍物感知方法 Download PDF

Info

Publication number
CN112906485B
CN112906485B CN202110098983.7A CN202110098983A CN112906485B CN 112906485 B CN112906485 B CN 112906485B CN 202110098983 A CN202110098983 A CN 202110098983A CN 112906485 B CN112906485 B CN 112906485B
Authority
CN
China
Prior art keywords
training
network
data
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110098983.7A
Other languages
English (en)
Other versions
CN112906485A (zh
Inventor
刘宇红
李伟斌
付建伟
张荣芬
胡国军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yixiangyou Intelligent Technology Co ltd
Original Assignee
Hangzhou Yixiangyou Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yixiangyou Intelligent Technology Co ltd filed Critical Hangzhou Yixiangyou Intelligent Technology Co ltd
Priority to CN202110098983.7A priority Critical patent/CN112906485B/zh
Publication of CN112906485A publication Critical patent/CN112906485A/zh
Application granted granted Critical
Publication of CN112906485B publication Critical patent/CN112906485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进的YOLO模型的视障人士辅助障碍物感知方法,采用Darknet‑YOLOv3为框架,同时采用Darknet‑53作为特征提取主干网络;YOLOV3算法运用特征金字塔网络FPN中的特征图上采样思想进行特征融合,从而提高对小目标检测的精度能检测识别人行道上各类常见的障碍物,包括:路锥、石球、隔离柱、禁止横杆、栏杆、消防栓、植物、人、坑、水坑等,能对交通路口的各种标识和目标进行识别,包括:斑马线、信号灯、自行车、摩托车、车辆、人等,还可以判断上楼梯、下楼梯、各种台阶,以及一些其它未知类别的障碍物目标。

Description

基于改进的YOLO模型的视障人士辅助障碍物感知方法
技术领域
本发明涉及导盲领域,尤其涉及一种基于改进的YOLO模型的视障人士辅助障碍物感知方法。
背景技术
中国是世界盲人最多的国家,约有1200万,占全世界盲人口的18%,作为社会群体中的特殊人群,他们终生生活在无边的黑暗中,因此常常会遇到各种难题,目前市场上的一些导盲产品大多结构简单而功能单一(只能简单提示前方有障碍物),虽然有些产品使用方便,但辅助效果并不明显,而且,盲人朋友在使用时会碰到诸多问题,比如路况不好,坑洼不平,前方有悬挂的障碍物等等,普通的导盲产品无法准确的探明。现有导盲产品的障碍物探测功能,仅仅局限于对障碍物的距离进行探测,不能对障碍物所在方位进行精确定位,并且只能对单一障碍物进行探测,如在多运动障碍物的探测中,仅仅能够探测到离使用者距离最近的障碍物,因此使得产品的导盲功能实用性大幅度降低。
关于智能导盲设备如导盲眼镜,在国际和国内都有团队和公司进行过研究,但由于性能以及使用体验不理想等原因始终停留在性能检测与小批量试产阶段,至今并未形成规模化市场。尤其是在国内,对盲人辅助导盲设备的研发更是处于起步阶段,距大规模产品化、商业化还有很长的一段距离,而且就目前而言,我国针对导盲设备的市场空间还远没有达到发展普及阶段,因此解决这一类的问题显得尤为重要。
发明内容
针对上述问题,本发明提供了一种基于改进的YOLO模型的视障人士辅助障碍物感知方法,能检测识别人行道上各类常见的障碍物,包括:路锥、石球、隔离柱、禁止横杆、栏杆、消防栓、植物、人、坑、水坑等,能对交通路口的各种标识和目标进行识别,包括:斑马线、信号灯、自行车、摩托车、车辆、人等,还可以判断上楼梯、下楼梯、各种台阶,以及一些其它未知类别的障碍物目标。
为了实现上述技术方案,本发明提供了一种基于改进的YOLO模型的视障人士辅助障碍物感知方法,包括以下步骤:
步骤一:建立YOLOV3算法框架
采用Darknet-YOLOv3为框架,YOLOV3算法基于GoogleNet的卷积神经网络,采用Darknet-53作为特征提取主干网络;YOLOV3算法为全卷积网络,其在Darknet-53结构中多次采用跳层残差模块,并利用卷积的步长移动实现下采样操作,避免直接使用池化运算而导致梯度***的现象,并且YOLOV3算法运用特征金字塔网络FPN中的特征图上采样思想进行特征融合,从而提高对小目标检测的精度;
YOLOV3算法在进行目标检测时,先通过特征提取网络Darknet-53对输入图像进行特征提取,得到不同尺度的3个特征图层,每个特征图层中每个cell对应原图中一个小方块,假设被检测物体(Ground truth)的中心坐标位于哪个小方块,则该方块就用来预测物体;
步骤二:数据增广处理
在数据读取层与特征提取层之间增加数据增广层,不仅包括对数据采用旋转、拉伸进行几何变换方式增广数据外,还融合了MSRCR算法进行数据增强,使***适应光照条件较差的检测任务,以提高模型框架的泛化性;
步骤三:预训练
采用预训练再微调的方式重新训练分类器,使网络适应不同光照环境下的检测任务,采用在VOC2007和VOC2012混合的数据集上进行预训练,再融合自制的数据集,在不同光照环境的障碍物数据上微调模型;
步骤四:多尺度训练
采用多尺度训练的方式,随机调整输入数据的尺寸,增强模型的健壮性,将训练数据输入网络,经图像预处理后,分别使用32、64个3*3大小的卷积核进行滤波,执行下采样处理,得到240*240大小的特征图,然后在卷积单元中交替***1*1、3*3大小卷积核组成的残差块,由5组残差块分别计算出分辨率为240*240、120*120、60*60、30*30、15*15的特征图;所有的卷积单元由卷积层、BN层、池化层组成,以便加快模型收敛,降低模型参数;
步骤五:改进YOLOv3的网络结构
在主干网络中添加卷积层,在保证效率的同时提升精度,以增加在使用场景的实用性和准确性;
步骤六:基于TensorRT进行推理加速
采用低精度参数的方式来进行相关计算和加速模型推理,采用TensorRT降低检测模型的推理时长;
步骤七:添加注意力机制模块
在尺度为26*26输出部分添加了加了一个注意力机制模块,对信息进行refine,从而优化学习到的内容,并且加强了对于小目标的检测能力,添加4层卷积层qie融入注意力机制模块后的网络本文称之为SE-YOLOv3;
步骤八:利用GIOULoss作为目标框坐标回归的损失度量标准GIOULoss为距离度量标准,其值的计算如下所示,其中Ac为两目标框的最小闭包区域面积,U为两目标框的相交面积
Figure GDA0004017711800000041
GIOULoss的计算如下所示:
LGIOU=l-GfOU
Soft-NMS以一个权重的形式,来获得IOU取高斯指数后乘上原得分,之后重新排序,继续循环;在Darknet-YOLOv3中,骨干网络共有31个卷积层,该网络结构包含1×,2×残差块的6组网络,相对于原YOLOv3中1×,2×,8×,8×,4×残差块的5组网络,参数数量减少60%,运算复杂度下降,实现检测速度的提升;特征交互层分为四个尺度,每个尺度内通过上采样方式实现特征交互,四个尺度尺寸为y1:(13×13),y2:(26×26),y3:(52×52),y4:(104×104);
步骤九:模型训练
首先所需类别对图像进行标注,在data/predefined_classes.txt中预先设置所有标注类别,将标记框调整至贴合目标边沿,完成标记后,在data/Annotations中保存xml,每个xml与图像一一对应,其中包含图片名字、所在路径、标注框的像素位置和标注类别;
然后训练策略及参数配置,通过融入MSRCR算法重新编译的Darknet框架预训练得到barrier.weights文件,该文件以序列的方式保存了整个卷积神经网络的权重,使用./darknetpartial命令将其转换成只含卷积层权重的预训练文件barrier.conv.74,然后固定网络的53个卷积层,针对最后的分类层进行微调,观察LOG的参数变化,训练至模型loss不再收敛为止,微调训练的超参数在Darknet的cfg文件中配置。
进一步改进在于,在步骤一中,每个方块对应9个预测框,在这几个预测框中只有和被检测物体的IOU最大的边界框才被用来预测物体。
进一步改进在于,在步骤二中,所述数据增强采用MSRCR算法来增强并修复噪声图像,具体为包括有分析并消除图像中的背景光源信号,通过去除图像中的光照信息增强图像,使色彩更贴合实际,以便于后续对有效信息进行提取及分析,所述MSRCR算法公式为:
Figure GDA0004017711800000051
其中Ii(x,y)表示在空间(x,y)中第i个光谱带的图像信息,“*”表示卷积运算,Fn(x,y)是以高斯函数实现的环绕函数,G和b分别是最终的增益和偏移量,这两个值为经验参数;Ci(x,y)是色度空间中第i个通道的颜色恢复函数(CRF),用公式表示为:
Figure GDA0004017711800000061
其中β为控制颜色修复的增益,α为控制颜色修复的非线性增益,S表示图片的通道数。
进一步改进在于,所述MSRCR算法的具体步骤如下:
步骤一:梳理Darknet源码,熟悉框架中数据的加载与处理流程;
步骤二:在darknet/src/image_opencv.cpp基础上进行修改,使用OpenCV编写MSRCR算法程序,并在源码的load_image_cv函数中调用编写的msrcr.MultiScaleRetinexCR函数进行图像增强处理;
步骤三:处理完的图像使用mat_to_image由mat格式转换为image结构体;
步骤四:将编写的msrcr.h和image_opencv.cpp加入darknet/src/中,编译源码。
进一步改进在于,在步骤三中,预训练的具体步骤如下:
步骤一:首先在VOC2007和VOC2012混合的数据集上对改进的障碍物识别网络进行预训练,初始学习率为0.01,迭代16万次,得到barrier.conv.74预训练网络权值;
步骤二:将最后一个卷积层的滤波器个数设置为84,三个yolo层中类别数量设置为23,固定预训练模型中卷积层的权重参数,然后在自制的标注障碍物数据集上进行微调,更新权重,重新训练适合障碍物识别的检测模型。
本发明的有益效果是:本发明能检测识别人行道上各类常见的障碍物,包括:路锥、石球、隔离柱、禁止横杆、栏杆、消防栓、植物、人、坑、水坑等,能对交通路口的各种标识和目标进行识别,包括:斑马线、信号灯、自行车、摩托车、车辆、人等,还可以判断上楼梯、下楼梯、各种台阶,以及一些其它未知类别的障碍物目标。
附图说明
图1为本发明的YOLOV3算法网络结构图。
图2为本发明的带图像增强的预处理算法流程图。
图3为本发明的详细的网络参数。
图4为本发明的改进的YOLOv3网络结构图。
图5为本发明的SE-YOLOv3网络结构。
图6为本发明的训练阶段的参数配置。
图7为本发明的网络中的参数配置。
图8为本发明的微调的训练日志。
图9为本发明的改进型Darknet-YOLOv3的网络模型图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明做进一步详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
根据图1-图8所示,本实施例提供了一种基于改进的YOLO模型的视障人士辅助障碍物感知方法,包括以下步骤:
步骤一:建立YOLOV3算法框架
采用Darknet-YOLOv3为框架,YOLOV3算法基于GoogleNet的卷积神经网络,采用Darknet-53作为特征提取主干网络,使其计算复杂度降低,推理速度得到提高,从而可以部署到边缘计算***;YOLOV3算法为全卷积网络,其在Darknet-53结构中多次采用跳层残差模块,并利用卷积的步长移动实现下采样操作,避免直接使用池化运算而导致梯度***的现象,并且YOLOV3算法运用特征金字塔网络FPN中的特征图上采样思想进行特征融合,从而提高对小目标检测的精度,如图1所示;
YOLOV3算法在进行目标检测时,先通过特征提取网络Darknet-53对输入图像进行特征提取,得到不同尺度的3个特征图层,每个特征图层中每个cell对应原图中一个小方块,假设被检测物体(Ground truth)的中心坐标位于哪个小方块,则该方块就用来预测物体;
特征融合后最终输出3个尺度的特征图层,如下表所示:
YOLOV3算法3个尺寸特征图对比表
Figure GDA0004017711800000081
由上表分析可知:特征图层1的输出特征图大小为13×13,每个像素(cell)都会对应3个边界框(boundingbox)。在YOLOV3算法的网络结构中,由于特征图层1属于高层特征,感受野最大,适合检测大物体,所以每个cell所对应的3个边界框的尺寸大小分别为116×90、156×198、376×326,预测边框的数量为13×13×3=507。特征图层2输出特征图大小为26×26,感受野适中,适合检测一般大小物体,预测边框尺寸分别为30×61、62×45、59×119,预测边框的数量为26×26×3=2028。特征图层3输出特征图大小为52×52,感受野最小,适合检测小物体,预测边框尺寸分别为10×13、16×30、32×23,预测边框的数量为52×52×3=8112。因此,假设输入图像大小为416×416,YOLOV3算法总共产生预测边界框的数量为(13×13+26×26+52×52)×3=10647,每个边界框都会预测输出物体类别概率得分及边框位置坐标。
算法在进行目标检测时,先通过特征提取网络Darknet-53对输入图像进行特征提取,得到不同尺度的3个特征图层,每个特征图层中每个cell就会对应原图中一个小方块,假设被检测物体(Groundtruth)的中心坐标位于哪个小方块,则该方块就用来预测物体。每个方块对应9个预测框,在这几个预测框中只有和被检测物体的IOU最大的边界框才被用来预测物体。预设边界框到最终预测边界框的转换过程如下述公式所示:
bx=σ(tx)+cx
by=σ(ty)+cy
Figure GDA0004017711800000091
Figure GDA0004017711800000092
其中σ(x)是sigmoid函数,cx与cy是预测边界框在特征图上的中心坐标,pw与ph是预设的边界框的边长,最终得到的边框坐标值为bx,y,w,h,而网络学习目标为tx,y.w,h
步骤二:数据增广处理
YOLOv3算法在良好的光照条件下表现较佳,在光照不足的情况下容易造成漏检或误检,本***的实际应用环境复杂,极易受各种因素影响,为了使YOLOv3算法更适用于障碍物检测识别***,本设计对YOLOv3进行了数据增广处理。由于自主采集的数据样本较少,缺乏多样性,容易导致模型出现过拟合的现象。另外,盲人出行遇到的天气因素也会对检测精度造成影响,故在特征提取前采用数据增广进行处理,提高数据多样性;
在数据读取层与特征提取层之间增加数据增广层(Data Augmentation),不仅包括对数据采用旋转、拉伸进行几何变换方式增广数据外,还融合了MSRCR(带色彩恢复的多尺度视网膜增强)算法进行数据增强,使***适应光照条件较差的检测任务,以提高模型框架的泛化性;
图像增强理论Retinex的主要内容为:物体的颜色取决于对长、中、短波光线的反射能力,不受光照非均性的影响,具有一致性。而人眼所感知的颜色实质是光与物体相互作用的效果,Retinex理论通过模拟人类视觉***,分析并消除图像中的背景光源信号,通过去除图像中的光照信息增强图像,使色彩更贴合实际,便于后续对有效信息进行提取及分析。
目前常用的Retinex算法有:单尺度Retinex算法(SSR)、多尺度Retinex算法(MSR)、带色彩恢复的多尺度Retinex算法(MSRCR)。这些经典的算法各有利弊,SSR算法在图像保真性能上与动态压缩不能兼顾。
在本实施例中,所述数据增强采用MSRCR算法来增强并修复噪声图像,具体为包括有分析并消除图像中的背景光源信号,通过去除图像中的光照信息增强图像,使色彩更贴合实际,以便于后续对有效信息进行提取及分析,所述MSRCR算法公式为:
Figure GDA0004017711800000111
其中Ii(x,y)表示在空间(x,y)中第i个光谱带的图像信息,“*”表示卷积运算,Fn(x,y)是以高斯函数实现的环绕函数,G和b分别是最终的增益和偏移量,这两个值为经验参数;Ci(x,y)是色度空间中第i个通道的颜色恢复函数(CRF),用公式表示为:
Figure GDA0004017711800000112
其中β为控制颜色修复的增益,α为控制颜色修复的非线性增益,S表示图片的通道数。
实验证明,MSRCR参数的设定起到了关键作用。增益G和偏移量b越大,模糊效应越强,处理后的图像偏色越严重,反之则增强效果不明显。α和β越大,图像对比度及亮度越高,图像像素不连续,清晰度越差,反之则图像饱和度、对比度和亮度越低。经反复试验,算法经验参数设定情况为:S设置为3,光线弱图像的G和b分别设置为4和50,α和β分别设置为2和50,为了兼顾图像动态范围压缩的效果及颜色保真度,本文从30、150、300三个尺度进行高斯模糊,然后将处理结果以1/3的权重比例进行融合。针对不同的光照环境设定像素改变范围的增益、偏移量及图像修复权重,能有效修复图像,最大化还原图像信息。
在数据层与特征提取网络之间增加了一个带图像增强的预处理算法,参数设置如上所述,此层对原始的数据通道及维度不造成影响,如图2所示。
所述MSRCR算法的具体步骤如下:
步骤一:梳理Darknet源码,熟悉框架中数据的加载与处理流程;
步骤二:在darknet/src/image_opencv.cpp基础上进行修改,使用OpenCV编写MSRCR算法程序,并在源码的load_image_cv函数中调用编写的msrcr.MultiScaleRetinexCR函数进行图像增强处理;
步骤三:处理完的图像使用mat_to_image由mat格式转换为image结构体;
步骤四:将编写的msrcr.h和image_opencv.cpp加入darknet/src/中,编译源码。
重新编译的Darknet框架,在训练的时候,能直接执行MSRCR算法进行数据增广,识别时也能调用算法对图像进行预处理。
步骤三:预训练
在训练网络时,调参策略的选择也可能对模型性能的优劣及训练时长存在重要影响。本实施例中的障碍物识别网络层数较深,在小规模数据样本上采用监督学习易导致梯度弥散,故采用预训练再微调的方式重新训练分类器,使网络能适应不同光照环境下的检测任务。
本实施例采用预训练再微调的方式重新训练分类器,使网络适应不同光照环境下的检测任务,采用在VOC2007和VOC2012混合的数据集上进行预训练,再融合自制的数据集,在不同光照环境的障碍物数据上微调模型,具体操作步骤如下:
S1、首先在VOC2007和VOC2012混合的数据集上对改进的障碍物识别网络进行预训练,初始学习率为0.01,迭代16万次,得到barrier.conv.74预训练网络权值;
S2、将最后一个卷积层的滤波器个数设置为84,三个yolo层中类别数量设置为23,固定预训练模型中卷积层的权重参数,然后在自制的标注障碍物数据集上进行微调(fine-tuning),更新权重,重新训练适合障碍物识别的检测模型。
步骤四:多尺度训练
采用多尺度训练的方式,随机调整输入数据的尺寸,增强模型的健壮性;YOLOv3网络中包含3个yolo层,每层的尺度数各不相同,分别输出13*13、26*26、52*52分辨率的特征图。为了适应不同大小的输入图像,采用多尺度训练的方式,将random参数设置为1,随机输入不同尺寸的图像提取特征。为获得适合障碍物数据的感受野,本文将输入图像分辨率设置为480*480,详细的网络参数如图4所示,将训练数据输入网络,经图像预处理后,分别使用32、64个3*3大小的卷积核进行滤波,执行下采样处理,得到240*240大小的特征图,然后在卷积单元中交替***1*1、3*3大小卷积核组成的残差块,由5组残差块分别计算出分辨率为240*240、120*120、60*60、30*30、15*15的特征图。所有的卷积单元由卷积层、BN层、池化层组成,以便加快模型收敛,降低模型参数,如图3所示。
步骤五:改进YOLOv3的网络结构
为减轻网络,降低运算复杂度,提升检测速度,提高障碍物检测识别的实时性,本设计引入了YOLOv3-tiny的设计思想。YOLOv3-tiny的网络层中有7层的卷积层,相比YOLOv3的75层大大减少,所以YOLOv3-tiny的检测精度也下降不少,对某些目标物体的特征提取也受到了限制。随着层数的加深,网络结构对于特征提取的效果也越好,从深层网络角度来看,不同层的学***衡了精度与速度。改进的YOLOv3-tiny网络结构图如图4所示。
步骤六:基于TensorRT进行推理加速
通常,为了保证计算的精度,大部分的算法框架的深度网络权值使用的都是单精度浮点数据,在计算机中单精度浮点类型数据是很常见的,但是在储存时占用的空间是半精度浮点的两倍,并且计算复杂度高。在IEEE754标准中定义了一种半精度浮点类型,在CUDA中被称作Half类型,在相同的时间周期内完成两个半精度浮点类型运算,相对于单精度的数据类型,提升了大量的计算速度。
深度学***台支持半精度浮点数运算,理论上半精度浮点数运算速度时单精度浮点数的两倍,因此本实施例采用TensorRT降低检测模型的推理时长;
步骤七:添加注意力机制模块
注意力机制可以帮助模型获取表达能力更强的语义信息,这种语义信息可以捕捉到图像中对于某一特定任务贡献最显著的那些区域,忽略掉会带来负面效应的区域(噪声元素等),从而提高整个模型的拟合能力
为了增强对小目标检测信息能力,本实施例中,在尺度为26*26输出部分添加了加了一个注意力机制模块,对信息进行refine,从而优化学习到的内容,并且加强了对于小目标的检测能力,添加4层卷积层融入注意力机制模块后的网络本文称之为SE-YOLOv3,网络结构如图5所示;
步骤八:利用GIOULoss作为目标框坐标回归的损失度量标准GIOULoss为距离度量标准,其值的计算如下所示,其中Ac为两目标框的最小闭包区域面积,U为两目标框的相交面积
Figure GDA0004017711800000161
GIOULoss的计算如下所示:
LGIOU=1-GIOU
Soft-NMS以一个权重的形式,来获得IOU取高斯指数后乘上原得分,之后重新排序,继续循环;在Darknet-YOLOv3中,骨干网络共有31个卷积层,该网络结构包含1×,2×残差块的6组网络,相对于原YOLOv3中1×,2×,8×,8×,4×残差块的5组网络,参数数量减少60%,运算复杂度下降,实现检测速度的提升;特征交互层分为四个尺度,每个尺度内通过上采样方式实现特征交互,四个尺度尺寸为y1:(13×13),y2:(26×26),y3:(52×52),y4:(104×104),图9为本设计改进型Darknet-YOLOv3的网络模型;
步骤九:模型训练
障碍物这一概念较笼统,涉及的类别广泛,故本实施例针对生活中常见的部分可能妨碍盲人出行、威胁其安全的物体类别建立障碍物数据库。数据库图像主要来源于:实际道路采集及网络爬取的自制障碍物数据集、VOC2007及VOC2012数据集本实施例建立的障碍物数据集共28800张,包括日间数据和夜间数据。分辨率为640*480,其中包含23个类别,随机按照6:2:2的比例划分出17280张图像作为训练集,测试集、验证集各5760张。
由于开源数据集中缺乏部分所需类别,如:斑马线、红灯、绿灯等,因此需要标注自制的障碍物数据集。利用可视化的标注工具LabelImg进行手工标注,该工具有Windows和Linux两个平台的版本,本文在Linux平台上配置所需环境:Python、lxml库。针对所需类别对图像进行标注,具体步骤为:在data/predefined_classes.txt中预先设置所有标注类别,将标记框调整至贴合目标边沿,完成标记后,在data/Annotations中会保存xml,每个xml与图像一一对应,其中包含图片名字、所在路径、标注框的像素位置和标注类别。
然后训练策略及参数配置,通过融入MSRCR算法重新编译的Darknet框架预训练得到barrier.weights文件,该文件以序列的方式保存了整个卷积神经网络的权重,使用./darknetpartial命令将其转换成只含卷积层权重的预训练文件barrier.conv.74,然后固定网络的53个卷积层,针对最后的分类层进行微调,观察LOG的参数变化,训练至模型loss不再收敛为止,训练耗时总计约7小时30分钟。微调训练的超参数在Darknet的cfg文件中配置,具体内容如图6所示。
在训练一个模型时,超参数的优化决定模型的泛化能力,本实施例采用试错法确定超参数的设置。上图6中batch表示批梯度下降算法中每次迭代遍历的样本数量,batch设置得较小有助于避免网络陷入局部最优。subdivisions是分割一个batch的数量,在显存有限的情况下可分割成多个子batch输入网络。输入图像的尺寸为480*480,通道数为3,冲量momentum及权值衰减decay分别设置成0.9和0.0005,这样设置能加快网络收敛速度,抑制过拟合。angle、saturation、exposure、hue分别对应旋转、饱和度、曝光、色调变化的参数。由于本文数据量较大,初始学习率设置为0.001,共迭代80000次,采用steps的学习策略,在迭代30000、70000次时改变学习率。
本实施例的障碍物数据集共包含23个类,故将特征提取的最后一个卷积层滤波器数量设置为3*(1+4+23)=84个,修改三个yolo层中的classes为23,如图7所示。
图8为Darknet微调训练时输出的日志,其中Region82、94、106分别为三个不同尺度上的预测情况,AvgIOU表示预测框与手工标注框在一个批次中的平均交并比,该值越大表示模型训练的程度越好(范围不超过1),Class为物体的分类置信度,.5R和.75R分别是阈值IOU=0.5和0.75下的召回率,该值越接近1说明检测越好。训练截止时,学***均损失为0.589084。由于训练设置的batch=64,使用两块GPU迭代各8万次,故训练的图片总数为80000*2*64=10240000张。
盲人佩戴或穿上集成了智能感知***的穿戴式终端后,在出行的过程可以通过本***自动感知前方一定距离内的障碍物,并检测识别出障碍物的距离和方位,规划出有效的行走线路,通过语音提醒盲人下一步的行走方向。假设盲人每步行走的步距在0.5m内,每次播报的障碍物是以盲人为基准点,前方大约1.5m*1.5m有效区域范围内距离盲人最近的一个目标,播报的行走方向有5种可能的路线:左方、右方、左前方、正前方和右前方,如何行走取决于路径规划的结果,而路径规划又要根据当前前方有效区域内的障碍物分布确定。如果遇到左、中、右都有障碍物不能通行,***会让盲人停止行走,后退一步,并报警提示,然后重新规划路径。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种基于改进的YOLO模型的视障人士辅助障碍物感知方法,其特征在于,包括以下步骤:
步骤一:建立YOLOV3算法框架
采用Darknet-YOLOv3为框架,YOLOV3算法基于GoogleNet的卷积神经网络,采用Darknet-53作为特征提取主干网络;YOLOV3算法为全卷积网络,其多次采用跳层残差模块,利用卷积的步长移动实现下采样操作,运用特征金字塔网络FPN中的特征图上采样思想进行特征融合;
YOLOV3算法在进行目标检测时,先通过特征提取网络Darknet-53对输入图像进行特征提取,得到不同尺度的3个特征图层,每个特征图层中每个类对应原图中一个方块,假设被检测物体的中心坐标位于哪个方块,则该方块就用来预测物体;
步骤二:数据增广处理
在数据读取层与特征提取层之间增加数据增广层,对数据采用旋转、拉伸进行几何变换方式增广数据,融合MSRCR算法进行数据增强,以适应较差光照条件;
其中数据增强采用MSRCR算法来增强并修复噪声图像,具体包括分析并消除图像中的背景光源信号,通过去除图像中的光照信息增强图像,所述MSRCR算法公式为:
Figure FDA0003967619860000011
其中Ii(x,y)表示在空间(x,y)中第i个光谱带的图像信息,“*”表示卷积运算,Fn(x,y)是以高斯函数实现的环绕函数,G和b分别是最终的增益和偏移量,这两个值为经验参数;Ci(x,y)是色度空间中第i个通道的颜色恢复函数(CRF),用公式表示为:
Figure FDA0003967619860000021
其中β为控制颜色修复的增益,α为控制颜色修复的非线性增益,S表示图片的通道数,S设置为3,光线弱图像的G和b分别设置为4和50,α和β分别设置为2和50,从30、150、300三个尺度进行高斯模糊,然后将处理结果以1/3的权重比例进行融合;
步骤三:预训练
采用预训练再微调的方式重新训练分类器,使网络适应不同光照环境下的检测任务,采用在VOC2007和VOC2012混合的数据集上进行预训练,再融合自制的数据集,在不同光照环境的障碍物数据上微调模型;
步骤四:多尺度训练
采用多尺度训练的方式,随机调整输入数据的尺寸,将训练数据输入网络,经图像预处理后,分别使用32、64个3*3大小的卷积核进行滤波,执行下采样处理,得到240*240大小的特征图,然后在卷积单元中交替***1*1、3*3大小卷积核组成的残差块,由5组残差块分别计算出分辨率为240*240、120*120、60*60、30*30、15*15的特征图;所有的卷积单元由卷积层、BN层、池化层组成;
步骤五:改进YOLOv3的网络结构
在主干网络中添加卷积层,在保证效率的同时提升精度,以增加在使用场景的实用性和准确性;
步骤六:基于TensorRT进行推理加速
采用低精度参数的方式来进行相关计算和加速模型推理,采用TensorRT降低检测模型的推理时长;
步骤七:添加注意力机制模块
在尺度为26*26输出部分添加了一个注意力机制模块,对信息进行精炼提纯,添加4层卷积层融入注意力机制模块后的网络为SE-YOLOv3;
步骤八:利用GIOU Loss作为目标框坐标回归的损失度量标准GIOU Loss为距离度量标准,其值的计算如下所示,其中Ac为两目标框的最小闭包区域面积,U为两目标框的相交面积
Figure FDA0003967619860000031
GIOU的损失函数LGIOU的计算如下所示:
LGIOU=1-GIOU
Soft-NMS以一个权重的形式,来获得IOU取高斯指数后乘上原得分,之后重新排序,继续循环;在Darknet-YOLOv3中,骨干网络共有31个卷积层,该网络结构包含1×,2×残差块的6组网络;特征交互层分为四个尺度,每个尺度内通过上采样方式实现特征交互,四个尺度尺寸为y1:(13×13),y2:(26×26),y3:(52×52),y4:(104×104);
步骤九:模型训练
首先所需类别对图像进行标注,在data/predefined_classes.txt中预先设置所有标注类别,将标记框调整至贴合目标边沿,完成标记后,在data/Annotations中保存xml,每个xml与图像一一对应,其中包含图片名字、所在路径、标注框的像素位置和标注类别;
然后训练策略及参数配置,通过融入MSRCR算法重新编译的Darknet框架预训练得到barrier.weights文件,该文件以序列的方式保存了整个卷积神经网络的权重,使用./darknet partial命令将其转换成只含卷积层权重的预训练文件barrier.conv.74,然后固定网络的53个卷积层,针对最后的分类层进行微调,观察LOG的参数变化,训练至模型loss不再收敛为止,微调训练的超参数在Darknet的cfg文件中配置。
2.根据权利要求1所述的基于改进的YOLO模型的视障人士辅助障碍物感知方法,其特征在于,在步骤一中,每个方块对应9个预测框,在这几个预测框中只有和被检测物体的IOU最大的边界框才被用来预测物体。
3.根据权利要求1所述的基于改进的YOLO模型的视障人士辅助障碍物感知方法,其特征在于,在步骤三中,预训练的具体步骤如下:
步骤一:首先在VOC2007和VOC2012混合的数据集上对改进的障碍物识别网络进行预训练,初始学习率为0.01,迭代16万次,得到barrier.conv.74预训练网络权值;
步骤二:将最后一个卷积层的滤波器个数设置为84,三个YOLO层中类别数量设置为23,固定预训练模型中卷积层的权重参数,然后在自制的标注障碍物数据集上进行微调,更新权重,重新训练适合障碍物识别的检测模型。
CN202110098983.7A 2021-01-25 2021-01-25 基于改进的yolo模型的视障人士辅助障碍物感知方法 Active CN112906485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110098983.7A CN112906485B (zh) 2021-01-25 2021-01-25 基于改进的yolo模型的视障人士辅助障碍物感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110098983.7A CN112906485B (zh) 2021-01-25 2021-01-25 基于改进的yolo模型的视障人士辅助障碍物感知方法

Publications (2)

Publication Number Publication Date
CN112906485A CN112906485A (zh) 2021-06-04
CN112906485B true CN112906485B (zh) 2023-01-31

Family

ID=76120223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110098983.7A Active CN112906485B (zh) 2021-01-25 2021-01-25 基于改进的yolo模型的视障人士辅助障碍物感知方法

Country Status (1)

Country Link
CN (1) CN112906485B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486726B (zh) * 2021-06-10 2023-08-01 广西大学 一种基于改进卷积神经网络的轨道交通障碍物检测方法
CN113298029A (zh) * 2021-06-15 2021-08-24 广东工业大学 一种基于深度学习目标检测的盲人辅助行走方法和***
CN113313129B (zh) * 2021-06-22 2024-04-05 中国平安财产保险股份有限公司 灾损识别模型的训练方法、装置、设备以及存储介质
CN113420695A (zh) * 2021-07-01 2021-09-21 河钢雄安数字科技有限公司 一种基于MSRCR和YOLOv4-Tiny算法的火焰快速检测方法
CN113505771B (zh) * 2021-09-13 2021-12-03 华东交通大学 一种双阶段物品检测方法及装置
CN113762226B (zh) * 2021-11-09 2022-01-07 成都理工大学 基于高光谱分辨率调整提升树种识别精度的方法及***
CN114246767B (zh) * 2022-01-10 2023-03-21 河海大学 基于云端计算的盲人智能导航眼镜***及装置
CN114648513B (zh) * 2022-03-29 2022-11-29 华南理工大学 一种基于自标注数据增广的摩托车检测方法
CN114743116A (zh) * 2022-04-18 2022-07-12 蜂巢航宇科技(北京)有限公司 一种基于营房巡视场景的无人值守专用载荷***及方法
CN115376108A (zh) * 2022-09-07 2022-11-22 南京邮电大学 一种复杂天气下障碍物检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及***
CN110443208A (zh) * 2019-08-08 2019-11-12 南京工业大学 一种基于YOLOv2的车辆目标检测方法、***及设备
CN110796168A (zh) * 2019-09-26 2020-02-14 江苏大学 一种基于改进YOLOv3的车辆检测方法
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法
CN111460919A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于改进YOLOv3的单目视觉道路目标检测及距离估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及***
CN110443208A (zh) * 2019-08-08 2019-11-12 南京工业大学 一种基于YOLOv2的车辆目标检测方法、***及设备
CN110796168A (zh) * 2019-09-26 2020-02-14 江苏大学 一种基于改进YOLOv3的车辆检测方法
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法
CN111460919A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于改进YOLOv3的单目视觉道路目标检测及距离估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于Yolov3的自动驾驶目标检测;袁志宏等;《重庆理工大学学报(自然科学)》;20200915(第09期);64-69 *
基于YOLOv3的车辆多目标检测;王萍萍等;《科技与创新》;20200205(第03期);74-76 *
基于改进的YOLOv3算法在目标识别与抓取中的应用;张浩等;《长春理工大学学报(自然科学版)》;20200415(第02期);85-92 *

Also Published As

Publication number Publication date
CN112906485A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906485B (zh) 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN111310862B (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
JP2022548712A (ja) フィーチャーピラミッドを融合した敵対的生成ネットワークによる画像ヘイズ除去方法
CN111209810A (zh) 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN111368846B (zh) 一种基于边界语义分割的道路积水识别方法
CN110532925B (zh) 基于时空图卷积网络的驾驶员疲劳检测方法
CN106156765A (zh) 基于计算机视觉的安全检测方法
CN112861690A (zh) 多方法融合的遥感影像变化检测方法及***
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及***
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN114842208A (zh) 一种基于深度学习的电网危害鸟种目标检测方法
CN110717921B (zh) 改进型编码解码结构的全卷积神经网络语义分割方法
CN112686276A (zh) 一种基于改进RetinaNet网络的火焰检测方法
CN116311254B (zh) 一种恶劣天气情况下的图像目标检测方法、***及设备
CN114037640A (zh) 图像生成方法及装置
CN115050021A (zh) 基于改进YOLOv4的非结构环境下葡萄识别方法
CN113128476A (zh) 一种基于计算机视觉目标检测的低功耗实时头盔检测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及***
CN116434012A (zh) 一种基于边缘感知的轻量型棉铃检测方法及***
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant