CN116434159A

CN116434159A - 一种基于改进YOLO V7和Deep-Sort的交通流量统计方法

Info

Publication number: CN116434159A
Application number: CN202310392311.6A
Authority: CN
Inventors: 朱隽洋; 姬红兵; 张文博; 李林; 臧博
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-07-14

Abstract

本发明公开了一种基于改进YOLO V7和Deep‑Sort的交通流量统计方法，包括以下步骤；(1)准备车辆数据集；(2)搭建改进的YOLOv7模型并进行训练，用于对步骤(1)的车辆数据集检测；改进的YOLOv7模型包括输入端、特征提取网络、特征融合网络和输出端；(3)搭建Deep‑Sort模型对检测后的车辆跟踪；Deep‑Sort模型包括目标检测模块、位置预测模块、特征匹配模块和更新模块；(4)使用基于运动轨迹与检测线的交通流量统计方法获取交通监控视频、绘制虚拟检测线、设置感兴趣区域、进入检测流程和跟踪流程，从而完成交通流量统计。本发明能够提高目标车辆的检测精度和提高车辆跟踪速度。

Description

一种基于改进YOLO V7和Deep-Sort的交通流量统计方法

技术领域

本发明属于交通流量统计技术领域，具体涉及一种基于改进YOLO V7和Deep-Sort的交通流量统计方法。

背景技术

在智慧交通***中，以计算机视觉为基础，利用监控视频进行交通流量统计是一个备受关注的研究领域，其帮助交通管理部门及时了解道路上的车流情况，对交通资源进行合理分配，提高道路的通行效率，有效预防和应对城市交通拥堵问题，为城市交通管理提供了有力的支持。交通流量统计通常包括车辆目标检测和跟踪两部分。

在复杂的交通环境中，如何准确的检测出车辆是保证交通流量统计准确率的首要条件。早期基于视觉技术的运动目标检测算法的主要包括背景差法、帧差法和光流法，如基于机器学习的道路监控车流仿真方法、装置、设备及介质的发明专利，运用帧间差分法分离出每帧图像的移动前景和背景，根据每帧图像中的移动前景对应的像素点，判断监控视频中有无运动车辆，但由于其原理的缺陷，不能提取出对象的完整区域，只能提取出边界；同时依赖于选择的帧间时间间隔，导致这类方法普遍具有实时性不高，检测效率低和消耗资源大等缺点。

除了对目标车辆进行检测外，还需要通过使用目标跟踪算法对识别的车辆进行跟踪，建立目标在视频中相邻帧的联系，保证计数的准确率。根据生成目标轨迹的顺序，目标跟踪可以分为在线跟踪和离线跟踪，两者主要的区别在于数据处理的方式。在线跟踪需要利用当前帧以及之前的所有帧的目标信息来计算目标与已有轨迹的匹配程度，因此具有较好的实时性；而离线跟踪则利用整个视频图像的目标信息来进行处理，因此具有更高的准确性度。因此，需要根据应用场景的需求，选择适合的目标跟踪算法。

发明内容

为了克服以上现有技术存在的缺陷，本发明的目的在于提供一种基于改进YOLOV7和Deep-Sort的交通流量统计方法，对YOLOv7的主干网络进行改进，在每次特征提取后加入一种可以使特征图中重要信息通道增强的注意力机制SE-Net模块，提高目标车辆的检测精度。并提出在检测视频中添加感兴趣区域，专注于对主要道路上的车辆进行跟踪，通过忽略城市街道两侧的人行道和闸道，减少目标检测框的数量，提高车辆跟踪速度。

为了实现上述目的，本发明采用的技术方案是：

一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，包括以下步骤；

(1)准备车辆数据集；

(2)搭建改进的YOLOv7模型，并利用所述车辆数据集进行训练与检测；所述改进的YOLOv7模型，是指在原YOLOv7模型的基础上，在其主干网络的每次特征提取网络后添加SE-Net模块；

(3)搭建Deep-Sort模型对检测后的车辆跟踪；Deep-Sort模型包括目标检测模块、位置预测模块、特征匹配模块和更新模块；

(4)使用基于运动轨迹与检测线的交通流量统计方法获取交通监控视频、绘制虚拟检测线、设置感兴趣区域、进入检测流程和跟踪流程，从而完成交通流量统计。

所述步骤(1)中，训练时所需的车辆数据集包括；UA-DETRAC数据集和自制数据集；将其按比例分为训练集和测试集；

首先将UA-DETRAC数据集xml格式转成VOC数据集xml格式，然后将VOC数据集xml格式转为YOLOv7数据集txt格式，完成数据集格式转换；

所述自制数据集是拍摄的多段视频，场景包括高峰时段，低峰时段和夜间时段的道路车辆行驶情况，每个文件夹包含一段视频截取的每隔5帧的图片序列，用于有效减低图片的相似度，防止训练网络过于冗余，并使用LabelImg工具对收集到的图片进行标注，按照比例分为训练集和测试集，将UA-DETRAC数据集和自制数据集结合，最终得到预处理后的车辆数据集。

所述步骤(2)具体为：

1)搭建改进的YOLOv7模型的输入端，包括：

(1)Mosaic数据增强：将步骤(1)中的图片序列每四张为一组，通过翻转、缩放、区域内的色域变化拼接在一张图片内；

(2)自适应图片缩放：规定进行训练的图片大小为640×640，对长x、宽y进行缩放；计算缩放后的x与y的大小，分别表示为x1与y1，其中x1＝x×min{x/640,y/640}，y1＝y×min{x/640,y/640}；如果x1<640，则对应的x高度上下添加[(640-x1)％64]/2高度的黑边，最终凑成640×640大小的图片；同理y方向操作，其中min操作表示为取花括号内最小的值，％表示为取余操作；

2)搭建改进的YOLOv7模型的特征提取网络，包括：

引入SE-Net模块改进YOLOv7的特征提取网络：

SE-Net模块利用通道维度属性引入注意力机制，使网络模型能够自动学习特征并动态获取每个特征通道的权重；SE-Net模块对输入的特征图依次通过挤压操作、激活操作和加权操作，通过学习的方式自动获取到每个特征通道的重要程度，依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征，最终输出具有多个特征通道的特征向量，提升网络表达能力；

YOLOv7模型的特征提取网络包括CBS模块、E-ELAN模块、MP Conv模块以及SPPCSPC模块；

其中CBS模块包括卷积层、归一化层和激活函数SiLU，共包含三个CBS模块，三个CBS模块分别用来改变通道数、特征提取和下采样；E-ELAN模块和MP Conv模块在主干网络中的任务是聚合图像，E-ELAN模块采用注意力网络控制梯度的最长最短路径，并进行扩展(Expand)、打乱顺序(Shuffle)以及合并元素(Merge cardinality)操作，用于增加网络深度，防止出现信息丢失和信息过度膨胀等现象；MP Conv模块用于扩张当前特征层的感受野，然后将其与经过正常卷积处理的特征信息融合，从而提高网络的泛化性能；SPPCSPC模块通过最大池化来获得不同感受野；解决了由于缩放和剪裁操作导致的图像失真问题；

所述E-ELAN模块和MP Conv模块是决定网络特征提取能力的关键因素，而SPPCSPC模块则发挥辅助作用。将三个SE-Net模块嵌入在E-ELAN模块和MP Conv模块之间，E-ELAN模块输出的特征图作为SE-Net模块的输入，SE-Net模块输出的特征图作为MP Conv模块的输入，最后一个SE-Net嵌入在E-ELAN模块和SPPCSPC模块之间，E-ELAN模块输出的特征图作为SE-Net模块的输入，SE-Net模块输出的特征图作为SPPCSPC模块的输入，最终得到改进后的YOLOv7模型的特征提取网络；其可以有效提高特征信息在网络中的有效流动，同时聚焦有用特征，抑制无用特征，以增强网络对于不同缩放尺度的车辆目标的检测能力，提高网络的检测精度。

并添加一个四倍的下采样过程，将输入端处理过后的尺寸为640*640的特征图，经过四倍下采样操作，得到(640/4)*(640/4)尺寸的特征图，即尺寸为160*160，由于其层数较浅，感受野较小，因此该特征图包含的特征趋向于局部和细节，可以有效提高网络检测被遮挡车辆的检测效果；

3)搭建改进的YOLOv7模型的特征融合网络，包括：

采用FPN和PAN结构，对改进的YOLOv7模型的特征提取网络输出的特征进行融合，得到改进的YOLOv7模型的特征融合网络；

首先对输入端生成的640*640尺寸的图片进行特征提取，得到160*160、80*80、40*40和20*20的特征图；FPN网络将特征图的语义信息从高维度向低维度传递，进行多次上采样和通道拼接生成包含车辆目标语义信息的特征图，PAN网络将语义信息从低维度向高维度再传递一次，进行多次下采样和通道拼接生成包含车辆目标位置信息的特征图，最终将两个网络生成的特征图融合，使不同尺寸的特征图都包含图像语义信息和图像特征信息，保证了对不同尺寸的图片的准确预测；

4)搭建改进的YOLOv7模型的输出端，包括：

YOLOv7的输出端包括置信度损失、定位损失和分类损失；置信度损失用于计算预测框的可信程度，定位损失用于预测框与标定框之间的误差，分类损失用于计算锚框与对应的标定分类是否正确；YOLOv7的输出不局限于单输出，通过引入辅助头(auxiliaryHead)对中间层进行辅助训练，对模型的训练进行深度监督，从而提升模型的整体性能；

在实际检测中，首先对每个预测框的预测置信度进行判断，若超过设定阈值，则认为该预测框内存在目标并确定其大致位置，接着使用非极大值抑制算法筛选存在目标的预测框，去除相同目标的重复检测框，最后，根据筛选后预测框的分类概率取最大概率对应的索引作为目标的分类索引号，得到目标的类别。

所述步骤(3)具体为：

1)使用改进的YOLOv7模型作为Deep-Sort模型的目标检测模块；

2)位置预测模块采用卡尔曼滤波算法预测车辆下一时刻的位置信息：当车辆移动时，根据车辆在上一帧的速度和位置信息，预测出车辆在当前帧的速度和位置的信息，车辆的位置坐标(x'，y')为：x'＝x+w/2,y'＝y，其中，(x，y，w，h)为改进YOLOv7模型识别出的车辆框图信息，(x，y)为车辆框图左下角坐标，(w，h)分别为车辆图框的宽和高；

3)特征匹配模块利用改进YOLOv7模型，得到下一时刻视频帧中每辆车的位置信息，然后将检测出的车辆信息与Deep-Sort预测追踪部分得到的车辆信息进行数据关联；其中采用匈牙利算法做数据关联，通过车辆外观信息距离和车辆位置的马氏距离来构建代价矩阵，计算得到最优的车辆匹配方案，所述车辆位置的马氏距离为：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS^-1(d_j-y_i)

式中，i为预测追踪车辆框的序号，j为检测车辆框的序号，d和y分别为检测车辆的分布和预测追踪车辆的分布，S为两个分布之间的协方差矩阵；

所述车辆外观信息距离则是利用一个在车辆重识别数据集上离线训练的ReID网络，从车辆图片中提取外观特征描述向量，然后对于每个预测追踪的车辆，保留最后100个与检测框关联成功的外观特征描述符集合R、并计算出它们和检测车辆框的最小余弦距离：

式中，

为第j个检测车辆的外观特征，/>

为第i个预测追踪车辆的第k个外观特征，R_i为第i个预测追踪车辆的外观特征集；

总的代价矩阵c_i,j为车辆位置马氏距离d⁽¹⁾(i,j)和车辆外观信息距离d⁽²⁾(i,j)的加权结果：

c_i,j＝αd⁽¹⁾(i,j)+(1-α)d⁽²⁾(i,j)

式中，α为加权比例。

4)更新模块根据匹配部分的车辆最优匹配方案，将该时刻的车辆ID信息传递到下一时刻对应的车辆上，然后继续重复Deep-Sort的预测、匹配和更新过程。

所述步骤(4)具体为：

1)分别获取高速公路和城市环境交通监控视频，并循环读取视频的每一帧图片；

2)选择离监控摄像头拍摄视角较近的地方绘制虚拟检测线，最大化地捕获目标车辆的特征信息；提高交通流量统计的可靠性；在实际交通道路场景中，摄像机放置位置距离路面较高，拍摄范围较大，背景复杂且远端车辆显示模糊、重叠度高。若将虚拟检测线放置远离监控摄像头的位置，则检测到的车辆目标尺寸较小，从而对交通流量统计造成困难；

3)设置感兴趣区域：在复杂背景下的城市环境交通监控视频中，由于路边经常会出现停留的车辆，使非车流量检测的区域外出现了许多的车辆框图，导致目标区域的车辆跟踪速度变慢。添加感兴趣区域，专注于对主要道路上的车辆进行跟踪，忽略城市街道两侧的人行道和闸道，减少车辆框图的数量，从而解决Deep-Sort目标跟踪算法在复杂背景下城市道路上进行车流量检测跟踪时出现目标区域的车辆跟踪速度变慢的问题。

具体步骤为：首先确定视频中靠外的两条车道的坐标，并连成两条直线，形成两段和城市交通车道拟合的区域，所选区域即为感兴趣区域，仅在此区域实现交通流量统计；

4)将改进的YOLO-V7模型和Deep-Sort算法结合：YOLO-V7识别车辆目标以得到目标物的检测框信息，并导入至Deep-Sort框架中，生成目标车辆跟踪框图；

5)根据4)生成的框图，确定每一帧中的目标车辆框图的中心点，当中心点穿过2)设置的虚拟检测线时，统计车辆计数器加1，完成对指定时段道路上的车流量进行计数。

本发明的有益效果：

第一：通过在YOLOv7主干网络的每次特征提取后加入一种可以使特征图中重要信息通道增强的注意力机制SE-Net模块，提高了车辆目标之间发生重叠或遮挡时的检测精度，满足了车辆跟踪与统计算法的性能要求。

第二：通过在检测视频中添加感兴趣区域，使其专注于对主要道路上的车辆进行跟踪，而忽略城市街道两侧的人行道和闸道，减少目标检测框的数量，从而解决Deep-Sort目标跟踪算法在复杂背景下城市道路上进行车流量检测跟踪时出现目标区域的车辆跟踪速度变慢的问题。

第三：通过基于运动轨迹与检测线的统计方法，保证车辆在高速行驶下检测的实时性并满足在复杂背景的下的车流量计数准确率。

附图说明

图1是本发明中基于改进YOLOv7和Deep-Sort的交通流量统计流程图。

图2是本发明中YOLOv7网络的模型结构示意图。

图3是本发明中改进YOLOv7网络的模型结构示意图。

图4是本发明中设计虚拟检测线示意图。

图5是本发明中交通流量计数过程示意图。

图6是本发明在不同场景下与现有检测算法的交通流量统计计数对比。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

如图1所示：一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，包括以下具体步骤；

步骤1：准备训练时所需的车辆数据集；

(1)采用的车辆数据集是UA-DETRAC数据集和自制数据集，UA-DETRAC数据集和自制数据集。UA-DETRAC数据集在北京以及天津两个城市不同地方进行拍摄，将其按8：2的比例分为训练集和测试集。由于本专利使用YOLOv7算法，要求数据集格式为txt，而UA-DETRAC数据集格式为xml。首先将UA-DETRAC数据集xml格式转成VOC数据集xml格式，然后将OC数据集xml格式转为YOLOv7数据集txt格式，完成数据集格式转换。自制数据集是在西安市临潼区秦唐大道天桥和雁塔区南二环西段太白印象城天桥的拍摄的多段视频，场景包括高峰时段，低峰时段和夜间时段的道路车辆行驶情况，提高数据集的可泛用性。每个文件夹包含一段视频截取的每隔5帧的图片序列，可以有效减低图片的相似度，防止训练网络过于冗余。并使用LabelImg工具对收集到的图片进行标注，按照8：2的比例分为训练集和测试集。将UA-DETRAC数据集和自制数据集结合，最终得到预处理后的车辆数据集；

步骤2：搭建改进的YOLOv7模型并进行训练，用于对车辆的检测：以YOLOv7模型为基础，针对检测精度较低的问题进行改进，得到改进的YOLOv7模型，其结构包括输入端、特征提取网络、特征融合网络和输出端；

(2.1)搭建改进的YOLOv7模型的输入端，包括：

1)Mosaic数据增强：将四张图片通过翻转、缩放、区域内的色域变化拼接在一张图片内；

2)自适应图片缩放：规定进行训练的图片大小为640×640，对长x、宽y进行缩放；计算缩放后的x与y的大小，分别表示为x1与y1，其中x1＝x×min{x/640,y/640}，y1＝y×min{x/640,y/640}；如果x1<640，则对应的x高度上下添加[(640-x1)％64]/2高度的黑边，最终凑成640×640大小的图片；同理y方向操作，其中min操作表示为取花括号内最小的值，％表示为取余操作；

(2.2)搭建改进的YOLOv7模型的特征提取网络，包括：

引入SE-Net注意力机制改进YOLOv7的特征提取网络：YOLOv7模型的特征提取网络主要包括CBS模块、E-ELAN模块、MP Conv模块以及SPPCSPC模块，如图2所示。其中CBS模块主要由卷积层、归一化层和激活函数SiLU组成，共包含三个CBS模块，分别用来改变通道数、特征提取和下采样；E-ELAN模块和MP Conv模块在主干网络中的任务是聚合图像，E-ELAN模块采用注意力网络控制梯度的最长最短路径，并进行扩展(Expand)、打乱顺序(Shuffle)以及合并元素(Merge cardinality)操作，增加网络深度，防止出现信息丢失和信息过度膨胀等现象；MP Conv模块的作用是扩张当前特征层的感受野，然后将其与经过正常卷积处理的特征信息融合，从而提高网络的泛化性能；SPPCSPC模块通过最大池化来获得不同感受野，解决了由于缩放和剪裁操作导致的图像失真问题。

由上述分析可知，E-ELAN模块和MP Conv模块是决定网络特征提取能力的关键因素，而SPPCSPC模块则发挥辅助作用。因此，若要优化整个网络的算法流程，可以将SE-Net模块嵌入在E-ELAN模块和MP Conv模块之间，如图3所示，提高特征信息在网络中的有效流动，同时聚焦有用特征，抑制无用特征，以增强网络对于不同缩放尺度的车辆目标的检测能力，提高网络的检测精度；

(2.3)搭建改进的YOLOv7模型的特征融合网络，包括：

采用FPN和PAN结构，对特征提取网络输出的特征进行融合：FPN将语义信息从高维度向低维度传递，从而使底层特征图包含更多的车辆目标语义信息；而PAN结构则是将语义信息从低维度向高维度再传递一次，以便顶层特征包含更多的车辆目标位置信息；

(2.4)搭建改进的YOLOv7模型的输出端，包括：

YOLOv7模型原有的输出端是通过输出三层不同尺寸大小的特征图用来预测结果。改进的YOLOv7添加一个四倍的下采样过程，得到一个尺寸最大的特征图，由于其层数较浅，感受野较小，因此该特征图包含的特征趋向于局部和细节，可以有效提高网络检测被遮挡车辆的检测效果。

步骤3：搭建Deep-Sort模型对车辆的跟踪：Deep-Sort模型包括目标检测模块、位置预测模块、特征匹配模块、更新模块；

(3.1)使用改进的YOLOv7模型作为Deep-Sort模型的目标检测模块；

(3.2)位置预测模块主要采用卡尔曼滤波算法预测车辆下一时刻的位置信息：当车辆移动时，根据车辆在上一帧的速度和位置信息，预测出车辆在当前帧的速度和位置的信息，车辆的位置坐标(x'，y')为：x'＝x+w/2,y'＝y，其中，(x，y，w，h)为改进YOLOv7模型识别出的车辆框图信息，(x，y)为车辆框图左下角坐标，(w，h)分别为车辆图框的宽和高。

(3.3)特征匹配模块利用改进YOLOv7模型，得到下一时刻视频帧中每辆车的位置信息，然后将检测出的车辆信息与Deep-Sort预测追踪部分得到的车辆信息进行数据关联。其中采用匈牙利算法做做数据关联，通过车辆外观信息距离和车辆位置的马氏距离来构建代价矩阵，计算得到最优的车辆匹配方案，所述车辆位置的马氏距离为：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS^-1(d_j-y_i)

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

式中，

为第j个检测车辆的外观特征，/>

c_i,j＝αd⁽¹⁾(i,j)+(1-α)d⁽²⁾(i,j)

式中，α为加权比例。

(3.4)更新模块根据匹配部分的车辆最优匹配方案，将该时刻的车辆ID信息传递到下一时刻对应的车辆上。然后继续重复Deep-Sort的预测、匹配和更新过程。

步骤4：使用基于运动轨迹与检测线的交通流量统计方法，其算法流程包括：获取交通监控视频、绘制虚拟检测线、设置感兴趣区域、进入检测流程和跟踪流程、完成交通流量统计。

(4.1)分别获取高速公路和城市环境交通监控视频，并循环读取视频的每一帧图片；

(4.2)选择离监控摄像头较近的地方绘制虚拟检测线：在实际交通道路场景中，摄像机放置位置一般距离路面较高，拍摄范围较大，背景复杂且远端车辆显示模糊、重叠度高。若将虚拟检测线放置远离监控摄像头的位置，则检测到的车辆目标尺寸较小，从而对交通流量统计造成困难。选择离监控摄像头较近的地方设置虚拟检测线，最大化地捕获目标车辆的特征信息，提高交通流量统计的可靠性。如图4所示；

(4.3)设置感兴趣区域：在复杂背景下的城市环境交通监控视频中，由于路边经常会出现停留的车辆，使非车流量检测的区域外出现了许多的车辆框图，导致目标区域的车辆跟踪速度变慢。添加感兴趣区域，专注于对主要道路上的车辆进行跟踪，忽略城市街道两侧的人行道和闸道，减少车辆框图的数量，从而解决Deep-Sort目标跟踪算法在复杂背景下城市道路上进行车流量检测跟踪时出现目标区域的车辆跟踪速度变慢的问题。具体步骤为：首先确定视频中靠外的两条车道的坐标，并连成两条直线，形成两段和城市交通车道拟合的区域，所选区域即为感兴趣区域，仅在此区域实现交通流量统计。

(4.4)将改进的YOLO-V7模型和Deep-Sort算法结合：YOLO-V7识别车辆目标以得到目标物的检测框信息，并导入至Deep-Sort框架中，生成目标车辆跟踪框图。

(4.5)根据(4.4)生成的框图，确定每一帧中的目标车辆框图的中心点，当中心点穿过(4.2)设置的虚拟检测线时，统计车辆计数器加1，完成对指定时段道路上的车流量进行计数。如图5所示。

(6)输出交通监控视频中的车流量统计结果。

下面结合仿真结果对本发明的效果做进一步的描述。

1.仿真条件如表1所示；

表1实验的软硬件参数表

2.仿真内容与结果分析；

仿真1，为了验证改进后的YOLOv7的车辆检测算法的优越性，本文选取了3个主流的目标检测算法进行对比实验，研究添加SE-Net注意力机制的YOLOv7车辆检测算法的平均精度均值mAP、检测速率FPS、参数量Params和计算量GFLOPs，结果由表2所示。

表2YOLO目标检测性能分析

从表1可以看出相比于YOLOv4，[email protected]提高了7.6％，Params和GFLOPs分别减少了26.8M和37.3G，FPS提高了9；相比于YOLOv5L，[email protected]提高了4.4％，Params和GFLOPs分别减少了8.9M和3.6G，FPS提高了5；相比于YOLOv7，[email protected]提高了1.3％，由于在主干网络添加了四个SE-Net注意力机制网络，使改进后网络的Params和GFLOPs略有增大，从而导致检测速度也出现了小幅度减少但影响不大，相比于其他两个算法，改进后网络的模型大小和计算量都有着较大程度的减小，从而提高了算法的速度。

仿真2研究使用改进YOLOv7网络对车辆的实时检测情况，以及使用改进YOLOv7和Deep-Sort的交通流量统计算法对车辆在高速和城市环境下的跟踪统计效果。本次实验选取了2个交通监控视频，分别为高速公路监控视频和城市交通监控视频。图6(a)和图6(b)，分别为在高速公路环境下使用两种检测算法下的视频截取画面，图6(c)和图6(d)，分别为在城市交通环境下使用两种检测算法下的视频截取画面。

从图6可以看出，使用添加注意力机制SE-Net的YOLOv7相比YOLOv7的统计准确率有着一定程度的提高，可以提升车辆检测的目标提取能力，减少漏检或者误检的现象发生，整体上提高了YOLOv7车辆检测的性能。

对图6中的对比方法统计真实车流量，跟踪车流量以及准确率，结果由0表示。

表3高速公路和城市街道下交通流量统计结果

Claims

1.一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，其特征在于，包括以下步骤；

(1)准备车辆数据集；

2.根据权利要求1所述的一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，其特征在于，所述步骤(1)中，训练时所需的车辆数据集包括；UA-DETRAC数据集和自制数据集；将其按比例分为训练集和测试集；

所述自制数据集是拍摄的多段视频，场景包括高峰时段，低峰时段和夜间时段的道路车辆行驶情况，每个文件夹包含一段视频截取的每隔5帧的图片序列，并使用LabelImg工具对收集到的图片进行标注，按照比例分为训练集和测试集，将UA-DETRAC数据集和自制数据集结合，最终得到预处理后的车辆数据集。

3.根据权利要求1所述的一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，其特征在于，所述步骤(2)具体为：

1)搭建改进的YOLOv7模型的输入端，包括：

2)搭建改进的YOLOv7模型的特征提取网络，包括：

将三个SE-Net模块嵌入在E-ELAN模块和MP Conv模块之间，E-ELAN模块输出的特征图作为SE-Net模块的输入，SE-Net模块输出的特征图作为MP Conv模块的输入，最后一个SE-Net嵌入在E-ELAN模块和SPPCSPC模块之间，E-ELAN模块输出的特征图作为SE-Net模块的输入，SE-Net模块输出的特征图作为SPPCSPC模块的输入，最终得到改进后的YOLOv7模型的特征提取网络；

3)搭建改进的YOLOv7模型的特征融合网络，包括：

首先对输入端生成的640*640尺寸的图片进行特征提取，得到160*160、80*80、40*40和20*20的特征图；FPN网络将特征图的语义信息从高维度向低维度传递，进行多次上采样和通道拼接生成包含车辆目标语义信息的特征图，PAN网络将语义信息从低维度向高维度再传递一次，进行多次下采样和通道拼接生成包含车辆目标位置信息的特征图，最终将两个网络生成的特征图融合；

4)搭建改进的YOLOv7模型的输出端，包括：

YOLOv7的输出端包括置信度损失、定位损失和分类损失；置信度损失用于计算预测框的可信程度，定位损失用于预测框与标定框之间的误差，分类损失用于计算锚框与对应的标定分类是否正确；YOLOv7的输出不局限于单输出，通过引入辅助头对中间层进行辅助训练，对模型的训练进行深度监督；

4.根据权利要求1所述的一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，其特征在于，所述步骤(3)具体为：

1)使用改进的YOLOv7模型作为Deep-Sort模型的目标检测模块；

d⁽¹⁾(i,j)＝(d_j-y_i)^TS^-1(d_j-y_i)

式中，

为第j个检测车辆的外观特征，/>

c_i,j＝αd⁽¹⁾(i,j)+(1-α)d⁽²⁾(i,j)

式中，α为加权比例。

5.根据权利要求1所述的一种基于改进YOLO V7和Deep-Sort的交通流量统计方法，其特征在于，所述步骤(4)具体为：

2)选择离监控摄像头拍摄视角较近的地方绘制虚拟检测线，最大化地捕获目标车辆的特征信息；

3)设置感兴趣区域：

首先确定视频中靠外的两条车道的坐标，并连成两条直线，形成两段和城市交通车道拟合的区域，所选区域即为感兴趣区域，仅在此区域实现交通流量统计；