CN113506214B

CN113506214B - 一种多路视频图像拼接方法

Info

Publication number: CN113506214B
Application number: CN202110564153.9A
Authority: CN
Inventors: 刘云; 沈德仁; 顾昕; 严璐; 袁永顺; 刘雪; 宋严之
Original assignee: Nanjing LES Information Technology Co. Ltd
Current assignee: Nanjing LES Information Technology Co. Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2023-07-21
Anticipated expiration: 2041-05-24
Also published as: CN113506214A

Abstract

本发明公开了一种多路视频图像拼接方法，步骤如下：获取各路视频同一时刻的图像数据，并对图像进行拼接，计算原始图像到拼接完成图像的像素坐标位置映射变换矩阵和像素值变换的蒙版矩阵；获取实际拼接时视频流中图像，使用核函数对每帧图像进行映射变换和蒙版矩阵变换，对像素坐标位置实现映射变换，对像素值实现蒙版矩阵变换，从而得到拼接后的图像；调用训练好的模型对拼接后的图像进行目标识别和跟踪。本发明充分理解拼接原理，将拼接过程从数学角度转化为各路图像像素点位置和像素值的变换，分析出像素位置坐标的映射矩阵和像素值的蒙版矩阵，无论几路视频，无论视频图像像素大小，均可以采用此方法在图形处理器上实现并行拼接。

Description

一种多路视频图像拼接方法

技术领域

本发明属于视频图像算法改进技术领域，具体涉及一种多路视频图像拼接方法。

背景技术

随着中国民航的飞速发展，航空保障资源日趋紧张，航空保障过程中涉及的单位错综复杂，传统的机坪管理理念和管理手段面临很大的风险。为了在地面保障资源有限的情况下，提升航班的保障效率，提高机场运行品质，提出了新的机坪管制要求。

支线机场和通用机场局限于航班量小，日常收益有限，依照传统机场建设和管制建设规划塔台，其建设成本、运营成本不能在常规的运营周期内实现冲抵、获取收益，且支线机场和通用机场爆发式增长势必会带动管制人才的需求，管制人才培养不能完全跟上机场建设需求。

针对以上支线和通用机场建设、机坪管制移交及机场跑道扩容建设需求，远程塔台全景视频***能够实现一个管制员管制多个机场的模式，大大减少机场运营成本，提高效率；全景视频***能够为机坪管理者提供跑道盲区区域视景。

目前远程塔台国外发展主要厂家包含SAAB、Frequentis和Searidge。2015年萨博SAAB远程塔台在恩舍尔兹维克机场投入使用，2017年在松兹瓦尔机场,伦敦城市机场***署远程塔台，2018年与,斯堪的纳维亚山脉签订合同2018-2019年期间由SDATS在该机场安装萨博远程塔台（R-TWR）***，以及从2019年12月起从位于松兹瓦尔的数字塔台中心进行为期10年的初始运营；Frequentis在2016年为德国萨尔布吕肯机场，爱尔福特和德累斯顿三个机场提供高清晰度摄像机和红外传感器。加拿大Searidge参与了SESAR 2020项目成功验证多机场远程塔台概念，为布达佩斯机场建设远程塔台现场运行认证，布达佩斯机场为全球首个采用远程塔台技术的中型容量机场。

目前国内众多公司投入研发，积极推动远程塔台全景视频***的研制和试点工作。存在的主要研发难点有：全景视频***存在卡顿、实时性不够、色彩一致性等问题，还没有完全成熟、稳定、可靠的全景视频***。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种多路视频图像拼接方法，以解决现有的全景视频***中多路视频拼接耗时长，视频卡顿的问题。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种多路视频图像拼接方法，步骤如下：

（1）获取各路视频同一时刻的图像数据，并对图像进行拼接，计算原始图像到拼接完成图像的像素坐标位置映射变换矩阵和像素值变换的蒙版矩阵；

（2）获取实际拼接时视频流中图像，使用核函数对每帧图像进行映射变换和蒙版矩阵变换，对像素坐标位置实现映射变换，对像素值实现蒙版矩阵变换，从而得到拼接后的图像；

（3）调用训练好的模型对拼接后的图像进行目标识别和跟踪。

进一步地，所述步骤（1）中计算像素坐标位置映射变换矩阵具体为：使用加速稳健特征算法获取图像特征点，剔除非图像重合区域的特征点；使用最近邻和次近邻匹配算法进行特征点匹配，基于所有匹配点对欧式距离相近，以及构成的直线角度相近，筛选匹配点对；使用查并集法获取图片的匹配关系，并删除不属于同一全景图的图片，得到可拼接成全景图的各路图像；根据匹配点对的单应性变换预估各路图像的相机参数，包括内参矩阵、旋转矩阵和相机焦距；使用光束平行差精确相机参数；需要进行波形校正，寻找各图像的上升向量，对各路图像的旋转矩阵进行校正；以得到图像像素点位置的映射变换矩阵。

进一步地，所述步骤（1）中计算像素值蒙版矩阵具体为：创建与图像大小、类型相同的矩阵作为初始的蒙版矩阵，使用球面投影，创建映射变换，映射尺度为相机焦距，即多路视频中映射的尺度为上述计算得到的各路相机焦距的均值；对图像和蒙版进行映射变换得到的矩阵记为image_warp和mask_warp，并将内参矩阵和旋转矩阵转换为像素横坐标和纵坐标变换的变换矩阵；进行曝光补偿，并将补偿放到蒙版矩阵上，以对视频进行补偿，使用增益补偿的方法，先计算增益系数，再进行曝光补偿，对经过投影变换的蒙版矩阵进行曝光补偿，经过曝光补偿的图像和蒙版矩阵记为image_warp_expose和mask_warp_expose；使用基于最小图割的最佳拼接缝寻找算法，最佳拼接缝像素点的位置是两个图像重叠区域的像素颜色差异最小的位置，重叠区域像素点几何结构最相似，得到拼接缝；基于线性渐变的方式优化拼接缝，即根据拼接缝坐标，计算在最终拼接图像上的拼接缝坐标以及线性渐变宽度，从拼接缝开始向两边图像线性增强，且重合部分同一位置权重相加为1，将权重值乘以蒙版矩阵同位置数值，得到优化拼接缝的蒙版，保证拼接好的图像清晰，不会因为优化拼接缝出现弱化；最后将经过拼接缝优化后的蒙版矩阵归一化，得到最终的蒙版矩阵。

进一步地，所述步骤（2）具体包括：指定核函数调用时的线程配置，线程块是一组线程，此处设置成（32，32）的线程块，线程网格是一组线程块的集合，此处设置为(（图像宽度+线程块宽度-1）/32,（图像高度+线程块高度-1）/32)。根据各路图像的映射变换矩阵和蒙版矩阵的大小，申请设备内存空间，坐标映射变换矩阵和蒙版矩阵是固定参数，在初始时将矩阵拷贝到申请的设备内存空间中；根据输入视频流图像大小和最终拼接好的全景图像大小，申请各自对应的设备内存空间，各路相机获得的图像大小是固定的，拼接好的全景图像大小也是固定的，初始时每路图像和全景图像申请各自对应的设备内存空间。运行时，将获取的各路视频图像拷贝到申请好的设备内存空间中，针对各路图像每个像素点，根据坐标的映射矩阵计算像素点在全景图像上的坐标，基于蒙版矩阵计算此位置的像素值，将像素值保存到申请好的全景图像对应坐标，各像素点计算不存在依赖关系，核函数被图像处理器并行执行，得到拼接结果。

进一步地，所述步骤（3）具体包括：获取机场场景下的图像，使用数据集标定工具标定数据集，得到图像对应的xml文件，文件中包含图像的分类名、位置坐标，使用python的tensorflow搭建yolov3模型，加载预训练权重（在使用yolov3训练自己的模型时使用的公开的权重文件），读取标定数据集（包括标定文件*.xml和对应的图像文件），训练模型，得到模型权重文件；目标识别跟踪时，加载模型，将拼接好的图像从设备内存空间拷贝到主机内存空间，对图像进行识别，如果识别到飞机或车辆，同时返回目标的坐标，从而实现全景视频飞机的识别跟踪。

本发明的有益效果：

本发明充分理解拼接原理，将拼接过程从数学角度转化为各路图像像素点位置和像素值的变换，分析出像素位置坐标的映射矩阵和像素值的蒙版矩阵，无论几路视频，无论视频图像像素大小，均可以采用此方法在图形处理器上实现并行拼接。

本发明可以运用于各种视频拼接场景，将变换矩阵计算和拼接分成两部分，解决了视频图像处理中对图像处理库的依赖，核函数提高拼接计算速度，具有强实用性。

在机场场景下，通过多路摄像头实时视频拼接，剔除摄像头重复图像，将多路视频拼接为全景图，扩大塔台工作人员视景，实现远程监管和机场管控。

在全景视频上应用训练好的模型，实现目标识别和跟踪，防止异物入侵，提高机场安全。

附图说明

图1为本发明方法的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种多路视频图像拼接方法，步骤如下：

（1）获取各路视频同一时刻的图像数据，并对图像进行拼接，计算原始图像到拼接完成图像的像素坐标位置映射变换矩阵和像素值变换的蒙版矩阵（掩码矩阵）；

计算像素坐标位置映射变换矩阵具体为：使用加速稳健特征（SURF）算法获取图像特征点，剔除非图像重合区域的特征点；使用最近邻和次近邻匹配算法进行特征点匹配，基于所有匹配点对欧式距离相近，以及构成的直线角度相近，筛选匹配点对；使用查并集法（leaveBiggestComponent）获取图片的匹配关系，并删除不属于同一全景图的图片，得到可拼接成全景图的各路图像；根据匹配点对的单应性变换预估各路图像的相机参数，包括内参矩阵、旋转矩阵和相机焦距；使用光束平行差精确相机参数；由于相机摆放位置并不是完全在同一水平位置，轻微的倾斜会导致全景图像出现飞机曲线，因此需要进行波形校正，寻找各图像的上升向量（up_vector），对各路图像的旋转矩阵进行校正；以得到图像像素点位置的映射变换矩阵。

计算像素值蒙版矩阵具体为：创建与图像大小、类型相同的矩阵作为初始的蒙版矩阵，使用球面投影（SphericalWarper），创建映射变换，映射尺度为相机焦距，即多路视频中映射的尺度为上述计算得到的各路相机焦距的均值；对图像和蒙版进行映射变换得到的矩阵记为image_warp和mask_warp，并将内参矩阵和旋转矩阵转换为像素横坐标和纵坐标变换的变换矩阵（原始图像经过此处的变换矩阵就是image_warp和mask_warp）；光照、相机角度等因素不同，得到的图像整体亮度不同，直接拼接会出现明显的明暗变化，需要进行曝光补偿，并将补偿放到蒙版矩阵上，以对视频进行补偿，使用增益补偿的方法，先计算增益系数，再进行曝光补偿，对经过投影变换的蒙版矩阵进行曝光补偿，经过曝光补偿的图像和蒙版矩阵记为image_warp_expose和mask_warp_expose；使用基于最小图割的最佳拼接缝寻找算法，最佳拼接缝像素点的位置是两个图像重叠区域的像素颜色差异最小的位置，重叠区域像素点几何结构最相似，得到拼接缝；基于线性渐变的方式优化拼接缝，即根据拼接缝坐标，计算在最终拼接图像上的拼接缝坐标以及线性渐变宽度，从拼接缝开始向两边图像线性增强，且重合部分同一位置权重相加为1，将权重值乘以蒙版矩阵同位置数值，得到优化拼接缝的蒙版，保证拼接好的图像清晰，不会因为优化拼接缝出现弱化；最后将经过拼接缝优化后的蒙版矩阵归一化，得到最终的蒙版矩阵，注意此时的蒙版矩阵数据类型是浮点型。

指定核函数调用时的线程配置，线程块是一组线程，此处设置成（32，32）的线程块，线程网格是一组线程块的集合，此处设置为(（图像宽度+线程块宽度-1）/32,（图像高度+线程块高度-1）/32)；根据各路图像的映射变换矩阵和蒙版矩阵的大小，申请设备内存空间，坐标映射变换矩阵和蒙版矩阵是固定参数，在初始时将矩阵拷贝到申请的设备内存空间中；根据输入视频流图像大小和最终拼接好的全景图像大小，申请各自对应的设备内存空间，各路相机获得的图像大小是固定的，拼接好的全景图像大小也是固定的，初始时每路图像和拼接图像申请各自的设备内存空间；运行时，将获取的各路视频图像拷贝到申请好的设备内存空间中，针对各路图像每个像素点，根据坐标的映射矩阵计算像素点在全景图像上的坐标，基于蒙版矩阵计算此位置的像素值，将像素值保存到申请好的全景图像对应坐标，各像素点计算不存在依赖关系，核函数被图像处理器（GPU）并行执行，得到拼接结果。

（3）调用训练好的模型对拼接后的图像进行目标识别和跟踪；

获取机场场景下的图像，使用数据集标定工具标定数据集，得到图像对应的xml文件，文件中包含图像的分类名、位置坐标，使用python的tensorflow搭建yolov3模型，加载预训练权重（在使用yolov3训练自己的模型时使用的公开的权重文件），读取标定数据集（包括标定文件*.xml和对应的图像文件），训练模型，得到模型权重文件；目标识别跟踪时（使用时），加载模型，将拼接好的图像从设备内存空间（GPU的内存）拷贝到主机内存空间（CPU的内存），对图像进行识别，如果识别到飞机或车辆，同时返回目标的坐标，从而实现全景视频飞机的识别跟踪。

本发明将拼接过程中遇到的各种处理解析为两个矩阵，分别是针对像素左边变换的映射变换矩阵和像素值变换的蒙版矩阵。拼接时像素点的矩阵变换不存在依赖关系，可全并行运行，充分利用图像处理器对核函数的并行调用，加速拼接计算。

当相机位置固定，需要进行拼接分图像大小固定，视频图像像素进行映射变换和蒙版变换，即可拼接图像。当相机位置改变，相机数量改变，图像大小改变，只需重新获取各路相机的图像，计算映射矩阵和蒙版矩阵。

图形处理器可以多线程执行核函数，设计核函数调用时的线程配置，最大化利用图形处理器的性能和内存，本发明设计线程块是（32，32），线程网格设置为(（图像宽度+线程块宽度-1）/32,（图像高度+线程块高度-1）/32)，最大化并行处理像素点，申请设备内存空间，初始时将计算好的映射变换矩阵和蒙版矩阵从主机内存空间拷贝到设备内存空间，将各路视频图像逐帧拷贝到设备内存空间，核函数调用参数执行针对各路图像像素点的矩阵变换，将计算结果存到全景图像在设备内存空间中指定位置，实现拼接。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种多路视频图像拼接方法，其特征在于，步骤如下：

(1)获取各路视频同一时刻的图像数据，并对图像进行拼接，计算原始图像到拼接完成图像的像素坐标位置映射变换矩阵和像素值变换的蒙版矩阵；

(2)获取实际拼接时视频流中图像，使用核函数对每帧图像进行映射变换和蒙版矩阵变换，对像素坐标位置实现映射变换，对像素值实现蒙版矩阵变换，从而得到拼接后的图像；

(3)调用训练好的模型对拼接后的图像进行目标识别和跟踪；

所述步骤(1)中计算像素坐标位置映射变换矩阵具体为：使用加速稳健特征算法获取图像特征点，剔除非图像重合区域的特征点；使用最近邻和次近邻匹配算法进行特征点匹配，获取匹配点对，计算所有点对之间的欧氏距离，同时计算匹配点连线的角度，欧式距离相近且角度相近的点对，则为筛选到的匹配点对；使用查并集法获取图片的匹配关系，并删除不属于同一全景图的图片，得到可拼接成全景图的各路图像；根据匹配点对的单应性变换预估各路图像的相机参数，包括内参矩阵、旋转矩阵和相机焦距；使用光束平行差精确相机参数；需要进行波形校正，寻找各图像的上升向量，对各路图像的旋转矩阵进行波形校正，使得拼接后的图像更加光滑；以得到图像像素点位置的映射变换矩阵；

所述步骤(1)中计算像素值变换的蒙版矩阵具体为：创建与图像大小、类型相同的矩阵作为初始的蒙版矩阵，使用球面投影，创建映射变换，映射尺度为相机焦距，即多路视频中映射的尺度为上述计算得到的各路相机焦距的均值；对图像和蒙版进行映射变换得到的矩阵记为image_warp和mask_warp，并将内参矩阵和旋转矩阵转换为像素横坐标和纵坐标变换的变换矩阵；进行曝光补偿，并将补偿放到蒙版矩阵上，以对视频进行补偿，使用增益补偿的方法，先计算增益系数，再进行曝光补偿，对经过投影变换的蒙版矩阵进行曝光补偿，经过曝光补偿的图像和蒙版矩阵记为image_warp_expose和mask_warp_expose；使用基于最小图割的最佳拼接缝寻找算法，最佳拼接缝像素点的位置是两个图像重叠区域的像素颜色差异最小的位置，重叠区域像素点几何结构最相似，得到拼接缝；基于线性渐变的方式优化拼接缝，即根据拼接缝坐标，计算在最终拼接图像上的拼接缝坐标以及线性渐变宽度，从拼接缝开始向两边图像线性增强，且重合部分同一位置权重相加为1，将权重值乘以蒙版矩阵同位置数值，得到优化拼接缝的蒙版；最后将经过拼接缝优化后的蒙版矩阵归一化，得到最终的蒙版矩阵。

2.根据权利要求1所述的多路视频图像拼接方法，其特征在于，步骤(2)具体包括：指定核函数调用时的线程配置，线程块是一组线程，此处设置成(32，32)的线程块，线程网格是一组线程块的集合，此处设置为((图像宽度+线程块宽度-1)/32,(图像高度+线程块高度-1)/32)；根据各路图像的映射变换矩阵和蒙版矩阵的大小，申请设备内存空间，坐标映射变换矩阵和蒙版矩阵是固定参数，在初始时将矩阵拷贝到申请的设备内存空间中；根据输入视频流图像大小和最终拼接好的全景图像大小，申请各自对应的设备内存空间，各路相机获得的图像大小是固定的，拼接好的全景图像大小也是固定的，初始时每路图像和全景图像申请各自对应的设备内存空间；运行时，将获取的各路视频图像拷贝到申请好的设备内存空间中，针对各路图像每个像素点，根据坐标的映射矩阵计算像素点在全景图像上的坐标，基于蒙版矩阵计算此位置的像素值，将像素值保存到申请好的全景图像对应坐标，各像素点计算不存在依赖关系，核函数被图像处理器并行执行，得到拼接结果。

3.根据权利要求1所述的多路视频图像拼接方法，其特征在于，步骤(3)具体包括：获取机场场景下的图像，使用数据集标定工具标定数据集，得到图像对应的xml文件，文件中包含图像的分类名、位置坐标，使用python的tensorflow搭建yolov3模型，加载预训练权重，读取标定数据集，训练模型，得到模型权重文件；目标识别跟踪时，加载模型，将拼接好的图形从设备内存空间拷贝到主机内存空间，对图像进行识别，若识别出飞机或车辆，则返回飞机或车辆的坐标位置，从而实现对飞机的识别跟踪。