CN112991141A

CN112991141A - 一种基于gpu并行加速的频域幸运成像方法

Info

Publication number: CN112991141A
Application number: CN202110203591.2A
Authority: CN
Inventors: 李彬华; 颜如玉
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-18
Anticipated expiration: 2041-02-23
Also published as: CN112991141B

Abstract

本发明涉及一种基于GPU并行加速的频域幸运成像方法，属于图像处理算法技术领域。包括建立CPU+GPU异构***，对需要并行加速部分用CUDA C编写程序并编译成ptx文件，以便在MATLAB中直接调用，包括以下步骤，在MATLAB中读取FITS文件的信息头文件，提取出图像帧数及每一帧图像数据信息；将所得数据从***内存复制到GPU显存，利用GPU的并行性分配相应cuda核对数据类型进行转换；对所得数据中的特征图，寻找其峰值及其位置坐标。该加速算法所得幸运成像结果图与CPU(MATLAB)平台上运行的算法一致，但整个算法的运行速度快了3倍，即使与CPU(C++)平台的算法相比，也快了1.6倍。

Description

一种基于GPU并行加速的频域幸运成像方法

技术领域

本发明涉及一种基于GPU并行加速的频域幸运成像方法，属于图像处理算法技术领域。

背景技术

传统的幸运成像，属于空域图像处理范畴，其算法主要由图像的预处理、“好图”筛选与图像的配准和叠加四个步骤完成。频域幸运成像算法基本流程仍与传统的空域幸运成像流程一致，主要区别是将图像经过傅里叶变换，在频域内对每一个空间频率所对应的所有图的复数值按其模的大小进行排序，按选择率进行复数值的选取和叠加。该算法解决了空域幸运成像数据利用率低的问题，可更多地利用短曝光图像中的有用信息，提升了最终合成图像的效果。

频域幸运成像算法流程如图1所示，它主要由数据帧预处理、频域数据选择和图像合成三部分组成。

现有的算法不能基于GPU并行，速度方面无法突破更快。

有鉴于此特提出本发明。

发明内容

为了解决上述现有技术的不足，本发明提供了一种基于GPU并行加速的频域幸运成像方法。

本发明的技术方案是：一种基于GPU并行加速的频域幸运成像方法，建立CPU+GPU异构***，对需要并行加速部分用CUDA C编写程序并编译成ptx文件，以便在MATLAB中直接调用，包括以下步骤:

S1、在MATLAB中读取FITS文件的信息头文件，提取出图像帧数及每一帧图像大小等图像数据信息；

S2、将所得数据从***内存复制到GPU显存，利用GPU的并行性分配相应cuda核对数据类型进行转换；

S3、对所得数据中的frameNum个ydim×xdim大小的特征图，寻找其峰值及其位置坐标；

S4、以灰度峰值为中心进行图像裁剪，得到包含天文目标的128×128大小的特征图；

S5、之后调用OpenCV库中的cv:GaussianBlur进行高斯滤波；再对滤波后的空域图像数据进行傅里叶变换，得到频域图像数据；

S6、把得到频域图像数据保存在预先分配好的cuda核中再对得到的10000帧图像数据进行频域振幅最大值排序；

S7，将所得到的频域幅值排序结果回传到***内存，在MATLAB中按给定的选择率即选图比找出幅值前K大的特征图进行复数累加求和；

S8，对得到的结果进行傅里叶逆变换及可视化，输出结果图。

进一步地，ITS文件具体为将短曝光天文图像的FITS头文件数据读取到内存，从中解析出图像信息，然后，依次读取图像数据，读取到的数据是8位的unsigned char类型，将前后读到的两个8位的unsigned char类型数据记为a0、a1进行一个转换，公式如下：d＝a₀×256+a₁。

进一步地，在S2步骤中，其实现过程就是将N对相邻unsigned char数据用式d＝a₀×256+a₁转换为short类型，cuda核的分配是gridDim为N/32+1，blockDim为32，分配出N个cuda核，每个核做一个数据的转换，转换的结果保存在预先分配好的内存空间中。

进一步地，在S3步骤中，经过以上S1和S2步骤得到的数据记为D，维度为frameNum×ydim×xdim；接下来需要对frameNum幅ydim×xdim大小的图像，称为特征图，寻找其峰值及其位置坐标；所以需要分配出frameNum个cuda核来完成这个任务，gridDim为frameNum/32+1；blockDim为32；每个cuda核对一幅特征图进行遍历查找峰值。

进一步地，在S4步骤中，得到每个特征图的峰值位置坐标和值之后，若符合不超出边界，以峰值为中心进行剪裁，剪裁边长为128像素。

进一步地，在S5步骤中，剪裁出的特征子图，调用OpenCV库中cv:GaussianBlur进行高斯滤波操作，kernel_size为5，sigma为0.5。

进一步地，在S5、S6步骤中，对于剪裁后的图像，需要做FFT并进行数据选择，这个任务交由GPU执行，首先调用CUDA Toolkit中的cufft模块，对S1-S5步骤得到的数据用GPU进行傅立叶变换，然后利用快速K最近邻算法，即KNN算法，找出前K大的傅里叶幅值的索引，分配相应数量的cuda核，在每个cuda核中执行一个特征子图的标准快速KNN，再将结果保存在预先分配好的空间。

进一步地，最终结果解析出图像信息为图像帧数frameNum、行列数xdim、ydim。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果。

根据频域幸运成像的计算情况，结合GPU并行计算的特点，有针对性地提出了一个基于GPU的频域幸运成像算法加速方案，用MATLAB和CUDA C语言设计了具体的实现程序。即用CUDA C语言设计了空域图像数据转换、空域图像峰值查找、高斯滤波，以及傅里叶变换、频域图像幅值查找和排序运算的程序，在MATLAB中调用这些编译好的程序模块，从而实现了在CPU/GPU异构平台上的幸运成像算法的加速，该加速算法所得幸运成像结果图与CPU(MATLAB)平台上运行的算法一致，但整个算法的运行速度快了3倍，即使与CPU(C++)平台的算法相比，也快了1.6倍。

附图说明

图1为现有技术中频域幸运成像算法流程图；

图2为利用GPU对图像进行峰值查找算法框图；

图3为利用GPU对峰值进行排序算法框图；

图4为空域幸运成像结果二维图；

图5为空域幸运成像结果三维图；

图6为频域幸运成像结果二维图；

图7为频域幸运成像结果三维图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1：如图1-7所示，一种基于GPU并行加速的频域幸运成像方法，建立CPU+GPU异构***，对需要并行加速部分用CUDA C编写程序并编译成ptx文件，以便在MATLAB中直接调用，包括以下步骤:

为了验证幸运成像算法在GPU平台并行加速的可行性，本实验设计了6组实验：首先拟用MATLAB分别对空域和频域幸运成像算法进行设计验证；之后再在Visual Studio2013上，分别实现空域和频域幸运成像算法及运行时间计算；最后，在CPU/GPU异构平台上，分别实现空域和频域幸运成像算法加速。空域和频域算法分别用MATLAB语言、C语言和CUDAC语言以及MATLAB R2014a、Visual Studio 2013、CUDA Toolkit V8.0软件环境和Windows7操作***编写实现。硬件实验平台包括：Dell Precision T5500图像工作站、16GB内存、NVIDIA GTX1080Ti显卡。

本实验中所用图像是2016年10月20日在某天文台某地观测站对天文双星HDS 70实测的10000帧短曝光图像。

本实验首先用MATLAB分别对空域和频域幸运成像算法验证，空域采用1％的选图比，频域采用10％的数据选取率，从10000帧尺寸为512×512像素大小的图像中，重定位并裁剪尺寸为128×128像素大小的目标区域短曝光图像进行实验。本实验中得出的HDS 70图像中空域和频域分别得到的高分辨率图像。显然，频域处理结果好于空域，如图4、图5、图6、图7所示，这是频域处理的优点。

其后，分别将空域幸运成像算法和频域幸运成像算法移植Visual Studio 2013上，空域选图比仍为1％，频域数据选取率10％，所以结果与上述相同。

可看出，CPU和GPU两种不同平台下的实验结果和MATLAB验证结果一致，说明CPU和GPU计算平台下的算法是可行的。

最后，在CPU/GPU异构平台上，根据改进的适合并行处理的算法，分别实现空域和频域幸运成像算法加速，幸运成像结果与上述一致。

为了说明不同计算平台下幸运成像处理算法的效率，本发明记录了前述10000帧短曝光双星图像的频域幸运成像实验在不同硬件平台和不同程序设计环境下的运行时间，所得数据见表1。

表1频域幸运成像算法运行时间

从表1可以看出，对于同一个频域幸运成像算法，CPU+GPU异构平台运行时间最短，相比CPU(MATLAB)平台，速度提升约3倍；相比CPU(C++)平台速度提升约1.6倍。若只考虑算法运行的时间，速度提升更加明显，分别提升6倍和2.7倍。从本实验对10000帧图像处理的结果来看，本实验所提出的算法节省的时间并不是太多，但对于长期长时间的幸运成像观测和数据处理任务来说，需要处理的原始输入图像数目巨大，本实验算法的速度优势就会十分明显。另外，这一算法稍作修改，可以用于王锦良等人提出的空域-频域幸运成像组合算法，那将大大缩短那一组合算法的运行时间。

另外，从表1也可以看出，本算法的读图时间比CPU平台稍长，这是因为CPU/GPU异构平台需要将图像读取数据从***内存传输到GPU显存。如果采用更高性能的显卡，可提高I/O接口传输速度，速度将更快。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种基于GPU并行加速的频域幸运成像方法，建立CPU+GPU异构***，对需要并行加速部分用CUDA C编写程序并编译成ptx文件，以便在MATLAB中直接调用，其特征在于：包括以下步骤:

S1、在MATLAB中读取FITS文件的信息头文件，提取出图像帧数及每一帧图像数据信息；

2.根据权利要求1所述的基于GPU并行加速的频域幸运成像方法，其特征在于：所述读取FITS文件具体为将短曝光天文图像的FITS头文件数据读取到内存，从中解析出图像信息，然后，依次读取图像数据，读取到的数据是8位的unsigned char类型，将前后读到的两个8位的unsigned char类型数据记为a0、a1进行一个转换，公式如下：d＝a₀×256+a₁。

3.根据权利要求2所述的基于GPU并行加速的频域幸运成像方法，其特征在于：在S2步骤中，其实现过程就是将N对相邻unsigned char数据用式d＝a₀×256+a₁转换为short类型，cuda核的分配是gridDim为N/32+1，blockDim为32，分配出N个cuda核，每个核做一个数据的转换，转换的结果保存在预先分配好的内存空间中。

4.根据权利要求1所述的基于GPU并行加速的频域幸运成像方法，其特征在于：在S3步骤中，经过以上S1和S2步骤得到的数据记为D，维度为frameNum×ydim×xdim；接下来需要对frameNum幅ydim×xdim大小的图像，称为特征图，寻找其峰值及其位置坐标；所以需要分配出frameNum个cuda核来完成这个任务，gridDim为frameNum/32+1；blockDim为32；每个cuda核对一幅特征图进行遍历查找峰值。

5.根据权利要求1所述的基于GPU并行加速的频域幸运成像方法，其特征在于：在S4步骤中，得到每个特征图的峰值位置坐标和值之后，若符合不超出边界，以峰值为中心进行剪裁，剪裁边长为128像素。

6.根据权利要求1所述的基于GPU并行加速的频域幸运成像方法，其特征在于：在S5步骤中，剪裁出的特征子图，调用OpenCV库中cv:GaussianBlur进行高斯滤波操作，kernel_size为5，sigma为0.5。

7.根据权利要求1所述的基于GPU并行加速的频域幸运成像方法，其特征在于：在S5、S6步骤中，对于剪裁后的图像，需要做FFT并进行数据选择，这个任务交由GPU执行，首先调用CUDA Toolkit中的cufft模块，对S1-S5步骤得到的数据用GPU进行傅立叶变换，然后利用快速K最近邻算法，即KNN算法，找出前K大的傅里叶幅值的索引，分配相应数量的cuda核，在每个cuda核中执行一个特征子图的标准快速KNN，再将结果保存在预先分配好的空间。