CN103809937B

CN103809937B - 一种基于gpu的通视并行处理方法

Info

Publication number: CN103809937B
Application number: CN201410038204.4A
Authority: CN
Inventors: 徐筠; 蔡继红; 张进
Original assignee: Beijing Simulation Center
Current assignee: Beijing Simulation Center
Priority date: 2014-01-26
Filing date: 2014-01-26
Publication date: 2016-09-21
Anticipated expiration: 2034-01-26
Also published as: CN103809937A

Abstract

本发明公开了一种基于GPU的通视并行计算方法，包括如下步骤：S1：构建GPU编程环境；S2：计算连接观察点和目标点的视线；S3：写入数据到GPU；S4：并行计算视线线段上每点通视情况；S5：设置同步点；S6：并行判断通视结果；S7：读出数据到CPU。本发明的通视并行处理方法能够支持CPU、GPU异构混合体系结构，有效利用新型处理器、通信、同步等优化资源，实现通视计算的高效并行运行；通过将CUDA架构与通视性计算方法有机结合，充分利用CUDA并行存储和通信机制，实现分层并行的高效能通视方法，保证通视计算精度的同时有效减少计算时间。

Description

一种基于GPU的通视并行处理方法

技术领域

本发明涉及通视并行处理方法技术领域，特别涉及一种基于GPU（GraphicProcessing Unit，图形处理单元）的通视并行处理方法。

背景技术

通视处理是在三维空间中计算任意给定的两点之间连线上的通视情况，是仿真***中必不可少的部分。现有的通视处理方法以格网DEM地形为基础形成的方法较多，例如Janus算法、Dyntacs算法、ModSAF算法和Bresenham算法，这些通视处理方法的原理基本一致，所不同的是高程内插方法和通视判断原则，使得通视处理的精度和效率有所不同。上述串行的通视计算方法不能同时解决通视计算的准确性和快速性两个问题。

现有的通视处理大多在CPU上串行执行，其算法注重改进单次视线通视计算方法的效率，但由于通视计算复杂度仍是O(N2)，所以效率提高并不明显。

在通视并行处理方面，Ware等人采用一些区域分割策略在计算机集群上实现并行的通视计算；Kidner等人设计了一种多尺度隐式的不规则三角网格以支持多种分辨率下的通视计算；Mineter等人通过在高吞吐量的分布式***中建立完整的通视数据库实现通视计算的并行。上述通视并行处理方法都主要关注在分布式***中实现并行的通视处理，通过网络进行通视处理的通信和同步。因此，上述通视并行处理方法的效率受限于分布式***的环境条件。

发明内容

本发明目的在于提供一种基于GPU的通视并行计算方法，解决现有仿真***中通视计算效率不高的问题，在保证计算精度的同时有效减少通视计算的时间。

本发明提供的基于GPU的通视并行处理方法包括如下步骤：

S1：构建GPU编程环境；

S2：计算连接观察点和目标点的视线；

S3：写入数据到GPU；

S4：并行计算视线线段上每点通视情况；

S5：设置同步点；

S6：并行判断通视结果；

S7：读出数据到CPU。

优选地，所述GPU编程环境包括硬件环境和软件环境，其中硬件环境包括CPU、支持CUDA架构的显示芯片、以及连接CPU与显示芯片的PCI总线；软件环境包括C/C++编译器和CUDA。

优选地，所述步骤S2包括如下子步骤：

S2.1：读入观察点的位置、目标点的位置、观察点的地形数据和目标点的地形数据；

S2.2：在CPU上确定通过观察点和目标点的视线线段；

S2.3：将观察点和目标点的位置从地理坐标系转换为地心坐标系；

S2.4：在地心坐标系下计算得到观察点与目标点之间的视线线段。

优选地，观察点和目标点的地形数据各包括经度、纬度和高度。

优选地，所述步骤S3包括如下子步骤：

S3.1：将所有的数据从CPU的内存写入到GPU的显存；

S3.2：将数据量较大并保持不变的地形数据从显存放入纹理缓存来加速读取；

S3.3：将计算中频繁访问的观测点和目标点位置放入常量缓存来加速读取。

优选地，所述步骤S4包括如下子步骤：

S4.1：GPU内一个线程块对应一条视线线段，分配共享内存保存通信数据；

S4.2：每个线程块中的线程平均分配计算视线上的部分离散点；

S4.3：所有线程同时执行相同的离散点通视判断。

优选地，所述步骤S4.3为：利用插值计算方法由观察点和目标点的地心坐标计算得到对应离散点的地心坐标，由该离散点的地心坐标计算得到该离散点的经度、纬度和高度，根据该离散点的经度和纬度查询地形数据得到该离散点所在位置的地形的高度，通过比较判断该离散点的高度是否大于该离散点所在位置的地形的高度，并将判断结果写入共享内存。

优选地，所述步骤S5为：对GPU内的线程设置同步点，直到同一线程块内所有的线程都完成视线线段上每点通视判断才继续下一步的计算。

优选地，所述步骤S6为：GPU内的每个线程块通过并行遍历方法共享内存中的通视判断结果，如果视线上所有离散点的高度都大于该点所在位置的地形的高度，则判定该视线通视，否则判定该视线不通视，并且将该视线的通视结果保存在GPU的显存上。

优选地，所述步骤S7为：将GPU得到的所有视线的通视判断结果写回CPU内存，通过PCI总线从GPU的显存复制到CPU内存上。

本发明具有如下有益效果：

与现有技术的通视并行处理方法相比，本发明的通视并行处理方法能够支持CPU、GPU异构混合体系结构，有效利用新型处理器、通信、同步等优化资源，实现通视计算的高效并行运行；通过将CUDA架构与通视性计算方法有机结合，充分利用CUDA并行存储和通信机制，实现分层并行的高效能通视方法，保证通视计算精度的同时有效减少计算时间。

附图说明

图1为本发明实施例提供的基于GPU的通视并行处理方法的流程图；

图2为基于GPU的通视并行计算方法的数据交换走向示意图；

图3为树状加法示意图。

具体实施方式

下面结合附图及实施例对本发明的发明内容作进一步的描述。

如图1所示，本实施例提供的基于GPU的通视并行处理方法包括如下步骤：

S1：构建GPU编程环境；

S2：计算连接观察点和目标点的视线；

S3：写入数据到GPU；

S4：并行计算视线线段上每点通视情况；

S5：设置同步点；

S6：并行判断通视结果；

S7：读出数据到CPU。

在上述步骤S1中，GPU编程环境包括硬件环境和软件环境，其中硬件环境包括CPU、支持CUDA架构的显示芯片、以及连接CPU与显示芯片的PCI总线，且将CPU作为主机(host)，将GPU作为设备(device)；软件环境包括C/C++编译器和CUDA。

上述步骤S2包括如下子步骤：

S2.1：读入观察点的位置、目标点的位置、观察点的地形数据和目标点的地形数据；在本实施例中，观察点和目标点的地形数据各包括经度、纬度和高度；

S2.2：在CPU上确定通过观察点和目标点的视线线段；

将观察点和目标点的位置从地理坐标系转换为地心坐标系的转换关系式为：

X＝(N+H)cos(B)cos(L) 公式(1)

Y＝(N+H)cos(B)sin(L) 公式(2)

Z＝[N(1-e_2_C)+H]sin(B) 公式(3)

公式(1)、公式(2)和公式(3)中，(X,Y,Z)为观察点或目标点的地心坐标；L为观察点或目标点在地理坐标系的经度；B为观察点或目标点在地理坐标系的纬度；H为观察点或目标点在地理坐标系的高度；e_2_C为椭球第一偏心率平方，且

e_2_C = \frac{a^{2} - b^{2}}{a^{2}}

公式(4)

公式(4)中，a为椭球长半轴；b为椭球短半轴；在本实施例中，a=6378137.0；且b=6356752.3142。

公式(1)、公式(2)和公式(3)中，N为卯酉圈曲率半径，且

N = \frac{a}{\sqrt{1 - e_2_C * {[\sin (B)]}^{2}}}

公式(5)

上述步骤S3为：将CPU上计算得到的视线线段和地形数据复制到GPU上，具体地，在GPU的显存上设置能够存储视线线段和地形数据的存储空间，通过PCI总线将视线线段和地形数据从CPU的内存传输到GPU的显存的存储空间。

上述步骤S3包括如下子步骤：

S3.1：将所有的数据从CPU的内存写入到GPU的显存，如图2中的标号1所示；

S3.2：将数据量较大并保持不变的地形数据从显存放入纹理缓存来加速读取，如图图2中的标号2所示；

S3.3：将计算中频繁访问的观测点和目标点位置放入常量缓存来加速读取，如图图2中的标号3所示。

上述步骤S4包括如下子步骤：

S4.3：所有线程同时执行相同的离散点通视判断。

上述步骤S4.3为：利用插值计算方法由观察点和目标点的地心坐标计算得到对应离散点的地心坐标，由该离散点的地心坐标计算得到该离散点的经度、纬度和高度，根据该离散点的经度和纬度查询地形数据得到该离散点所在位置的地形的高度，通过比较判断该离散点的高度是否大于该离散点所在位置的地形的高度，并将判断结果写入共享内存。

将观察点和目标点的位置从地心坐标系转换为地理坐标系的转换关系式为：

L = \{\begin{matrix} \arctan (\frac{Y}{X}), X > 0 \\ \arctan (\frac{Y}{X}) + π, X < 0, Y > 0 \\ \arctan (\frac{Y}{X}) - π, X < 0, Y < 0 \\ \frac{π}{2}, X = 0, Y > 0 \\ - \frac{π}{2}, X = 0, Y < 0 \end{matrix}\}

公式(6)

B = \arctan [\frac{Z + b * e_2 nd_2_C * \sin {(μ)}^{3}}{p - a * e_2_C * \cos {(μ)}^{3}}];

公式(7)

H = p * \cos (B) + Z * \sin (B) - a \sqrt{1 - e_2_C * \sin {(B)}^{2}};

公式(8)

公式(6)、公式(7)和公式(8)中，e_2nd_2_C为椭球第二偏心率平方，且

e_2 nd_2_C = \frac{a^{2} - b^{2}}{b^{2}};

公式(9)

p = \sqrt{X^{2} + Y^{2}};

公式(10)

μ = \arctan (\frac{a * Z}{b * p}) .

公式(11)

上述插值计算方法为：

利用距离加权法计算内插点的高度的计算公式为:

z = \frac{Σ_{i = 1}^{n} (\frac{z_{i}}{d_{i}^{2}})}{Σ_{i = 1}^{n} \frac{1}{d_{i}^{2}}};

公式(12)

公式(12)中，n=4；z_i为格网结点的高度；d_i为格网结点到内插点的距离。在格网边上点的高度采用简单的线性内插算出。已知两相邻的格网结点分别为A(x₁,y₁,z₁)和B(x₂,y₂,z₂)，查询点C的平面坐标为(x₀,y₀)，则点C(x₀,y₀,z₀)的高度为:

z_{0} = (z_{2} - z_{1}) * \frac{S_{1}}{S_{2}};

公式(13)

公式(13)中，S₁为A点与C点时间的距离；S₂为A点与B点之间的距离。

上述步骤S5为：对GPU内的线程设置同步点，直到同一线程块内所有的线程都完成视线线段上每点通视判断才继续下一步的计算，以保证读取通视结果的正确性。CUDA架构中通过栅栏(barrier)实现同步点的设置，调用syncthreads函数即可。

上述步骤S6为：GPU内的每个线程块通过并行遍历方法共享内存中的通视判断结果，如果视线上所有离散点的高度都大于该点所在位置的地形的高度，则判定该视线通视，否则判定该视线不通视，并且将该视线的通视结果保存在GPU的显存上。

如图3所示，上述并行遍历方法通过树状加法来完成并行计算：将通视结果记为值0，不通视结果记为值1。通过树状加法将所有线程的通视结果的求和过程并行化。如果树状加法返回值为0则视线通视，否则视线不通视。将视线通视结果写回共享内存，如图2中的标号4所示。

上述步骤S7为：将GPU得到的所有视线的通视判断结果写回CPU内存，通过PCI总线从GPU的显存复制到CPU内存上。

每个线程块将共享内存中的视线通视结果写入显存，如图2中的标号5所示；然后由CPU读取显存获得所有通视结果，如图2中的标号1所示。

应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于GPU的通视并行处理方法，其特征在于，包括如下步骤：

S1：构建GPU编程环境；

S2：计算连接观察点和目标点的视线；

S3：写入数据到GPU；

S4：并行计算视线线段上每点通视情况；

S5：设置同步点；

S6：并行判断通视结果；

S7：读出数据到CPU；

所述步骤S2包括如下子步骤：

S2.2：在CPU上确定通过观察点和目标点的视线线段；

2.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，所述GPU编程环境包括硬件环境和软件环境，其中硬件环境包括CPU、支持CUDA架构的显示芯片、以及连接CPU与显示芯片的PCI总线；软件环境包括C/C++编译器和CUDA。

3.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，观察点和目标点的地形数据各包括经度、纬度和高度。

4.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，所述步骤S3包括如下子步骤：

S3.1：将所有的数据从CPU的内存写入到GPU的显存；

S3.3：将计算中频繁访问的观察点和目标点位置放入常量缓存来加速读取。

5.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，所述步骤S4包括如下子步骤：

S4.3：所有线程同时执行相同的离散点通视判断。

6.根据权利要求5所述的基于GPU的通视并行处理方法，其特征在于，所述步骤S4.3为：利用插值计算方法由观察点和目标点的地心坐标计算得到对应离散点的地心坐标，由该离散点的地心坐标计算得到该离散点的经度、纬度和高度，根据该离散点的经度和纬度查询地形数据得到该离散点所在位置的地形的高度，通过比较判断该离散点的高度是否大于该离散点所在位置的地形的高度，并将判断结果写入共享内存。

7.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，所述步骤S5为：对GPU内的线程设置同步点，直到同一线程块内所有的线程都完成视线线段上每点通视判断才继续下一步的计算。

8.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，所述步骤S6为：GPU内的每个线程块通过并行遍历方法共享内存中的通视判断结果，如果视线上所有离散点的高度都大于该点所在位置的地形的高度，则判定该视线通视，否则判定该视线不通视，并且将该视线的通视结果保存在GPU的显存上。

9.根据权利要求1所述的基于GPU的通视并行处理方法，其特征在于，所述步骤S7为：将GPU得到的所有视线的通视判断结果写回CPU内存，通过PCI总线从GPU的显存复制到CPU内存上。