CN107608786A

CN107608786A - 一种基于gpu和分布式计算的高层建筑群震害分析方法

Info

Publication number: CN107608786A
Application number: CN201710740753.XA
Authority: CN
Inventors: 许镇; 袁静雨; 张宗才
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2018-01-19

Abstract

本发明提供一种基于GPU和分布式计算的高层建筑群震害分析方法，属于土木工程防灾减灾技术领域。该方法包括基于图形处理单元GPU的线性方程求解和动态荷载均衡策略两部分。线性方程组求解是震害分析中最耗时的部分。利用GPU并行计算优势，针对单个高层建筑震害分析提出了基于GPU的线性方程组求解算法，并借助开源震害分析平台OpenSees进行算法开发，实现高层建筑单体分析的并行加速；基于此，提出适用于高层建筑群的动态负载均衡策略，将不同高层建筑单体计算任务合理分配个不同的GPU，利用GPU集群实现高层建筑群分布式计算。以50个高层建筑为对象，本发明基于GPU的分布式计算效率要比单机效率提高52倍。本发明为高层建筑群的震害分析提供了高性能的计算手段。

Description

一种基于GPU和分布式计算的高层建筑群震害分析方法

技术领域

本发明涉及土木工程防灾减灾技术领域，特别是指一种基于GPU和分布式计算的高层建筑群震害分析方法。

背景技术

高层建筑群是人员和财产的高度汇集区域，同时也会成为一个城市的名片，如北京的国贸区域，对于整个城市具有极其重要的地位和价值，其防灾重要性不言而喻。然而，在全国660个城市中，位于地震区的占74.5％，约有一半城市位于基本烈度7度及以上地区。因此，地震是高层建筑群重要自然灾害威胁。非常有必要对高层建筑群进行震害分析，为应急管理、防灾规划等提供重要依据。

然而，高层建筑震害分析模型一般比较庞大，导致震害分析的计算量很大。例如，一些高层建筑一次震害分析需要几十，甚至上百小时。高层建筑群一般具有几十到上百栋建筑，震害分析的计算量相当庞大，需要高性能的计算技术。

日本东京大学地震研究中心Hori教授采用超级计算机来解决高层建筑群的计算难题(Yamashita T,Kajiwara K,Hori M.Petascale computation for earthquakeengineering.Comput Sci Eng 2011；13:44–9.)。然而，超级计算使用成本较高，使用程序繁琐，难以满足高层建筑群大量、频繁的震害分析需求。

GPU是一种低成本但高性能的计算手段，可以通过细颗粒度并行方式来加速有限元求解过程中的矩阵运算，如特征值求解、线性方程组求解等。分布式计算是一种灵活的计算手段，它可以根据问题的规模来调用所需的计算资源。因此，本发明借助图形处理GPU(Graphics Processing Unit)来实现单个高层建筑震害分析的并行加速，并通过分布式计算来解决高层建筑群的计算难题。

发明内容

本发明为解决高层建筑群震害分析的海量计算问题，提供一种基于GPU和分布式计算的高层建筑群震害分析方法，为震害分析提供高性能的计算方法。

该方法包括基于GPU的线性方程求解和动态荷载均衡策略两部分，具体过程如下：

(1)基于GPU的线性方程求解：

采用开源震害分析平台OpenSees作为震后分析平台，以GPU加速求解作为技术手段。首先，在OpenSees中建立集成器LinearSOE，用于存储地震分析中的线性方程组数据；然后，将数据由主机内存复制到GPU显存中；设计求解器LinearSOESolver，以调用GPU的大量核心来进行线性方程组的并行求解；最后，将线性方程组的求解结果从GPU显存复制到主机内存中，完成后续的震害分析。

(2)动态荷载均衡策略：

使用一组配有GPU的计算机实现高层建筑群的分布式计算，其中，一台计算机被分为一个Host，余下的为Slaves，Host负责给每一个Slave分配计算任务，Slave负责执行具体的计算任务；选择未分配任务中荷载最大的任务分配给当前负载最轻的Slave。

其中，步骤(1)中GPU加速的线性方程组求解器的编写原则为：

首先，通过集成器在主机内存收集线性方程组数据，拷贝到显存中，再通过求解器进行并行计算，最后，将求解结果返回的主机内存中。其中，集成器和求解器分别设计。

步骤(1)集成器LinearSOE采用行压缩存储(Compressed Sparse Row,简称CSR)格式存储线性方程组的稀疏矩阵和求解向量，可借助OpenSees的SparseGenRowLinSOE类实现CSR存储。

步骤(1)求解器LinearSOESolver中引入两个基于GPU加速的稀疏矩阵方程组求解库，用于OpenSees中稀疏矩阵方程组加速求解，分别为CulaSparse和CuSP；且求解函数的调用格式统一为：

步骤(2)中动态荷载均衡策略任务分布流程包括“准备”、“更新”、“分配”和“完成”四步，其中，“准备”时，首先建立任务堆栈，在任务堆栈中，任务按照近似荷载量从大到小降序排列，再建立负载状态堆栈，在负载状态堆栈中，负载状态的个数等于Slave的个数，每个Slave对应的负载状态按照当前状态从小到大升序排列；“更新”为在每次任务分配前，更新负载状态堆栈，并按升序重新排列；“分配”为在任务堆栈中，当前荷载最大的任务被分配到最低负载的Slave上，同时最顶端的任务被移出任务堆栈。

本发明方法采用开源的分布式计算管理平台HTCondor来实现动态荷载均衡策略。

本发明的上述技术方案的有益效果如下：

(1)基于GPU的线性方程组求解器可以实现高层建筑单体分析的计算加速，提升计算效率。

(2)通过本发明的动态负载均衡策略，可以合理分配计算任务，利用GPU集群实现高层建筑群的分布式计算，从而大大提高计算效率，解决高层建筑群震害分析的计算瓶颈。

附图说明

图1为本发明流程图；

图2为GPU线性方程组求解器UML类图；

图3为动态荷载平衡策略流程图；

图4为提出的荷载平衡方法与随机分配的计算时间比较；

图5为提出的荷载平衡策略下各个Slave的计算耗时；

图6为计算耗时与Slave数量的关系。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的高层建筑群震害分析的海量计算问题，提供一种基于GPU和分布式计算的高层建筑群震害分析方法。

该方法流程如图1所示，该方法包含两大部分：1.基于GPU的线性方程求解(用于单体建筑分析的加速计算)；2.动态荷载均衡策略(用于群体建筑分析的任务分配)。

(1)基于GPU的线性方程求解：

采用OpenSees作为震后分析平台。OpenSees是开源有限元软件，在世界范围内都有广泛的应用。对于OpenSees来说，其求解高层建筑模型时，耗费时间最长的就是线性方程组求解模块。本发明以GPU加速求解作为技术手段，为OpenSees编写基于GPU加速的线性方程组求解器，力求使其满足高层模型震害模拟的时效性需求。

基于GPU的线性方程求解最关键的两个步骤是：集成器LinearSOE和求解器LinearSOESolver的设计。

集成器的设计要点在于采用CSR格式。稀疏矩阵存储有许多形式，其中比较常用的存储方法为行压缩存储(Compressed Sparse Row,简称CSR)格式，其格式在于：假设n维稀疏矩阵含有nnz个非零元素，CSR格式将nnz个非零元素按照先列后行的顺序存储在一维数组A中，将每个元素所在的列位置索引存储于一维数组colInd中。此外，还需要一维数组rowPtr，用来存储矩阵中每一行第一个元素在数组A中的索引位置(第n+1个元素存储nnz)。则数组A和colInd的长度均为nnz，数组rowPtr的长度则为n+1。

采用CSR格式存储稀疏矩阵，可以快速的与COO格式(Coordinate format，坐标格式，采用一维数组A顺序存储非零元素，采用colInd和rowInd存储非零元素的列位置和行位置)进行格式转换，且存储占用空间更低。同时可以快速计算一些矩阵特征数值，如某一行非零元素个数(rowPtr[i+1]-rowPtr[i])。同时，CSR格式也可以方便和高效地在GPU上进行矩阵乘矩阵、矩阵乘向量的并行运算，因此在本发明中采用CSR格式存储矩阵。借助OpenSees中提供了SparseGenRowLinSOE类，可以实现在集成器LinearSOE中用CSR格式存储的稀疏矩阵。

为了提升GPU加速求解器的性能，并保持与OpenSees原版计算程序良好的兼容性，GPU加速求解器LinearSOESolver的编写依照如下原则：

①在CPU线程中集成矩阵，拷贝到显存中，再并行计算

在OpenSees的其他CPU求解方法中，在LinearSOE集成方程组之后，LinearSOESolver并不将LinearSOE中的数据进行拷贝，而是采用友元类的方法，直接操作LinearSOE中的数据，这样可以减少因数据拷贝而造成的时间浪费。然而对于GPU来说，虽然也可以直接操作内存中的数据，但其效率远不及读写显存。因此在GPU加速求解器中，需要先将方程组中的矩阵和向量数据拷贝到显存中，再调用GPU线程并行计算。

②采用迭代法计算

由于直接法求解线性方程组时，算法并行度较低，不适合GPU计算。因此在编写GPU加速求解器时，应采用迭代法求解，最大限度地发挥GPU多核并行的计算能力，提高计算性能。

③求解器类与求解函数分别设计，加强兼容性和可扩展性

求解器类采用继承OpenSees中LinearSOESolver类进行设计，最大限度保持与OpenSees其他求解模块的兼容性。求解函数本身设计为DLL(Dynamic-Link Library，动态链接库)形式，可以方便地进行求解函数的替换和修改。

在确定了SparseGenRowLinSOE作为LinearSOE之后，需要为其编写基于GPU计算的LinearSOESolver类。为此，本发明引入两个基于GPU加速的稀疏矩阵方程组求解库，用于OpenSees中稀疏矩阵方程组加速求解，分别为CulaSparse和CuSP。CulaSparse是一个基于GPU加速的线性代数函数库，用于迭代求解稀疏矩阵方程组。CuSP是一个开源的C++稀疏矩阵函数模板库，可以进行多种稀疏矩阵运算。通过调用以上两个GPU加速求解库，可以快速进行稀疏矩阵方程组的求解。为了保证求解器类与求解函数相互独立，需要保持接口的统一性。求解函数的调用格式统一为：

其中PreCond和Solver为迭代求解器所需的预处理器和求解方法标识，对于不同的求解库，其定义并不相同。EquationSolver()函数的返回值表示求解是否完成，返回0表示正常结束，返回其他数值则表示遇到错误，返回数值与错误类型相关。EquationSolver()函数在LinearSOESolver类的solve()方法中调用。

针对CulaSparse和CuSP两个求解库，本发明为其编写了CulaSparseSolver和CuSPSolver类(均继承自SparseGenRowLinSolver，对应于SparseGenRowLinSOE)。两个求解器类的架构完全相同，仅在调用EquationSolver()时加载了不同的DLL。图2为这两个求解器类的UML类图。

(2)动态荷载均衡策略：

使用一组配有GPU的计算机实现高层建筑群的分布式计算。这些计算机可以被分为一个Host和若干Slaves，Host负责给每一个Slave分配计算任务，而Slave负责执行具体的计算任务。为了使分配任务的大小和Slave的计算能力相匹配，Host所采取的荷载平衡策略(load balancing strategies)非常重要。

在高层建筑震害分析中，计算非常复杂，很难准确地估计计算荷载量。因此，本发明设计了一种动态荷载均衡策略。这种策略可以在计算过程中根据计算机实际的负载情况分配任务，非常适合无法预先准确估计荷载量的精细尺度模拟。

该策略选择未分配任务中荷载最大的任务分配给当前负载最轻的Slave。为了实现这一目的，需要建立两个堆栈，一个用于储存计算任务，一个用于储存Slave的负载状态。在每一次分配前，都会更新负载状态堆栈，并核对是否有Slave可以接受新任务。在分配过程中，当前荷载最大的任务将会分配给当前负载最轻的Slave，直到任务堆栈为空。整个任务分配流程如图3所示，它可以划分成4个步骤。

步骤1：准备

首先，需要建立任务堆栈。在任务堆栈中，任务按照近似荷载量从大到小降序排列。模型的节点个数是评价计算荷载的一个重要指标。因此，在任务堆栈中，任务的次序可以简单地通过模型节点数量进行降序排列。这种情况下，任务堆栈的顶部元素就是当前的最大荷载任务。其次，需要建立负载状态堆栈。在这个堆栈中，负载状态的个数等于Slave的个数，每个Slave对应的负载状态按照当前状态从小到大升序排列。特别说明的是，如果任何一个Slave都没有被分配任务，将取每个Slave在无任务情况下的背景负载(backgroundload)作为负载状态。初始情况下，负载状态的排序就是根据背景负载状态确定的。

步骤2：更新

首先，在每次任务分配前，将会更新负载状态堆栈，并按升序重新排列。在本发明中，用CPU使用率表示负载状态。然后，检查是否有能够接受新任务的Slave。在本发明的计算框架中，每个计算任务都需要占用一个GPU，而每个Slave都只有一个GPU，因此，一个Slave一次只能运行一个任务，也就是说，只有该Slave的当前任务队列为空时，这个Slave才能接受新任务。如果所有的Slave都无法接受新任务，那么将会不断更新负载状态以及每个Slave的任务队列，直到出现任务队列为空的Slave。如果有可接受新任务的Slave，将执行任务分配过程。

步骤3：分配

在任务堆栈中，当前荷载最大的任务(也就是任务堆栈最顶端元素)将被分配到最低负载的Slave上(也就是负载状态堆栈最顶端元素)。然后，最顶端的任务将被移出任务堆栈，表示该任务已经被分配。

步骤4：完成

如果任务堆栈为空，则任务分配将结束。否则，剩下的未分配的任务将继续执行步骤2和3直到任务堆栈变空。

为实现所提出的荷载平衡策略，本发明采用了一个开源的分布式计算管理平台HTCondor。对于动态荷载均衡策略，需要实时获取Slave的负载状态以及任务队列来分配任务。在HTCondor中，condor_status和condor_q命令可以分别用来获得负载状态和任务队列情况。

此外，Host和Slave之间的文件传输可以通过transfer_input_files和transfer_output_files两个命令实现。具体地，通过transfer_input_files将Host中结构模型传递给Slave，通过transfer_output_files把Slave的模拟结果传递给Host。

按照本发明方法的具体实施过程如下：

选取50个高层建筑模型，组成高程建筑群。这50栋建筑的结构类型、建造年代、层数等比例都是参考一些中国真实高层建筑群数据生成的，并在OpenSees中建立震害分析模型。通过网速100.0Mbps的局域网将一个Host和7个Slave通过HTCondor进行连接，形成分布式计算硬件平台，它们的硬件配置如下表1所示。本发明震害模拟采用PGA为400cm/s²的El-Centro地震动作为输入。

表1计算框架的硬件配置

(1)利用负载均衡策略划分任务

利用本发明提出的动态负载均衡策略，可以将50栋建筑的计算任务动态分布到7台Slave计算机上。为了展示本发明提出的荷载均衡策略的优势，也执行了10组随机分配任务的模拟。使用本发明提出的荷载均衡策略的模拟时间和随机分配的模拟时间的对比情况如图4所示。可以发现，使用荷载均衡策略的用时比10组随机分配所得用时都要低，这说明该荷载均衡策略是有效的。而且，如图5所示，采用该策略后，每一台Slave的计算时间都非常接近，这也说明每一台Slave被分配任务的大小与其计算能力是相匹配的。

(2)每台计算机执行GPU加速计算

每台计算的OpenSees都采用本发明设计的线性方程组求解器，以保证GPU计算被执行。以一个典型高层建筑为例(43层，142m)，使用Slave1计算，不采用GPU，震害分析需要花费168h；采用GPU求解器后，震害分析只需要11h，效率提升了15倍。

在本发明所提出的分布式计算方法下，50栋建筑的精细尺度震害模拟共耗时48小时。如果不采用该框架，即使应用最强大的Slave 1进行模拟，总模拟时间也需要168小时，如图6所示。相比Slave 1，该计算框架取得了3.5倍的效率提升。如果连GPU加速也不采纳，则高层建筑群震害分析甚至要超过2500h。因此，相比计算能力最强Slave 1，本发明方法架至少取得了52倍(2500/48)的效率提升。而且，图6也展示了计算耗时随Slave数量的增长而下降。这样情况下，如果计算规模增大，可以增加更多的Slave来维持高效率。

综上所述，本发明提供一个基于GPU和分布式计算的高层建筑群震害分析加速技术。该技术可以实现高层建筑单体分析的计算加速，提升计算效率，也可以通过动态负载均衡策略合理分配计算任务，利用GPU集群实现高层建筑群的分布式计算，从而大大提高计算效率，解决高层建筑群震害分析的计算难题。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于GPU和分布式计算的高层建筑群震害分析方法，其特征在于：包括基于GPU的线性方程求解和动态荷载均衡策略两部分，具体过程如下：

(1)基于GPU的线性方程求解：

采用开源震害分析平台OpenSees作为震后分析平台，以GPU加速求解作为技术手段；首先，在OpenSees中建立集成器LinearSOE，用于存储地震分析中的线性方程组数据；然后，将数据由主机内存复制到GPU显存中；设计求解器LinearSOESolver，以调用GPU的大量核心来进行线性方程组的并行求解；最后，将线性方程组的求解结果从GPU显存复制到主机内存中，完成后续的震害分析；

(2)动态荷载均衡策略：

2.根据权利要求1所述的基于GPU和分布式计算的高层建筑群震害分析方法，其特征在于：所述步骤(1)中GPU加速的线性方程组求解器的编写原则为：首先，通过集成器在主机内存收集线性方程组数据，拷贝到显存中，再通过求解器进行并行计算，最后，将求解结果返回的主机内存中；其中，集成器和求解器分别设计。

3.根据权利要求1所述的基于GPU和分布式计算的高层建筑群震害分析方法，其特征在于：所述步骤(1)集成器LinearSOE采用行压缩存储格式存储线性方程组的稀疏矩阵和求解向量，借助OpenSees的SparseGenRowLinSOE类实现CSR存储。

4.根据权利要求1所述的基于GPU和分布式计算的高层建筑群震害分析方法，其特征在于：所述步骤(1)求解器LinearSOESolver中引入两个基于GPU加速的稀疏矩阵方程组求解库，用于OpenSees中稀疏矩阵方程组加速求解，分别为CulaSparse和CuSP；且求解函数的调用格式统一为：

5.根据权利要求1所述的基于GPU和分布式计算的高层建筑群震害分析方法，其特征在于：所述步骤(2)中动态荷载均衡策略任务分布流程包括“准备”、“更新”、“分配”和“完成”四步，其中，“准备”时，首先建立任务堆栈，在任务堆栈中，任务按照近似荷载量从大到小降序排列，再建立负载状态堆栈，在负载状态堆栈中，负载状态的个数等于Slave的个数，每个Slave对应的负载状态按照当前状态从小到大升序排列；“更新”为在每次任务分配前，更新负载状态堆栈，并按升序重新排列；“分配”为在任务堆栈中，当前荷载最大的任务被分配到最低负载的Slave上，同时最顶端的任务被移出任务堆栈。

6.根据权利要求1所述的基于GPU和分布式计算的高层建筑群震害分析方法，其特征在于：采用开源的分布式计算管理平台HTCondor来实现动态荷载均衡策略。