CN113625264A - 一种并行处理铁路检测大数据的方法及*** - Google Patents

一种并行处理铁路检测大数据的方法及*** Download PDF

Info

Publication number
CN113625264A
CN113625264A CN202110665774.6A CN202110665774A CN113625264A CN 113625264 A CN113625264 A CN 113625264A CN 202110665774 A CN202110665774 A CN 202110665774A CN 113625264 A CN113625264 A CN 113625264A
Authority
CN
China
Prior art keywords
data
detection data
node
parallel
workflow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110665774.6A
Other languages
English (en)
Inventor
杜翠
张千里
陈锋
刘杰
程远水
郭浏卉
张栋
张新冈
刘景宇
邓逆涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Railway Sciences Corp Ltd CARS
Railway Engineering Research Institute of CARS
Original Assignee
China Academy of Railway Sciences Corp Ltd CARS
Railway Engineering Research Institute of CARS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Railway Sciences Corp Ltd CARS, Railway Engineering Research Institute of CARS filed Critical China Academy of Railway Sciences Corp Ltd CARS
Priority to CN202110665774.6A priority Critical patent/CN113625264A/zh
Publication of CN113625264A publication Critical patent/CN113625264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/885Radar or analogous systems specially adapted for specific applications for ground probing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Electromagnetism (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明提供了一种并行处理铁路检测大数据的方法及***,该方法将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;通过根据检测数据的工程性质需求和解释目标需求,创建检测数据需进行的多个信号处理算法的组合作为常规类工作流和迭代类工作流,进而利用设计的并行节点架构并行调取存储的检测数据,并分别按照匹配工作流的调度策略实现基于常规类运算和迭代类运算的并行处理。采用上述方案,克服了现有数据处理技术中运算负载失衡和易独占运算模块内存的问题,本发明基于特有的并行节点架构,结合制定的不同调度策略,提高了处理过程的负载均衡性能和集群资源利用率,能满足当下及未来大规模检测数据的处理需求。

Description

一种并行处理铁路检测大数据的方法及***
技术领域
本发明涉及集群资源处理及优化技术领域,尤其涉及一种并行处理铁路检测大数据的方法及***。
背景技术
铁路运输为百姓的生活和工作带来诸多便利和支持,但是保障铁路的安全运营也是现在及未来须始终重视的核心方向,随着我国铁路运营里程的迅速增长,如何对日益庞大铁路网的基础设施进行快速、准确、无损地检测,及时掌握基础设施的健康状态,成为当前亟待解决的重大课题。
探地雷达(Ground Penetrating Radar.GPR)是利用天线发射和接收高频电磁波来探测介质内部物质特性和分布规律的一种地球物理方法,通过研究雷达波极化方式的变化可以获得与地下介质物性相关的信息,应用时可以采用多种方式利用探地雷达进行检测,相应地获得的检测数据种类复杂度和规模都较大,需要采用设定的策略进行处理和分析。
现有技术中针对探地雷达检测数据的处理手段进行了研究,但这些技术绝大部分基于单计算节点,涉及的算法往往高度串行化,仅适用于小尺度GPR数据集的处理。随着当前探地雷达数据规模的快速扩张,部分技术人员也进行了现有数据处理技术的优化研究,基于上述技术,其借助大数据云计算技术的海量高速并行化的处理能力,提升对大规模数据进行快速处理的能力,其基于Hadoop的分布式集群管理数据,具体采用分布式文件***HDFS、MySQL的关系型数据库集群结合Hbase来解决结构化数据的海量存储和高效访问,这样虽然保障了集群资源的可扩展性和可移植性,能够存储多种格式的数据,但是其将雷达数据进行预处理或后续处理的过程中存在重复读写的问题,且容易因不同并行任务的计算量差异过大引起负载均衡问题,当工作流中的算法步骤复杂时,可能导致各并行计算节点无法正常运作,无法满足大规模探地雷达检测数据的处理要求。因此,亟需提供一种能够满足应用需求的高效合理的数据并行处理方法。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成己为本领域技术人员所公知的现有技术。
新一代高性能硬件架构体系的快速发展,给海量GPR数据快速处理的开展创造了新的机遇。大量高精度、大区域的GPR检测数据可以利用并行技术进行处理,以极大地提高处理效率。
发明内容
为解决上述问题,本发明提供了一种并行处理铁路检测大数据的方法,在一个实施例中,所述方法包括:
数据存储步骤、将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;
算法组合制定步骤、根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流;
并行处理步骤、基于预先创建的并行节点架构并行调取存储的检测数据,并分别按照与所述运算工作流匹配的调度策略实现基于常规类运算和迭代类运算的并行处理。
优选地,在所述数据存储步骤中,按照采集区域和采集设备类型对铁路检测数据进行划分,得到处理优先级不同的各级的检测数据。
进一步地,在一个实施例中,在存储划分后的检测数据时,采用关系型数据库和分布式数据库多种存储方式,结合优先级信息实现对多种格式检测数据的并行存储;
其中,所述检测数据文件的数据体包括道头数据和数据内容,各检测数据的道头数据与所述文件头关联存储在关系型数据库中,各检测数据的数据内容存储在分布式数据库中。
进一步地,一个优选的实施例中,所述方法还包括:节点架构创建步骤、设置一个主节点作为任务调度节点,与一个读写节点和N个计算节点共同构成并行节点架构。
进一步地,一个实施例中,在所述并行处理步骤中,按照以下步骤实现基于常规类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
基于预先设置的调度基数K,由读写节点读取x/K道作为本轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
各个计算节点根据常规类工作流并行执行运算;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区;
其中,K为正整数,1≤K≤N,或进一步结合单位标记数据对应的道数S进行优化,确定调度基数K。
进一步地,一个实施例中,按照以下步骤实现基于迭代类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
根据硬件资源、x以及该迭代算法的计算单位大小设置调度基数K,由读写节点读取x/K道作为第一轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
进而依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
任务调度节点实时统计处于空闲的计算节点数量n,
读写节点读取
Figure RE-GDA0003281717670000031
道,数据,将其平均划分为n部分,分配至各个空闲的计算节点;
各个计算节点根据迭代类工作流并行执行运算,并实时向任务调度节点反馈运算状态信息;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区。
基于上述任意一个或多个实施例中所述的并行处理铁路检测大数据的方法,本发明还提供一种存储介质,该存储介质上存储有可实现如上述任意一个或多个实施例所述方法的程序代码。
基于上述任意一个或多个实施例中所述方法的其他方面,本发明还提供一种并行处理铁路检测大数据的***,该***包括:
数据存储模块,其配置为将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;
算法组合制定模块,其配置为根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流;
并行处理模块,其配置为基于预先创建的并行节点架构并行调取存储的检测数据,并分别按照与所述运算工作流匹配的调度策略实现基于常规类运算和迭代类运算的并行处理。
进一步地,在一个实施例中,所述***还包括:节点架构创建模块、其配置为设置一个主节点作为任务调度节点,与一个读写节点和N个计算节点共同构成并行节点架构。
与最接近的现有技术相比,本发明还具有如下有益效果:
本发明提供的一种并行处理铁路检测大数据的方法及***,其将采集的检测数据进行划分,能够保障具有紧急处理需求的数据能第一时间得到处理结果,有利于避免数据处理不及时引起的事故或影响;进一步地,本发明提出的数据划分与存储方法,针对数据处理算法原理进行多粒度的切分运算,针对常规类算法和迭代类算法基于并行节点架构按照不同的调度策略实现并行处理,从负载均衡性能和集群资源利用率两个层面上提升了数据处理的速率,能有效满足当下及未来大规模数据的处理需求,为铁路检测数据的后续应用提供可靠助力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一实施例提供的并行处理铁路检测大数据的方法的流程示意图;
图2是本发明另一实施例提供的并行处理铁路检测大数据的***的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
随着我国铁路运营里程的迅速增长,如何对未来庞大铁路网的基础设施进行快速、准确、无损地检测,及时掌握基础设施的健康状态,成为当前亟待解决的重大课题。
现有技术中GPR(探地雷达)数据处理技术在处理中小尺度数据集上己经相对成熟。但这些技术绝大部分基于单计算节点,涉及的算法往往高度串行化,无法有效适用于大规模铁路检测数据的处理。随着当前探地雷达数据规模的快速扩张,部分技术人员也进行了现有数据处理技术的优化研究,基于上述技术,其借助大数据云计算技术的海量高速并行化的处理能力,提升对大规模数据进行快速处理的能力,其基于Hadoop的分布式集群管理数据,具体采用分布式文件***HDFS、MySQL的关系型数据库集群结合Hbase来解决结构化数据的海量存储和高效访问,这样虽然保障了集群资源的可扩展性和可移植性,能够存储多种格式的数据,但是其并未提供明确的数据存储策略,且将雷达数据进行预处理或后续处理的过程中存在重复读写的问题,容易因不同并行任务的计算量差异过大引起负载均衡问题,当工作流中的算法步骤复杂时,可能导致各并行计算节点无法正常运作,无法满足大规模探地雷达检测数据的处理要求。因此,亟需提供一种能够满足应用需求的高效合理的数据并行处理方法。
新一代高性能硬件架构体系的快速发展,给海量GPR数据快速处理的开展创造了新的机遇,高精度、大区域的GPR检测数据可以利用并行技术进行处理,以极大地提高处理效率,但是并行实现处理的过程中,由于各路并行运算的运算量难以均衡,难以克服负载差异过大的影响,容易引起运算资源不均和中间内存资源消耗不足的现象,处理效率难以保障。
为解决上述问题,本发明提供一种并行处理铁路检测大数据的方法及***,该方法建立“数据并行+算法并行”的混合并行计算架构,将雷达信号数据处理算法分为两大类,分别制定适用的调度和计算策略,从而使整个工作流处理模式能够实现负载均衡的效果,最大化发挥集群资源的利用效率。
接下来基于附图详细描述本发明实施例的方法的详细流程,附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机***中执行。虽然在流程图中示出了各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图1示出了本发明实施例一提供的并行处理铁路检测大数据的方法的流程示意图,参照图1可知,该方法包括如下步骤。
数据存储步骤、将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;
算法组合制定步骤、根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流;
并行处理步骤、基于预先创建的并行节点架构并行调取存储的检测数据,并分别按照与所述运算工作流匹配的调度策略实现基于常规类运算和迭代类运算的并行处理。
铁路数据检测领域的实际应用过程中,应用的探地雷达数据采集装置,包括探地雷达主机、发射与接收天线以及测点与测线空间坐标确定与记录***;所述探地雷达主机分别连接并控制发射与接收天线、测点与测线空间坐标确定与记录***;所述测点与测线空间坐标确定与记录***用于确定与记录每个探地雷达数据采集点的具***置。
对于采集的原始检测数据,还通过对应型号的探地雷达数据读取器以及数据转换器读取原始检测数据并将其转换为满足本发明并行处理的标准格式。
本发明研究人员考虑到由于不同类型的探地雷达设备以及设置与不同区域的探地雷达设备获取的检测数据在处理需求方面存在轻重缓急之分,例如,某区域发生了地震,则该区域铁路相关探地雷达的实时检测数据则具备紧急的处理需求。因此,一个实施例中,在所述数据存储步骤中,按照采集区域和采集设备类型对铁路检测数据进行划分,得到处理优先级不同的各级的检测数据。
具体地,可以为各批检测数据包添加优先级标记,并依据该优先级标记直接批量存储至不同优先等级对应的子存储区中,这样,避免了优先级标记位于检测数据文件头中,影响后续并行处理过程中的读取速率和调度运算速率。相应地,具有最高处理优先级的存储区,其中所存数据具备最高的调度优先级和读取优先级。
实际应用场景中,每次检测得到的数据集往往是多个文件,需要将数据集分配到多个并行计算节点,同时进行处理。切分调度运算的粒度直接影响每个并行计算节点的数据处理量和处理效率,对负载均衡有重要影响。
现有技术中采用以文件为单位进行切分,比如总共10个文件5个节点,每个节点分配2个文件。但有时单个文件很大,导致单个节点的计算量过大占用全部内存,其他节点无法运行,完全无法发挥并行化处理的优势。通俗来说,就是明明有多个生产线,却无法同时生产。
因此,为了进行细粒度的拆分,需要分解雷达文件,本发明研究人员考虑到由于探地雷达检测数据文件格式的特殊性,无法直接分解,其结合文件格式的具体内容实现并行分区存储,以便于实现检测数据的灵活切分。
具体地,检测数据的文件格式为:文件头+信号数据(例如第1道数据+第2道数据……);其中,文件头为多个采集参数,且不同雷达设备的格式不同。
进一步地,信号数据中的每1道数据包含2部分,道头+雷达信号(数据内容,如某品牌为4个数+512个数);
由于后续的信号处理算法需要用到文件头中的参数,所以本专利的研究人员将文件头存储到关系型数据库中,如mysql数据库,领域内技术人员可以根据需求选用任何合理的关系型数据库;雷达信号数据内容则存储到分布式数据库中,如hdfs数据库,应用时,领域内技术人员可以根据需求选用任何合理的分布式数据库;基于此,信号数据就可以进行灵活的均等切分了,最小的粒度为单道信号。由此可见,采用本发明的技术构思,能够使各并行处理节点的数据处理粒度更小更均衡,从1个文件(通常路基检测单个文件有几十万道数据)到较小的道集(比如几十道,几百道)甚至1道数据。
此外,道头中会表征这一道是否为标记数据,对后续处理也有用,也存到关系型数据库中。所述标记数据可用于匹配雷达数据的真实空间位置,是采集时操作采集软件***的,一般是等距离处,或者表征检测区段的地质特征发生变化的位置。
具体地,考虑到探地雷达数据及其属性特征值涉及多种不同的数据格式,包括时域均方根振幅、时域相干性、频域-3dB带宽平均频率、频域-3dB带宽平均相位、时频域低频增加面积、时频域高频衰减面积等多维属性数据。因此,在一个实施例中,针对各个优先级存储区,在存储划分后的检测数据时,采用MySQL关系型数据库和分布式数据库多种存储方式,结合优先级信息实现对多种格式检测数据的并行分区存储;
其中,所述检测数据包括文件头和数据体,文件头包括各文件对应的数据采集时总道数、采样点数、天线频率、道间距以及时窗参数;各检测数据的文件头存储至关系型数据库中。
所述检测数据文件的数据体包括道头数据和数据内容,各检测数据的道头数据与所述文件头关联存储在关系型数据库中,各检测数据的数据内容存储在分布式数据库中。
具体实施时,可采取将文件头对应的数据采集时属性参数存入MySQL关系数据库,如总道数、采样点数、天线频率、道间距、时窗等参数。
将数据体在HDFS中分块存储,如果道头提示是道数标记,将道数标记也关联存入数据库,采用这样的存储方式,雷达数据可以按任意单道数据大小的倍数切分。
实际应用时,数据库存储格式可以如下例所示:
文件属性参数表示例:
文件名 属性1 属性2 属性3 ……
文件1 1 2 3
文件2 1 2 3
文件3 1 2 3
文件标记表示例:
文件名 标记道号
文件1 标记1
文件1 标记2
文件1 标记3
文件2 标记1
文件2 标记2
传统算法的输入输出为一个或多个雷达文件,并行计算时单个任务的最小数据量普遍较大,容易引起并行计算负载不均衡,以及计算模块内存不足的问题,严重时甚至影响所有并行计算的正常运行。
进一步地,即使现有技术中设置其并行计算的最小计算单位为一个雷达数据文件,由于其可能需要执行迭代运算处理,而迭代运算的次数不均,依然可能造成计算负载不均的问题,而现有技术中若该批计算中,存在未执行完毕的计算则其他并行运算通道处于毫无价值的等待状态,大大影响运算处理的时效性。
因此,一个实施例中,在算法组合制定步骤、根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流。本发明中针对不同的运算原理,根据其是否为迭代算法将运算工作流划分为常规类工作流和迭代工作流。
需要说明的是,针对某一个雷达文件,可能涉及到具备执行顺序的运算处理,基于此,各雷达文件的运算处理工作流不限于一个常规类工作流和一个迭代类工作流。研究人员可以根据其运算需求合理规划各雷达数据文件不同阶段的运算工作流,各阶段运算工作流中至少包括一个算法,并进行统一规划存储。实际应用中,同类型批量雷达数据对应的运算工作流一致。
进一步地,为了保障各并行计算通道的负载均衡和利用利用率,本发明研究人员设置雷达信号处理算法的输入输出单元及最小计算单元为单道或道集。
确定算法的最小计算单元e,即可开展互相之间无关联的独立计算,以最小计算单元为输入输出,比如单道或道集,道集大小可指定。
以线性增益算法为例,对于每一道数据的计算结果体现为每个采样点乘以不同的系数:
P(i)=aiΔt+bexpciΔt,i=1,2,…,N1
式中:N1为每一道信号的采样点个数(文件头中可读取);
P(i)为第i个采样点对应的加权因子;
Δt为采样时间间隔(文件头中可读取);
a,b,c为系数,系数的值可由用户自行设定,在界面输入;
因此针对上述线性增益算法,则设置最小计算单位为单道数据。
结合实际应用,一个实施例中,本发明提供的并行处理方法还包括:节点架构创建步骤、设置一个主节点A作为任务调度节点,与一个读写节点B和N个计算节点C1~CN共同构成并行节点架构。
进一步地,在所述并行处理步骤中,对于运算工作流中的多个算法,逐个处理:
如果是常规类算法,采用静态调度方法,A节点将本次处理数据划分为N部分,平均分配到C1~CN节点,在并行执行过程中将不再进行任务的调度。节点C1~CN分别调用设定的常规类算法进行并行处理,并在处理完后将计算结果反馈回A节点。
因此,在一个实施例中,按照以下步骤实现基于常规类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
基于预先设置的调度基数K,由读写节点读取x/K道作为本轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;因此,运算过程中K的设置决定了调度粒度的大小,调度粒度指的是每个计算节点每次计算的数据量;在这一场景下,调度粒度=x/NK;
各个计算节点根据常规类工作流并行执行运算;
并行调度节点确认是否收到计算完成的己处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区;
其中,K为正整数,1≤K≤N,或进一步结合单位标记数据对应的道数S进行优化,确定调度基数K。
实际应用时,由于常规运算各并行通道的计算过程是一致的,计算时间差距不会太大,因此,采用批量完成后再启动下一批数据调取及运算,但是需要说明的是,并行调度节点一旦识别到收到计算完成的己处理检测数据,就可以立即将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区,与上述的批量完后启动下一批读取和运算不冲突,可以有效避免数据读写和存储的拥挤。
其中,按照待处理数据总道数x的大小设定计算单位大小e的值,通常待处理数据总道数越大,相应的计算单位大小越大,最小的e值为1,表示以单道为最小计算单位;。
进一步地,考虑到用于匹配雷达数据的真实空间位置的标记数据,在一个可选的实施例中,确定切分信息内容的调度基数时,结合标记数据的位置进行计算,具体地,保持单位调度道数为单位标记数据对应道数S的单倍或多倍,以使各2个标记范围内的数据能够采用相同的信号处理算法,避免对应数据单元的计算信号有太大差异。比如标记是每 1000道左右一个,那么数据处理时的单位调度道数也会参考这个标记粒度道数(单位标记数据对应的道数),与之相等或者倍数相等。
具体地,实际应用时,可以按照以下策略确定目标调取基数的值:
若基于初始调度基数K’得到的单位调度道数N*e的值小于等于对应数据单元的S,则选定目标调度基数K的取值等于S;
若单位调度道数N*e的值大于对应数据单元的S,则基于
Figure RE-GDA0003281717670000101
的值向上取整得到目标倍数m,选定m*S为目标调取粒度K的取值。
进一步地,如果是迭代类算法,则采用循环分配的动态调度方法:
设置对应的并行调度基数K,K为整数。
A节点首次分配数据量占总数据量比例为1/K,将这些数据划分为N部分,平均分配到C1~CN节点。C1~CN分别调用指定的算法进行并行处理,并在处理完后将计算结果反馈回A节点。
A节点接收C1~CN节点的反馈信息,并实时统计处于空闲状态的计算节点数,本发明研究人员考虑到,对于迭代类工作流中的算法组合,由于迭代次数未知,对于迭代次数多的算法,不同计算节点的单次运算时间差会随着迭代次数而增大,形成明显的时间差,导致各计算节点耗时明显不同);从剩余计算量中,继续均衡分配数据量(1/Kn)给每个空闲的计算节点;
循环执行上述步骤,直至所有数据处理完毕。
因此,一个实施例中,在所述并行处理步骤中,按照以下步骤实现基于迭代类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
根据硬件资源、x以及该迭代算法的计算单位大小设置调度基数K,由读写节点读取x/K道作为第一轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
进而依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
任务调度节点实时统计处于空闲的计算节点数量n,
读写节点读取
Figure RE-GDA0003281717670000111
道,数据,将其平均划分为n部分,分配至各个空闲的计算节点;
各个计算节点根据迭代类工作流并行执行运算,并实时向任务调度节点反馈运算状态信息;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要指出的是,在本发明的其他实施例中,该方法还可以通过将上述实施例中的某一个或某几个进行结合来得到新的数据并行处理方法,以实现对海量检测数据的高效分析和运算。
采用本发明上述任意一个或多个实施例中所述的方案实现铁路检测数据的并行处理,在实现快速准确运算的基础上,进一步提升了各并行计算通道的负载均衡性,且保障了最大程度地发挥并行计算资源的利用效率,有助于为后续的应用研究提供可靠的数据支持。
需要说明的是,基于本发明上述任意一个或多个实施例中的方法,本发明还提供一种存储介质,该存储介质上存储有可实现如述任意一个或多个实施例中所述方法的程序代码,该代码***作***执行时能够实现如上所述的并行处理铁路检测大数据的方法。
实施例二
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置或***实现,因此基于上述任意一个或多个实施例中所述方法的其他方面,本发明还提供一种并行处理铁路检测大数据的***,该***用于执行上述任意一个或多个实施例中所述并行处理铁路检测大数据的方法。下面给出具体的实施例进行详细说明。
具体地,图2中示出了本发明实施例中提供的并行处理铁路检测大数据的***的结构示意图,如图2所示,该***包括:
数据存储模块,其配置为将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;
算法组合制定模块,其配置为根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流;
并行处理模块,其配置为基于预先创建的并行节点架构并行调取存储的检测数据,并分别按照与所述运算工作流匹配的调度策略实现基于常规类运算和迭代类运算的并行处理。
一个实施例中,所述数据存储模块包括数据划分单元,其配置为按照采集区域和采集设备类型对铁路检测数据进行划分,得到处理优先级不同的各级的检测数据。
进一步地,一个实施例中,在存储划分后的检测数据时,所述数据存储模块的数据存储单元采用MySQL关系型数据库、HDFS多种存储方式,结合优先级信息实现对多种格式检测数据的分区存储;
其中,所述检测数据包括文件头和数据体,文件头包括数据采集时总道数、采样点数、天线频率、道间距以及时窗参数。
所述检测数据文件的数据体包括道头数据和数据内容,各检测数据的道头数据与所述文件头关联存储在关系型数据库中,各检测数据的数据内容存储在分布式数据库中。
进一步地,一个实施例中,所述***还包括:节点架构创建步骤、设置一个主节点作为任务调度节点,与一个读写节点和N个计算节点共同构成并行节点架构。
优选地,一个实施例中,所述并行处理模块包括常规运算处理单元,其配置为按照以下步骤实现基于常规类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
基于预先设置的调度基数K,由读写节点读取x/K道作为本轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
各个计算节点根据常规类工作流并行执行运算;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区;
其中,K为正整数,1≤K≤N,或进一步结合单位标记数据对应的道数S进行优化,确定调度基数K。
一个实施例中,所述并行处理模块包括迭代运算处理单元,其配置为按照以下步骤实现基于迭代类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
根据硬件资源、x以及该迭代算法的计算单位大小设置调度基数K,由读写节点读取x/K道作为第一轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
进而依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
任务调度节点实时统计处于空闲的计算节点数量n,
读写节点读取
Figure RE-GDA0003281717670000131
道,数据,将其平均划分为n部分,分配至各个空闲的计算节点;
各个计算节点根据迭代类工作流并行执行运算,并实时向任务调度节点反馈运算状态信息;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区。
本发明实施例提供的并行处理铁路检测大数据的***中,各个模块或单元结构可以根据实际分析和运算需求独立运行或组合运行,以实现相应的技术效果。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而不意味着限制。
说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特征包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种并行处理铁路检测大数据的方法,其特征在于,所述方法包括:
数据存储步骤、将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;
算法组合制定步骤、根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流;
并行处理步骤、基于预先创建的并行节点架构并行调取存储的检测数据,并分别按照与所述运算工作流匹配的调度策略实现基于常规类运算和迭代类运算的并行处理。
2.根据权利要求1所述的方法,其特征在于,在所述数据存储步骤中,按照采集区域和采集设备类型对铁路检测数据进行划分,得到处理优先级不同的各级的检测数据。
3.根据权利要求1所述的方法,其特征在于,在存储划分后的检测数据时,采用关系型数据库和分布式数据库多种存储方式,结合优先级信息实现对多种格式检测数据的并行存储;
其中,所述检测数据文件的数据体包括道头数据和数据内容,各检测数据的道头数据与所述文件头关联存储在关系型数据库中,各检测数据的数据内容存储在分布式数据库中。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:节点架构创建步骤、设置一个主节点作为任务调度节点,与一个读写节点和N个计算节点共同构成并行节点架构。
5.根据权利要求1所述的方法,其特征在于,在所述并行处理步骤中,按照以下步骤实现基于常规类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
基于预先设置的调度基数K,由读写节点读取x/K道作为本轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
各个计算节点根据常规类工作流并行执行运算;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区;
其中,K为正整数,1≤K≤N,或进一步结合单位标记数据对应的道数S进行优化,确定调度基数K。
6.根据权利要求1所述的方法,其特征在于,在所述并行处理步骤中,按照以下步骤实现基于迭代类运算的并行处理:
任务调度节点判断是否存在需要处理的检测数据,若存在,统计需处理检测数据的总道数x,启动读写节点和计算节点;
根据硬件资源、x以及该迭代算法的计算单位大小设置调度基数K,由读写节点读取x/K道作为第一轮处理数据;任务调度节点将本轮处理数据平均划分为N部分,分配至各个计算节点;
进而依次循环执行如下步骤,直至所有待处理的检测数据运算完成,释放读写节点和计算节点:
任务调度节点实时统计处于空闲的计算节点数量n,
读写节点读取
Figure FDA0003116769090000021
道,数据,将其平均划分为n部分,分配至各个空闲的计算节点;
各个计算节点根据迭代类工作流并行执行运算,并实时向任务调度节点反馈运算状态信息;
并行调度节点确认是否收到计算完成的已处理检测数据,若收到,将其传至读写节点,由读写节点按照对应的空间结构进行整合并写入存储区。
7.一种存储介质,其特征在于,所述存储介质上存储有可实现如权利要求1~6中任一项所述方法的程序代码。
8.一种并行处理铁路检测大数据的***,其特征在于,所述***包括:
数据存储模块,其配置为将采集的检测数据进行划分,并按照设定的存储策略将划分后的检测数据进行存储;
算法组合制定模块,其配置为根据检测数据的工程性质需求和解释目标需求,创建对应的运算工作流,其中,所述运算工作流为检测数据需进行的多个信号处理算法的组合,包括常规类工作流和迭代类工作流;
并行处理模块,其配置为基于预先创建的并行节点架构并行调取存储的检测数据,并分别按照与所述运算工作流匹配的调度策略实现基于常规类运算和迭代类运算的并行处理。
9.根据权利要求1所述的方法,其特征在于,所述***还包括:节点架构创建模块、其配置为设置一个主节点作为任务调度节点,与一个读写节点和N个计算节点共同构成并行节点架构。
CN202110665774.6A 2021-06-16 2021-06-16 一种并行处理铁路检测大数据的方法及*** Pending CN113625264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110665774.6A CN113625264A (zh) 2021-06-16 2021-06-16 一种并行处理铁路检测大数据的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110665774.6A CN113625264A (zh) 2021-06-16 2021-06-16 一种并行处理铁路检测大数据的方法及***

Publications (1)

Publication Number Publication Date
CN113625264A true CN113625264A (zh) 2021-11-09

Family

ID=78378122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110665774.6A Pending CN113625264A (zh) 2021-06-16 2021-06-16 一种并行处理铁路检测大数据的方法及***

Country Status (1)

Country Link
CN (1) CN113625264A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5968109A (en) * 1996-10-25 1999-10-19 Navigation Technologies Corporation System and method for use and storage of geographic data on physical media
WO2000031663A1 (fr) * 1998-11-24 2000-06-02 Matsushita Electric Industrial Co., Ltd. Structure de données d'un fichier cartographique numérique
WO2002035359A2 (en) * 2000-10-26 2002-05-02 Prismedia Networks, Inc. Method and system for managing distributed content and related metadata
CN101110079A (zh) * 2007-06-27 2008-01-23 中国科学院遥感应用研究所 一种数字地球原型***
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103969627A (zh) * 2014-05-26 2014-08-06 苏州市数字城市工程研究中心有限公司 基于fdtd的探地雷达大规模三维正演模拟方法
CN105083336A (zh) * 2014-05-19 2015-11-25 塔塔顾问服务有限公司 用于在大规模铁路网中生成车辆运行规划的***和方法
CN107423338A (zh) * 2017-04-28 2017-12-01 中国铁道科学研究院 一种铁路综合检测数据显示方法及装置
CN108804220A (zh) * 2018-01-31 2018-11-13 中国地质大学(武汉) 一种基于并行计算的卫星任务规划算法研究的方法
KR101950935B1 (ko) * 2017-09-27 2019-02-22 (주) 퓨처젠 철도안전 검지장치의 검지데이터 수집 시스템 및 프로그램
CN109588054A (zh) * 2016-06-18 2019-04-05 分形工业公司 使用分布式模拟引擎对具有大型复杂数据集的***的精确且详细的建模
CN110059631A (zh) * 2019-04-19 2019-07-26 中铁第一勘察设计院集团有限公司 接触网非接触式监测缺陷识别方法
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和***

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5968109A (en) * 1996-10-25 1999-10-19 Navigation Technologies Corporation System and method for use and storage of geographic data on physical media
WO2000031663A1 (fr) * 1998-11-24 2000-06-02 Matsushita Electric Industrial Co., Ltd. Structure de données d'un fichier cartographique numérique
WO2002035359A2 (en) * 2000-10-26 2002-05-02 Prismedia Networks, Inc. Method and system for managing distributed content and related metadata
CN101110079A (zh) * 2007-06-27 2008-01-23 中国科学院遥感应用研究所 一种数字地球原型***
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN105083336A (zh) * 2014-05-19 2015-11-25 塔塔顾问服务有限公司 用于在大规模铁路网中生成车辆运行规划的***和方法
CN103969627A (zh) * 2014-05-26 2014-08-06 苏州市数字城市工程研究中心有限公司 基于fdtd的探地雷达大规模三维正演模拟方法
CN109588054A (zh) * 2016-06-18 2019-04-05 分形工业公司 使用分布式模拟引擎对具有大型复杂数据集的***的精确且详细的建模
CN107423338A (zh) * 2017-04-28 2017-12-01 中国铁道科学研究院 一种铁路综合检测数据显示方法及装置
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和***
KR101950935B1 (ko) * 2017-09-27 2019-02-22 (주) 퓨처젠 철도안전 검지장치의 검지데이터 수집 시스템 및 프로그램
CN108804220A (zh) * 2018-01-31 2018-11-13 中国地质大学(武汉) 一种基于并行计算的卫星任务规划算法研究的方法
CN110059631A (zh) * 2019-04-19 2019-07-26 中铁第一勘察设计院集团有限公司 接触网非接触式监测缺陷识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIANG JIA 等: ""Impulse GPR Echo Parallel Acquisition System Design Based on FPGA"", 《APPLIED MECHANICS AND MATERIALS》, vol. 3365, no. 602, pages 2917 - 2921 *
杜翠 等: ""铁路GPR检测数据智能管理分析***的研究与设计"", 《铁路计算机应用》, vol. 28, no. 06, pages 78 - 82 *
梁胤程 等: ""铁路路基状态检测中探地雷达数据并行处理"", 《中国铁道科学》, vol. 38, no. 2, pages 11 - 18 *

Similar Documents

Publication Publication Date Title
CN110199273B (zh) 用于在多维数据库环境中的一次扫描中进行加载、聚合和批量计算的***和方法
US10049134B2 (en) Method and system for processing queries over datasets stored using hierarchical data structures
CN102915347B (zh) 一种分布式数据流聚类方法及***
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及***
CN105630988A (zh) 一种快速检测空间数据变化并更新的方法及***
KR20110035899A (ko) 구조적 쿼리들에 대한 대규모 통신 네트워크 그래프들을 표현하기 위한 디멘션 감소 메커니즘들
Duggan et al. Skew-aware join optimization for array databases
CN103678671A (zh) 一种社交网络中的动态社区检测方法
CN104156463A (zh) 一种基于MapReduce的大数据聚类集成方法
Gupta et al. Faster as well as early measurements from big data predictive analytics model
Li et al. Parallelizing skyline queries over uncertain data streams with sliding window partitioning and grid index
CN106649828A (zh) 一种数据查询方法及***
Lei et al. An incremental clustering algorithm based on grid
US20230418824A1 (en) Workload-aware column inprints
Tran et al. Conditioning and aggregating uncertain data streams: Going beyond expectations
KR20180120570A (ko) 그래프 생성 방법 및 장치
Ji et al. Scalable nearest neighbor query processing based on inverted grid index
CN109657197A (zh) 一种叠前深度偏移计算方法及***
CN113010597B (zh) 一种面向海洋大数据的并行关联规则挖掘方法
Lim et al. Lazy and eager approaches for the set cover problem
CN110058942B (zh) 基于层次分析法的资源分配***及方法
CN113625264A (zh) 一种并行处理铁路检测大数据的方法及***
US8832157B1 (en) System, method, and computer-readable medium that facilitates efficient processing of distinct counts on several columns in a parallel processing system
CN109633781B (zh) 地质属性获取方法及装置、电子设备、存储介质
Wu et al. Indexing blocks to reduce space and time requirements for searching large data files

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination