CN117077594A - 一种仿真加速器监控的方法、***、计算机设备及介质 - Google Patents

一种仿真加速器监控的方法、***、计算机设备及介质 Download PDF

Info

Publication number
CN117077594A
CN117077594A CN202311061195.6A CN202311061195A CN117077594A CN 117077594 A CN117077594 A CN 117077594A CN 202311061195 A CN202311061195 A CN 202311061195A CN 117077594 A CN117077594 A CN 117077594A
Authority
CN
China
Prior art keywords
accelerator
simulation accelerator
data
simulation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311061195.6A
Other languages
English (en)
Other versions
CN117077594B (zh
Inventor
胡东瑞
周文龙
吴佳欢
陈保文
王来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexin Technology Suzhou Co ltd
Hexin Technology Co ltd
Original Assignee
Hexin Technology Suzhou Co ltd
Hexin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexin Technology Suzhou Co ltd, Hexin Technology Co ltd filed Critical Hexin Technology Suzhou Co ltd
Priority to CN202311061195.6A priority Critical patent/CN117077594B/zh
Publication of CN117077594A publication Critical patent/CN117077594A/zh
Application granted granted Critical
Publication of CN117077594B publication Critical patent/CN117077594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • G06F30/33Design verification, e.g. functional simulation or model checking
    • G06F30/3308Design verification, e.g. functional simulation or model checking using simulation
    • G06F30/331Design verification, e.g. functional simulation or model checking using simulation with hardware acceleration, e.g. by using field programmable gate array [FPGA] or emulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2115/00Details relating to the type of the circuit
    • G06F2115/02System on chip [SoC] design

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请公开了一种仿真加速器监控的方法、***、计算机设备及介质,所述方法通过数据同步***获取仿真加速器的子单元日志和动力环境监控***数据,解析仿真加速器的子单元日志,以判断仿真加速器的运行状态、逻辑占用率和运行负载,并结合动力环境监控***侧数据,对仿真加速器进行风险判定,根据仿真加速器的风险判定结果,生成仿真加速器的风险预警,根据风险预警生成针对所述风险预警的应对措施。其中,对于应对措施中的关机,通过自动化脚本执行,自动化脚本部署在与仿真加速器配套的运行时服务器上。本申请技术方案能够实时监控仿真加速器和动力环境***的状态,在发生风险事故时及时做出响应,且不需要运维人员登入研发网络环境即可完成关机流程的自动执行。

Description

一种仿真加速器监控的方法、***、计算机设备及介质
技术领域
本申请涉及仿真加速器技术领域,尤其涉及一种仿真加速器监控的方法、***、计算机设备及计算机存储介质。
背景技术
仿真加速器是在大规模SoC设计中应用最为广泛的加速平台之一,因其造价昂贵,以及仿真加速功能的不可或缺性,故保障其平稳运行、硬件安全和数据安全至关重要。
现有技术采用仿真加速器自带的、基于网页的状态显示自检***,对仿真加速器进行自检及状态监测,但其仅限于关注仿真加速器子***的健康状态,对于外部动力环境监控***的感知有限。
另,仿真加速器处于网络隔离的研发网络环境中,运维人员需要登入研发网络环境查询仿真加速器的运行状态及子单元日志,挂起作业和关闭作业也需要运维人员手动执行。故,无法将仿真加速器的实时状态和问题主动反馈至运维平台,实现快速响应和处理。尤其在电力***和冷冻***发生故障时,若无法在UPS电池的续航时间内对仿真加速器进行关机、下电,循环在仿真加速器内的冷却水会迅速升温,损坏计算逻辑板等关键硬件,带来不可挽回的损失。
发明内容
本申请提供了一种仿真加速器监控的方法、***、计算机设备和存储介质,以解决现有技术无法实时监控仿真加速器和动力环境监控***的状态,不能及时响应和处理风险事故的技术问题,实现实时监控仿真加速器和动力环境***的状态,及时应对风险事故的效果。
为解决上述技术问题,第一方面,本申请提供了一种仿真加速器监控的方法所述方法包括:
获取所述仿真加速器的子单元日志,以及动力环境监控***数据,所述动力环境监控***数据包括所述仿真加速器的运行环境数据和动力环境状态数据;
解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,并结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定;
根据所述仿真加速器的风险判定结果,生成所述仿真加速器的风险预警;
根据所述风险预警生成针对所述风险预警的应对措施。
优选的,所述解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,包括:
解析所述仿真加速器的子单元日志,得到所述仿真加速器的运行数据;所述仿真加速器的运行数据至少包括:主控服务器电流、运行时服务器电流、仿真加速器各计算逻辑板电流、仿真加速器各计算逻辑板电压;
根据所述仿真加速器的运行数据判定所述仿真加速器的运行状态,所述运行状态包括以下中的至少一者:主控服务器状态、计算逻辑板状态、运行时服务器状态、各计算逻辑板InfiniBand互连状态;
根据所述仿真加速器的计算逻辑板状态计算所述仿真加速器的逻辑占用率;根据所述仿真加速器各计算逻辑板电流和所述仿真加速器各计算逻辑板电压判定所述仿真加速器的运行负载。
优选的,所述仿真加速器的运行数据还包括:仿真加速器侧冷冻水供水水温、仿真加速器侧冷冻水供水水压、仿真加速器侧冷冻水回水水温、仿真加速器侧冷冻水回水水压、冷冻水泵转速、冷冻水泵负载;
所述仿真加速器的运行环境数据包括动力环境侧冷冻供水状态;所述动力环境侧冷冻供水状态至少包括:动力环境侧冷冻水供水水温、动力环境侧冷冻水供水水压、动力环境侧冷冻水回水水温、动力环境侧冷冻水回水水压、板换冷却机组状态;
所述仿真加速器的动力环境状态数据包括供电运行状态;所述供电运行状态至少包括:UPS电量及健康状态、市电输入告警项。
优选的,所述结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定,包括:
将所述仿真加速器侧冷冻水供水水温、所述仿真加速器侧冷冻水供水水压、所述仿真加速器侧冷冻水回水水温、所述仿真加速器侧冷冻水回水水压、所述冷冻水泵转速、所述冷冻水泵负载、所述动力环境侧冷冻水供水水温、所述动力环境侧冷冻水供水水压、所述动力环境侧冷冻水回水水温和所述动力环境侧冷冻水回水水压分别与其对应的额定阈值对比,得到第一对比结果,根据所述第一对比结果对所述仿真加速器进行风险判定;
以及计算所述仿真加速器侧冷冻水供水水压与所述动力环境侧冷冻水供水水压的差值,并将所述差值与差值阈值对比,得到第二对比结果,根据所述第二对比结果对所述仿真加速器进行风险判定;
以及根据所述板换冷却机组状态、所述UPS电量及健康状态和所述市电输入告警项,对所述仿真加速器进行风险判定。
优选的,所述根据所述风险预警生成针对所述风险预警的应对措施,包括:
根据所述风险预警的预警项目确定针对所述风险预警的应对措施,所述应对措施包括以下中的至少一者:故障排查、资源协调、关机。
优选的,通过自动化脚本执行所述应对措施中的关机,所述自动化脚本部署在与所述仿真加速器配套的运行时服务器上。
优选的,所述通过自动化脚本执行所述应对措施中的关机,包括:
通过所述自动化脚本,将所述运行时服务器与所述仿真加速器的主控服务器连接,挂起所述仿真加速器正在运行的各仿真作业,并将各仿真作业产生的作业数据保存在本地数据库,所述作业数据包括:作业项目、作业开始时间、作业完成时间、作业快照;
通过所述自动化脚本访问所述仿真加速器并依次关闭所述仿真加速器的计算逻辑板和所述主控服务器。
优选的,所述解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载之后,还包括:
将所述仿真加速器的子单元日志、所述动力环境监控***数据、以及所述仿真加速器的运行状态、逻辑占用率和运行负载发送至运维平台;
所述根据所述风险预警生成针对所述风险预警的应对措施之后,还包括:
将所述风险预警和针对所述风险预警的应对措施发送至所述运维平台。
第二方面,本申请还提供了一种仿真加速器监控的***,所述***包括:数据采集单元、数据分析单元、仲裁单元和执行单元;
所述数据采集单元:用于获取所述仿真加速器的子单元日志和传感器参数,以及动力环境监控***数据,所述动力环境监控***数据为所述仿真加速器的运行环境数据和动力环境状态数据;
所述数据分析单元:用于解析所述仿真加速器的子单元日志和传感器参数,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,并结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定;
所述仲裁单元:用于根据所述仿真加速器的风险判定结果,生成所述仿真加速器的风险预警;
所述执行单元:用于根据所述风险预警生成针对所述风险预警的应对措施。
优选的,所述***还包括数据同步单元,所述数据同步单元包括数据同步***;
所述数据同步***:用于将从所述仿真加速器获取的所述仿真加速器的子单元日志,以及从动力环境监控***监测得到的所述仿真加速器的运行环境数据和动力环境状态数据传输至所述数据采集单元;
还用于将所述数据分析单元得到的所述仿真加速器的子单元日志、动力环境监控***数据、以及所述仿真加速器的运行状态、逻辑占用率和运行负载发送至所述运维平台;
还用于将所述风险预警和针对所述风险预警的应对措施发送至运维平台。。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并将存储的数据传输给处理器,处理器执行存储器存储的程序指令,以执行上述所述的方法。
第四方面,本申请还提供一种计算机可读存储介质,述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现上述所述的方法。
本申请提供了一种仿真加速器监控方法、***、计算机设备及计算机存储介质。所述方法包括:获取仿真加速器各子单元日志,以及动力环境监控***数据,解析仿真加速器各子单元日志得到仿真加速器的运行数据,以判断仿真加速器的运行状态、逻辑占用率和运行负载。在此基础上,结合动力环境监控***数据,对仿真加速器进行风险判定,根据仿真加速器的风险判定结果,生成仿真加速器的风险预警,根据风险预警生成针对所述风险预警的应对措施。其中,对于应对措施中的关机,通过自动化脚本执行,自动化脚本部署在与仿真加速器配套的运行时服务器上。本申请提供的仿真加速器监控的方法能够实时监控仿真加速器和动力环境***的状态,及时应对风险事故,且不需要运维人员登入研发网络环境即可完成关机流程的自动执行。
附图说明
图1是本申请一个优选实施例所提供的一种仿真加速器监控的方法流程图;
图2是本申请一个优选实施例所提供的仿真加速器的运行状态、逻辑占用率和运行负载判定方法流程图;
图3是本申请一个优选实施例所提供的关机流程图;
图4是本申请一个优选实施例所提供的一种仿真加速器监控的***示意图;
图5是本申请一个优选实施例所提供的另一种仿真加速器监控的***示意图;
图6是本申请一个优选实施例所提供的一种计算机设备示意图。
具体实施方式
下面结合附图具体阐明本申请的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本申请的限定,包括附图仅供参考和说明使用,不构成对本申请专利保护范围的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为解决现有技术无法实时监控仿真加速器侧和动力环境监控***侧的状态,不能及时响应和处理风险事故的技术问题,本申请实施例提供了一种仿真加速器监控的方法。
请参阅图1,在本申请的实施例中,提供的一种仿真加速器监控的方法,包括以下步骤;
S1、获取所述仿真加速器的子单元日志和传感器参数,以及动力环境监控***数据,所述动力环境监控***数据包括所述仿真加速器的运行环境数据和动力环境状态数据。
S2、解析所述仿真加速器的子单元日志和传感器参数,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,并结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定。
S3、根据所述仿真加速器的风险判定结果,生成所述仿真加速器的风险预警。
S4、根据所述风险预警生成针对所述风险预警的应对措施。
仿真加速器处于研发网络环境之中,研发网络环境为一种与外部网络隔离的服务器集群,研发网络环境无法与外部网络之间进行数据传输。运维人员在查询仿真加速器的运行状态及子单元日志时,需要登入研发网络环境,在进行挂起作业和关机作业时,也需要运维人员手动执行。
在本申请中,通过数据同步***实现仿真加速器数据的获取和传输,仿真加速器安装有大量的传感器,用于监测仿真加速器的运行状态,以及获取仿真加速器的相关运行数据,并将以上仿真加速器的相关运行数据在仿真加速器的子单元日志内存储。
数据同步***还用于动力环境监控***数据的获取和传输,动力环境监控***数据包括仿真加速器的运行环境数据和动力环境状态数据。
数据同步***在研发网络环境和外部动力环境的隔离墙之间打开一个安全通道,实现仿真加速器的各子单元日志,以及动力环境监控***数据的获取。将研发网络环境中仿真加速器的各子单元日志进行镜像同步,映射到外部动力环境监控***,同时又可以将动力环境监控***数据传入研发网络环境,实现仿真加速器数据和动力环境监控***数据的传输。
在本申请一个优选实施例中,一方面,通过脚本对仿真加速器的各子单元日志进行同步、解析、过滤得到仿真加速器的运行数据,以判定仿真加速器的运行状态、逻辑占用率和运行负载。解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,如图2所示,具体包括以下步骤:
S201、解析所述仿真加速器的子单元日志,得到所述仿真加速器的运行数据;所述运行数据至少包括:主控服务器电流、仿真加速器各计算逻辑板电流、仿真加速器各计算逻辑板电压。
在本申请实施例中,通过解析仿真加速器的子单元日志,得到仿真加速器的运行数据,运行数据中至少包括仿真加速器的主控服务器电流、运行时服务器电流、仿真加速器各计算逻辑板电流、仿真加速器各计算逻辑板电压,以确定仿真加速器的运行状态。
S202、根据所述仿真加速器的运行数据判定所述仿真加速器的运行状态,所述运行状态至少包括:主控服务器状态、计算逻辑板状态、运行时服务器状态、各计算逻辑板InfiniBand互连状态。
在本申请实施例中,运行状态使用独热编码进行记录,如表1所示:
表1
S203、根据所述仿真加速器的计算逻辑板状态计算所述仿真加速器的逻辑占用率;根据所述仿真加速器各计算逻辑板电流和所述仿真加速器各计算逻辑板电压判定所述仿真加速器的运行负载。
在本申请实施例中,可根据仿真加速器的计算逻辑板状态计算仿真加速器的逻辑占用率。仿真加速器最小的计算资源被称为Domain,为一块支持仿真八百万个逻辑门的FPGA板,一台标准配置的仿真加速器中,共有18个计算逻辑板,每个计算逻辑板含有8个Domains,则共有144块Domains,即共有144块FPGA板。其中,被仿真任务占用的FPGA板的状态标记为占用,被占用的FPGA板与总的FPGA板的比值为计算逻辑板占用率,将其作为仿真加速器的逻辑占用率,仿真加速器的逻辑占用率用于帮助运维人员协调计算逻辑板资源。
在本申请实施例中,根据仿真加速器各计算逻辑板电流和仿真加速器各计算逻辑板电压判定仿真加速器的运行负载。仿真加速器各计算逻辑板电流和仿真加速器各计算逻辑板电压用于判定各计算逻辑板是否运行仿真任务,将运行仿真任务的计算逻辑板占仿真加速器总的计算逻辑板的比例,作为仿真加速的运行负载,用于作为仿真加速器风险判定的依据。
在本申请实施例中,通过获取的仿真加速器运行数据对仿真加速器的运行状态、逻辑占用率和运行负载进行实时的监控和反馈,能够为异常情况的判断提供数据支持,以便于对异常情况进行及时的响应和处理。
另一方面,通过数据同步***,向外部网络的动力环境监控***数据库发起查询,获取动力环境监控***数据,动力环境监控***数据为所述仿真加速器的运行环境数据和动力环境状态数据。
动力环境侧冷冻供水状态和供电运行状态是保障仿真加速器平稳正常运行的最关键指标,发起查询的动力环境侧冷冻供水状态至少包括:动力环境侧冷冻水供水水温、动力环境侧冷冻水供水水压、动力环境侧冷冻水回水水温、动力环境侧冷冻水回水水压、板换冷却机组状态。供电运行状态至少包括:UPS电量及健康状态、市电输入告警项。
在本申请实施例中,动力环境监控***数据的获取,能够对动力环境监控***的参数进行及时的分析,为风险预警的生成提供数据支持,以便于在异常情况发生时进行快速响应和处理,保证事故处理的时效性。
在本申请实施例中,运行数据还包括:仿真加速器侧冷冻水供水水温、仿真加速器侧冷冻水供水水压、仿真加速器侧冷冻水回水水温、仿真加速器侧冷冻水回水水压、冷冻水泵转速、冷冻水泵负载,以确定仿真加速器运行环境的安全性。
在本申请一个优选实施例中,所述结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定,包括:
将所述仿真加速器侧冷冻水供水水温、所述仿真加速器侧冷冻水供水水压、所述仿真加速器侧冷冻水回水水温、所述仿真加速器侧冷冻水回水水压、所述冷冻水泵转速、所述冷冻水泵负载、所述动力环境侧冷冻水供水水温、所述动力环境侧冷冻水供水水压、所述动力环境侧冷冻水回水水温和所述动力环境侧冷冻水回水水压分别与其对应的额定阈值对比,得到第一对比结果,根据所述第一对比结果对所述仿真加速器进行风险判定。
以及计算所述仿真加速器侧冷冻水供水水压与所述动力环境侧冷冻水供水水压的差值,并将所述差值与差值阈值对比,得到第二对比结果,根据所述第二对比结果对所述仿真加速器进行风险判定。
以及根据所述板换冷却机组状态、所述UPS电量及健康状态和所述市电输入告警项,对所述仿真加速器进行风险判定。
分别设定仿真加速器侧冷冻水供水水温、仿真加速器侧冷冻水供水水压、仿真加速器侧冷冻水回水水温、仿真加速器侧冷冻水回水水压、冷冻水泵转速、所述冷冻水泵负载、动力环境侧冷冻水供水水温、动力环境侧冷冻水供水水压、动力环境侧冷冻水回水水温和动力环境侧冷冻水回水水压额定阈值,在获取仿真加速器侧冷冻水供水水温、仿真加速器侧冷冻水供水水压、仿真加速器侧冷冻水回水水温、仿真加速器侧冷冻水回水水压、冷冻水泵转速、所述冷冻水泵负载、动力环境侧冷冻水供水水温、动力环境侧冷冻水供水水压、动力环境侧冷冻水回水水温和动力环境侧冷冻水回水水压实时数据之后,分别与其对应的额定阈值比较,得到第一对比结果,根据第一对比结果,结合风险判定标准对仿真加速器进行风险判定。
进一步的,计算仿真加速器侧冷冻水供水水压与动力环境侧冷冻水供水水压的差值,将差值与预先设定的差值阈值对比,得到第二对比结果,根据第二对比结果,结合风险判定标准对仿真加速器进行风险判定。
进一步的,根据板换冷却机组状态、UPS电量及健康状态和市电输入告警项,根据风险判定标准对仿真加速器进行风险判定。
在本申请实施例中,对仿真加速器侧数据和动力环境监控***侧数据进行全面的对比分析,以使对仿真加速器的风险判定结果更加的全面和准确。进一步的,以提升根据仿真加速器的风险判定结果生成的仿真加速器的风险预警的准确性。
在本申请实施例中,风险预警至少包括:预警等级和预警项目,根据风险预警生成针对所述风险预警的应对措施,风险预警、风险预警划分依据及应对措施见表2。
表2
在本申请实施例中,运维人员对仿真加速器和动力环境监控***进行运行维护;作业用户为使用仿真加速器进行仿真验证工作的研发人员。
在本申请实施例中,如表2所示,不同的风险预警对应不同的应对措施,根据风险预警的预警项目确定针对所述风险预警的应对措施,所述应对措施包括以下中的至少一者:故障排查、资源协调、关机。
在本申请实施例中,除了关机,以上应对措施的执行都需要运维人员的人工干预,当在限定时间内未及时响应或者告警项目没有消失,则直接升级风险预警等级,主动执行升级后的风险预警对应的应对措施,以规避风险、保存数据和保护仿真加速器的硬件设备。
在本申请实施例中,应对措施中的关机通过自动化脚本执行,自动化脚本部署在与仿真加速器配套的运行时服务器上。限于产品限制,运维人员不被允许直接登入仿真加速器主控服务器进行操作,而是通过与仿真加速器互连的运行时服务器进行通信。
通过在运行时服务器上部署自动化脚本,可以为不同硬件配置的场景修改参数并制作成模板,通过读取仿真加速器的硬件配置文件来调用不同的脚本模板。
常见的硬件配置规格如:
单台满柜:3柜(Clusters)x6计算逻辑板(Boards),一台主控服务器、一台水冷单元。
此时,只需要调用单台满柜对应的脚本模板即可按照脚本模板执行关机。
多台并机:n台(Racks)x3柜(Clusters)x6计算逻辑板(Boards),一台主控服务器、n台水冷单元。
此时,在调用多台并机对应的脚本模板时,需要对相应的仿真加速器和水冷单元的台数进行确认,之后即可按照脚本模板执行关机。
本申请利用对脚本信息的解析,为不同硬件配置的场景制作相应的模板,以便于快速部署和执行相关关机指令。
在本申请实施例中,部署在运行时服务器上的自动化脚本可进行数据保存和自动关机,如图3所述,所述通过自动化脚本执行所述应对措施中的关机,包括以下步骤:
S10、通过所述自动化脚本,将所述运行时服务器与所述仿真加速器的主控服务器连接,挂起所述仿真加速器正在运行的各仿真作业,并将各仿真作业产生的作业数据保存在本地数据库,所述作业数据包括:作业项目、作业开始时间、作业完成时间、作业快照。
S20、通过所述自动化脚本访问所述仿真加速器并依次关闭所述仿真加速器的计算逻辑板和所述主控服务器。
在本申请实施例中,执行关机前需要通过自动化脚本,将运行时服务器与仿真加速器的主控服务器连接,启动挂起流程,挂起仿真加速器正在运行的各仿真作业,并将各仿真作业产生的作业数据保存在本地数据库中,通知作业用户需要对仿真加速器进行关机后,再对仿真加速器硬件进行正常下电关机。部署在运行时服务器上的自动化脚本通过telnet协议访问仿真加速器,并依次关闭计算逻辑板和主控服务器,保证仿真加速器硬件的安全及使用寿命。在完成关机后,通过邮件通知作业用户,并同时将通知发送至运维平台。
在本申请实施例中,通过部署在运行时服务器上的自动化脚本执行关机,实现在不登入仿真加速器主控服务器的情况下对仿真加速器的响应和处理,提升了处理的时效性,能够在事故发生前及时对仿真加速器进行下电关机,防止仿真加速器的计算逻辑板和主控服务器等关键硬件的损坏。
在本申请实施例中,为保证数据的完整性和可追溯性,在解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载之后,还包括:
将所述仿真加速器的子单元日志、所述动力环境监控***数据、以及所述仿真加速器的运行状态、逻辑占用率和运行负载发送至运维平台;
在根据所述风险预警生成针对所述风险预警的应对措施之后,还包括:
将所述风险预警和针对所述风险预警的应对措施发送至所述运维平台。
在本申请实施例中,采用数据同步***将仿真加速器的子单元日志、动力环境监控***数据、以及所仿真加速器的运行状态、逻辑占用率和运行负载发送至运维平台,运维平台对以上数据进行存储,在后期仿真加速器出现故障时进行问题追溯。在应对措施产生之后,将风险预警和应对措施发送至运维平台,运维平台对风险预警和对应的应对措施进行显示和预警,以能够及时的通知运维人员,使运维人员及时执行相应的应对措施,同时运维平台对以上数据进行存储,以便于进行问题追溯。
综上所述,针对现有技术无法实时监控仿真加速器和动力环境监控***的状态,不能及时响应和处理风险事故的技术问题,本申请实施例提供了一种仿真加速器监控方法。所述方法包括:获取仿真加速器各子单元日志,以及动力环境监控***数据,解析仿真加速器各子单元日志得到仿真加速器的运行数据,以判断仿真加速器的运行状态、逻辑占用率和运行负载,接下来,结合动力环境监控***数据,对仿真加速器进行风险判定,根据仿真加速器的风险判定结果,生成仿真加速器的风险预警,根据风险预警生成针对所述风险预警的应对措施。其中,对于应对措施中的关机,通过自动化脚本执行,自动化脚本部署在与仿真加速器配套的运行时服务器上。本申请提供的仿真加速器监控的方法能够实时监控仿真加速器和动力环境***的状态,及时应对风险事故,且不需要运维人员登入研发网络环境即可完成关机流程的自动执行。
相应地,如图4所示,基于一种仿真加速器监控方法,本发明实施例还提供一种仿真加速器监控的***,所述***包括:数据采集单元1、数据分析单元2、仲裁单元3和执行单元4;
所述数据采集单元1:用于获取所述仿真加速器的子单元日志和传感器参数,以及动力环境监控***数据,所述动力环境监控***数据包括所述仿真加速器的运行环境数据和动力环境状态数据;
所述数据分析单元2:用于解析所述仿真加速器的子单元日志和传感器参数,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,并结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定;
所述仲裁单元3:用于根据所述仿真加速器的风险判定结果,生成所述仿真加速器的风险预警;
所述执行单元4:用于根据所述风险预警生成针对所述风险预警的应对措施。
在本申请优选实施例中,如图5所示,所述***还包括数据同步单元5,所述数据同步单元包括数据同步***;
所述数据同步***:用于将从所述仿真加速器获取的所述仿真加速器的子单元日志,以及从动力环境监控***监测得到的所述仿真加速器的运行环境数据和动力环境状态数据传输至所述数据采集单元;
还用于将所述数据分析单元得到的所述仿真加速器的子单元日志、动力环境监控***数据、以及所述仿真加速器的运行状态、逻辑占用率和运行负载发送至所述运维平台;
还用于将所述风险预警和针对所述风险预警的应对措施发送至运维平台。
关于一种仿真加速器监控的***的具体限定可以参见上述对于一种仿真加速器监控的方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
如图6所示,本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并将存储的数据传输给处理器,处理器执行存储器存储的程序指令,以执行上述仿真加速器监控的方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,所述存储介质用于存储一个或多个计算机程序,所述一个或多个计算机程序包括程序代码,当所述计算机程序在计算机上运行时,所述程序代码用于执行上述仿真加速器监控的方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本实施例中提供的一种仿真加速器监控的方法、***、计算机设备及计算机存储介质,针对现有技术无法实时监控仿真加速器和动力环境监控***的状态,不能及时响应和处理风险事故的技术问题。本申请通过数据同步***获取仿真加速器各子单元日志,以及动力环境监控***数据,解析仿真加速器各子单元日志得到仿真加速器运行数据,以判断仿真加速器的运行状态、逻辑占用率和运行负载。在此基础上,结合动力环境监控***数据,对仿真加速器进行风险判定,根据仿真加速器的风险判定结果,生成仿真加速器的风险预警,根据风险预警生成针对所述风险预警的应对措施。其中,对于应对措施中的关机,通过自动化脚本执行,自动化脚本部署在与仿真加速器配套的运行时服务器上。本申请技术方案能够实时监控仿真加速器和动力环境***的状态,在发生风险事故时及时做出响应,且不需要运维人员登入研发网络环境即可完成关机流程的自动执行。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种仿真加速器监控的方法,其特征在于,所述方法包括:
获取所述仿真加速器的子单元日志,以及动力环境监控***数据,所述动力环境监控***数据包括所述仿真加速器的运行环境数据和动力环境状态数据;
解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,并结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定;
根据所述仿真加速器的风险判定结果,生成所述仿真加速器的风险预警;
根据所述风险预警生成针对所述风险预警的应对措施。
2.如权利要求1所述的仿真加速器监控的方法,其特征在于,所述解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,包括:
解析所述仿真加速器的子单元日志,得到所述仿真加速器的运行数据;所述仿真加速器的运行数据至少包括:主控服务器电流、运行时服务器电流、仿真加速器各计算逻辑板电流、仿真加速器各计算逻辑板电压;
根据所述仿真加速器的运行数据判定所述仿真加速器的运行状态,所述运行状态至少包括:主控服务器状态、计算逻辑板状态、运行时服务器状态、各计算逻辑板InfiniBand互连状态;
根据所述仿真加速器的计算逻辑板状态计算所述仿真加速器的逻辑占用率;根据所述仿真加速器各计算逻辑板电流和所述仿真加速器各计算逻辑板电压判定所述仿真加速器的运行负载。
3.如权利要求2所述的仿真加速器监控的方法,其特征在于,
所述仿真加速器的运行数据还包括:仿真加速器侧冷冻水供水水温、仿真加速器侧冷冻水供水水压、仿真加速器侧冷冻水回水水温、仿真加速器侧冷冻水回水水压、冷冻水泵转速、冷冻水泵负载;
所述仿真加速器的运行环境数据包括动力环境侧冷冻供水状态;所述动力环境侧冷冻供水状态至少包括:动力环境侧冷冻水供水水温、动力环境侧冷冻水供水水压、动力环境侧冷冻水回水水温、动力环境侧冷冻水回水水压、板换冷却机组状态;
所述仿真加速器的动力环境状态数据包括供电运行状态;所述供电运行状态至少包括:UPS电量及健康状态、市电输入告警项。
4.如权利要求3所述的仿真加速器监控的方法,其特征在于,所述结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定,包括:
将所述仿真加速器侧冷冻水供水水温、所述仿真加速器侧冷冻水供水水压、所述仿真加速器侧冷冻水回水水温、所述仿真加速器侧冷冻水回水水压、所述冷冻水泵转速、所述冷冻水泵负载、所述动力环境侧冷冻水供水水温、所述动力环境侧冷冻水供水水压、所述动力环境侧冷冻水回水水温和所述动力环境侧冷冻水回水水压分别与其对应的额定阈值对比,得到第一对比结果,根据所述第一对比结果对所述仿真加速器进行风险判定;
以及计算所述仿真加速器侧冷冻水供水水压与所述动力环境侧冷冻水供水水压的差值,并将所述差值与差值阈值对比,得到第二对比结果,根据所述第二对比结果对所述仿真加速器进行风险判定;
以及根据所述板换冷却机组状态、所述UPS电量及健康状态和所述市电输入告警项,对所述仿真加速器进行风险判定。
5.如权利要求1所述的仿真加速器监控的方法,其特征在于,所述根据所述风险预警生成针对所述风险预警的应对措施,包括:
根据所述风险预警的预警项目确定针对所述风险预警的应对措施,所述应对措施包括以下中的至少一者:故障排查、资源协调、关机。
6.如权利要求5所述的仿真加速器监控的方法,其特征在于,通过自动化脚本执行所述应对措施中的关机,所述自动化脚本部署在与所述仿真加速器配套的运行时服务器上。
7.如权利要求6所述的仿真加速器监控的方法,其特征在于,所述通过自动化脚本执行所述应对措施中的关机,包括:
通过所述自动化脚本,将所述运行时服务器与所述仿真加速器的主控服务器连接,挂起所述仿真加速器正在运行的各仿真作业,并将各仿真作业产生的作业数据保存在本地数据库,所述作业数据包括:作业项目、作业开始时间、作业完成时间、作业快照;
通过所述自动化脚本访问所述仿真加速器并依次关闭所述仿真加速器的计算逻辑板和所述主控服务器。
8.如权利要求1所述的仿真加速器监控的方法,其特征在于,所述解析所述仿真加速器的子单元日志,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载之后,还包括:
将所述仿真加速器的子单元日志、所述动力环境监控***数据、以及所述仿真加速器的运行状态、逻辑占用率和运行负载发送至运维平台;
所述根据所述风险预警生成针对所述风险预警的应对措施之后,还包括:
将所述风险预警和针对所述风险预警的应对措施发送至所述运维平台。
9.一种仿真加速器监控的***,其特征在于,所述***包括:数据采集单元、数据分析单元、仲裁单元、执行单元;
所述数据采集单元:用于获取所述仿真加速器的子单元日志和传感器参数,以及动力环境监控***数据,所述动力环境监控***数据为所述仿真加速器的运行环境数据和动力环境状态数据;
所述数据分析单元:用于解析所述仿真加速器的子单元日志和传感器参数,以判定所述仿真加速器的运行状态、逻辑占用率和运行负载,并结合所述仿真加速器的运行环境数据和动力环境状态数据,对所述仿真加速器进行风险判定;
所述仲裁单元:用于根据所述仿真加速器的风险判定结果,生成所述仿真加速器的风险预警;
所述执行单元:用于根据所述风险预警生成针对所述风险预警的应对措施。
10.如权利要求9所示的仿真加速器监控的***,其特征在于,所述***还包括数据同步单元,所述数据同步单元包括数据同步***;
所述数据同步***:用于将从所述仿真加速器获取的所述仿真加速器的子单元日志,以及从动力环境监控***监测得到的所述仿真加速器的运行环境数据和动力环境状态数据传输至所述数据采集单元;
还用于将所述数据分析单元得到的所述仿真加速器的子单元日志、动力环境监控***数据、以及所述仿真加速器的运行状态、逻辑占用率和运行负载发送至所述运维平台;
还用于将所述风险预警和针对所述风险预警的应对措施发送至运维平台。
11.一种计算机设备,其特征在于:所述计算机设备包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并将存储的数据传输给处理器,处理器执行存储器存储的程序指令,以执行如权利要求1至8中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至8任一项所述的方法。
CN202311061195.6A 2023-08-22 2023-08-22 一种仿真加速器监控的方法、***、计算机设备及介质 Active CN117077594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311061195.6A CN117077594B (zh) 2023-08-22 2023-08-22 一种仿真加速器监控的方法、***、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311061195.6A CN117077594B (zh) 2023-08-22 2023-08-22 一种仿真加速器监控的方法、***、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN117077594A true CN117077594A (zh) 2023-11-17
CN117077594B CN117077594B (zh) 2024-07-05

Family

ID=88703804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311061195.6A Active CN117077594B (zh) 2023-08-22 2023-08-22 一种仿真加速器监控的方法、***、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN117077594B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389841A (zh) * 2023-12-07 2024-01-12 合芯科技(苏州)有限公司 加速器资源监控方法、装置、集群设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203533A1 (en) * 2010-11-08 2012-08-09 Jacobus William E Improper Voltage Level Detection in Emulation Systems
CN104238714A (zh) * 2013-06-09 2014-12-24 上海梅山钢铁股份有限公司 一种ups断电后计算机***保护方法
CN104950778A (zh) * 2015-06-15 2015-09-30 北京百度网讯科技有限公司 数据中心的监控***
CN206096918U (zh) * 2016-10-18 2017-04-12 深圳飞思安诺网络技术有限公司 一种机房it设备监控和动力环境监控的一体化设备
CN106933713A (zh) * 2015-12-30 2017-07-07 北京国睿中数科技股份有限公司 硬件加速器的验证方法和验证***
CN109240246A (zh) * 2018-10-31 2019-01-18 特变电工南京智能电气有限公司 一种充电站智能化运维***及方法
CN109784504A (zh) * 2018-12-24 2019-05-21 贵州宇豪科技发展有限公司 数据中心远程智能运维管理方法及***
CN110398927A (zh) * 2019-09-03 2019-11-01 中科同昌信息安全技术股份有限公司 一种集成数据信息监测平台及监控***
US10990728B1 (en) * 2019-12-19 2021-04-27 Cadence Design Systems, Inc. Functional built-in self-test architecture in an emulation system
CN112905429A (zh) * 2021-02-20 2021-06-04 北京物芯科技有限责任公司 一种***仿真的监控方法及装置
CN113391611A (zh) * 2020-03-12 2021-09-14 ***通信集团河北有限公司 动力环境监控***的预警方法、装置及***
WO2023030522A1 (zh) * 2021-09-06 2023-03-09 ***通信集团设计院有限公司 一种数据中心空调***诊断方法及装置
CN115860729A (zh) * 2023-02-17 2023-03-28 河北信服科技有限公司 一种it运维综合管理***
WO2023071746A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 设备监控方法、网管***、存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203533A1 (en) * 2010-11-08 2012-08-09 Jacobus William E Improper Voltage Level Detection in Emulation Systems
CN104238714A (zh) * 2013-06-09 2014-12-24 上海梅山钢铁股份有限公司 一种ups断电后计算机***保护方法
CN104950778A (zh) * 2015-06-15 2015-09-30 北京百度网讯科技有限公司 数据中心的监控***
CN106933713A (zh) * 2015-12-30 2017-07-07 北京国睿中数科技股份有限公司 硬件加速器的验证方法和验证***
CN206096918U (zh) * 2016-10-18 2017-04-12 深圳飞思安诺网络技术有限公司 一种机房it设备监控和动力环境监控的一体化设备
CN109240246A (zh) * 2018-10-31 2019-01-18 特变电工南京智能电气有限公司 一种充电站智能化运维***及方法
CN109784504A (zh) * 2018-12-24 2019-05-21 贵州宇豪科技发展有限公司 数据中心远程智能运维管理方法及***
CN110398927A (zh) * 2019-09-03 2019-11-01 中科同昌信息安全技术股份有限公司 一种集成数据信息监测平台及监控***
US10990728B1 (en) * 2019-12-19 2021-04-27 Cadence Design Systems, Inc. Functional built-in self-test architecture in an emulation system
CN113391611A (zh) * 2020-03-12 2021-09-14 ***通信集团河北有限公司 动力环境监控***的预警方法、装置及***
CN112905429A (zh) * 2021-02-20 2021-06-04 北京物芯科技有限责任公司 一种***仿真的监控方法及装置
WO2023030522A1 (zh) * 2021-09-06 2023-03-09 ***通信集团设计院有限公司 一种数据中心空调***诊断方法及装置
WO2023071746A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 设备监控方法、网管***、存储介质
CN115860729A (zh) * 2023-02-17 2023-03-28 河北信服科技有限公司 一种it运维综合管理***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RENYA HE等: "Software dynamic fault model and injection method", 2016 11TH INTERNATIONAL CONFERENCE ON RELIABILITY, MAINTAINABILITY AND SAFETY (ICRMS), 28 September 2017 (2017-09-28), pages 1 - 7 *
刘丽媛;: "一体化监控运维平台的研究与实现", 信息技术与信息化, vol. 2020, no. 05, 22 June 2020 (2020-06-22), pages 66 - 68 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389841A (zh) * 2023-12-07 2024-01-12 合芯科技(苏州)有限公司 加速器资源监控方法、装置、集群设备及存储介质
CN117389841B (zh) * 2023-12-07 2024-04-19 合芯科技(苏州)有限公司 加速器资源监控方法、装置、集群设备及存储介质

Also Published As

Publication number Publication date
CN117077594B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
US9569325B2 (en) Method and system for automated test and result comparison
CN117077594B (zh) 一种仿真加速器监控的方法、***、计算机设备及介质
CN109240126B (zh) 一种具有模拟操作功能的分布式应用服务监测***及方法
CN106445755B (zh) 一种整机柜服务器自动化测试方法
CN107426022A (zh) 安全事件监测方法及装置、电子设备、存储介质
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN102087511A (zh) 利用电源供应器执行电子***远程监控的方法
CN105553731A (zh) 一种自动巡检方法及装置
CN115658420A (zh) 数据库监控方法及***
US9430313B2 (en) Generation of debugging log list in a blade server environment
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN105354769A (zh) 用于配电网设备的数据处理方法和装置
CN117670033A (zh) 一种安全检查方法、***、电子设备及存储介质
CN111062503B (zh) 一种电网监控告警处理方法、***、终端及存储介质
CN102541705B (zh) 计算机的测试方法和工装板
CN115686969A (zh) 一种硬盘背板测试方法、装置、设备及介质
CN109862530A (zh) 一种传感器节点自动检修方法以及装置
CN113704066A (zh) 机房设备监控管理方法、存储介质及***
CN112862120A (zh) 一种电力维护维修监管***及方法
CN104579745A (zh) 一种移动终端及网络巡检***
CN110733037B (zh) 信号的处理方法及装置、存储介质及处理器
CN115934453A (zh) 一种故障排查方法、装置及存储介质
CN113704049A (zh) 服务器电源故障监控方法、装置及电子设备
CN205453732U (zh) 云端监控的警示设备
CN114816876B (zh) 一种服务器Redfish接口规范的自动化测试***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant