CN117370103B - 一种基于PCIE网卡的SoC***监控方法、装置、设备及介质 - Google Patents

一种基于PCIE网卡的SoC***监控方法、装置、设备及介质 Download PDF

Info

Publication number
CN117370103B
CN117370103B CN202311133823.7A CN202311133823A CN117370103B CN 117370103 B CN117370103 B CN 117370103B CN 202311133823 A CN202311133823 A CN 202311133823A CN 117370103 B CN117370103 B CN 117370103B
Authority
CN
China
Prior art keywords
switch
monitoring
bmc
state
soc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311133823.7A
Other languages
English (en)
Other versions
CN117370103A (zh
Inventor
罗嘉颖
张定乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qishuo Shenzhen Technology Co ltd
Original Assignee
Qishuo Shenzhen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qishuo Shenzhen Technology Co ltd filed Critical Qishuo Shenzhen Technology Co ltd
Priority to CN202311133823.7A priority Critical patent/CN117370103B/zh
Publication of CN117370103A publication Critical patent/CN117370103A/zh
Application granted granted Critical
Publication of CN117370103B publication Critical patent/CN117370103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/161Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
    • H04L69/162Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields involving adaptations of sockets based mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种基于PCIE网卡的SoC***监控方法、装置、设备及介质,包括:BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;***上电后BMC启动初始化服务,通过在数据库查询SoC阵列服务器的型号匹配服务器初始化信息确定阵列服务器的物理架构和监控对象;通过定时器周期性地对监控对象启动定时监控;通过ASP串口通讯获取监控对象的状态监控信息,并将状态监控信息进行解析后获取监控对象的在位状态后缓存到数据库中,监控对象包括交换机、刀片服务器;BMC根据交换机的在位状态和对应的刀片服务器的在位状态,通过网络信息向在位交换机发起http请求,在位交换机响应http请求并将监控数据反馈到BMC,BMC将接收到的监控数据进行解析后缓存到数据库中。

Description

一种基于PCIE网卡的SoC***监控方法、装置、设备及介质
技术领域
本发明涉及服务器监控技术领域,尤其涉及一种基于PCIE网卡的SoC***监控方法、装置、设备及介质。
背景技术
SoC阵列服务器是基于SoC芯片的一种服务器,通常云手机、云游戏会用到SoC阵列服务器。服务器对***可维护性有着远高于家用PC的标准,对运行稳定性有着更为严苛的规范,所以通用服务器需要兼具高性能,高可用和高可靠性。
通用服务器会采用一个专用的BMC管理模块(基板管理控制器)来确保服务器在运行过程中能够被有效管理、能及时诊断故障,并把采集到的管理信息及时上报给上层运维网管***,对服务器***的后台保障起到了至关重要的作用。
现有技术中的SoC阵列服务器,BMC和SoC节点芯片之间的通信通常经过多级的USB转接,这种方式存在着任务下发速度慢和并发性不足的问题,同时,传统的SoC阵列服务器在使用USB方式获取SoC内部监控数据时,由于数据链路过长会影响控制效果,这样的传输方式链路过长,可能导致通信延迟,无法及时对有问题的硬件做出相应的对策。此外,在数据量大的情况下,串口数据可能会被截断并分段解析,这对于数据的解析工作来说并不理想。
发明内容
基于此,有必要针对上述问题,提出了一种基于PCIE网卡的SoC***监控方法、装置、计算机设备及存储介质。
一种基于PCIE网卡的SoC***监控方法,所述方法包括:
BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;
所述BMC通过所述物理架构确定监控对象;
所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;
所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
一种阵列服务器装置,所述装置包括:
BMC管理模块:用于管理SoC阵列服务器中的各个组件;
背板模块:用于连接BMC管理模块、刀片服务器模块和电源,对风扇信息监控和控制指令执行转发,并对刀片服务器模块的各个数据进行汇总上报;
刀片服务器模块:包括串口控制器、刀片控制器、SoC节点,所述刀片服务器模块用于控制SoC节点的各个PIN脚电平;
网络交换机模块:用于BMC管理单元、SoC节点和串口控制器组建内部网络,进行更加高效的通讯。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;
所述BMC通过所述物理架构确定监控对象;
所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;
所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;
所述BMC通过所述物理架构确定监控对象;
所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;
所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
采用本发明实施例,具有如下有益效果:
本发明在SoC阵列服务器中,提供一种基于PCIe网卡的高效通信架构,通过BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;所述BMC通过所述物理架构确定监控对象;所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中,提高任务下发速度和并发性,并避免多级USB转接的限制。同时,通过优化的数据传输方式,提高数据传输效率和准确性,实现高效的监控数据传输。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中实现基于PCIE网卡的SoC***监控方法的流程图;
图2为一个实施例中SoC节点基于网络配置IP流程图;
图3为一个实施例中BMC服务初始化及定时任务流程图;
图4为一个实施例中SoC阵列服务器架构框图;
图5为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中实现基于PCIE网卡的SoC***监控方法的流程图,该方法可以应用于SoC阵列服务器,该方法包括:
步骤S1,BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
其中,在BMC对SoC阵列服务器中进行IP配置之前,如图2所示,首先需要对输入的参数进行规则检查,确保其符合要求;如果参数正确无误,开始构建相应的设置IP指令。然后,使用私有的SoC SSH客户端密钥进行连接,执行设置IP指令。最后检查配置结果,并将结果写入异步任务配置中。
步骤S2,***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;
如图3所示,在一个示例中,***上电后所述BMC启动初始化服务,具体步骤为:所述BMC通过获取在线交换机列表,确定在线交换机配置数据;将所述在线交换机配置数据与数据库中保存的交换机配置数据进行对比;若所述在线交换机配置数据与数据库中保存的配置数据不一致,则启动交换机初始化流程,并将初始化后的在线交换机配置数据储存到数据库中;若所述在线交换机配置数据与数据库中保存的配置数据一致,则保存在线交换机配置数据,并与所述交换机下所有串口控制器的Socket连接。
其中,交换机初始化流程为:所述BMC通过交换机串口通道发送初始化交换机网络配置指令;在所述交换机内新建一个VLAN,并且设置该VLAN的管理IP,再将BMC上的PCIE网卡对应的交换机端口和交换机对应的刀片服务器上的所有串口控制器PCIE网卡对应的端口添加到所述VLAN下,设置端口的通讯模式,所述交换机初始化完成。
步骤S3,所述BMC通过所述物理架构确定监控对象;
在一个示例中,预先将不同类型服务器的物理架构设于数据库中;
所述物理架构包括交换机数量、刀片服务器数量、SoC节点的数量和HUB、SoC节点所属交换机端口,所述刀片服务器包括串口控制器、刀片控制器、SoC节点;每个刀片服务器和一个交换机通过PCIE网卡进行绑定;BMC和一个交换机通过PCIE网卡进行绑定。
步骤S4,所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
在一个示例中,状态监控、交换机监控和模块监控的监控周期为5S,Socket监控的监控周期为30S。
步骤S5,所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;
在一个示例中,状态监控信息具体获取过程为:预先定义ASP协议;
所述BMC根据ASP协议,对获取到的***状态监控数据的头部进行校验,再获取到监控数据的长度,当BMC接收到所有的监控数据后,将所述监控数据统一传送到策略选择器进行提取解析,得到SOC服务器中各个监控对象的实时在位状态,并将解析到的实时在位状态更新到所述数据库中,所述监控对象还包括SoC节点。
其中,如果获取所述监控对象的状态监控信息时,所述监控对象当前处于初始化、重启或重置状态,则跳过当前监控对象;
在预设时间内,若所述BMC监测到所述交换机状态由在线变更为离线时,***自动将该交换机下的所有Socket连接断开;若所述交换机状态由离线变更为在线时,对所述交换机设置重启标记,并查询所述交换机对应的刀片服务器ID以及SoC节点信息,将所述交换机对应的刀片服务器ID以及SoC节点信息通过初始化加入到监控对象;
若所述刀片服务器ID发生变更,则对所述刀片服务器ID对应的串口控制器重新进行初始化。
步骤S6,所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
在一个示例中,监控数据还包括:交换机监控数据、模块监控数据和Socket监控数据。
其中,交换机监控数据是通过获取所述在位交换机运行状态确定的,如果查询交换机运行状态失败,则需要统计失败的次数,在大于阈值的时候进行交换机初始化流程。交换机运行状态包括:CPU主频、占用、温度,内存使用率、出风口温度、光/电口速率、负载均衡模式、arp状态以及交换机下所有网口的连接状态、网卡速率、mac地址等。此外,在返回的请求体中包含交换机的各个端口的网络状态。该数据是一个json数据,使用json工具,对数据进行反序列化得到具体的数据,并把交换机的各个网口状态,***运行数据缓存到数据库中。
模块监控数据是根据状态监控信息和交换机监控数据,通过获取所述在位交换机对应的SoC节点接口运行状态确定的,并获取到该模块的Socket连接,检查连接是否有效,在连接有效的情况下进行虚拟网络配置,配置完成后检查网络连通性,如果失败则需要重新配置。至此SoC模块与BMC之间已经在同一个网络下,BMC可以通过网络连接到模块。此外,该数据是一个json数据,使用json工具,对数据进行反序列化得到具体的数据。
Socket监控数据是根据状态监控信息,通过获取所述在位交换机对应的刀片服务器下的串口控制器Socket连接情况确定的。在每个刀片上存在3个串口控制器,每个串口控制器下有8个socket服务器。先对3个串口控制器进行网络ping包检查,这样可以得到串口控制器的网络连接情况。当监测到未连接的Socket时,需要进行重连,同时进行Socket连接心跳包检查,如果心跳包正常回复则在发送下一个心跳,否则断开当前Socket连接进行重连。
在一个实施例中,如图4所示,提出了一种用于实现基于PCIE网卡的SoC***监控方法的SoC阵列服务器装置,所述装置包括:
BMC管理模块402:用于管理SoC阵列服务器中的各个组件;
背板模块404:用于连接BMC管理模块、刀片服务器模块和电源,对风扇信息监控和控制指令执行转发,并对刀片服务器模块的各个数据进行汇总上报;
在一个示例中,刀片控制器用于控制SoC模块的各个PIN角电平。
刀片服务器模块406:包括串口控制器、刀片控制器、SoC节点,所述刀片服务器模块用于控制SoC节点的各个PIN脚电平;
在一个示例中,串口控制器共有8个Uart,其中1个连接到电子串口上,其余7个连接SoC模块***串口,还有电子串口开关用于扩展BMC管理单元。
网络交换机模块408:用于BMC管理单元、SoC节点和串口控制器组建内部网络,进行更加高效的通讯。
在一个示例中,SoC阵列服务器接入电源后,背板控制器的应用程序首先启动并进入就绪状态。等待BMC管理单元的操作***启动完成后,BMC管理应用程序自动启动。如果服务器电源处于关闭状态,BMC管理应用程序会延迟自动开启服务器电源。
在一个示例中,电子串口开关和所述背板控制器通过串口连接。串口控制器通过串口分别与所述背板模块的电子串口开关和所述SoC节点连接;所述SoC节点与所述刀片控制器通过PIN脚连接;所述SoC节点与所述网络交换机模块通过PCIE网卡连接;所述串口控制器与所述网络交换机模块通过PCIE网卡连接。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图5所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现年龄识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄识别方法。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;
所述BMC通过所述物理架构确定监控对象;
所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;
所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;
所述BMC通过所述物理架构确定监控对象;
所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器;
所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于PCIE网卡的SoC***监控方法,其特征在于,所述方法包括:
BMC将PCIE网卡对应的网络信息在SoC阵列服务器中进行配置;
***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构;所述***上电后所述BMC启动初始化服务,还包括:所述BMC通过获取在线交换机列表,确定在线交换机配置数据;将所述在线交换机配置数据与数据库中保存的交换机配置数据进行对比;若所述在线交换机配置数据与数据库中保存的配置数据不一致,则启动交换机初始化流程,并将初始化后的在线交换机配置数据储存到数据库中;若所述在线交换机配置数据与数据库中保存的配置数据一致,则保存在线交换机配置数据,并与所述交换机下所有串口控制器的Socket连接;
所述BMC通过所述物理架构确定监控对象;
所述BMC通过定时器周期性地对所述监控对象启动定时监控任务;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,所述监控对象包括交换机、刀片服务器,包括:预先定义ASP协议;所述BMC根据ASP协议,对获取到的***状态监控数据的头部进行校验,再获取到监控数据的长度,当BMC接收到所有的监控数据后,将所述监控数据统一传送到策略选择器进行提取解析,得到SOC服务器中各个监控对象的实时在位状态,并将解析到的实时在位状态更新到所述数据库中,所述监控对象还包括SoC节点;
所述BMC通过ASP串口通讯获取所述监控对象的状态监控信息,并将所述状态监控信息进行解析后获取监控对象的在位状态,并缓存到所述数据库中,还包括:获取所述监控对象的状态监控信息时,若所述监控对象当前处于初始化、重启或重置状态,则跳过当前监控对象;在预设时间内,若所述BMC监测到所述交换机状态由在线变更为离线时,***自动将该交换机下的所有Socket连接断开;若所述交换机状态由离线变更为在线时,对所述交换机设置重启标记,并查询所述交换机对应的刀片服务器ID以及SoC节点信息,将所述交换机对应的刀片服务器ID以及SoC节点信息通过初始化加入到监控对象;若所述刀片服务器ID发生变更,则对所述刀片服务器ID对应的串口控制器重新进行初始化;
所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中。
2.根据权利要求1所述的基于PCIE网卡的SoC***监控方法,其特征在于,所述交换机初始化流程包括:
所述BMC通过交换机串口通道发送初始化交换机网络配置指令;
在所述交换机内新建一个VLAN,并且设置该VLAN的管理IP,再将BMC上的PCIE网卡对应的交换机端口和交换机对应的刀片服务器上的所有串口控制器PCIE网卡对应的端口添加到所述VLAN下,设置端口的通讯模式,所述交换机初始化完成。
3.根据权利要求1所述的基于PCIE网卡的SoC***监控方法,其特征在于,所述***上电后所述BMC启动初始化服务,通过在数据库查询所述SoC阵列服务器的型号匹配服务器的初始化信息,确定SoC阵列服务器的物理架构,之前还包括:
将不同类型服务器的物理架构预设于数据库中;
所述物理架构包括交换机数量、刀片服务器数量、SoC节点的数量和HUB、SoC节点所属交换机端口,所述刀片服务器包括串口控制器、刀片控制器、SoC节点;
每个刀片服务器和一个交换机通过PCIE网卡进行绑定;BMC和一个交换机通过PCIE网卡进行绑定。
4.根据权利要求1或3所述的基于PCIE网卡的SoC***监控方法,所述BMC根据所述交换机的在位状态和对应的刀片服务器的在位状态,通过所述网络信息向在位交换机发起http请求,所述在位交换机响应http请求并将监控数据反馈到所述BMC,所述BMC将接收到的监控数据进行解析后缓存到所述数据库中,其特征在于,所述监控数据包括:交换机监控数据、模块监控数据和Socket监控数据;
所述BMC通过获取所述在位交换机的运行状态确定所述交换机监控数据;
所述BMC根据状态监控信息和交换机监控数据,通过获取所述在位交换机对应的SoC节点接口运行状态,确定所述模块监控数据;
所述BMC根据状态监控信息,通过获取所述在位交换机对应的刀片服务器下的串口控制器Socket连接情况,确定所述Socket监控数据。
5.一种阵列服务器装置,其特征在于,所述阵列服务器装置用于实现如权利要求1至4中任一项所述方法的步骤,包括:
BMC管理模块:用于管理SoC阵列服务器中的各个组件;
背板模块:用于连接BMC管理模块、刀片服务器模块和电源,对风扇信息监控和控制指令执行转发,并对刀片服务器模块的各个数据进行汇总上报;
刀片服务器模块:包括串口控制器、刀片控制器、SoC节点,所述刀片服务器模块用于控制SoC节点的各个PIN脚电平;
网络交换机模块:用于BMC管理单元、SoC节点和串口控制器组建内部网络,进行更加高效的通讯。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
CN202311133823.7A 2023-09-04 2023-09-04 一种基于PCIE网卡的SoC***监控方法、装置、设备及介质 Active CN117370103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311133823.7A CN117370103B (zh) 2023-09-04 2023-09-04 一种基于PCIE网卡的SoC***监控方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311133823.7A CN117370103B (zh) 2023-09-04 2023-09-04 一种基于PCIE网卡的SoC***监控方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117370103A CN117370103A (zh) 2024-01-09
CN117370103B true CN117370103B (zh) 2024-07-05

Family

ID=89395302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311133823.7A Active CN117370103B (zh) 2023-09-04 2023-09-04 一种基于PCIE网卡的SoC***监控方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117370103B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867787A (zh) * 2021-08-13 2021-12-31 苏州浪潮智能科技有限公司 一种服务器网卡之间的切换***和方法
CN116185510A (zh) * 2023-02-22 2023-05-30 启朔(深圳)科技有限公司 分区切换启动方法、阵列服务器和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960614A (zh) * 2019-03-27 2019-07-02 英业达科技有限公司 服务器***与管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867787A (zh) * 2021-08-13 2021-12-31 苏州浪潮智能科技有限公司 一种服务器网卡之间的切换***和方法
CN116185510A (zh) * 2023-02-22 2023-05-30 启朔(深圳)科技有限公司 分区切换启动方法、阵列服务器和计算机可读存储介质

Also Published As

Publication number Publication date
CN117370103A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN108897658B (zh) 主数据库监控方法、装置、计算机设备和存储介质
CN102546269B (zh) 一种快速监控ip网络的方法和***
US20190171602A1 (en) Systems and methods for supporting inter-chassis manageability of nvme over fabrics based systems
TW201828658A (zh) 偵測網際網路協定位址及實體位址的方法
CN114866365A (zh) 仲裁机选举方法、装置、智能设备及计算机可读存储介质
CN1937509A (zh) 一种获取单板框号的方法及***
CN117370103B (zh) 一种基于PCIE网卡的SoC***监控方法、装置、设备及介质
CN101751265A (zh) 服务器的基本输入/输出***的更新***及其方法
CN111352662B (zh) 一种服务器启动顺序控制方法、***、终端及存储介质
WO2024113571A1 (zh) 极性反转方法及装置、存储介质、电子装置
CN116170337A (zh) 测试网络设备可靠性的方法、装置及***
JP2015007967A (ja) 電力消費状態の変更を要求する少なくとも1つのパケットの少なくとも一部の受信および/または少なくとも一部の発行
CN116027868A (zh) 服务器的散热控制方法及装置、存储介质及电子装置
CN112650099B (zh) 一种电池监控平台的控制方法及控制***
CN112463494B (zh) 一种基于智能pdu的大批量节点ac循环测试方法
CN104572402A (zh) 一种服务器及实现服务器功耗管理的方法
CN108174398A (zh) 一种终端设备的数据处理方法及***、设备
CN114422481A (zh) 一种网络设备管理方法及相关装置
CN114138574A (zh) 控制器测试方法、装置、服务器和存储介质
CN113821390A (zh) 交换机调试方法和装置、服务器、计算机可读存储介质
CN112187919A (zh) 一种存储节点管理方法及相关装置
CN109039770A (zh) 一种服务器cmc的刷新方法、装置及相关设备
CN116841358B (zh) 服务器刷机方法、刷机结构、***、计算机设备及介质
CN116860339B (zh) 基于mac地址信息的服务器启动方法、装置及设备
CN114911739B (zh) 自适配存储卡运行模式的方法、***、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant