CN114356665A - 一种综合化光电信号处理计算资源管理方法 - Google Patents

一种综合化光电信号处理计算资源管理方法 Download PDF

Info

Publication number
CN114356665A
CN114356665A CN202111590539.3A CN202111590539A CN114356665A CN 114356665 A CN114356665 A CN 114356665A CN 202111590539 A CN202111590539 A CN 202111590539A CN 114356665 A CN114356665 A CN 114356665A
Authority
CN
China
Prior art keywords
host
computing
resource
signal processing
registry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111590539.3A
Other languages
English (en)
Inventor
邓豹
赵谦
王树争
代明清
徐邦道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN202111590539.3A priority Critical patent/CN114356665A/zh
Publication of CN114356665A publication Critical patent/CN114356665A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明属于嵌入式信号处理技术领域,特别是涉及到一种综合化光电信号处理计算资源管理方法。该方法采用RapidIO网络构建信号处理计算资源池和前端传感器接口资源池,通过基于注册表的资源调度方法,实现综合化信号处理资源的弹性供给,同时,基于开放式计算架构设计相应的计算平台,通过抽象出接口和处理两种计算资源,采用信号处理资源和前端传感器设备全相连映射的互连架构,提供多核CPU+多核DSP+大规模FPGA的异构计算资源。本发明采用双主机方案和计算资源池化技术,实现嵌入式信号处理计算资源的弹性供给,方法简单易用,计算平台可用性较高。

Description

一种综合化光电信号处理计算资源管理方法
技术领域
本发明属于嵌入式信号处理技术领域,特别是涉及到一种综合化光电信号处理计算资源管理方法。
背景技术
机载嵌入式信号处理技术是航空电子***的重要组成部分,为雷达、IRST和DAS等光电子***提供信号处理计算资源。光电信号处理***特定的应用环境,要求嵌入式信号处理计算机具备高性能、强实时、高可靠性、低功耗等特点。此外,信号处理计算机技术还涉及到标准化、通用化、模块化等技术及环境适应性等工程化技术。
航空电子综合化技术的发展和光电***传感器融合技术的进步,对嵌入式光电信号处理计算机***提出更高的要求。面向综合化光电应用的计算机***,要求采用统一的互连总线,具备海量数据传输能力,具备处理资源的可裁剪、可扩展能力,具备同时提供逻辑运算和密集计算的信息处理能力。
发明内容
本发明的目的:
提供一种综合化光电信号处理计算资源管理方法,解决传统信号处理计算机资源专用以及***扩展性的问题,满足机载光电综合化应用场景下海量信号处理的异构计算需求,提供可定制的嵌入式信号处理计算资源。
本发明的技术方案:
一种综合化光电信号处理计算资源管理方法,包括:
步骤1:计算平台启动后,两个HSOT主机A和B作为彼此的冗余备份,通过硬件槽位识别号分配给主机B的优先级高于主机A,计算平台启动后,主机A和B同时开始RapidIO交换网络枚举,并开始建立资源注册表,通过各端口设备的能力寄存器CAR识别主机A和B外接的计算节点和设备接口,锁定并标识相应计算节点和设备接口的ID锁定寄存器CSR,其中,所述相应计算节点和设备接口的ID锁定寄存器CSR仅能被一个主机标识,且标识后被计为第一资源;
步骤2:当主机B发现某个第一资源已经被主机A锁定并标识,则主机B停止枚举并等待,反复获取所述第一资源的ID号,直到主机A释放所述第一资源;当主机A发现某个第一资源已经被主机B锁定并标识,则主机A退避,所述退避为,停止枚举并根据本地的资源注册表对已锁定的资源进行释放;
步骤3:主机B完成计算平台的资源注册表建立,并通过主机B的***网络接口,向上一级***报Ready消息,表示可以接受***任务;同时,主机B向所有计算节点和设备接口广播***消息计为第一消息,确定主机B的主HOST身份,主机A为备份HOST;
步骤4:计算平台启动后,各计算节点和设备接口完成本地初始化;接收到所述第一消息后,各计算节点和设备接口向HOST报告其运行状态并使主HOST更新主HOST的资源注册表,形成第一***资源注册表,所述运行状态包括:运算能力、存储能力、通信能力和运行负载;
当***中有新计算节点或设备接口加入时,新加入的计算节点和设备接口向HOST报告其运行状态并使主HOST更新第一***资源注册表,形成第二***资源注册表,
当有计算节点和设备接口故障或移除时,计算节点和设备接口与主机A和主机B连接的RapidIO交换网络产生离线中断,使主HOST更新第一***资源注册表,形成第三***资源注册表;
步骤5:主HOST依据注册表形成设备接口资源池与计算节点资源池,***应用任务以服务的方式在计算平台上运行:主HOST从***网络接口获取***任务后,查询***资源注册表,根据当前***运行负载情况,分配相应的设备接口和计算节点,同时动态调整RapidIO交换网络的路由表,完成资源分配后,主HOST向设备接口和计算节点发送任务命令;
步骤6:计算节点和设备接口上均运行任务代理程序,代理程序负责本地资源的初始化,以及对所述任务命令进行解析,并加载对所述任务命令对应的APP;
步骤7:主HOST根据上级***对所述APP的请求的情况,弹性的分配设备接口和计算节点。
进一步地,步骤3中,主机B向所有计算节点和设备接口广播***消息,确定主机B的主HOST身份,主机A为备份HOST的同时,还包括:
主机A周期监测B的健康状态,并在B故障时接管***。
进一步地,步骤3中,主机B向所有计算节点和设备接口广播***消息,确定主机B的主HOST身份,主机A为备份HOST之后,还包括:
主机B作为主HOST负责完成***初始化、健康管理以及任务的编排调度。
进一步地,步骤4中,主HOST形成或者更新第一***资源注册表后,还包括:
主HOST均向备份HOST发送当前***资源注册表。
进一步地,步骤6中,加载对所述任务命令对应的应用APP,具体为:
主HOST将APP镜像存储在主HOST的非易失存储器中,计算节点和设备接口本地缓存任务周期内加载过的APP,加载时先在本地存储中查询任务APP镜像,如果不命中,则从主HOST处读取并加载镜像。
进一步地,步骤7具体包括:当***对某个APP的请求增加时,主HOST根据当前资源注册表中的资源情况,动态地分配新的计算节点来执行与所述某个APP相同的APP;
当主HOST检测到计算节点上运行负载过重时,动态的将该任务迁移部分迁移或全部迁移到其他节点。
进一步地,计算节点上运行负载过重,具体为计算资源使用率超过90%。
进一步地,步骤4中,当有计算节点和设备接口故障或移除时,还包括:
计算节点和设备接口周期性地向主HOST上报资源利用率、误码率、BIT结果、通信状态、设备温度;如果连续多个周期未上报状态,则主HOST会发起一次询问消息,如果计算节点和设备接口不响应该消息,则主HOST判定该资源离线,同时更新注册表,并重新分配计算资源。
有益效果:
(1)信号处理计算机架构中抽象出接口和处理两种计算资源,采用开放式计算架构,模块种类少、***可扩展性好;
(2)采用处理资源和前端传感器设备全相连映射的互连架构,支持构建虚拟化传感器资源池和处理资源池;
(3)采用多核CPU+多核DSP+大规模FPGA的异构处理阵列,支持海量信号数据的高性能并行处理。
附图说明
图1为本发明的综合化光电信号处理计算资源管理平台的原理框图;
图2为本发明具体实施例中信号处理接口模块原理框图;
图3为本发明具体实施例中通用信号处理模块原理框图。
具体实施方式
下面结合附图和具体实施例详细说明。
图1为本发明的原理框图。本发明的具体实施例中,综合化光电信号处理计算机***由2块信号处理接口模块和3块通用信号处理模块组成(通用信号处理模块数量可裁剪/扩展)。信号处理接口模块和通用信号处理模块通过内部互连总线连接,采用开放式计算架构,通用信号处理模块的数量可裁剪、可扩展。前端互连总线和内部互连总线采用统一高速交换网络,实现处理资源和前端设备的全相连映射,可构建前端传感器资源池和处理资源池,为综合化光电信号处理提供可定制的嵌入式计算服务。
信号处理接口模块实现前端互连和***互的连接口功能,并提供一定的信号处理能力。通用信号处理模块实现通用信号处理和大规模逻辑运算功能。前端互连总线由RapidIO高速总线实现,采用光信号实现与前端设备的远距离数据交互。***互连总线由FC、AFDX等专用***总线实现,采用光信号实现与航电***内其他功能设备的交联。内部互连总线由RapidIO高速总线实现,采用电信号或者光信号实现互连通信。
RapidIO总线的速率1.25Gbps、2.5Gbps、3.125Gbps、5Gbps、6.25Gbps、10.3125Gbps可配置,RapidIO总线的SerDes互连线宽(每路)1x、2x、4x可配置。信号处理接口模块和通用信号处理模块之间的内部互连总线接口可以是1路或2路,模块内部处理节点(包括多核DSP、多核CPU和大规模FPGA)之间的RapidIO互连可以是1路或2路。采用光信号互连时,光电转换电路支持通信速率可达10.3125Gbps。
信号处理接口模块负责接收、管理、分配前端设备传输的传感器数据以及处理结果的上报,通用信号处理模块负责对前端设备数字化后的信号进行并行处理。同时,信号处理接口模块作为计算机***的控制管理单元,实现***的初始配置、健康管理和故障管理功能。
前端互连总线和内部互连总线采用统一RapidIO交换网络,通过信号处理接口模块和通用信号处理模块上的RapidIO交换设备,实现分布式的RapidIO交换网络,实现信号处理资源的全互连,实现处理资源和前端设备的全相连映射。***互连总线由信号处理接口模块上的***接口桥实现,每个CPU主机实现一路独立的***总线接口,多路独立的***总线接口提供多余度的***互连通信。
如图2所示为本发明具体实施例中信号处理接口模块原理框图。
信号处理接口模块对外输出4路1x 5Gbps的RapidIO总线接口作为前端互连总线接口,输出2路4.25Gbps的FC作为***互连总线接口,输出3路4x 5Gbps的RapidIO总线作为内部互连总线接口,RapidIO和FC高速总线通过光电转换电路,以光信号的形式输出。信号处理接口模块中2片多核CPU采用华创微电子公司的HRDSP2040处理器,2片大规模FPGA采用复旦微电子公司的JFM7K325T,RapidIO交换网络采用1片天津创新中心的NMS1800实现,***总线接口桥采用复旦微电子的JFM7K325T实现。
HRDSP2040通过2路4x 5Gbps的RapidIO接入交换芯片,JFM7K325T通过1路4x5Gbps的RapidIO接入交换芯片,交换芯片对外输出3路4x 5Gbps、4路1x 5Gpbs的RapidIO。2片JFM7K325T之间通过1路4x 10Gbps的SerDes互连,实现自定义扩展接口的数据通信。HRDSP2040处理器配置2通道的72位的DDR3-1066存储器、2通道16位的FLASH存储器和1通道8位的NvRAM存储器。JFM7K325T配置3通道16位的DDR3-1600存储器,并实现信号处理专用的定制算法。通用信号处理模块中的***总线桥JFM7K325T的主机接口为1路4x 5Gbps的PCIe,***总线接口为1路4.25Gbps的FC,每个HRDSP2040处理器输出1路FC。
如图3所示为本发明具体实施例中通用信号处理模块原理框图。
通用信号处理模块对外输出2路4x 5Gbps的RapidIO总线作为内部互连总线接口,RapidIO总线通过光电转换电路,以光信号的形式输出。信号处理接口模块中2片多核DSP采用国防科大的FT-M6678H处理器,2片大规模FPGA采用复旦微电子公司的JFM7V690T,RapidIO交换网络采用1片天津创新中心的NMS1800实现。
FT-M6678H通过2路4x 5Gbps的RapidIO接入交换芯片,JFM7V690T通过2路4x5Gbps的RapidIO接入交换芯片,交换芯片对外输出2路4x 5Gbps的RapidIO。FT-M6678H处理器配置1通道的72位的DDR3-1600存储器、1通道16位的FLASH存储器和1通道8位的NvRAM存储器。JFM7V690T配置3通道16位的DDR3-1600存储器和3通道36位的QDRII+存储器,并实现信号处理专用的定制算法。
综合化光电信号处理计算机***功能运行过程中,信号处理接口模块作为计算机***的控制管理单元。通过抢权或配置蓝图的方式确定某一信号处理接口模块为***主HOST,另一信号处理接口模块为***备HOST,主HOST负责***的配置管理,备HOST监控主HOST的状态,当主HOST失效时,备HOST接管主HOST功能。信号处理接口模块上的2个CPU处理器互为备份,其中一个CPU实现主HOST功能(称为主CPU),另一个监控主CPU的心跳(称为备CPU),当主CPU失效时,备CPU接管主HOST功能。
主HOST负责整个计算机***的配置管理,包括:初始化配置,RapidIO网络初始化(通信路由、链路速率和线宽、ID分配、包优先级等)、前端RapidIO设备同步、CPU+DSP+FPGA异构并行处理阵列任务部署等;健康管理,RapidIO网络流量监控、通信状态监测、***接口桥通信状态监控、处理器及定制FPGA逻辑的工作状态监测等(包括计算机的CPU使用率、内存使用率、各关键品种电源、设备温度等基本工作状态);故障管理,故障任务重构、故障通信节点恢复\隔离、故障现场状态记录等。
在上述综合化光电信号处理计算资源管理平台的基础上,实现综合化光电信号处理计算资源管理,所述综合化光电信号处理计算资源管理方法,包括:
步骤1:计算平台中,两个HSOT主机(A和B)作为彼此的冗余备份。通过硬件槽位识别号分配给主机B的优先级高于主机A。计算平台启动后,主机A开始RapidIO网络枚举,并开始建立资源注册表,通过各端口设备的能力寄存器CAR识别资源类型(计算资源或接口资源),并锁定相应设备的ID锁定寄存器CSR,标示该资源已被获取锁定。
步骤1,具体还包括:RapidIO网络的枚举过程,采用维护包进行***枚举,计算节点和设备接口的初始ID均为0xFF,主机B的初始ID为0x01,主机A的初始ID为0x00。RapidIO网络中维护包采用“ID+跳数”,本发明中,为促使主机A和主机B尽早互相发现,采用广度优先搜索算法进行***枚举。
资源注册表,存储在HOST主机的非易失存储器中,具体地采用电子盘或者NorFLASH。资源注册表在运行过程中,从非易失存储器中读出,并存放在HOST主机的内存中,当资源注册表更新时,才回写到非易于失存储器中。步骤2:主机B开始枚举平台资源,发现另一主机(主机A),并停止枚举等待,反复尝试获取锁定ID号。主机A发现平台中另一更高优先级主机(主机B)并退避(停止枚举,并根据A本地的资源注册表,对已锁定的资源进行释放)。
步骤2中具体还包括:计算机启动后,主机B和主机A首先需要锁定自己的设备的ID锁定寄存器CSR。当主机B发现主机A后,停止等待并尝试获取锁定ID号的时间周期的确定,与具体的综合化光电信号处理计算机平台规模相关(主要取决于RapidIO网络的复杂程度和节点规模)。一般地,具体实现中,测试阶段会使用单HOST主机进行***枚举,如果***枚举时间为T(例如,400ms),则主机B的等待时间周期确定为≤T/2(例如,200ms)。另外,为防止网络枚举过程中出现ID号死锁的情况,即主机A枚举完某一计算节点或设备接口后,主机A故障,导致该计算节点或设备接口ID号死锁,而无法被主机B枚举,甚至主机B进入无限等待(此时会导致计算平台无法启动)。具体实现中,在每个计算节点或设备接口中均设置ID号死锁超时解除机制,即计算节点或设备接口在ID号锁定后,一定时间内未收到HOST主机的广播消息,则本地自动解除ID号锁定,即恢复ID锁定寄存器CSR的初始值,一般地设置超时时间为单HOST枚举时间的2倍(例如,800ms)。
步骤3:主机B获取ID锁定权后,继续枚举平台其他设备。主机B完成计算平台的资源注册表建立,并通过***网络接口,向上一级***报Ready消息,表示可以接受***任务。同时,主机B广播***消息,确定主HOST身份,主机A为备份HOST,周期监测B的健康状态,并在B故障时接管***,主HOST负责完成***初始化、健康管理以及任务的编排调度。
步骤3具体还包括:资源注册表,包含资源的类型(计算节点或设备接口),数量,逻辑位置(在RapidIO网络拓扑中的位置),能力(存储容量、访存带宽、接口带宽、计算能力),运行状态(各类资源的使用率),运行负载(运行APP类型、数量、耦合关系)以及健康状态(温度、功耗、总线通信状态、BIT信息等)。
计算机启动后,主机B完成资源注册表的建立,只是建立资源注册表的类型、数量和逻辑位置这三个表项,其他的具体内容,需要计算节点和设备接口完成初始化后,向主机B上报相关信息后,由主机B完成。
主机A对主机B的健康状态监控方式,采用“抽取和推送”相结合的方式实现,即主机B周期性(如500ms)的向主机A上报健康状态包括(工作温度、BIT信息等),同时,主机A在数倍周期时间(如10倍周期5s)读取一次主机B的健康状态。如果主机B连续10个周期未进行上报,且主机A无法读取主机B健康状态,则判定主机B故障。
步骤4:各传感器接口和计算资源(DSP、CPU以及FPGA)完成本地初始化后,在主HOST处进行资源注册表更新,完善资源注册表,包含资源类型、运算能力、通信能力和运行负载等,形成***资源注册表。当***中有新设备(接口或计算资源)加入时,更新注册表;当有设备故障或移除时,也更新注册表。主HOST周期向备份HOST发送注册表进行备份。
步骤4,具体还包括:各设备接口和计算资源完成本地初始化,主要指完成本地最小运行***的初始化(包括存储、通信、功能逻辑以及平台软件的初始配置)。同时在接收到主HOST的广播消息后,向主HOST上报自己的能力(存储容量、访存带宽、接口带宽、计算能力),运行状态(各类资源的使用率),运行负载(运行APP类型、数量、耦合关系)以及健康状态(温度、功耗、总线通信状态、BIT信息等)。
在本发明的方案中,计算平台采用RapidIO网络,新设备加入、故障或移除时,通过Port-write维护包的方式进行上报,主HOST接收到上报的Port-write维护包后,解析里面的源ID及故障信息,对资源注册表进行更新。
步骤5:主HOST依据注册表形成传感器接口资源池与计算资源池,***应用任务以服务的方式在信号处理计算平台上运行。主HOST从***接口获取***任务后,查询***资源注册表,根据当前***运行负载情况,分配相应的传感器接口和计算资源,同时动态调整RapidIO网络的路由,确保传感器数据能正确送达分配的计算资源。完成资源分配后,主HOST向传感器接口和计算资源发送任务命令。
步骤5具体还包括:设备接口和计算节点的分配算法可以采用动态资源分配算法、基于时间片分配算法以及基于优先级的分配算法,本方案中采用类似“银行家算法”的动态分配算法,避免资源的死锁。
动态调整RapidIO网络的路由,具体的本方案中为避免路由动态调整过程中的网络抖动,在***初始化时将RapidIO网络配置为全互联(即任意端节点可以通过ID号将数据传递给计算平台的其他节点),并在RapidIO的路由基础上构建一层逻辑映射表(即消息发布和订阅的关系),每次动态调整该逻辑映射表。只有当设备接口和计算节点掉线时,才更新RapidIO路由表,并同时更新逻辑映射表。
步骤6:计算资源节点和传感器接口上均运行任务代理程序,代理程序负责本地资源的初始化,并在完成启动后向主HOST处进行注册,以及对主HOST的命令进行解析,并加载相应的应用APP(应用APP镜像存储在主HOST的非易失存储,本地缓存任务周期内加载过的APP,加载时现在本地存储中查询任务APP镜像,如果不命中,则从主HOST处读取镜像)。
具体的主机HOST的任务命令包括:APP属性、APP镜像名称、其他关联的APP、部署资源类型、部署资源逻辑位置等。
步骤7:主HOST可根据***请求的情况,弹性的分配传感器资源和计算资源。当***请求增加或运行负载增加时时,主HOST根据注册表中的资源情况,动态的启动新的计算节点,执行同类型任务。当主HOST检测到计算节点上运行负载过重(计算资源使用率超过90%)或节点故障时,动态的将该任务迁移(部分迁移/全部迁移)到其他节点。
上述步骤4:还包括:代理程序周期向主HOST上报本地的资源利用率、误码率、BIT结果、通信状态、设备温度等健康情况。如果连续多个周期未上报状态,则主HOST会发起一次询问消息,如果代理节点不响应该消息,则主HOST判定该资源离线,同时更新注册表,并重新分配计算资源。

Claims (8)

1.一种综合化光电信号处理计算资源管理方法,其特征在于,包括:
步骤1:计算平台启动后,两个HSOT主机A和B作为彼此的冗余备份,通过硬件槽位识别号分配给主机B的优先级高于主机A,计算平台启动后,主机A和B同时开始RapidIO交换网络枚举,并开始建立资源注册表,通过各端口设备的能力寄存器CAR识别主机A和B外接的计算节点和设备接口,锁定并标识相应计算节点和设备接口的ID锁定寄存器CSR,其中,所述相应计算节点和设备接口的ID锁定寄存器CSR仅能被一个主机标识,且标识后被计为第一资源;
步骤2:当主机B发现某个第一资源已经被主机A锁定并标识,则主机B停止枚举并等待,反复获取所述第一资源的ID号,直到主机A释放所述第一资源;当主机A发现某个第一资源已经被主机B锁定并标识,则主机A退避,所述退避为,停止枚举并根据本地的资源注册表对已锁定的资源进行释放;
步骤3:主机B完成计算平台的资源注册表建立,并通过主机B的***网络接口,向上一级***报Ready消息,表示可以接受***任务;同时,主机B向所有计算节点和设备接口广播***消息计为第一消息,确定主机B的主HOST身份,主机A为备份HOST;
步骤4:计算平台启动后,各计算节点和设备接口完成本地初始化;接收到所述第一消息后,各计算节点和设备接口向HOST报告其运行状态并使主HOST更新主HOST的资源注册表,形成第一***资源注册表,所述运行状态包括:运算能力、存储能力、通信能力和运行负载;
当***中有新计算节点或设备接口加入时,新加入的计算节点和设备接口向HOST报告其运行状态并使主HOST更新第一***资源注册表,形成第二***资源注册表,
当有计算节点和设备接口故障或移除时,计算节点和设备接口与主机A和主机B连接的交换网络产生离线中断,使主HOST更新第一***资源注册表,形成第三***资源注册表;
步骤5:主HOST依据注册表形成设备接口资源池与计算节点资源池,***应用任务以服务的方式在计算平台上运行:主HOST从***网络接口获取***任务后,查询***资源注册表,根据当前***运行负载情况,分配相应的设备接口和计算节点,同时动态调整交换网络的路由表,完成资源分配后,主HOST向设备接口和计算节点发送任务命令;
步骤6:计算节点和设备接口上均运行任务代理程序,代理程序负责本地资源的初始化,以及对所述任务命令进行解析,并加载对所述任务命令对应的APP;
步骤7:主HOST根据上级***对所述APP的请求的情况,弹性的分配设备接口和计算节点。
2.根据权利要求1所述的方法,其特征在于,步骤3中,主机B向所有计算节点和设备接口广播***消息,确定主机B的主HOST身份,主机A为备份HOST的同时,还包括:
主机A周期监测B的健康状态,并在B故障时接管***。
3.根据权利要求1所述的方法,其特征在于,步骤3中,主机B向所有计算节点和设备接口广播***消息,确定主机B的主HOST身份,主机A为备份HOST之后,还包括:
主机B作为主HOST负责完成***初始化、健康管理以及任务的编排调度。
4.根据权利要求1所述的方法,其特征在于,步骤4中,主HOST形成或者更新第一***资源注册表后,还包括:
主HOST均向备份HOST发送当前***资源注册表。
5.根据权利要求1所述的方法,其特征在于,步骤6中,加载对所述任务命令对应的应用APP,具体为:
主HOST将APP镜像存储在主HOST的非易失存储器中,计算节点和设备接口本地缓存任务周期内加载过的APP,加载时先在本地存储中查询任务APP镜像,如果不命中,则从主HOST处读取并加载镜像。
6.根据权利要求1所述的方法,其特征在于,步骤7具体包括:当***对某个APP的请求增加时,主HOST根据当前资源注册表中的资源情况,动态地分配新的计算节点来执行与所述某个APP相同的APP;
当主HOST检测到计算节点上运行负载过重时,动态的将该任务迁移部分迁移或全部迁移到其他节点。
7.根据权利要求6所述的方法,其特征在于,计算节点上运行负载过重,具体为计算资源使用率超过90%。
8.根据权利要求1所述的方法,其特征在于,步骤4中,当有计算节点和设备接口故障或移除时,还包括:
计算节点和设备接口周期性地向主HOST上报资源利用率、误码率、BIT结果、通信状态、设备温度;如果连续多个周期未上报状态,则主HOST会发起一次询问消息,如果计算节点和设备接口不响应该消息,则主HOST判定该资源离线,同时更新注册表,并重新分配计算资源。
CN202111590539.3A 2021-12-23 2021-12-23 一种综合化光电信号处理计算资源管理方法 Pending CN114356665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590539.3A CN114356665A (zh) 2021-12-23 2021-12-23 一种综合化光电信号处理计算资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590539.3A CN114356665A (zh) 2021-12-23 2021-12-23 一种综合化光电信号处理计算资源管理方法

Publications (1)

Publication Number Publication Date
CN114356665A true CN114356665A (zh) 2022-04-15

Family

ID=81100690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590539.3A Pending CN114356665A (zh) 2021-12-23 2021-12-23 一种综合化光电信号处理计算资源管理方法

Country Status (1)

Country Link
CN (1) CN114356665A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116232864A (zh) * 2023-05-05 2023-06-06 井芯微电子技术(天津)有限公司 基于事件控制符的网络***多机热备份方法及***
CN117439838A (zh) * 2023-12-15 2024-01-23 南京群顶科技股份有限公司 一种面向边缘计算网关主从机自适应快速组网方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116232864A (zh) * 2023-05-05 2023-06-06 井芯微电子技术(天津)有限公司 基于事件控制符的网络***多机热备份方法及***
CN116232864B (zh) * 2023-05-05 2023-07-14 井芯微电子技术(天津)有限公司 基于事件控制符的网络***多机热备份方法及***
CN117439838A (zh) * 2023-12-15 2024-01-23 南京群顶科技股份有限公司 一种面向边缘计算网关主从机自适应快速组网方法
CN117439838B (zh) * 2023-12-15 2024-02-23 南京群顶科技股份有限公司 一种面向边缘计算网关主从机自适应快速组网方法

Similar Documents

Publication Publication Date Title
US20190303255A1 (en) Cluster availability management
US5784617A (en) Resource-capability-based method and system for handling service processor requests
US7623460B2 (en) Cluster system, load distribution method, optimization client program, and arbitration server program
US11392417B2 (en) Ultraconverged systems having multiple availability zones
US6378021B1 (en) Switch control method and apparatus in a system having a plurality of processors
US7975006B2 (en) Method and device for managing cluster membership by use of storage area network fabric
US7921431B2 (en) N-port virtualization driver-based application programming interface and split driver implementation
CN114356665A (zh) 一种综合化光电信号处理计算资源管理方法
CN100414542C (zh) 在群集计算环境中管理存储资源的方法
US7774785B2 (en) Cluster code management
US7743372B2 (en) Dynamic cluster code updating in logical partitions
US7197536B2 (en) Primitive communication mechanism for adjacent nodes in a clustered computer system
US20160094435A1 (en) Fabric discovery for a cluster of nodes
US20020103945A1 (en) System and method of initializing a computer processing system having a plurality of point-to-point links interconnecting a plurality of devices
CN104657316A (zh) 服务器
JP2004531175A (ja) ローカル識別子を使ったエンド・ノード区分
JP2006508470A (ja) クラスタシステムのためのハートビート機構
US9384102B2 (en) Redundant, fault-tolerant management fabric for multipartition servers
US7523176B2 (en) Method, apparatus, and computer program product for reconfiguring a storage area network to support the execution of an application automatically upon execution of the application
CN112511394B (zh) 一种RapidIO总线***的管理维护方法
WO2013086861A1 (zh) 一种多路径访问i/o设备的方法、i/o多路径管理器及***
CN116501681A (zh) Cxl数据传输板卡及控制数据传输的方法
US20240160592A1 (en) Memory disaggregation and reallocation
JP4653490B2 (ja) 相互接続を有するクラスタリングシステムおよび方法
US20040085908A1 (en) Method and apparatus for managing locking of resources in a cluster by use of a network fabric

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination