CN114816939B - 一种内存通信方法、***、设备及介质 - Google Patents

一种内存通信方法、***、设备及介质 Download PDF

Info

Publication number
CN114816939B
CN114816939B CN202210615963.7A CN202210615963A CN114816939B CN 114816939 B CN114816939 B CN 114816939B CN 202210615963 A CN202210615963 A CN 202210615963A CN 114816939 B CN114816939 B CN 114816939B
Authority
CN
China
Prior art keywords
memory
interface
parameter
controller
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210615963.7A
Other languages
English (en)
Other versions
CN114816939A (zh
Inventor
王晓玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210615963.7A priority Critical patent/CN114816939B/zh
Publication of CN114816939A publication Critical patent/CN114816939A/zh
Application granted granted Critical
Publication of CN114816939B publication Critical patent/CN114816939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种内存通信方法,包括:通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过第一控制器的第二接口与内存模块的内存通信接口相连;将第一接口和第二接口对应的电位变化进行同步或异步,同时获取第一接口和第二接口的数据内容并根据数据内容对CPU与内存模块的内存通信进行监控。通过本发明提出的一种内存通信方法,由服务器上其他逻辑芯片上的空闲的通信接口,实现CPU与内存的数据通信,并借助其他逻辑芯片的实现对CPU与内存在POST过程中的数据监控及分析以生成对应的日志数据。方便工程师查找详细的日志数据,加快问题定位。同时可以为服务器的开机自检时提供冗余的数据校验手段,以降低数据异常对服务器的开机自检的影响。

Description

一种内存通信方法、***、设备及介质
技术领域
本发明属于计算机领域,具体涉及一种内存通信方法、***、设备及介质。
背景技术
目前,数字经济概念的提出推动了大数据产业的快速发展,服务器行业竞争日益激烈,各大厂商对服务器的性能要求越来越高。
随着处理器性能的快速提升,服务器需要大量的内存来临时保存CPU(CentralProcessing Unit,中央处理器Central Processing Unit,中央处理器)上需要读取的数据。内存作为服务器上的重要部件,其可靠性和稳定性直接关系到服务器的可靠性和稳定性。基于内存制定的SPD(Serial Presence Detect,串行存在检测,本发明指CPU与内存之间通信的链路)协议定义了内存的特性,在BIOS开机自检的POST(Power On Self Test,上电自检)过程中CPU内部的内存控制器会读取内存的SPD寄存器,进行内存初始化及训练;POST完成后CPU会通过SPD总线轮询内存温度,以实现内存温度监控及降频保护机制。而在实际的服务器的使用中由于主板电路上的链路串阻等一些原因导致在BIOS开机自检的POST过程中出现异常卡死的情况,而这种情况只能通过调试记录日志的方式进行发现,但由于通常的使用很少接入调试接口获取日开机自检的日志,导致在一些情况下服务器卡死时运维人员无法发现卡死原因等一些问题。并且在内存SPD信息出错时也无法补救只能重启服务器,很大程度上影响了服务器的运维效率。
因此SPD链路通信的稳定性直接影响内存识别及异常监控,其链路通信稳定性尤为重要。
发明内容
为解决以上问题,本发明提出一种内存通信方法,包括:
通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过所述第一控制器的第二接口与内存模块的内存通信接口相连;
将所述第一接口和所述第二接口对应的电位变化进行同步或异步,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控。
在本发明的一些实施方式中,将所述第一接口和所述第二接口对应的电位变化进行同步或异步包括:
根据所述CPU和所述内存模块的内存通信接口的电压规范调整所述第一接口和所述第二接口的电压。
在本发明的一些实施方式中,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控包括:
根据内存通信通信协议对所述第一接口和/或所述第二接口的数据进行解析,并将解析结果保存到所述第一控制器的第一区域同时将所述解析结果发送到第二控制器上。
在本发明的一些实施方式中,方法还包括:
响应于再次解析到与保存在第一区域的相同类型的数据,判断再次解析到的数据与保存在所述第一区域的数据是否相同;
响应于再次解析到的数据与保存在所述第一区域的数据不同,则将再次解析到的数据发送到所述第二控制器并向所述第二控制器发出内存数据错误警告。
在本发明的一些实施方式中,方法还包括:
通过所述第二接口向所述内存模块发送查询指令以获取对应的内存信息;
将所述内存信息发送到第二控制器,并通过所述第二控制器获取所述内存模块的参数信息,同时将所述参数信息保存到所述第一控制器的第一区域。
在本发明的一些实施方式中,方法还包括:
响应于所述内存模块接收到所述CPU发出的查询内存参数的查询指令,所述内存模块将查询内存参数发送至所述CPU;
获取所述查询内存参数并将所述查询内存参数与所述第一区域的内存参数进行比对;
响应于比对结果为查询内存参数出现异常,将所述查询内存参数保存到第二区域,并向所述第二控制器上报异常情况。
在本发明的一些实施方式中,方法还包括:
响应于比对结果为内存参数出现异常,通过所述第一控制器再次向所述内存模块发出查询内存参数的查询指令,并获取对应的查询内存参数;
将所述查询内存参数再次与所述第一区域和/或第二区域的内存参数进行比对;
响应于所述查询内存参数与第二区域保存的内存参数相同,则将所述查询内存参数由所述第一控制器通过所述第一接口发送到所述CPU。
本发明的另一方面还提出一种内存通信***,包括:
连接模块,所述连接模块配置用于通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过第一控制器的第二接口与内存的内存通信接口相连;
解析模块,所述解析模块配置用于将所述第一控制器的第一接口和第二接口的中对应的信号引脚的电位变化进行同步或异步,同时获取所述第一接口和第二接口的数据内容并根据所述数据内容对所述CPU与内存的内存通信进行监控。
本发明的再一方面还提出一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现上述实施方式中任意一项所述方法的步骤。
本发明的又一方面还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述实施方式中任意一项所述方法的步骤。
通过本发明提出的一种内存通信方法,通过服务器上其他逻辑芯片上的空闲的通信接口,实现CPU与内存的数据通信,并借助其他逻辑芯片的实现对CPU与内存在POST过程中的数据监控及分析以生成对应的日志数据。方便工程师查找详细的日志数据,加快问题定位。同时可以为服务器的开机自检时提供冗余的数据校验手段,以降低数据异常对服务器的开机自检的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提出的一种内存通信方法的方法流程图;
图2为现有技术中内存通信链路的结构示意图;
图3为本发明一实施例提出的一种内存通信方法的通信链路的结构示意图;
图4为本发明一实施例提供的一种内存通信***的结构示意图;
图5为本发明一实施例提供的一种计算机设备的结构示意图;
图6为本发明一实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明所要解决的是CPU在获取内存配置信息时的异常问题,主要是指在服务器BIOS的POST过程中对内存的三次校验时三次数据不一致引起的校验失败情况,在传统方式的实现上难以有效定位出问题的原因,例如在服务器主板的设计完成后进行运行测试时,若因设计缺陷导致内存三次校验失败,由于BIOS程序以及主板设计问题无法对内存与CPU之间的数据传输进行检测,无法确认是内存问题还是传输链路上存在“链路串阻”等设计缺陷导致的问题。并且由于“链路串阻”等设计缺陷可能存在偶然性难以通过一次测试或多次测试检测到,因此即便存在这些问题,可能也无法通过服务器主板的成型测试检测到。这种偶然性的故障问题会随着服务器的使用伴随终身,严重的是当这种偶然性出现在客户的使用过程中时则会带来严重的质量问题或服务问题,影响客户的体验甚至会给客户带来“这家的服务器几乎全是垃圾,动不动就出现问题”的负面影响。
另外,随着服务器的使用,服务器主板上的电路老化更会加剧这种偶然性异常的产生,在使用一定时间后再次重启服务器时出现上述问题的概率急剧增加。
如图1所示,为解决上述问题,本发明的提出一种内存通信方法,包括:
步骤S1、通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过所述第一控制器的第二接口与内存模块的内存通信接口相连;
步骤S2、将所述第一接口和所述第二接口对应的电位变化进行同步或异步,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控。
在实际中,CPU与内存的通信方式是采用SPD链路的方式进行通信,而由于CPU与内存的工作电压不同,而导致SPD链路无法直接实现CPU与内存的互连。在实际中,传统的实现方式如图2所示,SPD线路设计线路如图1所示。CPU与DDR4之间的SPD实际为一路I2C,CPU端电平类型为1.0V的GTL电平,DIMM(Dual-Inline-Memory-Modules,双重内嵌式内存模块)端的电平类型为2.5V的CMOS电平,因此CPU与内存间通过一个GTL2014芯片做电平转换,可实现主从正常通信。8根内存以菊花链的拓扑挂在CPU一路SPD总线下面,并按照要求通过外部的地址管脚配置各个内存为不同的I2C地址,从而实现一个I2C master与8个slave间的通信。SPD总线在开机POST过程中用于内存初始化及训练,完成内存正确识别;另外POST完成后按照BIOS配置CPU会通过SPD总线对内存温度进行轮询,以实现内存温度监控和过热保护机制,防止内存过温导致数据损坏甚至***异常。SPD的连接在当前技术中包括通过I2C(DDR4)和I3C(DDR5)的两种实现方式。
在步骤S1中,第一控制器可以是任意的嵌入式设备或具有一定数量通信接口可进行逻辑编程的设备,例如MCU、CPLD、BMC、FPGA等嵌入式设备,第一接口和第二接口可以是I2C或I3C,因此第一控制器可至少提供2路I2C或I3C用于实现CPU和内存的连接。即第一路独立连接CPU,第二路I2C或I3C独立连接内存(至少连接1个内存)。
在步骤S2中,在实现CPU与内存的通信时,第一控制器可以通过将第一接口和第二接口上对应的引脚的电位实现同步变化的方式实现CPU与内存的通信,或者建立两个完全独立的连接。即可以通过对第一控制器进行逻辑编程实现第一接口和第二接口上的引脚一一对应绑定,并当对应的引脚电位变化时使两者对应的引脚同步变化,或者是通过两个接口分别与对应的CPU或内存建立两个独立的连接,由第一控制器中转其数据通信。
进一步,第一控制器可以对第一接口和第二接口上的数据进行监控及解析,即对I2C或I3C数据进行解析,获取CPU与内存的通信数据,并根据数据内容进行分析以实现对CPU与内存之间的数据通信的监控。
在本发明的一些实施方式中,将所述第一接口和所述第二接口对应的电位变化进行同步或异步包括:
根据所述CPU和所述内存模块的内存通信接口的电压规范调整所述第一接口和所述第二接口的电压。
在本实施例中,基于CPU与内存的工作电压的不同,第一控制器还需要根据CPU的工作电压和内存的工作电压进行设置第一接口和第二接口的电压。例如,与CPU相连的第一接口电压可设置为1.0V,与内存相连的第二接口的电压可以是2.5V。根据不同的CPU型号和内存工作电压进行设定。若CPU与内存的工作电压相同时则完全设置相同的电压。
在本发明的一些实施方式中,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控包括:
根据内存通信通信协议对所述第一接口和/或所述第二接口的数据进行解析,并将解析结果保存到所述第一控制器的第一区域同时将所述解析结果发送到第二控制器上。
在本实施例中,第一控制器根据第一接口和第二接口的传输协议对第一接口和第二接口的数据进行解析,提取出第一接口和第二接口中传输的数据,同时将解析到的数据保存到第一控制器的指定区域,进一步将解析到的数据发送到第二控制器。
具体的,以图3所示为例,在本实施例中,采用CPLD作为第一控制器,并由CPLD的两路I2C作为连接CPU于内存的SPD线路。在服务器开机自检时,CPU中运行的对应的BIOS程序会向内存查询3次SPD寄存器信息。由CPLD在实现CPU与内存的SPD通信电路电压转换的同时,CPLD中实现相应的编程逻辑,根据I2C协议对CPU与内存的通信进行解析,获取由CPU发送到内存的查询指令等一切信息,以及获取从内存返回CPU的响应信息,响应信息包括SPD寄存器中的具体值。
特别地,CPLD将从内存获取到的SPD寄存器的值保存到CPLD上的UFM(CPLD内部提供给用户使用的非易失性存储区域)某一区域。为服务器上每一个内存条建立一个SPD保存区域,在获取到对应的内存的SPD寄存器的值之后,便将SPD寄存器的值保存到对应内存的对应区域。另外,将保存的SPD寄存的发送到BMC上。在本发明的一些实施方式中,方法还包括:
响应于再次解析到与保存在第一区域的相同类型的数据,判断再次解析到的数据与保存在所述第一区域的数据是否相同;
响应于再次解析到的数据与保存在所述第一区域的数据不同,则将再次解析到的数据发送到所述第二控制器并向所述第二控制器发出内存数据错误警告。
在本实施例中,如前所述,在服务器开机自检时,会对内存的SPD信息进行检测,共有3次获取内存参数的情况,并通过三次获取的数据对内存的状态进行冗余性状态检测,即通过3次数据的对比来确认内存是否正常。因此在本实施例中,如果是服务器第一次启动,则第一次的内存SPD寄存器的值会保存到CPLD的UFM区域,当CPU向内存发出第二次内存校验时,CPLD便可解析到内存通过SPD线路发送到CPU的内存的SPD参数信息即对应的各个SPD的值。另外,当服务器非第一次重启CPLD的UFM区域中存在对应的内存的SPD寄存器的值时,当服务器开机自检,CPU第一次向内存获取对应SPD寄存器值时,CPLD在解析到内存返回给CPU的数据中包含对应得SPD寄存器值时,便可在第一次POST的内存检测阶段对第一次获取的内存的SPD参数进行校验。
具体地,当CPLD再次从第一接口或第二接口所形成的SPD线路中解析并获取到对应的保存到UFM区域的数据时,则判断新获取到的数据是否与保存到UFM上对应区域的数据相同。如果相同则说明内存状态正常,如果不同则说明存在对应的内存的SPD出现异常,或者是内存故障。则将故障内存的信息发送到BMC,即将服务器上对应内存的位置、型号、SPD寄存器信息发送到BMC,由BMC通过带外网络发送到运维***。
需要说明的是,当CPLD获取的内存SPD寄存器的值与保存在UFM区域的对应的值不同时,BIOS的POST过程可能仍然通过。例如服务器非第一次启动,CPLD的UFM区域保存的服务器上所有内存的SPD的值,当服务器重启进入POST自检过程后,CPU向内存发送查询内存SPD信息指令,内存向CPU第一次返回的SPD寄存器值,假如存在某个SPD寄存器的值与保存在UFM区域的值不同,则CPLD通过BMC上报的运维***。CPLD不会干涉返回向CPU的SPD寄存器的值,CPU接收到之后便会临时保存并再次向内存获取SPD的值,如果内存在后续两次发送的SPD寄存器均与第一次相同,则BIOS开机自检通过,服务器加载后续流程。但由于存在某个内存的SPD的值与预先保存在UFM区域的值不同。因此服务器在运行时可能会存在相应的风险,而CPLD通过BMC将对应的内存异常上报的运维***之后便可由运维人员对内存异常的服务器进行处理。
在本发明的一些实施方式中,方法还包括:
通过所述第二接口向所述内存模块发送查询指令以获取对应的内存信息;
将所述内存信息发送到第二控制器,并通过所述第二控制器获取所述内存模块的参数信息,同时将所述参数信息保存到所述第一控制器的第一区域。
在本实施例中,通过CPLD实现两路SPD通信链路,即将CPU与内存的通信以“异步”的方式实现,由CPLD以第一接口和CPU建立一个SPD链路,在改链路中,CPLD模拟内存与CPU进行通信,同时由CPLD通过第二接口模拟CPU与内存进行通信。当CPU发出查询内存信息请求时,CPLD模拟内存向CPU发送对应的链路信号,具体地,如果CPU与内存建立的链接是通过I2C或I3C建立,则根据I2C或I3C的协议规范,CPLD模拟内存与CPU建立第一链接,同时CPLD模拟CPU再与内存建立第二链接。
进一步,在服务器启动后,且BIOS还没有进入到POST过程时,CPLD通过上述第二链路以模拟CPU的方式向内存发送查询指令,获取内存中所有内存条的型号等信息,再讲型号信息发送到BMC上,由BMC通过带外网络向运维***查询上述型号的内存的参数信息,即SPD寄存器值等信息。BMC在从运维***获取到对应的内存的参数信息后,则将获取到的参数信息发送给CPLD,由CPLD将参数信息保存到对应得UFM区域。
进一步,在BIOS进入到POST过程后,在CPU第一次获取内存信息时便可由CPLD对通过第一接口获取到的内存的SPD寄存器的值与由BMC获取并保存到UFM区域的SPD寄存器的值进行对比。
在本发明的一些实施方式中,方法还包括:
响应于所述内存模块接收到所述CPU发出的查询内存参数的查询指令,所述内存模块将查询内存参数发送至所述CPU;
获取所述查询内存参数并将所述查询内存参数与所述第一区域的内存参数进行比对;
响应于比对结果为查询内存参数出现异常,将所述查询内存参数保存到第二区域,并向所述第二控制器上报异常情况。
在本实施例中,在CPLD的UFM区域保存有对应的内存参数即各个内存SPD的寄存器的值情况下,当服务器进入POST过程,如果三次内存校验中第一次内存校验的值与UFM区域的值不同时,则先临时将第一次的SPD寄存器的值保存到UFM中的第二区域,即区别于之前保存的SPD寄存器的值。通过第二区域对当前服务器重启的POST过程的三次校验进行对比,以判断是否三次校验的值是否相同。即临时保存本次校验的三个寄存器的值(指同一个SPD寄存器,三次的值)。同样,当第一次的值与UFM中的第一区域的值不同时,则向BMC上报,由BMC上传值运维***。
具体地,当监控到内存向CPU返回对应的SPD寄存器的数据时,CPLD则将返回CPU的SPD寄存器的值与UFM区域的值进行对比。如果此次返回CPU的SPD寄存器的值与UFM区域中保存的值不相同,则将此次的SPD寄存器的值临时保存到UFM区域中的第二区域。同时将数据上传到BMC。
需要说明的时,第一区域和第二区域同样在UFM区域内,不同的是第一区域保存有服务器上所有的内存的SPD寄存器,第二区域中只保存异常的SPD寄存器的值。例如,现有的内存的SPD寄存器,包括256个通用SPD寄存器,以及由生产商自定义的其他寄存器,以服务器16个DIMM插槽计算,则第一区域至少有4096个寄存器,而第二区域只保存对应的与第一区域不同的寄存器,假如第一个内存条的第2个SPD寄存器与第一区域的不同,则第二区域值保存该SPD寄存器三次的值。
在本发明的一些实施方式中,方法还包括:
响应于比对结果为内存参数出现异常,通过所述第一控制器再次向所述内存模块发出查询内存参数的查询指令,并获取对应的查询内存参数;
将所述查询内存参数再次与所述第一区域和/或第二区域的内存参数进行比对;
响应于所述查询内存参数与第二区域保存的内存参数相同,则将所述查询内存参数由所述第一控制器通过所述第一接口发送到所述CPU。
在本实施例中,如前所述,在通过第一控制器在CPU与内存之间建立“异步”的通信链路时,以CPLD建立两个SPD链路为例。且在服务器BIOS进入POST过程中,对内存进行三次检测时,CPLD发现内存返回的SPD寄存器的值与保存在UFM区域的第一区域中对应的SPD寄存器的值不同时,则由CPLD通过建立的第二链路向内存再次发起查询SPD寄存器参数的指令,并接收内存返回的对应的内存的SPD的值,将接收到的SPD的值与保存在UFM中的第一区域和第二区域中的SPD的值进行再次对比,如果该值与第一区域的值一样,则说明之前收到的SPD寄存器的值出现错误,由CPLD再次补查的这一次SPD寄存器的值恢复正常,则将补查的正常的SPD的值由CPLD与CPU建立的第一链路发送到CPU,同时将正常的SPD寄存器的值保存到第二区域替换原先错误的值,用于POST过程的后续校验,即防止后续第二次校验以及第三次校验时出现SPD寄存器值异常的情况。可有效避免在服务器重启BIOS进入POST过程中SPD寄存器的数据在链路传输时数据而无法及时纠正的情况。
通过本发明提出的一种内存通信方法,通过服务器上其他逻辑芯片上的空闲的通信接口,实现CPU与内存的数据通信,并借助其他逻辑芯片的实现对CPU与内存在POST过程中的数据监控及分析以生成对应的日志数据。方便工程师查找详细的日志数据,加快问题定位。同时可以为服务器的开机自检时提供冗余的数据校验手段,以降低数据异常对服务器的开机自检的影响。
如图4所示,本发明的另一方面还提出一种内存通信***,包括:
连接模块1,所述连接模块1配置用于通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过第一控制器的第二接口与内存的内存通信接口相连;
解析模块2,所述解析模块2配置用于将所述第一控制器的第一接口和第二接口的中对应的信号引脚的电位变化进行同步或异步,同时获取所述第一接口和第二接口的数据内容并根据所述数据内容对所述CPU与内存的内存通信进行监控。
如图5所示,本发明的再一方面还提出一种计算机设备,包括:
至少一个处理器21;以及
存储器22,所述存储器22存储有可在所述处理器21上运行的计算机指令23,所述指令23由所述处理器执行时实现一种内存通信方法,包括:
通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过所述第一控制器的第二接口与内存模块的内存通信接口相连;
将所述第一接口和所述第二接口对应的电位变化进行同步或异步,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控。
在本发明的一些实施方式中,将所述第一接口和所述第二接口对应的电位变化进行同步或异步包括:
根据所述CPU和所述内存模块的内存通信接口的电压规范调整所述第一接口和所述第二接口的电压。
在本发明的一些实施方式中,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控包括:
根据内存通信通信协议对所述第一接口和/或所述第二接口的数据进行解析,并将解析结果保存到所述第一控制器的第一区域同时将所述解析结果发送到第二控制器上。
在本发明的一些实施方式中,方法还包括:
响应于再次解析到与保存在第一区域的相同类型的数据,判断再次解析到的数据与保存在所述第一区域的数据是否相同;
响应于再次解析到的数据与保存在所述第一区域的数据不同,则将再次解析到的数据发送到所述第二控制器并向所述第二控制器发出内存数据错误警告。
在本发明的一些实施方式中,方法还包括:
通过所述第二接口向所述内存模块发送查询指令以获取对应的内存信息;
将所述内存信息发送到第二控制器,并通过所述第二控制器获取所述内存模块的参数信息,同时将所述参数信息保存到所述第一控制器的第一区域。
在本发明的一些实施方式中,方法还包括:
响应于所述内存模块接收到所述CPU发出的查询内存参数的查询指令,所述内存模块将查询内存参数发送至所述CPU;
获取所述查询内存参数并将所述查询内存参数与所述第一区域的内存参数进行比对;
响应于比对结果为查询内存参数出现异常,将所述查询内存参数保存到第二区域,并向所述第二控制器上报异常情况。
在本发明的一些实施方式中,方法还包括:
响应于比对结果为内存参数出现异常,通过所述第一控制器再次向所述内存模块发出查询内存参数的查询指令,并获取对应的查询内存参数;
将所述查询内存参数再次与所述第一区域和/或第二区域的内存参数进行比对;
响应于所述查询内存参数与第二区域保存的内存参数相同,则将所述查询内存参数由所述第一控制器通过所述第一接口发送到所述CPU。
如图6所示,本发明的又一方面还提出一种计算机可读存储介质401,所述计算机可读存储介质401存储有计算机程序402,其特征在于,所述计算机程序402被处理器执行时实现上述实施方式中任意一项所述方法的步骤。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (7)

1.一种内存通信方法,其特征在于,包括:
通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过所述第一控制器的第二接口与内存模块的内存通信接口相连;
将所述第一接口和所述第二接口对应的电位变化进行同步或异步,同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控;和/或
通过所述第二接口向所述内存模块发送查询指令以获取对应的内存信息;
将所述内存信息发送到第二控制器,并通过所述第二控制器获取所述内存模块的参数信息,同时将所述参数信息保存到所述第一控制器的第一区域;
响应于所述内存模块接收到所述CPU发出的查询内存参数的查询指令,所述内存模块将查询内存参数发送至所述CPU;
获取所述查询内存参数并将所述查询内存参数与所述第一区域的内存参数进行比对;
响应于比对结果为查询内存参数出现异常,将所述查询内存参数保存到第二区域,并向所述第二控制器上报异常情况;
响应于比对结果为内存参数出现异常,通过所述第一控制器再次向所述内存模块发出查询内存参数的查询指令,并获取对应的查询内存参数;
将所述查询内存参数再次与所述第一区域和/或第二区域的内存参数进行比对;
响应于所述查询内存参数与第二区域保存的内存参数相同,则将所述查询内存参数由所述第一控制器通过所述第一接口发送到所述CPU。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一接口和所述第二接口对应的电位变化进行同步或异步包括:
根据所述CPU和所述内存模块的内存通信接口的电压规范调整所述第一接口和所述第二接口的电压。
3.根据权利要求1所述的方法,其特征在于,所述同时获取所述第一接口和所述第二接口的数据内容并根据所述数据内容对所述CPU与所述内存模块的内存通信进行监控包括:
根据内存通信通信协议对所述第一接口和/或所述第二接口的数据进行解析,并将解析结果保存到所述第一控制器的第一区域同时将所述解析结果发送到第二控制器上。
4.根据权利要求3所述的方法,其特征在于,还包括:
响应于再次解析到与保存在第一区域的相同类型的数据,判断再次解析到的数据与保存在所述第一区域的数据是否相同;
响应于再次解析到的数据与保存在所述第一区域的数据不同,则将再次解析到的数据发送到所述第二控制器并向所述第二控制器发出内存数据错误警告。
5.一种内存通信***,其特征在于,包括:
连接模块,所述连接模块配置用于通过第一控制器的第一接口与CPU的内存通信接口相连,以及通过第一控制器的第二接口与内存的内存通信接口相连;
解析模块,所述解析模块配置用于将所述第一控制器的第一接口和第二接口的中对应的信号引脚的电位变化进行同步或异步,同时获取所述第一接口和第二接口的数据内容并根据所述数据内容对所述CPU与内存的内存通信进行监控;
所述解析模块还配置用于:
通过所述第二接口向所述内存模块发送查询指令以获取对应的内存信息;
将所述内存信息发送到第二控制器,并通过所述第二控制器获取所述内存模块的参数信息,同时将所述参数信息保存到所述第一控制器的第一区域;
响应于所述内存模块接收到所述CPU发出的查询内存参数的查询指令,所述内存模块将查询内存参数发送至所述CPU;
获取所述查询内存参数并将所述查询内存参数与所述第一区域的内存参数进行比对;
响应于比对结果为查询内存参数出现异常,将所述查询内存参数保存到第二区域,并向所述第二控制器上报异常情况;
响应于比对结果为内存参数出现异常,通过所述第一控制器再次向所述内存模块发出查询内存参数的查询指令,并获取对应的查询内存参数;
将所述查询内存参数再次与所述第一区域和/或第二区域的内存参数进行比对;
响应于所述查询内存参数与第二区域保存的内存参数相同,则将所述查询内存参数由所述第一控制器通过所述第一接口发送到所述CPU。
6. 一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-4任意一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。
CN202210615963.7A 2022-05-31 2022-05-31 一种内存通信方法、***、设备及介质 Active CN114816939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210615963.7A CN114816939B (zh) 2022-05-31 2022-05-31 一种内存通信方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210615963.7A CN114816939B (zh) 2022-05-31 2022-05-31 一种内存通信方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN114816939A CN114816939A (zh) 2022-07-29
CN114816939B true CN114816939B (zh) 2024-06-28

Family

ID=82518441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210615963.7A Active CN114816939B (zh) 2022-05-31 2022-05-31 一种内存通信方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN114816939B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN113868161A (zh) * 2021-09-29 2021-12-31 苏州浪潮智能科技有限公司 一种基于i3c的设备管理方法、装置、设备及可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107164A1 (zh) * 2015-12-25 2017-06-29 研祥智能科技股份有限公司 异构混合内存架构的计算机***及其控制方法、内存检测***
US20170308447A1 (en) * 2016-04-26 2017-10-26 Quanta Computer Inc. Methods and systems for analyzing record and usage in post package repair

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783262A (zh) * 2018-12-24 2019-05-21 新华三技术有限公司 故障数据处理方法、装置、服务器及计算机可读存储介质
CN113868161A (zh) * 2021-09-29 2021-12-31 苏州浪潮智能科技有限公司 一种基于i3c的设备管理方法、装置、设备及可读介质

Also Published As

Publication number Publication date
CN114816939A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US11163623B2 (en) Serializing machine check exceptions for predictive failure analysis
CN102244591A (zh) 客户端服务器及对其功能测试全程监测的方法
CN105183575A (zh) 处理器故障的诊断方法、装置及***
CN114003445B (zh) Bmc的i2c监控功能测试方法、***、终端及存储介质
CN116680101A (zh) 一种操作***宕机检测方法及装置、消除方法及装置
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
CN104239174A (zh) Bmc远程调试***及方法
CN114816939B (zh) 一种内存通信方法、***、设备及介质
WO2024124862A1 (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
US20230366951A1 (en) Power failure monitoring device and power failure monitoring method
CN111240913B (zh) 一种服务器dqs报错内存批量测试方法及装置
CN113992501A (zh) 一种故障定位***、方法及计算装置
CN116795648A (zh) 服务器的检测方法、装置、存储介质及电子装置
CN114138574A (zh) 控制器测试方法、装置、服务器和存储介质
JP6217086B2 (ja) 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
CN114968629A (zh) 计算机***及其专用崩溃转存装置与记录错误数据的方法
CN111459734A (zh) 一种故障监控周期的测试方法、***及计算机存储介质
CN111865719A (zh) 一种交换机故障注入自动化测试方法和装置
CN106909489B (zh) 一种测试EventLog状态的方法及装置
CN112463504A (zh) 一种双控存储产品测试方法、***、终端及存储介质
CN116382968B (zh) 外部设备的故障检测方法以及装置
CN113688017B (zh) 多节点BeeGFS文件***自动化异常测试方法及装置
CN117135075A (zh) 网络设备的测试方法、装置、计算机设备及存储介质
TWI654524B (zh) 伺服器機櫃系統及其訊號傳輸頻率調整方法
CN116719712B (zh) 处理器串口日志输出方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant