CN111382096A - 信息处理***及中继装置 - Google Patents

信息处理***及中继装置 Download PDF

Info

Publication number
CN111382096A
CN111382096A CN201911325271.3A CN201911325271A CN111382096A CN 111382096 A CN111382096 A CN 111382096A CN 201911325271 A CN201911325271 A CN 201911325271A CN 111382096 A CN111382096 A CN 111382096A
Authority
CN
China
Prior art keywords
platform
communication
abnormality
platforms
expansion bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911325271.3A
Other languages
English (en)
Inventor
寺本浩树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Client Computing Ltd
Original Assignee
Fujitsu Client Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Client Computing Ltd filed Critical Fujitsu Client Computing Ltd
Publication of CN111382096A publication Critical patent/CN111382096A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1605Handling requests for interconnection or transfer for access to memory bus based on arbitration
    • G06F13/1652Handling requests for interconnection or transfer for access to memory bus based on arbitration in a multiprocessor architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/266Arrangements to supply power to external peripherals either directly from the computer or under computer control, e.g. supply of power through the communication port, computer controlled power-strips
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3027Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/10Program control for peripheral devices
    • G06F13/102Program control for peripheral devices where the programme performs an interfacing function, e.g. device driver
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/382Information transfer, e.g. on bus using universal interface adapter
    • G06F13/385Information transfer, e.g. on bus using universal interface adapter for adaptation of a particular data processing system to different peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4027Coupling between buses using bus bridges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Systems (AREA)
  • Bus Control (AREA)

Abstract

***及设备。一种***包括第一平台、第二平台以及包括能连接到第一平台和第二平台的扩展总线的中继装置。第一平台包括通信异常监测单元,其检测通过扩展总线在第一平台与第二平台之间的通信中的异常。该中继装置包括:通信控制微计算机,其通过扩展总线控制在第一平台与第二平台之间的通信;以及电源控制微计算机,其控制从外部电源到第二平台的电力供应,并且在检测到通过扩展总线在第一平台与第二平台之间的通信中的异常之后,基于来自第二平台的电信号来确定所述异常是由硬件和软件之一引起的,并向第一平台通知确定的结果。

Description

信息处理***及中继装置
技术领域
本文描述的实施方式总体上涉及***及设备。
背景技术
已经开发出了这样的技术:在包括主机个人计算机(PC)、处理器以及可连接到主机PC和处理器的中继装置的信息处理***中,中继装置通过使用诸如***组件快速互连(PCIe)之类的扩展总线提供虚拟局域网(LAN),来提供在主机PC与连接到插槽的处理器之间的通信。在日本专利申请特开No.2008-041027公报和PCT国际申请公开的日语翻译No.2012-504835中描述了这种传统技术的示例。
然而,在上述技术中,当在主机PC和处理器之间的通信中发生异常时,难以确定通信中的异常是由硬件引起还是由软件引起。因此,无法以适于通过扩展总线在主机PC和计算单元之间的通信中的异常的方式来执行适当的错误处理。
发明内容
根据本公开的一个方面,通常,一种***包括第一平台、第二平台和中继装置,该中继装置包括能连接到第一平台和第二平台的扩展总线,其中,第一平台包括通信异常监测单元,该通信异常监测单元检测通过扩展总线在第一平台与第二平台之间的通信中的异常,并且中继装置包括:通信控制微计算机,该通信控制微计算机通过扩展总线控制在第一平台与第二平台之间的通信;以及电源控制微计算机,该电源控制微计算机控制从外部电源到第二平台的电力供应,并且在检测到通过扩展总线在第一平台与第二平台之间的通信中的异常之后,基于来自第二平台的电信号来确定通过扩展总线在第一平台与第二平台之间的通信中的异常是由硬件和软件之一引起的,并向第一平台通知确定的结果。
根据本公开的另一方面,通常,一种设备包括:扩展总线,该扩展总线能连接到第一平台和第二平台;通信控制微计算机,通信控制微计算机通过扩展总线控制在第一平台与第二平台之间的通信;以及电源控制微计算机,该电源控制微计算机控制到第二平台的电力供应,并且在检测到通过扩展总线在第一平台与第二平台之间的通信的异常之后,基于来自第二平台的电信号来确定通过扩展总线在第一平台与第二平台之间的通信的异常是由硬件和软件之一引起的,并向第一平台通知确定的结果。
附图说明
图1是例示了根据一个实施方式的信息处理***的整体配置的示例的图;
图2是例示了根据实施方式的信息处理***的硬件配置的示例的图;
图3是例示了根据实施方式的信息处理***的平台的软件配置的示例的图;
图4是用于说明根据实施方式的信息处理***中的平台之间的通信处理的示例的图;
图5是例示了根据实施方式的信息处理***中的任何一个平台如何识别其它平台的示例的图;
图6是例示了根据实施方式的信息处理***中的任何一个平台如何识别其它平台的另一示例的图;
图7是用于说明在根据实施方式的信息处理***中通过中继装置在处理器之间进行数据传送的方法的示例的图;
图8是例示了根据实施方式的信息处理***的功能配置的示例的框图;以及
图9是例示了在根据实施方式的信息处理***中确定通信异常的处理流程的示例的序列图。
具体实施方式
下面使用附图描述根据实施方式的包括设备的***。
图1是例示了根据本实施方式的信息处理***的整体配置的示例的图。如图1 所示,根据本实施方式的信息处理***1包括多个平台2-1至2-8和中继装置3。平台2-1至2-8中的每一个连接至中继装置3。
在以下描述中,当平台2-1至2-8中的每一个不需要与其它平台区分开并且代表任何平台时,将其称为平台2。尽管这里将描述信息处理***1包括八个平台2-1至 2-8的示例,但是信息处理***1不限于此,只要包括多个平台2即可。
平台2-1至2-8中的每一个是用作信息处理***1的控制单元和图形用户接口(GUI)的主机个人计算机(PC),或者是执行例如人工智能(AI)推理处理和图像处理的计算单元。
具体地,平台2-1至2-8包括处理器21-1至21-8。在以下描述中,当处理器21-1 至21-8中的每一个不需要与其它处理器区分开并且代表任何处理器时,将其称为处理器21。处理器21-1至21-8可以由各自不同的制造商(供应商)提供,或者由相同制造商提供。
例如,假设处理器21-1由公司A提供,处理器21-2由公司B提供,处理器21-3 由公司C提供,处理器21-4由公司D提供,处理器21-5由公司E提供,处理器21-6 由公司F提供,处理器21-7由公司G提供,并且处理器21-8由公司H提供。
安装在中继装置3上的端点(EP)各自可以连接至平台2中不同的一个平台。另选地,平台2中的一个平台可以连接至EP中的每一个,并且平台2可以使用多个根复合体(RC)与中继装置3通信。
下面参照图2描述根据本实施方式的信息处理***1的硬件配置的示例。图2 是例示了根据本实施方式的信息处理***的硬件配置的示例的图。以下描述平台2-1 用作主机PC,并且平台2-2至2-8中的每一个用作执行例如AI推理处理和图像处理的计算单元的示例。
首先,下面描述用作主机PC的平台2-1的硬件配置。
如图2所示,平台2-1包括处理器21-1、显示单元201、通用串行总线(USB) 端口202、通信接口(I/F)203、储存单元204和存储器205。显示单元201例如是液晶显示器(LCD),并且显示各种类型的信息。USB端口202是用于将平台2-1连接至***装置的连接器。通信I/F 203使得能够根据诸如以太网(Ethernet,注册商标) 之类的通信标准与诸如局域网(LAN)之类的网络进行通信。
储存单元204是诸如硬盘驱动器(HDD)、固态驱动器(SSD)或储存级存储器 (SCM)之类的储存装置,并且在其内存储各种类型的数据。存储器205例如是只读存储器(ROM)或随机存取存储器(RAM)。ROM在其内存储各种软件程序和用于软件程序的数据。处理器21-1读取并执行ROM中存储的软件程序。当执行ROM中所存储的软件程序中的每一个时,RAM用作工作区。
处理器21-1是诸如中央处理单元(CPU)、微处理单元(MPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(PLD)或现场可编程门阵列(FPGA) 之类的处理器,并控制整个平台2-1。处理器21-1可以是多核处理器,或者是两个或更多个处理器的组合。
随后,以下描述每个用作执行例如AI推理处理和图像处理的计算单元的平台2-2至2-8的硬件配置。
如图2所示,平台2-2包括处理器21-2、USB端口211和显示单元212。显示单元212例如是LCD,并且显示各种类型的信息。USB端口211是用于将平台2-2连接至***装置的连接器。
处理器21-2是诸如CPU、MPU、DSP、ASIC、PLD或FPGA之类的处理器,并且控制整个平台2-2。处理器21-2可以是多核处理器,或者是两个或更多个处理器的组合。例如,处理器21-2可以是CPU和图形处理单元(GPU)的组合。
这里已经描述了平台2-2的硬件配置。在用作执行例如AI推理处理和图像处理的计算单元的其它平台2-3至2-8中的每一个中也采用相同的硬件配置。
下面描述中继装置3的硬件配置。
例如,如图2所示,中继装置3是在一个芯片中包括EP的中继装置。如图2所示,中继装置3包括通信控制微计算机301、电源控制微计算机302、存储器303和多个插槽305-1至305-8。如图2所示,通信控制微计算机301、存储器303以及插槽305-1至305-8被连接为能够通过内部总线304彼此通信。
如图2所示,电源控制微计算机302通过信号线L1至L8与连接至插槽305-1 至305-8的平台2-1至2-8连接。信号线L1至L8是将从平台2-1至2-8接收到的信号传输到电源控制微计算机302的信号线。
插槽305-1至305-8中的每一个是与符合PCIe标准的装置连接的扩展插槽(扩展总线)的示例。在本实施方式中,平台2-1至2-8连接至插槽305-1至305-8。在下面的描述中,当插槽305-1至305-8中的每一个不需要与其它插槽区分开并且表示任何插槽时,将其称为插槽305。
平台2中的一个可以连接至插槽305中的一个,或者多个平台2可以连接至插槽305中的一个插槽。另外,将多个插槽305分配给平台2中的一个,使得平台2使用宽通信频带进行通信。
存储器303是包括ROM和RAM的存储器。存储器303的ROM在其内存储各种软件程序,所述各种软件程序包括例如与连接至插槽305的平台2之间的通信控制有关的软件程序以及用于软件程序的数据。存储在ROM中的软件程序由通信控制微计算机301读取并执行。当执行存储器303的ROM中所存储的软件程序中的每一个时,存储器303的RAM用作工作区。
平台2在例如对应于每个插槽305的存储器22中设置有存储区。在存储区中设置划分为插槽305的数量的多个储存区,并且储存区中的每一个与插槽305中的任何一个相关联。中继装置3基于为插槽305中的每一个提供的储存区的地址在平台2 之间传送数据。
通信控制微计算机301包括诸如CPU、MPU、DSP、ASIC、PLD或FPGA之类的处理器,并且处理器通过插槽305控制平台2之间的通信。控制微计算机301可以包括多个处理器的组合。通信控制微计算机301执行存储器303中所存储的软件程序,以执行连接至插槽305的平台2之间的通信。
电源控制微计算机302包括诸如CPU、MPU、DSP、ASIC、PLD或FPGA的处理器,并且处理器控制向连接至插槽305的平台2的电力供应。电源控制微计算机 302的处理器可以包括多个处理器的组合。电源控制微计算机302的处理器执行电源控制微计算机302中包括的存储器中存储的软件程序,以将来自电源单元(未示出) 的电力提供给连接至插槽305的平台2。
在本实施方式中,为了增加平台2之间的通信速度,中继装置3将平台2上所设置的处理器21操作为使用PCIe的每个RC,以在作为装置而操作的EP之间传送数据,如图2所示。
具体地说,在信息处理***1中,每个平台2的处理器21作为PCIe的RC操作。中继装置3(即,连接至各个平台2的插槽305)被用作各个平台2的处理器21的 EP。
可以使用各种已知技术将作为EP的中继装置3连接至平台2的处理器21。例如,为了连接至平台2,中继装置3向平台2通知指示中继装置3用作EP的信号,并作为EP连接至平台2。
中继装置3通过从端点到端点(从EP到EP)隧穿数据,来向RC传送数据。当 PCIe的交易出现时,平台2的处理器21之间的通信逻辑地连接,并且除非数据传送集中在处理器21中的一个处理器上,否则数据能够在处理器21之间并行传送。
下面参照图3描述根据本实施方式的信息处理***1的平台2的软件配置的示例。图3是例示了根据本实施方式的信息处理***的平台的软件配置的示例的图。
平台2-1使用例如Windows(注册商标)作为操作***(OS),并在该OS上执行各种软件程序。平台2-2和2-3使用例如Linux(注册商标)作为操作***(OS),并且在该OS上执行各种软件程序。
平台2包括桥接驱动器20,并且通过桥接驱动器20与中继装置3和其它平台2 通信。平台2中的每一个包括处理器21和存储器。处理器21执行例如存储在存储器中的驱动器、OS和各种程序,以执行平台2中所包括的各种功能。
以下参照图4描述连接到中继装置3的平台2之间的通信处理的示例。图4是用于说明根据本实施方式的信息处理***中的平台之间的通信处理的示例的图。这里将描述关于平台2-1的处理器21-1和平台2-2的处理器21-2之间的通信处理的示例。
在用作传输源的平台2-1上,由用作RC的处理器21-1生成的数据从软件依次通过交易层和数据链路层传送到物理层(PHY),并且从物理层传送到中继装置3的物理层。
中继装置3将从用作传输源的平台2-1传送的数据从物理层依次通过数据链路层和交易层传送到软件,然后通过隧穿将数据传送到与用作传输目的地的平台2-2的 RC相对应的EP。换句话说,在中继装置3中,通过在EP之间隧穿数据,使数据从一个RC(处理器21-1)传送到另一个RC(处理器21-2)。
在用作传输目的地的平台2-2上,从中继装置3传送的数据从物理层(PHY)依次通过数据链路层和交易层传送到软件,然后传送到用作传输目的地的平台2-2的处理器21-2。在本实施方式的信息处理***1中,当PCIe的交易已经出现时,逻辑地执行平台2之间的通信。
除非来自平台2的数据传送集中在与中继装置3中包括的插槽305中的一个连接的平台2上,否则数据也能够在任何多个不同组的平台2之间并行传送。例如,如果平台2-2的处理器21-2和平台2-3的处理器21-3与平台2-1的处理器21-1通信,则中继装置3串行处理由平台2-2的处理器21-2和平台2-3的处理器21-3所执行的通信。
此外,如果不同平台2的处理器21彼此通信并且通信不集中在平台2的特定一个平台的处理器21上,则中继装置3能够并行处理平台2之间的通信。
下面参照图5和图6描述平台2的处理器21如何识别其它平台2的处理器21。图5和图6是例示了根据本实施方式的信息处理***中的任意一个平台如何识别其它平台的示例的图。
在各个平台2的处理器21之间执行通信的状态下,由每个处理器21执行的OS (例如,Windows(注册商标)的设备管理器)仅能识别中继装置3,并且因此,不需要直接管理用作连接目的地的其它平台2的处理器21。换句话说,中继装置3的设备驱动器管理连接至中继装置3的平台2的处理器21。
因此,设备驱动器不需要被制备成操作用作传输源和传输目的地的平台2的处理器21,而是通过使用中继装置3的设备驱动器仅执行与中继装置3的通信处理就可以执行平台2之间的通信。
下面参照图7描述在信息处理***1中通过中继装置3进行平台2之间的数据传送的方法。图7是用于说明在根据本实施方式的信息处理***中通过中继装置进行处理器之间的数据传送的方法的示例的图。
在图7所示的示例中,将描述数据从连接至插槽#0的平台2-1被传送到连接至插槽#4的平台2-5的情况。
用作传输源的平台2-1将要从例如设置在平台2-1上的储存器23通过例如软件传输的数据(以下,称为传输数据)存储到平台2-1的存储区35中(步骤S701)。存储区35可以是临时存储要传送的数据的通信缓冲器的一部分。存储区35是每个平台2上的按照与例如存储器22的大小相同大小所设置的区域。存储区35根据插槽 305的数量来划分。划分后的存储区35的储存区各自与插槽305中的任何一个相关联。例如,存储区35中的表示为插槽#0的储存区与连接至插槽#0的平台2-1相关联,并且存储区35中的表示为插槽#4的储存区与连接至插槽#4的平台2-5相关联。平台2-1将传输数据存储在传输目的地的存储区35中的被分配给插槽305的区域(在该情况下为插槽#4)中。
基于平台2的存储区35中的储存区,桥接驱动器20获取或生成指示传输目的地的插槽305的插槽信息和指示传输目的地的存储区35中的划分区域中的地址的地址信息(步骤S702)。
在传输源的EP处,桥接驱动器20将包括插槽信息、地址信息和传输数据的传送数据传递给中继装置3(步骤S703)。由此,中继装置3通过基于插槽信息以EP 到EP方式将传输源的插槽305连接至传输目的地的插槽305,来将传送数据传送到用作传输目的地的平台2-5(步骤S704)。基于插槽信息和地址信息,传输目的地的桥接驱动器20将传输数据(或传送数据)存储在与用作传输目的地的平台2的存储区35的插槽#4相对应的储存区中的具有由地址信息指示的地址的区域中(步骤 S705)。
例如,在用作传输目的地的平台2-5上,计算机程序读取存储区35中所存储的传输数据,并将传输数据移动到存储器(本地存储器)22和储存器23(步骤S706 和S707)。
以上述方式,将数据(传送数据)从用作传输源的平台2-1传送至用作传输目的地的平台2-5。
在上述配置中,当在通过插槽305(扩展总线)在平台2-1(主机PC)与平台2-2 至2-8(执行例如AI推理处理和图像处理的计算单元)之间的通信中发生异常时,难以确定在主机PC和计算单元之间的通信中的异常是由硬件引起的还是由软件引起的。因此,无法以适于通过扩展总线在主机PC与计算单元之间的通信中的异常的原因的方式来执行适当的错误处理(恢复)。
因此,在本实施方式中,中继装置3的电源控制微计算机302设置有以下功能,该功能使得当在主机PC和计算单元之间的通信中发生异常时,可以确定通信中的异常的原因是硬件还是软件,并且可以以适于通过扩展总线在主机PC和计算单元之间的通信的异常的原因的方式来执行适当的错误处理。
图8是例示了根据本实施方式的信息处理***1的功能配置的示例的框图。作为使用处理器21-1读取并执行存储器205中存储的软件程序的结果,执行图8所示的平台2-1(主机PC)的功能。作为使用处理器21-2读取并执行合并于存储器205中存储的OS中的软件程序的结果,执行图8所示的平台(计算单元)2-2至2-8的功能。作为使用电源控制微计算机302中包括的处理器读取并执行电源控制微计算机 302中包括的存储器中存储的软件程序的结果,执行图8所示的中继装置3的功能。
首先,将描述平台2-1的功能配置。
如图8所示,根据本实施方式的平台2-1包括作为功能组件的通信异常监测单元801。通信异常监测单元801检测通过插槽305在平台2-1(主机PC)与其它平台2-2 至2-8(计算单元)之间的通信(在虚拟LAN环境下主机PC与计算单元之间的通信) 中的异常。在本实施方式中,当通信异常监测单元801检测到在平台2-1与其它平台 2-2至2-8之间的通信中的异常时,通信异常监测单元801输出确定指示信号,该确定指示信号用作用于通过连接至专用端子(诸如,通用输入/输出(GPIO)端子)的信号线L1向中继装置3指示用于确定通信中的异常的原因的信号。
当从中继装置3通过信号线L1向通信异常监测单元801通知检测到的通信异常的原因的确定结果时,通信异常监测单元801根据作为通知而提供的确定结果之一来执行错误处理。错误处理的示例包括检查平台2到插槽305的连接状态,检查从外部电源单元到平台2的电力供应的状态,检查平台2的OS的启动状态,以及重新启动。
在本实施方式中,从中继装置3向通信异常监测单元801通知平台2-1与所有其它平台2-2至2-8之间的通信中的异常的原因的确定结果。通信异常监测单元801从作为通知提供的通信异常的原因当中识别出从其检测到异常的平台2之间的通信中的异常的原因,并根据识别出的通信异常的原因执行错误处理。
随后,将描述平台2-2的功能配置。尽管下面描述了平台2-2的功能配置,但是用作计算单元的平台2-3至2-8中的每一个也具有相同的功能配置。
如图8所示,根据本实施方式的平台2-2包括作为功能组件的OS启动状态检测单元802。在电源控制微计算机302从外部电源单元向平台2-2供电并且平台2-2的 OS已经启动之后,OS启动状态检测单元802检测OS是否已经启动。
当平台2-2的OS已经启动时,OS启动状态检测单元802通过连接至诸如GPIO 端子之类的专用端子的信号线L2向中继装置3输出指示平台2-2已经启动的启动信号。例如,OS启动状态检测单元802在平台2-2的OS正常启动的情况下将启动信号设置为高电平,或者在平台2-2的OS的启动中检测到异常的情况下将启动信号保持在低电平。
随后,将描述中继装置3的功能配置。
如图8所示,根据本实施方式的中继装置3的电源控制微计算机302包括作为功能组件的电源控制单元810、异常确定单元811和异常通知单元812。电源控制单元 810控制到平台2的电力供应。在本实施方式中,电源控制单元810向外部电源单元 (未示出)输出电源控制信号,以控制从电源单元到平台2的电力供应。电源控制信号是指示到平台2电力供应开始或者到平台2的电力供应停止的信号。
当通信异常监测单元801检测到通信异常时,异常确定单元811基于来自平台2-2至2-8的电信号来确定通信异常是由硬件还是由软件引起的。在本实施方式中,当通信异常监测单元801检测到通信异常并且通过诸如GPIO端子之类的专用端子从通信异常监测单元801接收到用于指示确定所检测到的通信异常的原因的确定指示信号时,异常确定单元811确定通信异常是由硬件还是由软件引起的。
在本实施方式中,异常确定单元811基于通过连接至诸如GPIO端子之类的专用端子的信号线L1从平台2-2接收到的电信号,来确定由硬件和软件引起的通信异常的多个候选中的哪个候选与由通信异常监测单元801检测到的通信异常对应。由此,即使当多个原因可以导致平台2-1与平台2-2至2-8之间的通信中的异常时,也能够确定通信异常的原因。
由硬件引起的通信异常的候选包括平台2-2至2-8中的任何一个未连接至插槽305-2至305-8中的相应插槽的状态。因此,平台2-1与平台2-2至2-8之间的通信异常的原因可以被确定为平台2-2至2-8中的一个未连接至插槽305。在本实施方式中,如果没有向连接至诸如GPIO端子之类的专用端子的信号线L2至L8中的任何一条施加电压,则异常确定单元811确定因为平台2-2至2-8中的任何一个未连接至插槽 305-2至305-8中的相应插槽而发生通信异常。
由硬件引起的异常的候选包括平台2-2至平台2-8中的任何一个未被供电的状态。因此,平台2-1与平台2-2至2-8之间的通信异常的原因可以被确定为平台2-2 至2-8中的任何一个未被供电。在本实施方式中,如果异常确定单元811在通过诸如 GPIO端子之类的专用端子向平台2-2至2-8给出了接通电源的指示之后的预设时间内没有从平台2-2至2-8中的每一个平台接收到提供OS已经启动的通知的信号,则异常确定单元811确定出因为没有向平台2-2至2-8中的任何一个供电而发生通信异常。
由软件引起的异常的候选包括在由平台2-2至2-8中的任何一个执行的OS的启动状态中存在异常的状态。因此,平台2-1与平台2-2至2-8之间的通信异常的原因可以被确定为平台2-2至2-8中的任何一个的OS尚未正常启动。在本实施方式中,如果通过连接至诸如GPIO端子之类的专用端子的信号线L1至L8从平台2-2至2-8 未接收到指示平台2-2至2-8的OS已经启动的启动信号,则异常确定单元811确定出因为在OS的启动状态中的任何一个状态中存在异常而发生通信异常。例如,如果从平台2-2至2-8接收到的启动信号中的任何一个保持低电平而未变为高电平,则异常确定单元811确定因为在OS的启动状态中存在异常而发生通信异常。
在本实施方式中,异常确定单元811基于在预设时段从平台2-2至2-8接收到的电信号,来确定平台2-1与平台2-2至2-8之间的通信异常是由硬件还是由软件引起的。异常确定单元811将确定结果存储在寄存器(未示出)中。
在本实施方式中,当从通信异常监测单元801接收到确定指示信号时,异常确定单元811重新确定平台2-1与平台2-2至2-8之间的通信异常是由硬件引起还是由软件引起的。异常确定单元811将确定结果存储在寄存器(未示出)中,作为平台2-1 与平台2-2至2-8之间的通信异常的原因的更新的确定结果。
在本实施方式中,当异常确定单元811确定平台2-1与平台2-2至2-8之间的通信异常的原因时,异常确定单元811确定平台2-1与所有其它平台2-2至2-8之间的通信异常的原因。
另外,在本实施方式中,当异常确定单元811确定通信异常的原因时,异常确定单元811首先确定通信异常是否是由其中平台2中的任何一个未连接至插槽305中的相应插槽的状态引起的。如果确定出通信异常是由平台2未连接至插槽305的状态引起的,则异常确定单元811将针对平台2的确定结果存储在寄存器(未示出)中。
随后,对于未被确定为与由于未连接至插槽305中的相应插槽的状态而导致的通信异常对应的平台2中的每一个,异常确定单元811确定通信异常是否是由平台2未被供电的状态引起的。如果确定出通信异常是由平台2未被供电的状态引起的,则异常确定单元811将针对平台2的确定结果存储在寄存器(未示出)中。
最后,对于未被确定为与由于未供电的状态而导致的通信异常对应的平台2中的每一个,异常确定单元811确定通信异常是否是由平台2所执行的OS的启动状态中存在异常的状态引起的。如果确定出通信异常是由在平台2所执行的OS的启动状态中存在异常的状态引起,则异常确定单元811将针对平台2的确定结果存储在寄存器 (未示出)中。
换句话说,异常确定单元811通过按顺序确定通信异常是否是由平台2中的任何一个未连接至插槽305中的相应插槽的状态引起的,通信异常是否是由平台2的任何一个未被供电的状态引起的,以及通信异常是否是由平台2中的任何一个执行的OS 的启动状态中存在异常的状态引起的,来确定通信异常的原因。对于不与通信异常的原因中的任何原因相对应的平台2中的每一个,异常确定单元811在寄存器(未示出) 中存储平台2是正常的或者通信异常的原因未知的事实,作为通信异常的确定结果。
异常通知单元812向平台2-1通知平台2-1(主机PC)与平台2-2至2-8(计算单元)之间的通信中的异常是由硬件引起还是由软件引起的确定结果。
因此,当在通过插槽305在平台2-1(主机PC)与平台2-2至2-8(计算单元) 之间的通信中发生异常时,能够确定通信中的异常是由硬件引起还是由软件引起的。由此,能够以适于通过插槽305在平台2-1与平台2-2至2-8之间的通信中的异常的原因的方式来执行适当的错误处理。在本实施方式中,异常通知单元812通过信号线 L1向平台2-1通知存储在寄存器(未示出)中的平台2之间的通信异常的原因的更新的确定结果。
以下使用图9描述在根据本实施方式的信息处理***1中确定通信异常的处理流程的示例。图9是例示了在根据本实施方式的信息处理***中确定通信异常的处理流程的示例的序列图。
在平台2-1开始进行通过插槽305在平台2-1与其它平台2-2至2-8之间的通信之后,平台2-1的通信异常监测单元801开始检测通过插槽305在平台2-1与其它平台2-2至2-8之间的通信中的异常(步骤S901)。
如果通信异常监测单元801检测到通过插槽305在平台2-1与其它平台2-2至2-8之间的通信中的异常,则通信异常监测单元801通过信号线L1经由诸如集成电路间 (I2C)(注册商标)串行通信之类的串行通信,向中继装置3通知确定指示信号(步骤S902)。
在接收到作为通知的确定指示信号之后,中继装置3的异常确定单元811基于从平台2-2至2-8接收到的电信号,来确定通信中的异常是由硬件引起还是由软件引起的(步骤S903)。换句话说,异常确定单元811确定平台2-1与其它平台2-2至2-8 之间的通信异常的原因。
中继装置3的异常通知单元812通过信号线L1经由诸如I2C(注册商标)串行通信之类的串行通信,向平台2-1通知平台2-1与其它平台2-2至2-8之间的通信中的异常是由硬件引起还是由软件引起的确定结果(步骤S904)。换句话说,异常通知单元812发布平台2-1与其它平台2-2至2-8之间的通信异常的原因的通知。
如上所述,通过根据本实施方式的信息处理***1,当在通过插槽305在平台2-1(主机PC)与平台2-2至2-8(计算单元)之间的通信中发生异常时,能够确定通信异常是由硬件引起还是由软件引起的。由此,能够以适于通过插槽305在平台2-1与平台2-2至2-8之间的通信异常的原因的方式来执行适当的错误处理。
通过根据本实施方式的信息处理***1,基于来自计算单元的电信号确定由硬件和软件引起的通信异常的多个候选中的哪个候选与通过插槽305在主机PC与计算单元之间的通信中的异常对应。由此,即使当多个原因能够导致主机PC与计算单元之间的通信中的异常时,也能够确定通信中的异常的原因。
通过根据本实施方式的信息处理***1,通过插槽305在主机PC和计算单元之间的通信中由硬件引起的异常的候选包括计算单元中的任何一个未连接至插槽305 的状态。因此,主机PC与计算单元之间的通信中的异常的原因能够被确定为计算单元之一未连接至插槽305。
通过根据本实施方式的信息处理***1,通过插槽305在主机PC与计算单元之间的通信中由硬件引起的异常的候选包括计算单元中的任何一个未被供电的状态。因此,主机PC和计算单元之间的通信中的异常的原因能够被确定为计算单元中的任何一个未被供电。
通过根据本实施方式的信息处理***1,通过插槽305在主机PC与计算单元之间的通信中由软件引起的异常的候选包括由计算单元中的任何一个执行的OS的启动状态中的异常。因此,主机PC和计算单元之间的通信中的异常的原因能够被确定为计算单元中的任何一个的OS没有正常启动。
尽管通过将PCIe例示为用于每个组件的输入/输出(I/O)接口描述了以上实施方式,但是I/O接口不限于PCIe。例如,用于每个组件的I/O接口仅需要能够经由数据传送总线在装置(***控制器)和处理器之间执行数据传送的技术。数据传送总线可以是能够在设置于例如一个房屋中的本地环境(例如,一个***或一个装置)中高速传送数据的通用总线。I/O接口可以是并行接口或者串行接口。
I/O接口仅需要具有允许进行点对点连接并且允许基于逐包(packet-by-packet)进行数据的串行传送的配置。在串行传送的情况下,I/O接口可以具有多个通道。I/O 接口可以具有包括以下层的层结构:交易层,其生成包并对其解码,数据链路层,其执行例如错误检测;以及物理层,其执行串/并转换。I/O接口可以包括例如设置在分层的顶层并且包括一个或更多个端口的根复合体、充当I/O装置的端点、用于增加端口的交换机、用于转换协议的桥。I/O接口可以使用复用器将要发送的数据与时钟信号复用,并且发送结果。在这种情况下,接收侧可以使用解复用器将数据与时钟信号分离。
根据本公开的一个方面,能够以适于通过扩展总线在第一平台和第二平台之间的通信中的异常的原因的方式来执行适当的错误处理。
根据本公开的另一方面,能够以适于通过扩展总线在第一平台和第二平台之间的通信中的异常的原因的方式来执行适当的错误处理。
尽管已经描述了一些实施方式,但是这些实施方式仅是通过示例的方式给出的,并非旨在限制本发明的范围。实际上,本文描述的新颖的方法和***可以以多种其它形式来实现。此外,在不脱离本发明的精神的情况下,可以对本文所述的方法和***的形式进行各种省略、替代和改变。所附权利要求及其等同物旨在覆盖将落入本发明的范围和精神内的这种形式或修改。

Claims (6)

1.一种信息处理***,该信息处理***包括:
第一平台;
第二平台;以及
中继装置,该中继装置包括能连接到所述第一平台和所述第二平台的扩展总线,
其中,所述第一平台包括通信异常监测单元,该通信异常监测单元检测通过所述扩展总线在所述第一平台与所述第二平台之间的通信中的异常,并且
所述中继装置包括:
通信控制微计算机,该通信控制微计算机通过所述扩展总线控制在所述第一平台与所述第二平台之间的所述通信;以及
电源控制微计算机,该电源控制微计算机控制从外部电源到所述第二平台的电力供应,并且在检测到通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信中的异常之后,基于来自所述第二平台的电信号来确定通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信中的所述异常是由硬件和软件之一引起的,并向所述第一平台通知所述确定的结果。
2.根据权利要求1所述的信息处理***,其中,所述电源控制微计算机基于来自所述第二平台的电信号,确定由硬件和软件引起的所述通信中的所述异常的多个候选中的哪个候选对应于通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信中的所述异常。
3.根据权利要求2所述的信息处理***,其中,由硬件引起的通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信的所述异常的所述候选包括所述第二平台未连接至所述扩展总线的状态。
4.根据权利要求2或3所述的信息处理***,其中,由硬件引起的通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信的所述异常的所述候选包括没有向所述第二平台供电的状态。
5.根据权利要求2至4中的任一项所述的信息处理***,其中,由软件引起的通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信的所述异常的所述候选包括由所述第二平台执行的操作***的启动状态中的异常。
6.一种中继装置,该中继装置包括:
扩展总线,该扩展总线能连接到第一平台和第二平台;
通信控制微计算机,通信控制微计算机通过所述扩展总线控制在所述第一平台与所述第二平台之间的通信;以及
电源控制微计算机,该电源控制微计算机控制到所述第二平台的电力供应,并且在检测到通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信的异常之后,基于来自所述第二平台的电信号来确定通过所述扩展总线在所述第一平台与所述第二平台之间的所述通信的所述异常是由硬件和软件之一引起的,并向所述第一平台通知所述确定的结果。
CN201911325271.3A 2018-12-28 2019-12-20 信息处理***及中继装置 Withdrawn CN111382096A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018247562A JP6579255B1 (ja) 2018-12-28 2018-12-28 情報処理システム、および中継装置
JP2018-247562 2018-12-28

Publications (1)

Publication Number Publication Date
CN111382096A true CN111382096A (zh) 2020-07-07

Family

ID=68053647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911325271.3A Withdrawn CN111382096A (zh) 2018-12-28 2019-12-20 信息处理***及中继装置

Country Status (4)

Country Link
US (1) US20200209932A1 (zh)
JP (1) JP6579255B1 (zh)
CN (1) CN111382096A (zh)
GB (1) GB2583797A (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
JP4102769B2 (ja) * 2004-02-25 2008-06-18 エヌイーシーコンピュータテクノ株式会社 情報処理システム、その故障箇所特定方法、情報処理装置
JP5084197B2 (ja) 2006-08-10 2012-11-28 株式会社ソニー・コンピュータエンタテインメント プロセッサノードシステムおよびプロセッサノードクラスタシステム
JP2008104108A (ja) * 2006-10-20 2008-05-01 Fujitsu Ltd 中継装置および障害監視方法
US8373709B2 (en) 2008-10-03 2013-02-12 Ati Technologies Ulc Multi-processor architecture and method
JP5212021B2 (ja) * 2008-10-29 2013-06-19 富士通株式会社 監視プログラム、監視方法及び監視装置
JP5281942B2 (ja) * 2009-03-26 2013-09-04 株式会社日立製作所 計算機およびその障害処理方法
US9424224B2 (en) * 2013-06-18 2016-08-23 Avago Technologies General Ip (Singapore) Pte. Ltd. PCIe tunneling through SAS
KR101895763B1 (ko) * 2013-12-26 2018-09-07 인텔 코포레이션 노드들 사이의 i/o 서비스 및 메모리 공유
JP6427979B2 (ja) * 2014-06-19 2018-11-28 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
JP6777848B2 (ja) * 2016-07-08 2020-10-28 富士通株式会社 制御装置、及びストレージ装置
JP7006151B2 (ja) * 2016-11-17 2022-01-24 株式会社リコー リブートシステム及び情報処理装置

Also Published As

Publication number Publication date
JP2020107225A (ja) 2020-07-09
JP6579255B1 (ja) 2019-09-25
US20200209932A1 (en) 2020-07-02
GB2583797A (en) 2020-11-11
GB201916818D0 (en) 2020-01-01

Similar Documents

Publication Publication Date Title
US10114658B2 (en) Concurrent testing of PCI express devices on a server platform
US9934187B2 (en) Hot-pluggable computing system
US20150067229A1 (en) Numa node peripheral switch
KR102147629B1 (ko) 플렉시블 서버 시스템
US11061837B2 (en) UBM implementation inside BMC
US10223161B2 (en) Hardware-based inter-device resource sharing
US9779047B2 (en) Universal intelligent platform management interface (IPMI) host to baseboard management controller (BMC) communication for non-x86 and legacy free systems
US20210042128A1 (en) Information processing system, relay device, and computer program product
US20200358637A1 (en) Information processing system, and platform
US10572435B2 (en) Techniques of accessing serial console of BMC using host serial port
CN111382096A (zh) 信息处理***及中继装置
JP2020177341A (ja) 情報処理システムおよび中継装置
JP6604427B1 (ja) 情報処理システム
US20200265000A1 (en) Information processing system
US20210064108A1 (en) Information processing system
CN115905072A (zh) 计算机***、基于PCIe设备的控制方法及相关设备
US10191875B2 (en) Techniques of providing serial port in non-legacy system via embedded-system device
KR102519484B1 (ko) PCIe 인터페이스 장치 및 이를 포함하는 시스템
JP6826300B1 (ja) 情報処理システム
JP6597925B1 (ja) 情報処理システム
US20230315591A1 (en) PCIe DEVICE AND COMPUTING SYSTEM INCLUDING THE SAME
US20220221837A1 (en) Apparatus, system, and method of functional safety
CN117251039A (zh) 设备复位方法、装置、存储介质及电子设备
EP3629188A1 (en) Flexible coupling of processor modules
JP2020135868A (ja) 情報処理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200707