CN104038569A - 一种基于地址映射的集群通信模型 - Google Patents

一种基于地址映射的集群通信模型 Download PDF

Info

Publication number
CN104038569A
CN104038569A CN201410284909.4A CN201410284909A CN104038569A CN 104038569 A CN104038569 A CN 104038569A CN 201410284909 A CN201410284909 A CN 201410284909A CN 104038569 A CN104038569 A CN 104038569A
Authority
CN
China
Prior art keywords
address mapping
communication
memory address
data
model based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410284909.4A
Other languages
English (en)
Inventor
王少锋
施培任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410284909.4A priority Critical patent/CN104038569A/zh
Publication of CN104038569A publication Critical patent/CN104038569A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于地址映射的集群通信模型其结构中由多个主机***和多个通信模块构成,多个主机***都包含内存地址映射设备和基于内存地址映射的通信模块;所述内存地址映射设备,用于不同主机***之间内存地址映射;本发明的一种基于地址映射的集群通信模型和现有技术相比,基于内存地址映射,实现RDMA,按照特殊的通信协议封装,直接在通信模块实现包转发,实现零拷贝数据传输,充分利用了计算机主机之间物理传输链路,提高了传输性能、减少了***损耗;本发明基于NTB实现内存地址映射,实现数据传输;使用PCI-E2.0协议进行数据传输,因而,具有很好的推广使用价值。

Description

一种基于地址映射的集群通信模型
技术领域
本发明涉及计算机集群***及存储领域,具体地说是一种基于地址映射的集群通信模型。
背景技术
计算机集群是一种计算机***,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群***中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。
计算机集群技术的出发点是为了提供更高的可用性、可管理性、可伸缩性的计算机***。一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一个节点发生故障时,它所运行的应用程序将由其他节点自动接管。在大多数模式下,集群中所有的节点拥有一个共同的名称,集群内的任一节点上运行的服务都可被所有的网络客户所使用。
集群中各个节点之间需要进行大量的数据交互。通常集群***中依靠高速局域网来实现,常见的高速局域网有FDDI光纤环网、100BASE-T高速以太网、千兆位以太网、10Gbit/s以太网等。传输介质有光线、以太网等。使用的是传统iscsi、TCP/IP协议,协议封装较复杂,传输数据时需要经过大量的协议包转换、封装、编解码、校验等步骤,这些协议更适合于远距离、不可靠环境下传输数据。
而在大规模集群***中,更多的是主机在短距离、可靠、稳定的传输环境中传输。需求高带宽、高可靠性、大容量的数据传输链路。使用传统的高速传输协议时,计算机主机需要耗费大量的计算用于数据协议包封装、编解码、校验,并且通信链路带宽和节点计算能力将成为整个计算机集群***整体响应、性能的瓶颈。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于地址映射的集群通信模型,可满足大规模集群***节点之间数据高速、高可靠、大容量的数据传输需求。
本发明的技术方案是按以下方式实现的,其结构中由多个主机***和多个通信模块构成,多个主机***都包含内存地址映射设备和基于内存地址映射的通信模块;
所述内存地址映射设备,用于不同主机***之间内存地址映射;
所述通信模型,用于不同主机***之间数据通信,实现点对点的数据传输模型,通信模块解析数据包地址信息,不经过交换机等设备转发,直接传输到目的主机***,实现了高带宽、低延迟的数据传输模型,适用于集群***之间大规模数据传输。
所述多个主机***之间通过内存地址映射设备连接,如NTB;
所述通信模型,用于计算机主机之间通信需求,提供统一的接口,以供计算机***应用使用,通信模块基于计算机之间的地址映射装置,通过访问映射内存,进行数据读写,从而完成数据通信。
所述内存地址映射设备,用于将多个主机***之间相互连接,每个主机都与其他所有主机进行内存地址映射。主机之间位置对等,所有主机之间完全对等访问。
所诉通信模块,还包含特殊的通信协议封装,基于有效、可靠、简洁的主机之间通信链路,减少数据通信在协议处理上的损耗,提高有效数据占空比,提升数据通信效率。
所述每个主机之间通过互联总线相连,所述每个主机之间中均包含心跳模块。
所述心跳模块,用于通过所述互联总线检测到对端存储控制器处于故障状态时,对所述对端存储控制器的电源进行重置。
本发明的优点是:
本发明的一种基于地址映射的集群通信模型和现有技术相比,基于内存地址映射,实现RDMA,按照特殊的通信协议封装,直接在通信模块实现包转发,实现零拷贝数据传输,充分利用了计算机主机之间物理传输链路,提高了传输性能、减少了***损耗;本发明基于NTB实现内存地址映射,实现数据传输;使用PCI-E 2.0协议进行数据传输,因而,具有很好的推广使用价值。
附图说明
图1为一种基于地址映射的集群通信模型的结构示意图。
实施方式
下面结合附图对本发明的一种基于地址映射的集群通信模型作以下详细说明。
如图1所示,本发明的一种基于地址映射的集群通信模型其结构中高速通信模型如图1所示,集群中不同节点通过内存地址映射装置相互连接。每个主机都在自己的内存中,开辟一段空间作为其他节点的内存访问区域。供收发数据使用。
内存地址映射装置(如NTB,本文以下章节使用NTB暂代内存地址映射装置),可以实现不同主机***之间内存访问,并通过中断寄存器、暂存寄存器实现通信的目的。通过地址翻译技术,将本机中的一段内存映射至远端NTB的MMIO区域当中。远端主机向MMIO中拷贝数据,相当于直接往本端对应内存区域中拷贝数据。从而现数据的发送。并结合门铃中断寄存器和暂存寄存器,实现中断通知和配置交互的过程。从而实现不同主机***之间的数据传输。
如图1所示,通过NTB将集群中所有节点都映射一段内存空间(映射窗口一般申请为小于1MB)。形成可访问的内存窗口,可以用于接收数据。再加上NTB的MMIO区域,形成发送和接收缓存区。
在***启动过程当中,枚举PCI设备时,根据不同主机的NTB映射区间,申请不同的内存空间,建立一一对应的关系,供查询。针对不同节点的NTB设备建立不同的中断处理函数。根据中断偏移判断是属于哪一个节点的,并添加入哈希表中。
在初始化最后,向所有注册的NTB设备节点发送LINK UP 信号,然后根据LINK状态寄存器判断其他节点的状态,当对应节点也发送LINK UP 信号之后,开启建立连接流程。通过暂存寄存器进行数据交互,建立连接。
初始化完毕之后,本节点就可以通过通信模块与其他节点进行数据传输。
当主机节点应用提交传输请求之后,将数据包按照MTU进行拆分、封装,并添加包头,根据节点序号,查找哈希表,拷贝至对应节点的MMIO内。然后将发送完毕标志位置1,最后触发对应的中断,通知远端节点接收数据。
远端节点中断响应时,唤醒对应内存映射窗口的处理线程。首先判断发送完毕标志位是否置1,如果置1表明数据包传输完毕,可以进行数据接收。解析包头,将接收的数据包提取有效数据、合并,当数据传输完毕时,提交至对应的应用层中。表明此次数据发送完毕。
本发明的一种基于地址映射的集群通信模型其加工制作非常简单方便,按照说明书附图所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (6)

1.一种基于地址映射的集群通信模型,其特征在于由多个主机***和多个通信模块构成,多个主机***都包含内存地址映射设备和基于内存地址映射的通信模块;
所述内存地址映射设备,用于不同主机***之间内存地址映射;
所述通信模型,用于不同主机***之间数据通信,实现点对点的数据传输模型,通信模块解析数据包地址信息,不经过交换机等设备转发,直接传输到目的主机***,实现了高带宽、低延迟的数据传输模型,适用于集群***之间大规模数据传输。
2.根据权利要求1所述的一种基于地址映射的集群通信模型,其特征在于所述多个主机***之间通过内存地址映射设备连接,如NTB;
所述通信模型,用于计算机主机之间通信需求,提供统一的接口,以供计算机***应用使用,通信模块基于计算机之间的地址映射装置,通过访问映射内存,进行数据读写,从而完成数据通信。
3.根据权利要求1所述的一种基于地址映射的集群通信模型,其特征在于所述内存地址映射设备,用于将多个主机***之间相互连接,每个主机都与其他所有主机进行内存地址映射;主机之间位置对等,所有主机之间完全对等访问。
4.根据权利要求1所述的一种基于地址映射的集群通信模型,其特征在于所诉通信模块,还包含特殊的通信协议封装,基于有效、可靠、简洁的主机之间通信链路,减少数据通信在协议处理上的损耗,提高有效数据占空比,提升数据通信效率。
5.根据权利要求1所述的一种基于地址映射的集群通信模型,其特征在于所述每个主机之间通过互联总线相连,所述每个主机之间中均包含心跳模块。
6.根据权利要求1所述的一种基于地址映射的集群通信模型,其特征在于所述心跳模块,用于通过所述互联总线检测到对端存储控制器处于故障状态时,对所述对端存储控制器的电源进行重置。
CN201410284909.4A 2014-06-24 2014-06-24 一种基于地址映射的集群通信模型 Pending CN104038569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410284909.4A CN104038569A (zh) 2014-06-24 2014-06-24 一种基于地址映射的集群通信模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410284909.4A CN104038569A (zh) 2014-06-24 2014-06-24 一种基于地址映射的集群通信模型

Publications (1)

Publication Number Publication Date
CN104038569A true CN104038569A (zh) 2014-09-10

Family

ID=51469156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410284909.4A Pending CN104038569A (zh) 2014-06-24 2014-06-24 一种基于地址映射的集群通信模型

Country Status (1)

Country Link
CN (1) CN104038569A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486365A (zh) * 2014-09-28 2015-04-01 浪潮(北京)电子信息产业有限公司 双控之间通信方法和***
CN107329917A (zh) * 2017-06-26 2017-11-07 郑州云海信息技术有限公司 一种数据传输方法及装置
CN107480080A (zh) * 2017-07-03 2017-12-15 香港红鸟科技股份有限公司 一种基于rdma的零拷贝数据流
CN107852349A (zh) * 2016-03-31 2018-03-27 慧与发展有限责任合伙企业 用于多节点集群的事务管理

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486365A (zh) * 2014-09-28 2015-04-01 浪潮(北京)电子信息产业有限公司 双控之间通信方法和***
CN104486365B (zh) * 2014-09-28 2018-02-02 浪潮(北京)电子信息产业有限公司 双控之间通信方法和***
CN107852349A (zh) * 2016-03-31 2018-03-27 慧与发展有限责任合伙企业 用于多节点集群的事务管理
US10783021B2 (en) 2016-03-31 2020-09-22 Hewlett Packard Enterprise Development Lp Transaction management for multi-node clusters
CN107852349B (zh) * 2016-03-31 2020-12-01 慧与发展有限责任合伙企业 用于多节点集群的事务管理的***、方法及存储介质
CN107329917A (zh) * 2017-06-26 2017-11-07 郑州云海信息技术有限公司 一种数据传输方法及装置
CN107480080A (zh) * 2017-07-03 2017-12-15 香港红鸟科技股份有限公司 一种基于rdma的零拷贝数据流
CN107480080B (zh) * 2017-07-03 2021-03-23 深圳致星科技有限公司 一种基于rdma的零拷贝数据流

Similar Documents

Publication Publication Date Title
US20210243247A1 (en) Service mesh offload to network devices
US10929325B2 (en) PCIE lane aggregation over a high speed link
Birrittella et al. Intel® omni-path architecture: Enabling scalable, high performance fabrics
US8756270B2 (en) Collective acceleration unit tree structure
US11995017B2 (en) Multi-plane, multi-protocol memory switch fabric with configurable transport
CN105681191A (zh) 基于路由器虚拟化的sdn平台及实现方法
US20180109429A1 (en) Intuitive approach to visualize health of microservice policies
US11637773B2 (en) Scaled-out transport as connection proxy for device-to-device communications
US11936571B2 (en) Reliable transport offloaded to network devices
US20110010522A1 (en) Multiprocessor communication protocol bridge between scalar and vector compute nodes
CN104038569A (zh) 一种基于地址映射的集群通信模型
CN102185833A (zh) 一种基于fpga的fc i/o并行处理方法
CN106020926A (zh) 一种用于虚拟交换机技术中数据传输的方法及装置
CN103051716A (zh) 一种面向网络的串口设备重定向的方法及***
CN105635176A (zh) 一种基于RapidIO的网络数据传输方法
US9203895B1 (en) System and method for lateral connection between interface devices with bypass of external network
US10033666B2 (en) Techniques for virtual Ethernet switching of a multi-node fabric
CN108021525B (zh) 一种基于pcie总线多主互连的冗余交换***
CN102843435A (zh) 一种在集群***中存储介质的访问、响应方法和***
CN106100960A (zh) 跨存储区域网络Fabric互通的方法、装置及***
KR20170102717A (ko) 패브릭 연결망 기반의 마이크로 서버
Zang et al. PROP: Using PCIe-based RDMA to accelerate rack-scale communications in data centers
US10855595B2 (en) Simulated fibre channel trunking system
KR20110040849A (ko) 직렬 scsi 어레이 컨트롤러를 san에 연결하기 위한 시스템
CN201805454U (zh) 一种具有并行Cache同步链路的高性能存储***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140910