CN1308278A - 集群服务器的ip容错方法 - Google Patents

集群服务器的ip容错方法 Download PDF

Info

Publication number
CN1308278A
CN1308278A CN 01106482 CN01106482A CN1308278A CN 1308278 A CN1308278 A CN 1308278A CN 01106482 CN01106482 CN 01106482 CN 01106482 A CN01106482 A CN 01106482A CN 1308278 A CN1308278 A CN 1308278A
Authority
CN
China
Prior art keywords
server
fault
machine
end processor
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 01106482
Other languages
English (en)
Inventor
金海�
肖钧
卢毅军
庞丽萍
韩宗芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN 01106482 priority Critical patent/CN1308278A/zh
Publication of CN1308278A publication Critical patent/CN1308278A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

一种集群服务器的IP容错方法。它是在由负载平衡机、高速交换机、物理服务器、互联网和用户现有技术的构成基础上,添加备份机和控制台而实现的,并包含双机热备份软件、物理服务器的自动监控软件、集群服务器的远程动态配置软件。负载平衡机与备份机能自动地互为备份,即当负载平衡机出故障时,备份机能及时发现并接管它的工作,使得集群服务器不会中断对用户的服务;在控制台上会出现报警信息使得***管理员能及时知道故障信息。

Description

集群服务器的IP容错方法
本发明属于计算机应用领域,是一种用于集群服务器的IP容错方法。
随着互连网用户的***性增长,网站访问量也随之大幅度增长,有些甚至达到了每天几千万次点击。越来越多的网站管理员发现网站的服务器经常超负荷运行并已成为提高服务质量的瓶颈。传统的服务器一般采用小型机,在这种情况下提升服务器性能的方法是换一个更好的、更快的服务器,由于要淘汰旧的服务器,因此升级代价很高。为此,有人提出了一种新的服务器解决方案——集群服务器。这种群集服务器的工作流程为:用户请求由名为负载平衡机(又称为前置机)的计算机接收,负载平衡机根据调度算法选择一个物理服务器并将该用户请求转给它,物理服务器处理完用户请求后直接将结果返回用户。用户只需向单一的入口地址发出访问请求就可得到应答,而不需知道应答来自哪台服务器,即集群服务器的内部结构对用户是透明的。由于是多个服务器共同服务,因此其具有很高的性能;而且服务器的数量可以动态扩充,因此其具有很好的可扩展性。
上述集群服务器也存在一些问题,如负载平衡机出现故障时,未执行完的用户请求将被迫终止,而且直到故障排除,集群服务器才能恢复对用户的服务。
集群服务器技术要应用于商业服务器,必须提高它的可靠性,否则就会对用户及公司造成损失。如果集群服务器用于电子商务,上述的负载平衡机故障一旦出现,可能会带来灾难性的后果。由于计算机的硬件或软件故障的不可预测性,必须采用某种技术来提高集群服务器的容错能力。本发明的目的就是针对现有技术中的不足,研制一种具有良好IP容错的方法。
本发明所说的集群服务器的IP容错方法,其***结构及原理图如图1所示。它在现有技术的基础上,添加了名为备份机的计算机和名为控制台的计算机。即在用户通过互联网与高速交换机之间设置负载平衡机的备份机,备份机与负载平衡机并行连接于互联网与高速交换机之间;控制台与高速交换机相连接;另外,高速交换机与互联网之间并行连接有n个物理服务器。
本发明所说的集群服务器的IP容错方法发明中包含三个软件:
1.双机热备份软件:这是构成本发明的核心技术,主要在操作***网络部分的IP层实现,所以命名为IP容错技术。安装在负载平衡机与备份机上。
2.物理服务器的自动监控软件:安装在负载平衡机与备份机上。
3.集群服务器的远程动态配置软件:安装在控制台上。
本发明所说的集群服务器的IP容错技术方法的具体实现方式为:
一、双机热备份软件
本发明所说的集群服务器的IP容错方法是以Redhat Linux提供的虚拟服务器技术为基础实现的,具体步骤如下:
1.在前置机和备份机上安装Redhat Linux;
2.在内核源程序ip_vs.c中添加读取、更新虚拟服务器保存在核心中哈希表的函数;
3.添加***调用使得用户程序能通过它调用上述添加的函数以实现用户态与内核态下的数据交换;
4.重新编译核心,之后前置机与备份机都必须使用新的核心;
5.前置机上运行一个守护进程,每过T1秒读取一次内核中保存的所有状态为ESTABLISHED的TCP连接信息,并将它打包发送给备份机上运行的特定守护进程。如果前置机出现故障,备份机将自动地取代它的工作;当故障排除并重新启动后,它将自动地作为备份机工作;
6.备份机上运行一个守护进程,不断接收前置机发送来的信息,如果连续T2秒收不到前置机的信息,备份机将判定前置机已出故障并取而代之。具体步骤如下:A.以最后一次收到的数据包为基准通过***调用在备份机的内核中重构连接信息;B.夺取前置机的虚拟IP地址;C.向控制台报警。
二、物理服务器的自动监控软件
1.在前置机上编写实现读取虚拟服务器当前配置信息的函数F;
2.前置机上运行一个守护进程,定时通过函数F取回虚拟服务器当前的配置信息,即有哪些服务程序运行在那些物理服务器上,然后利用socket请求去测试这些服务程序是否正常工作;
3.如果经过测试,发现某台服务器上的某些服务程序发生了故障,该守护进程会在虚拟服务器上删除该服务条目;
4.该守护进程定时执行,从而保证了虚拟服务器的正常工作。
三、集群服务器的远程动态配置软件
1.该软件实现在控制台上。该软件有几个模块组成。模块1是一个图形监控界面,提供给***管理员使用;
2.模块2负责定时从虚拟服务器提取当前配置信息,并把这些信息显示在图形界面上;
3.模块3提供给用户,使用户可以远端动态完成配置虚拟服务器的工作;
4.模块4为日志管理。通过日志管理,***管理员可以全面了解前置机及各个物理服务器当前的工作状况。
本发明所说的集群服务器的IP容错方法具有以下优点:
1.当负载平衡机出故障(比如硬件故障)时,备份机能及时发现并接管它的工作,使得集群服务器不会中断对用户的服务;同时,在控制台上会出现报警信息使得***管理员能及时知道故障信息。当负载平衡机上的故障被排除并重新启动后,它将自动地作为备份机工作,即负载平衡机与备份机能自动地互为备份。
2.上述的互为备份过程不会影响当前集群服务器正在进行还未完成的服务。例如,某用户正在通过FTP服务从集群服务器上下载一个文件,文件已下载了一半,假定此时负载平衡机因出现硬件故障而崩溃,备份机将及时接管它的工作,用户的文件下载服务将不受任何影响直到正常结束。
3.我们的监控软件能自动地检测到物理服务器上服务程序的故障并作相应的故障处理,使得集群服务器的工作不受影响。
4.我们的动态配置软件能使***管理员迅速地了解集群服务器的工作状态,并可方便地地对集群服务器进行动态配置。
图1:实现集群服务器的IP容错方法的***结构原理图。
在图1中表示了一种实现本发明所说的集群服务器的IP容错方法的***结构及原理图。由负载平衡机3、备份机4,高速交换机5、控制台6、物理服务器7、互联网2和用户1构成。它实际上是在现有技术的基础上,添加了备份机4的计算机和名为控制台5的计算机。其实现IP容错的方法和工作原理如本说明书中在先的描述。其中,所说的物理服务器7可以有n个,n为自然数。如图1中所述的物理服务器71、72、……、7n
利用本发明所说的IP容错方法,在实验室建立了一个包含16个物理服务器的集群服务器,它可提供WEB服务、FTP服务、E-mail服务等常用网络服务。16个物理服务器以及负载平衡机、备份机、控制台具有相同的硬件配置:
        CPU       PIII 550
        内存      256M
        硬盘      10.2G
        网卡      3C905B
        操作***  Linux 6.2
使用3COM公司的100M交换机连接集群***的各个节点机。每个物理服务器上安装下列应用程序:
        Qmail     1.03
        VM        3.4.2
        JIAJIA    2.1
        MySQL
        Snort
        FTP Server
        Apache Server
经多次测试,采用本发明所说IP容错技术的集群服务器,强行断开负载平衡机的电源,集群服务器仍能正常工作,且正在执行的服务请求不会受影响。

Claims (4)

1.一种在现有技术的基础上,添加了名为备份机的计算机和名为控制台的计算机的集群服务器的IP容错方法,其特征在于,在用户通过互联网与高速交换机之间设置有备份机,备份机与负载平衡机并行连接于互联网与高速交换机之间;控制台与高速交换机相连接;
在所说的集群服务器的IP容错技术中包含三个软件:
a.双机热备份软件:安装在负载平衡机与备份机上;
b.物理服务器的自动监控软件:安装在负载平衡机与备份机上;
c.集群服务器的远程动态配置软件:安装在控制台上。
2.按照权利要求1所说的集群服务器的IP容错方法,其特征在于,所说的双机热备份软件是:
a.在前置机和备份机上安装Redhat Linux;
b.在内核源程序ip_vs.c中添加读取、更新虚拟服务器保存在核心中哈希表的函数;
c.添加***调用使得用户程序能通过它调用上述添加的函数以实现用户态与内核态下的数据交换;
d.重新编译核心,之后前置机与备份机都必须使用新的核心;
e.前置机上运行一个守护进程,每过T1秒读取一次内核中保存的所有状态为ESTABLISHED的TCP连接信息,并将它打包发送给备份机上运行的特定守护进程。如果前置机出现故障,备份机将自动地取代它的工作;当故障排除并重新启动后,它将自动地作为备份机工作;
f.备份机上运行一个守护进程,不断接收前置机发送来的信息,如果连续T2秒收不到前置机的信息,备份机将判定前置机已出故障并取而代之;具体步骤如下:A.以最后一次收到的数据包为基准通过***调用在备份机的内核中重构连接信息;B.夺取前置机的虚拟IP地址;C.向控制台报警。
3.按照权利要求1所说的集群服务器的IP容错方法,其特征在于,所说的物理服务器的自动监控软件是:
a.在前置机上编写实现读取虚拟服务器当前配置信息的函数F;
b.前置机上运行一个守护进程,定时通过函数F取回虚拟服务器当前的配置信息,即有哪些服务程序运行在那些物理服务器上,然后利用socket请求去测试这些服务程序是否正常工作;
c.如果经过测试,发现某台服务器上的某些服务程序发生了故障,该守护进程会在虚拟服务器上删除该服务条目;
d.该守护进程定时执行,从而保证了虚拟服务器的正常工作。
4.按照权利要求1所说的集群服务器的IP容错方法,其特征在于,所说的集群服务器的远程动态配置软件是:
a.该软件实现在控制台上;该软件有几个模块组成,模块1是一个图形监控界面,提供给***管理员使用;
b.模块2负责定时从虚拟服务器提取当前配置信息,并把这些信息显示在图形界面上;
c.模块3提供给用户,使用户可以远端动态完成配置虚拟服务器的工作;
d.模块4为日志管理。通过日志管理,***管理员可以全面了解前端机及各个物理服务器当前的工作状况。
CN 01106482 2001-02-15 2001-02-15 集群服务器的ip容错方法 Pending CN1308278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 01106482 CN1308278A (zh) 2001-02-15 2001-02-15 集群服务器的ip容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 01106482 CN1308278A (zh) 2001-02-15 2001-02-15 集群服务器的ip容错方法

Publications (1)

Publication Number Publication Date
CN1308278A true CN1308278A (zh) 2001-08-15

Family

ID=4655485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 01106482 Pending CN1308278A (zh) 2001-02-15 2001-02-15 集群服务器的ip容错方法

Country Status (1)

Country Link
CN (1) CN1308278A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302411C (zh) * 2002-12-31 2007-02-28 联想(北京)有限公司 大型机群***的集中控制方法
CN1317658C (zh) * 2002-12-31 2007-05-23 联想(北京)有限公司 利用机群节点相互备份的容错方法
CN100334838C (zh) * 2004-06-14 2007-08-29 华为技术有限公司 一种实现端到端服务质量可靠性保证的方法
CN100336344C (zh) * 2004-05-27 2007-09-05 国际商业机器公司 应用程序服务器集群中用于会话作废处理的***和方法
CN100341298C (zh) * 2005-10-13 2007-10-03 华中科技大学 协同***中可扩展的动态容错方法
CN100396014C (zh) * 2006-03-07 2008-06-18 华为技术有限公司 热备维护***及热备维护和故障切换的方法
CN100466536C (zh) * 2003-12-23 2009-03-04 诺基亚公司 用于管理集群***中的协议网络故障的***和方法
CN1482773B (zh) * 2003-04-11 2010-04-28 比威网络技术有限公司 可容错的传输控制协议的实现方法
CN102043688A (zh) * 2010-12-10 2011-05-04 曙光信息产业(北京)有限公司 用于刀片服务器的双机热备的方法和装置
US7953015B2 (en) 2004-06-14 2011-05-31 Huawei Technologies Co., Ltd. Method for ensuring reliability in network
CN1893370B (zh) * 2005-06-29 2013-01-30 国际商业机器公司 用于服务器群集恢复和维护的方法和***
CN103713982A (zh) * 2014-01-26 2014-04-09 飞狐信息技术(天津)有限公司 对远程服务的返回结果进行监测的方法和装置
CN109165506A (zh) * 2018-07-05 2019-01-08 河南中烟工业有限责任公司 一种工控容错服务器在线病毒查杀和病毒防护的方法
WO2020029407A1 (zh) * 2018-08-08 2020-02-13 平安科技(深圳)有限公司 告警数据的管理方法、装置、计算机设备及存储介质
CN110798520A (zh) * 2019-10-25 2020-02-14 苏州浪潮智能科技有限公司 一种业务处理方法、***、装置及可读存储介质
CN111813620A (zh) * 2020-06-18 2020-10-23 麒麟软件有限公司 集群监控***及集群状态监控方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1317658C (zh) * 2002-12-31 2007-05-23 联想(北京)有限公司 利用机群节点相互备份的容错方法
CN1302411C (zh) * 2002-12-31 2007-02-28 联想(北京)有限公司 大型机群***的集中控制方法
CN1482773B (zh) * 2003-04-11 2010-04-28 比威网络技术有限公司 可容错的传输控制协议的实现方法
CN100466536C (zh) * 2003-12-23 2009-03-04 诺基亚公司 用于管理集群***中的协议网络故障的***和方法
CN100336344C (zh) * 2004-05-27 2007-09-05 国际商业机器公司 应用程序服务器集群中用于会话作废处理的***和方法
US7953015B2 (en) 2004-06-14 2011-05-31 Huawei Technologies Co., Ltd. Method for ensuring reliability in network
CN100334838C (zh) * 2004-06-14 2007-08-29 华为技术有限公司 一种实现端到端服务质量可靠性保证的方法
CN1893370B (zh) * 2005-06-29 2013-01-30 国际商业机器公司 用于服务器群集恢复和维护的方法和***
CN100341298C (zh) * 2005-10-13 2007-10-03 华中科技大学 协同***中可扩展的动态容错方法
CN100396014C (zh) * 2006-03-07 2008-06-18 华为技术有限公司 热备维护***及热备维护和故障切换的方法
CN102043688A (zh) * 2010-12-10 2011-05-04 曙光信息产业(北京)有限公司 用于刀片服务器的双机热备的方法和装置
CN102043688B (zh) * 2010-12-10 2014-04-30 曙光信息产业(北京)有限公司 用于刀片服务器的双机热备的方法和装置
CN103713982A (zh) * 2014-01-26 2014-04-09 飞狐信息技术(天津)有限公司 对远程服务的返回结果进行监测的方法和装置
CN103713982B (zh) * 2014-01-26 2016-09-14 飞狐信息技术(天津)有限公司 对远程服务的返回结果进行监测的方法和装置
CN109165506A (zh) * 2018-07-05 2019-01-08 河南中烟工业有限责任公司 一种工控容错服务器在线病毒查杀和病毒防护的方法
CN109165506B (zh) * 2018-07-05 2021-07-20 河南中烟工业有限责任公司 一种工控容错服务器在线病毒查杀和病毒防护的方法
WO2020029407A1 (zh) * 2018-08-08 2020-02-13 平安科技(深圳)有限公司 告警数据的管理方法、装置、计算机设备及存储介质
CN110798520A (zh) * 2019-10-25 2020-02-14 苏州浪潮智能科技有限公司 一种业务处理方法、***、装置及可读存储介质
CN110798520B (zh) * 2019-10-25 2021-12-03 苏州浪潮智能科技有限公司 一种业务处理方法、***、装置及可读存储介质
CN111813620A (zh) * 2020-06-18 2020-10-23 麒麟软件有限公司 集群监控***及集群状态监控方法

Similar Documents

Publication Publication Date Title
US8055937B2 (en) High availability and disaster recovery using virtualization
CN1308278A (zh) 集群服务器的ip容错方法
CA2294654C (en) Fault-tolerant java virtual machine
US8074014B2 (en) Storage systems using write off-loading
CN111338854B (zh) 基于Kubernetes集群快速恢复数据的方法及***
CN103167004A (zh) 云平台主机***故障修复方法及云平台前端控制服务器
CA2686384C (en) Dynamic cli mapping for clustered software entities
CN109614276B (zh) 故障处理方法、装置、分布式存储***和存储介质
Kim et al. LineFS: Efficient SmartNIC offload of a distributed file system with pipeline parallelism
CN102194009B (zh) 一种数据库托管方法和一种数据库托管平台***
US11567899B2 (en) Managing dependent delete operations among data stores
US11409711B2 (en) Barriers for dependent operations among sharded data stores
US20050004898A1 (en) Distributed search methods, architectures, systems, and software
US11947425B2 (en) Storage volume snapshot object management
US7093163B2 (en) Processing takeover method in multiple computer system
US20100085871A1 (en) Resource leak recovery in a multi-node computer system
US8203937B2 (en) Global detection of resource leaks in a multi-node computer system
JP3467750B2 (ja) 分散オブジェクト処理システム
CN109254880B (zh) 一种处理数据库宕机的方法及装置
US7921324B2 (en) Providing file system availability during local path failure of a non-server node
CN1728697A (zh) 一种公共对象请求代理结构应用中的容错性方法
CN1940875A (zh) 计算机平台快取资料备援处理方法及***
US20200371849A1 (en) Systems and methods for efficient management of advanced functions in software defined storage systems
CN112131201A (zh) 一种网络附加存储高可用性的方法、***、设备及介质
Yu et al. Design and Implementation of a Software Disaster Recovery Service for Cloud Computing-Based Aerospace Ground Systems

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication