CN102609327A - 提高多核处理器的可靠性的方法及装置 - Google Patents

提高多核处理器的可靠性的方法及装置 Download PDF

Info

Publication number
CN102609327A
CN102609327A CN2012100151337A CN201210015133A CN102609327A CN 102609327 A CN102609327 A CN 102609327A CN 2012100151337 A CN2012100151337 A CN 2012100151337A CN 201210015133 A CN201210015133 A CN 201210015133A CN 102609327 A CN102609327 A CN 102609327A
Authority
CN
China
Prior art keywords
monokaryon
polycaryon processor
business
certain
deploy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100151337A
Other languages
English (en)
Other versions
CN102609327B (zh
Inventor
刘飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Digital Technologies Chengdu Co Ltd
Huawei Digital Technologies Co Ltd
Original Assignee
Huawei Digital Technologies Chengdu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Digital Technologies Chengdu Co Ltd filed Critical Huawei Digital Technologies Chengdu Co Ltd
Priority to CN201210015133.7A priority Critical patent/CN102609327B/zh
Publication of CN102609327A publication Critical patent/CN102609327A/zh
Application granted granted Critical
Publication of CN102609327B publication Critical patent/CN102609327B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明实施例提供了一种提高多核处理器的可靠性的方法和装置。该方法主要包括:当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。

Description

提高多核处理器的可靠性的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种提高多核处理器的可靠性的方法和装置。
背景技术
因业务部署的需要,多核处理器在通信领域应用越来越广泛,并对多核处理器的可靠性有更高的要求。
影响多核处理器可靠性的重要原因是因为多核处理器上多部署(运行)不同的软件,一套软件的bug(漏洞)便会导致某核异常,故多核的可靠性要低于单核。
现有技术中的一种提高多核处理器的可靠性的方法为:单核重启方法。即选取一核作为控制核,控制核保存其它核的部署和状态。当其它核发生软件bug后将进行复位,或者控制核监控到其它核丢心跳后会主动其它核;其它核在启动过程中会向控制核报告自身的业务部署配置,从而达到通过单核重启恢复业务的目的。
上述现有技术中的提高多核处理器的可靠性的方法的缺点为:由软件导致的bug或者通过单核重启能够恢复的故障,通过该方法业务能够恢复,若是核硬件导致的故障,通过单核重启也无法解决,此时业务将受到损伤。
发明内容
本发明的实施例提供了一种提高多核处理器的可靠性的方法和装置,以实现在单核发生硬件故障通过重启也无法恢复的情况下,也不会使单核上部署的业务受到损伤。
本发明实施例是通过以下技术方案来实现的:
一种提高多核处理器的可靠性的方法,包括:
当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
一种提高多核处理器的可靠性的装置,包括:
故障处理模块,用于当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
业务转移模块,基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种提高多核处理器的可靠性的方法的处理流程图;
图2为本发明实施例一提供的一种分布式***中的主控板对控制核进行故障检测和部署的示意图;
图3为本发明实施例一提供的一种控制核对各个转发核进行故障检测和部署的示意图;
图4为本发明实施例一提供的一种转发核2故障后将转发核2进行隔离的示意图。
图5为实施例二提供的一种提高多核处理器的可靠性的装置的具体结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
该实施例提供的一种提高多核处理器的可靠性的方法的处理流程如图1所示,包括如下的处理步骤:
步骤11、当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离。
该实施例提供的一种多核处理器中的主控板和控制核的功能示意图如图2所示,主要包括:
主控板和多核处理器构成分布式***,上述分布式***中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取某个单核为控制核,将其它单核作为转发核。
该实施例提供的一种分布式***中的主控板对控制核进行故障检测和部署的示意图如图2所示,主控板对所述控制核进行故障检测,主控板可采取心跳检测结合控制核主动上报故障的方式对所述控制核进行故障检测。
主控板检测到控制核发生故障后,对控制核进行复位操作,并优先给重启前的控制核上电,上电后在一定时间内收不到控制核的注册消息,则将上述控制核进行隔离,重新选取控制核。
该实施例提供的一种控制核对各个转发核进行故障检测和部署的示意图如图3所示,所述控制核进行各个转发核的部署、故障检测和故障处理,同时为防止控制核故障,控制核要将各个转发核的部署情况上报给主控板保存或者在非易失介质保存。控制核检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离。
比如,如图4所示,转发核2故障后,将转发核2进行隔离。
步骤12、基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
本发明实施例将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
各个转发核上部署的业务的优先级的排列顺序可以为用户配置或者预先指定。比如,预先指定的从高到低的排列顺序为:视频业务、快速检测业务(BFD、OAM等)、统计业务(NETSTREAM等)。上述快速检测业务可以包括BFD(Bidirectional Forwarding Detection,双向转发检测)业务、OAM(Operation Administration and Maintenance,操作管理维护)业务等,上述统计业务可以包括NETSTREAM,NetStream是一种基于网络流信息的采集、统计与发布技术,可以对网络中的通信量和资源使用情况进行分类统计,帮助用户实现对各种业务的管理和计费。
当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上,即优先选取没有部署业务的空闲单核来进行业务转移。
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。此时,所述业务优先级低的其它单核上原先部署的业务将被挤占。
然后,控制核要将各个转发核的最新业务部署情况上报给主控板保存或者在非易失介质保存。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。
本发明实施例减少了多核处理器因为部分核故障而导致的整板返板维修,延长了单板的使用年限,减少返板维修费用。
实施例二
该实施例提供了一种提高多核处理器的可靠性的装置,其具体结构如图5所示,包括如下的模块:
故障处理模块51,用于当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
业务转移模块52,基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
具体的,所述的故障处理模块51,还用于检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离,所述控制核为分布式***中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取的。
具体的,所述的业务转移模块52,还用于将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
具体的,所述的业务转移模块52,还用于当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上;
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。此时,所述业务优先级低的其它单核上原先部署的业务将被挤占。
然后,控制核要将各个转发核的最新业务部署情况上报给主控板保存或者在非易失介质保存。
上述提高多核处理器的可靠性的装置可以设置在多核处理器中的控制核中。
应用本发明实施例的装置提高多核处理器的可靠性的具体过程与前述方法实施例类似,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。
本发明实施例减少了多核处理器因为部分核故障而导致的整板返板维修,延长了单板的使用年限,减少返板维修费用。
本发明实施例可以较好地解决多核处理器中一个或者多个核故障时整板可靠性问题,在核增多时不会降低单板可靠性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种提高多核处理器的可靠性的方法,其特征在于,包括:
当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
2.根据权利要求1所述的提高多核处理器的可靠性的方法,其特征在于,所述的当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离,包括:
多核处理器中的控制核检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离,所述控制核为分布式***中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取的。
3.根据权利要求1所述的提高多核处理器的可靠性的方法,其特征在于,所述的方法还包括:
将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
4.根据权利要求3所述的提高多核处理器的可靠性的方法,其特征在于,所述的各个转发核上部署的业务根据业务属性划分为不同的优先级包括:
各个转发核上部署的业务的优先级的排列顺序为用户配置或者预先指定。
5.根据权利要求1至4任一项所述的提高多核处理器的可靠性的方法,其特征在于,所述的基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上包括:
当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上;
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。
6.一种提高多核处理器的可靠性的装置,其特征在于,包括:
故障处理模块,用于当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
业务转移模块,基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
7.根据权利要求6所述的提高多核处理器的可靠性的装置,其特征在于,
所述的故障处理模块,还用于检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离,所述控制核为分布式***中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取的。
8.根据权利要求6所述的提高多核处理器的可靠性的装置,其特征在于:
所述的业务转移模块,还用于将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
9.根据权利要求6至7任一项所述的提高多核处理器的可靠性的装置,其特征在于:
所述的业务转移模块,还用于当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上;
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。
CN201210015133.7A 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置 Expired - Fee Related CN102609327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210015133.7A CN102609327B (zh) 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210015133.7A CN102609327B (zh) 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置

Publications (2)

Publication Number Publication Date
CN102609327A true CN102609327A (zh) 2012-07-25
CN102609327B CN102609327B (zh) 2015-07-22

Family

ID=46526719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210015133.7A Expired - Fee Related CN102609327B (zh) 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置

Country Status (1)

Country Link
CN (1) CN102609327B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929373A (zh) * 2012-10-18 2013-02-13 无锡江南计算技术研究所 多核处理器复位装置和复位方法
CN104657240A (zh) * 2013-11-18 2015-05-27 华为技术有限公司 多内核操作***的失效控制方法及装置
WO2015135100A1 (zh) * 2014-03-10 2015-09-17 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN107111886A (zh) * 2014-09-23 2017-08-29 三星电子株式会社 用于处理医学图像的装置及其处理医学图像的方法
CN113515312A (zh) * 2020-03-25 2021-10-19 华为技术有限公司 芯片启动方法、装置及计算机设备
WO2022199390A1 (zh) * 2021-03-22 2022-09-29 北京灵汐科技有限公司 处理方法及装置、电子设备、存储介质
WO2023236992A1 (zh) * 2022-06-07 2023-12-14 华为技术有限公司 处理器核故障处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101009836A (zh) * 2007-01-31 2007-08-01 浙江大学 基于双处理器的嵌入式视频播放装置
US20090132844A1 (en) * 2007-11-15 2009-05-21 Jose P Allarey Method, Apparatus, and System for optimizing Frequency and Performance in a Multi-Die Microprocessor
CN102231126A (zh) * 2011-07-28 2011-11-02 大唐移动通信设备有限公司 一种实现多核处理器中核间备份的方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101009836A (zh) * 2007-01-31 2007-08-01 浙江大学 基于双处理器的嵌入式视频播放装置
US20090132844A1 (en) * 2007-11-15 2009-05-21 Jose P Allarey Method, Apparatus, and System for optimizing Frequency and Performance in a Multi-Die Microprocessor
CN102231126A (zh) * 2011-07-28 2011-11-02 大唐移动通信设备有限公司 一种实现多核处理器中核间备份的方法及***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929373A (zh) * 2012-10-18 2013-02-13 无锡江南计算技术研究所 多核处理器复位装置和复位方法
CN102929373B (zh) * 2012-10-18 2015-04-08 无锡江南计算技术研究所 多核处理器复位装置和复位方法
CN104657240A (zh) * 2013-11-18 2015-05-27 华为技术有限公司 多内核操作***的失效控制方法及装置
CN104657240B (zh) * 2013-11-18 2018-08-21 华为技术有限公司 多内核操作***的失效控制方法及装置
WO2015135100A1 (zh) * 2014-03-10 2015-09-17 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置
CN105009086A (zh) * 2014-03-10 2015-10-28 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置
CN105009086B (zh) * 2014-03-10 2019-01-18 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置
CN107111886A (zh) * 2014-09-23 2017-08-29 三星电子株式会社 用于处理医学图像的装置及其处理医学图像的方法
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN113515312A (zh) * 2020-03-25 2021-10-19 华为技术有限公司 芯片启动方法、装置及计算机设备
WO2022199390A1 (zh) * 2021-03-22 2022-09-29 北京灵汐科技有限公司 处理方法及装置、电子设备、存储介质
WO2023236992A1 (zh) * 2022-06-07 2023-12-14 华为技术有限公司 处理器核故障处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102609327B (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN102609327A (zh) 提高多核处理器的可靠性的方法及装置
US5875290A (en) Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
EP3142011B9 (en) Anomaly recovery method for virtual machine in distributed environment
CN101542444B (zh) 互连中心架构中的安全性特征
US6012150A (en) Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
CN103001809B (zh) 用于云存储***的服务节点状态监控方法
CN105790980B (zh) 一种故障修复方法及装置
CN110581852A (zh) 一种高效型拟态防御***及方法
CN102394914A (zh) 集群脑裂处理方法和装置
CN107729185B (zh) 一种故障处理方法及装置
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和***
CN105138276A (zh) 数据储存方法及数据储存***
CN105978721A (zh) 一种集群***中监控服务运行状态的方法、装置和***
CN104063262A (zh) 一种基于虚拟机的异地容灾***及其容灾方法
CN103605620B (zh) 一种集群存储数据保护方法及装置
CN113687790A (zh) 数据重构方法、装置、设备及存储介质
CN104090824A (zh) 基于Tuxedo中间件的通讯调度方法、装置及***
CN102457400B (zh) 一种防止磁盘镜像资源发生脑裂的方法
CN102664757B (zh) 一种存储设备的级联方法及装置
CN104077250B (zh) 一种智能终端与存储设备的连接处理方法及装置
CN103810038A (zh) 一种ha集群中虚拟机存储文件迁移方法及其装置
CN113051428B (zh) 一种摄像机前端存储备份的方法及装置
CN102487332A (zh) 故障处理方法、装置和***
CN103414591A (zh) 一种端口故障恢复时的快速收敛方法和***
CN102833096B (zh) 一种低成本的高可用***实现方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100085 Beijing, Haidian District on the road, No. 3

Applicant after: Beijing Huawei Digital Technology Co.,Ltd.

Address before: 100085 Beijing, Haidian District on the road, No. 3

Applicant before: Huawei Digit Technology Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: HUAWEI DIGIT TECHNOLOGY CO., LTD. TO: BEIJING HUAWEI DIGITAL TECHNOLOGY CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20190117

CF01 Termination of patent right due to non-payment of annual fee