RU2017103444A - Восстановление доступа для использования основанной на облаке услуги после отказа системы - Google Patents

Восстановление доступа для использования основанной на облаке услуги после отказа системы Download PDF

Info

Publication number
RU2017103444A
RU2017103444A RU2017103444A RU2017103444A RU2017103444A RU 2017103444 A RU2017103444 A RU 2017103444A RU 2017103444 A RU2017103444 A RU 2017103444A RU 2017103444 A RU2017103444 A RU 2017103444A RU 2017103444 A RU2017103444 A RU 2017103444A
Authority
RU
Russia
Prior art keywords
consumer
cloud
failure
recovery action
based service
Prior art date
Application number
RU2017103444A
Other languages
English (en)
Other versions
RU2017103444A3 (ru
RU2699054C2 (ru
Inventor
Арт САДОВСКИ
Тимур САДЫКОВ
Ашиш ПРЕМАРАДЖ
Венкат НАРАЯНАН
Смита ОДЖХА
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2017103444A publication Critical patent/RU2017103444A/ru
Publication of RU2017103444A3 publication Critical patent/RU2017103444A3/ru
Application granted granted Critical
Publication of RU2699054C2 publication Critical patent/RU2699054C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3414Workload generation, e.g. scripts, playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Claims (50)

1. Способ, выполняемый на вычислительном устройстве, чтобы восстанавливать доступность для использования основанной на облаке услуги после отказа, содержащий этапы, на которых:
имитируют транзакцию потребителя, ассоциированную с работой с потребителем;
обнаруживают отказ, ассоциированный с основанной на облаке услугой, исходя из выходных данных транзакции потребителя;
определяют действие восстановления, ассоциированное с отказом;
выполняют действие восстановления; и
осуществляют мониторинг действия восстановления, чтобы определять статус успешности, ассоциированный с действием восстановления.
2. Способ по п. 1, дополнительно содержащий этап, на котором выбирают работу с потребителем из набора работ с потребителем, ассоциированных с мониторингом работоспособности основанной на облаке услуги, при этом работа с потребителем выбирается на основе критериев, которые включают в себя по меньшей мере одно из набора, состоящего из: частоты использования, исторического распределение использования и давности использования.
3. Способ по п. 1, дополнительно содержащий этап, на котором принимают выбор работы с потребителем из набора работ с потребителем, ассоциированных с мониторингом работоспособности основанной на облаке услуги, при этом выбор делается посредством заинтересованной стороны, включающей в себя одно из набора, состоящего из потребителя, ассоциированного с работой с потребителем, и администратора основанной на облаке услуги.
4. Способ по п. 1, дополнительно содержащий этапы, на которых:
определяют работу с потребителем, хранящую упомянутую транзакцию потребителя наряду с одной или более другими транзакциями потребителя; и
имитируют эти одну или более других транзакций потребителя, чтобы обнаружить упомянутый отказ или один или более других отказов, ассоциированных с основанной на облаке услугой.
5. Способ по п. 1, дополнительно содержащий этапы, на которых:
соотносят отказ с подсистемой, ассоциированной с основанной на облаке услугой; и
выполняют действие восстановления в подсистеме, чтобы восстановить подсистему до работоспособного статуса.
6. Способ по п. 1, дополнительно содержащий этапы, на которых:
соотносят отказ с отказавшей подсистемой, ассоциированной с основанной на облаке услугой; и
выполняют действие восстановления, чтобы перенаправить один или более процессов, ассоциированных с отказавшей подсистемой, в работоспособную подсистему, которая предоставляет функциональные возможности преодоления отказа.
7. Способ по п. 1, дополнительно содержащий этап, на котором отслеживают одну или более метрик, ассоциированных с работой с потребителем, при мониторинге действия восстановления, чтобы определять, что эти одна или более метрик выше одной или более пороговых величин, ассоциированных со статусом успешности.
8. Способ по п. 1, дополнительно содержащий этап, на котором сопоставляют отказ с действием восстановления из списка действий восстановления.
9. Способ по п. 1, дополнительно содержащий этапы, на которых:
в ответ на определение того, что статус успешности является негативным, определяют другое действие восстановления, которое является ассоциированным с отказом;
выполняют это другое действие восстановления; и
осуществляют мониторинг упомянутого другого действия восстановления, чтобы определять статус успешности, ассоциированный с данным другим действием восстановления.
10. Способ по п. 1, дополнительно содержащий этап, на котором генерируют отказ исходя из выходных данных посредством анализа выходных данных, чтобы различать одну или более отказавших подсистем, ассоциированных с основанной на облаке услугой.
11. Вычислительное устройство для восстановления доступности для использования основанной на облаке услуги после отказа, содержащее:
память;
процессор, связанный с памятью, причем процессор исполняет приложение администрирования в связи с инструкциями, хранящимися в памяти, при этом приложение администрирования выполнено с возможностью:
имитации транзакции потребителя, ассоциированной с работой с потребителем, при этом работа с потребителем хранит транзакцию потребителя;
обнаружения отказа, ассоциированного с основанной на облаке услугой, исходя из выходных данных транзакции потребителя;
определения действия восстановления, ассоциированного с отказом;
выполнения действия восстановления; и
мониторинга действия восстановления, чтобы определять статус успешности, ассоциированный с действием восстановления.
12. Вычислительное устройство по п. 11, в котором приложение администрирования дополнительно выполнено с возможностью:
генерирования отчета, который включает в себя информацию, ассоциированную с отказом; и
передачи отчета заинтересованной стороне, ассоциированной с основанной на облаке системой, при этом заинтересованная сторона включает в себя потребителя, ассоциированного с работой с потребителем, и администратора основанной на облаке системы.
13. Вычислительное устройство по п. 11, в котором приложение администрирования дополнительно выполнено с возможностью:
анализа выходных данных, чтобы определять один или более критериев, которые включают в себя по меньшей мере одно из набора, состоящего из: информации идентификации одной или более подсистем, ассоциированных с основанной на облаке услугой, которые отказывают; количества одной или более подсистем, которые отказывают; и шаблона, ассоциированного с одной или более подсистемами, которые отказывают;
включения этих одного или более критериев в отказ; и
соотнесения отказа с действием восстановления, на основе упомянутых критериев.
14. Вычислительное устройство по п. 11, в котором приложение администрирования дополнительно выполнено с возможностью:
генерирования показателя доступности из метрик, ассоциированных с одной или более подсистемами основанной на облаке услуги в рамках упомянутых выходных данных;
определения отказа в ответ на определение того, что показатель доступности меньше, чем пороговая величина, при этом пороговая величина является конфигурируемой администратором основанной на облаке услуги.
15. Машиночитаемое запоминающее устройство с хранящимися на нем инструкциями для восстановления доступности для использования основанной на облаке услуги после отказа, при этом инструкции содержат:
имитирование транзакции потребителя, ассоциированной с работой с потребителем, при этом работа с потребителем хранит транзакцию потребителя;
обнаружение отказа, ассоциированного с основанной на облаке услугой, исходя из выходных данных транзакции потребителя;
определение действия восстановления, ассоциированного с отказом;
выполнение действия восстановления;
осуществление мониторинга действия восстановления, чтобы определять статус успешности, ассоциированный с действием восстановления;
генерирование отчета, который включает в себя информацию, ассоциированную с отказом, действие восстановления и статус успешности; и
передачу отчета заинтересованной стороне, ассоциированной с основанной на облаке системой, при этом заинтересованная сторона включает в себя потребителя, ассоциированного с работой с потребителем, и администратора основанной на облаке системы.
RU2017103444A 2014-08-04 2015-08-04 Восстановление доступа для использования основанной на облаке услуги после отказа системы RU2699054C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/451,369 2014-08-04
US14/451,369 US9436553B2 (en) 2014-08-04 2014-08-04 Recovering usability of cloud based service from system failure
PCT/US2015/043514 WO2016022506A2 (en) 2014-08-04 2015-08-04 Recovering usability of cloud based service from system failure

Publications (3)

Publication Number Publication Date
RU2017103444A true RU2017103444A (ru) 2018-08-02
RU2017103444A3 RU2017103444A3 (ru) 2019-02-21
RU2699054C2 RU2699054C2 (ru) 2019-09-03

Family

ID=53879798

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017103444A RU2699054C2 (ru) 2014-08-04 2015-08-04 Восстановление доступа для использования основанной на облаке услуги после отказа системы

Country Status (19)

Country Link
US (1) US9436553B2 (ru)
EP (1) EP3178004B1 (ru)
JP (1) JP6581648B2 (ru)
KR (1) KR102271007B1 (ru)
CN (1) CN106663041B (ru)
AU (1) AU2015301284B2 (ru)
BR (1) BR112017001171B1 (ru)
CA (1) CA2955216C (ru)
CL (1) CL2017000264A1 (ru)
CO (1) CO2017000695A2 (ru)
IL (1) IL249855B (ru)
MX (1) MX2017001515A (ru)
MY (1) MY185933A (ru)
NZ (1) NZ728138A (ru)
PH (1) PH12017500024A1 (ru)
RU (1) RU2699054C2 (ru)
SG (1) SG11201700531SA (ru)
WO (1) WO2016022506A2 (ru)
ZA (1) ZA201700255B (ru)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697545B1 (en) * 2014-03-11 2017-07-04 Vmware, Inc. Service monitor for monitoring and tracking the performance of an application running on different mobile devices
US10048994B2 (en) * 2014-10-20 2018-08-14 Teachers Insurance And Annuity Association Of America Identifying failed customer experience in distributed computer systems
KR102549605B1 (ko) * 2016-03-04 2023-06-30 삼성전자주식회사 Raid 스토리지 장치의 리커버리 방법
US10061652B2 (en) 2016-07-26 2018-08-28 Microsoft Technology Licensing, Llc Fault recovery management in a cloud computing environment
US10616378B2 (en) * 2017-02-21 2020-04-07 Netscout Systems, Inc. Adaptive session intelligence extender
EP3699766A1 (en) * 2019-02-25 2020-08-26 Zcaler, Inc. Systems and methods for monitoring, analyzing, and improving digital user experience
CN111245648A (zh) * 2020-01-06 2020-06-05 华云数据(厦门)网络有限公司 一种云手机故障告警与自动恢复的方法
US11409618B2 (en) 2020-09-14 2022-08-09 International Business Machines Corporation Transaction recovery

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
US20020138226A1 (en) * 2001-03-26 2002-09-26 Donald Doane Software load tester
US7774402B2 (en) * 2005-06-29 2010-08-10 Visa U.S.A. Adaptive gateway for switching transactions and data on unreliable networks using context-based rules
JP2007072545A (ja) * 2005-09-05 2007-03-22 Nomura Research Institute Ltd 監視装置及び監視方法
US8326971B2 (en) * 2007-11-30 2012-12-04 International Business Machines Corporation Method for using dynamically scheduled synthetic transactions to monitor performance and availability of E-business systems
US7996723B2 (en) * 2009-12-22 2011-08-09 Xerox Corporation Continuous, automated discovery of bugs in released software
US8688642B2 (en) * 2010-02-26 2014-04-01 Symantec Corporation Systems and methods for managing application availability
US8823536B2 (en) * 2010-04-21 2014-09-02 Microsoft Corporation Automated recovery and escalation in complex distributed applications
US20120124193A1 (en) * 2010-11-12 2012-05-17 International Business Machines Corporation Identification of Critical Web Services and their Dynamic Optimal Relocation
JP5678717B2 (ja) * 2011-02-24 2015-03-04 富士通株式会社 監視装置、監視システムおよび監視方法
US8719627B2 (en) 2011-05-20 2014-05-06 Microsoft Corporation Cross-cloud computing for capacity management and disaster recovery
US8661125B2 (en) * 2011-09-29 2014-02-25 Microsoft Corporation System comprising probe runner, monitor, and responder with associated databases for multi-level monitoring of a cloud service
US8418000B1 (en) 2012-03-13 2013-04-09 True Metrics LLC System and methods for automated testing of functionally complex systems
US9015289B2 (en) * 2012-04-12 2015-04-21 Netflix, Inc. Method and system for evaluating the resiliency of a distributed computing service by inducing a latency
CN102710757B (zh) * 2012-05-21 2014-11-05 北京航空航天大学 一种分布式云存储数据完整性保护方法
US8839042B2 (en) * 2012-08-31 2014-09-16 Ca, Inc. Dynamic load calculation and predictive scaling
CN105164647A (zh) * 2013-06-20 2015-12-16 惠普发展公司,有限责任合伙企业 生成表示应用对外部服务的故障的模拟的响应的指纹
US8910294B1 (en) * 2013-12-18 2014-12-09 State Farm Mutual Automobile Insurance Company System and method for application failure testing in a cloud computing environment

Also Published As

Publication number Publication date
WO2016022506A2 (en) 2016-02-11
CO2017000695A2 (es) 2017-02-09
MX2017001515A (es) 2017-05-09
CA2955216A1 (en) 2016-02-11
EP3178004A2 (en) 2017-06-14
BR112017001171A2 (pt) 2017-11-14
JP2017528807A (ja) 2017-09-28
AU2015301284B2 (en) 2020-07-16
US20160034355A1 (en) 2016-02-04
RU2017103444A3 (ru) 2019-02-21
WO2016022506A3 (en) 2016-03-31
CN106663041B (zh) 2020-01-10
PH12017500024B1 (en) 2017-05-15
AU2015301284A1 (en) 2017-02-09
MY185933A (en) 2021-06-14
BR112017001171B1 (pt) 2023-04-11
KR102271007B1 (ko) 2021-06-29
CA2955216C (en) 2023-08-22
US9436553B2 (en) 2016-09-06
CL2017000264A1 (es) 2017-09-08
SG11201700531SA (en) 2017-02-27
ZA201700255B (en) 2019-05-29
CN106663041A (zh) 2017-05-10
PH12017500024A1 (en) 2017-05-15
IL249855A0 (en) 2017-03-30
KR20170041715A (ko) 2017-04-17
JP6581648B2 (ja) 2019-09-25
EP3178004B1 (en) 2018-05-16
NZ728138A (en) 2022-04-29
IL249855B (en) 2020-03-31
RU2699054C2 (ru) 2019-09-03

Similar Documents

Publication Publication Date Title
RU2017103444A (ru) Восстановление доступа для использования основанной на облаке услуги после отказа системы
US9672085B2 (en) Adaptive fault diagnosis
US9514034B1 (en) Ordered test execution to enable faster feedback
JP6782778B2 (ja) データ処理方法及び装置
RU2016137896A (ru) Идентификация вариантов выявления неисправностей для устранения отказов сети
EP3557819A8 (en) Server failure detection method and system
CN107025224B (zh) 一种监控任务运行的方法和设备
JP2017509262A5 (ru)
RU2017107276A (ru) Масштабируемые пулы хранения данных
JP2019500680A5 (ru)
US10318399B2 (en) Using canary instances for software analysis
US11102060B2 (en) Identification of a soft failure at a member
GB2573970A (en) System and method for detecting network topology
US10999180B2 (en) System for defining and implementing performance monitoring requirements for applications and hosted computing environment infrastructure
US9811447B2 (en) Generating a fingerprint representing a response of an application to a simulation of a fault of an external service
US20150286513A1 (en) Implementing tiered predictive failure analysis at domain intersections
JP2015057692A5 (ru)
CN110489260B (zh) 故障识别方法、装置及bmc
MX2019014420A (es) Dispositivo de determinacion de riesgo, sistema de determinacion de riesgo, metodo de determinacion de riesgo, programa de determinacion de riesgo y estructura de datos.
US9826029B2 (en) Intelligent quality of service for replication
AU2014200806B1 (en) Adaptive fault diagnosis
WO2016188682A1 (en) A method for determining a topology of a computer cloud at an event date
CN112491905A (zh) 网络设备的性能测试方法、装置及***
JP6504611B2 (ja) 監視装置、情報監視システム、監視装置の制御方法、及びプログラム
CA2843004C (en) Adaptive fault diagnosis