CN111782433A

CN111782433A - 异常排查方法、装置、电子设备和存储介质

Info

Publication number: CN111782433A
Application number: CN202010615290.6A
Authority: CN
Inventors: 高睿; 周玮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16
Anticipated expiration: 2040-06-30
Also published as: CN111782433B

Abstract

本申请公开了一种异常排查方法、装置、电子设备和存储介质，涉及人工智能、大数据及云计算技术领域。具体实现方案为：采集多个被监控设备的上报数据；根据所述多个被监控设备，确定关注设备；根据所述关注设备的上报数据和与所述上报数据对应的历史数据，基于预先配置的告警策略，确定所述关注设备的异常情况；当确定所述关注设备出现异常事件时，基于预先配置的异常解决策略，处理所述异常事件。本申请实施例提供的异常排查方案更加灵活，可以降低用户的运维成本，提升用户体验。

Description

异常排查方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及数据处理技术中的人工智能、大数据及云计算技术，尤其涉及一种异常排查方法、装置、电子设备和存储介质。

背景技术

随着互联网的发展，人工智能(Artificial intelligence，AI)设备的应用也越来越广泛。AI设备，比如摄像头等，在安装好之后，常会因人为或自然原因造成的设备故障、物理角度偏移、场景改变等状况，因此需要对AI设备进行维护和管理。

发明内容

本申请提供了一种异常排查方法、装置、电子设备和存储介质。

根据本申请的第一方面，提供了一种异常排查方法，包括：

采集多个被监控设备的上报数据；

根据所述多个被监控设备，确定关注设备；

根据所述关注设备的上报数据和与所述上报数据对应的历史数据，基于预先配置的告警策略，确定所述关注设备的异常情况；

当确定所述关注设备出现异常事件时，基于预先配置的异常解决策略，处理所述异常事件。

根据本申请的第二方面，提供了一种异常排查装置，包括：

采集模块，用于采集多个被监控设备的上报数据；

确定模块，用于根据所述多个被监控设备，确定关注设备；

所述确定模块还用于：根据所述关注设备的上报数据和与所述上报数据对应的历史数据，基于预先配置的告警策略，确定所述关注设备的异常情况；

处理模块，用于当所述确定模块确定所述关注设备出现异常事件时，基于预先配置的异常解决策略，处理所述异常事件

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面所述的方法。

根据本申请实施例的方案，首先采集多个被监控设备的上报数据，然后根据多个被监控设备，确定关注设备，之后根据关注设备的上报数据和与上报数据对应的历史数据，基于预先配置的告警策略，确定关注设备的异常情况，最后当确定关注设备出现异常事件时，基于预先配置的异常解决策略，处理异常事件。本申请实施例提供的异常排查方案更加灵活，可以降低用户的运维成本，提升用户体验。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的异常排查方法适用的一种示例性的场景示意图；

图2是本申请实施例提供的异常排查方法的流程示意图；

图3A是本申请实施例提供的异常排查方法的流程示意图；

图3B是本申请实施例提供的异常排查方法的流程示例；

图4是本申请实施例提供的异常排查装置的模块结构图；

图5是用来实现本申请实施例的异常排查方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如背景技术所述，AI设备在使用过程中，需要对其进行日常管理和维护。在现有技术中，一般是通过人力在安装AI设备的现场进行异常排查和调节。然而，AI设备的应用越来越广泛，因设备数量增多、安装地点分散、应用场景差别大，会导致AI设备出现问题时不易发现不易排查，严重提升运维成本。事实上，目前用户仅能通过观看实时视频效果或者发现未接收到抓拍图才能发觉AI设备出现问题，较被动且滞后；另外，因AI硬件参数繁多，非专业人员不易懂不易配，因此，解决问题时主要通过经验丰富的工程师去现场调节，频繁去现场巡查及解决问题，一方面会极大提升用户的运维成本，降低使用体验；另一方面，因设备数量多、安装地点分散、应用场景差别大，导致出现问题时不易发现不易排查，现场巡检维护的耗时及成本高。

考虑到上述问题，本申请提供一种异常排查方法、装置、电子设备和存储介质，应用于计算机技术领域中的人工智能、大数据及云计算技术，以形成从发现设备问题到解决设备问题的闭环，从而降低用户的运维成本，提升用户体验。

图1是本申请实施例提供的异常排查方法适用的一种示例性的场景示意图。如图1所示，该方法涉及用户、用户所使用的终端设备、监控设备以及云端服务器。在该场景下，用户可以通过终端设备查看监控设备的运行情况，采用本申请实施例的方案，监控设备可以与云端服务器进行数据交互，比如，将反映自身状态的数据以及所记录的照片等数据传递给云端，由云端服务器进行数据处理和分析。云端服务器根据监控设备所上报的数据，分析监控设备是否出现异常，若出现异常，则用户可以根据云端服务器的提示对监控设备进行参数配置等，从而解决异常。这里的监控设备可以为视觉感知设备，比如能够进行人脸抓拍、人脸识别、行为监控的摄像头、闸机等。

此外，本申请还可应用于安防、园区或商业体的布控、通行等场景中，还可以应用于需要人脸识别的支付场景等等。例如，在安防场景下，应用本申请实施例的方案，可以及时排查监控设备的故障，从而快速定位和解决问题。

图2是本申请实施例提供的异常排查方法的流程示意图。该方法的执行主体可以为图1所示的服务器，该方法包括：

S201、采集多个被监控设备的上报数据。

被监控设备比如可以是具备视觉感知能力的AI设备，例如能够进行人脸抓拍、人脸识别、行为监控的摄像头、闸机等。

作为一种可行的实施方式，可以由被监控设备自行上报数据；作为另一种可行的实施方式，也可以由云端触发被监控设备上报数据。

示例性的，上报数据的类型可以是默认的，即被监控设备可以上报默认类型的数据，比如抓拍图数量、抓拍图质量、CPU使用率等等。

S202、根据上述多个被监控设备，确定关注设备。

由于有多个被监控设备，在具体应用中，可能只关注被监控设备中的一部分。示例性的，在确定关注设备时，可以根据用户的选择，从被监控设备中选取一部分符合用户限定条件的作为关注设备。当然，也可以根据默认设置，选取被监控设备的一部分作为关注设备。

需要说明的是，关注设备可以不止一个。此外，关注设备也可以是全部的被监控设备，此时，确定关注设备即为将所有被监控设备确定为关注设备。

S203、根据上述关注设备的上报数据和与该上报数据对应的历史数据，基于预先配置的告警策略，确定上述关注设备的异常情况。

在确定了关注设备之后，可以基于关注设备的上报数据和与该上报数据对应的历史数据来综合评估关注设备的状态，从而基于预先配置的告警策略，确定其异常情况。

在这里，与上报数据对应的历史数据是指与上报数据同类型的数据，比如可以为关注设备在同一上报时段上报的数据。举例来说，关注设备在本周三上报了抓拍图片数量，那么，上述与上报数据对应的历史数据则可以为关注设备在上周三上报的抓拍图片数量等。

示例性的，预先配置的告警策略可以是默认的告警策略，其中设置了判断关注设备是否发生异常的具体条件。比如，告警策略可以为，基于关注设备的上报数据和历史数据所得到的统计值超出预设阈值时，该关注设备发生异常事件，其异常情况为异常。那么，如果基于关注设备的上报数据和历史数据，得到某项数据(或某监控项)的统计值并未超出预设阈值，则根据告警策略可知该关注设备并未发生异常事件，其异常情况为无异常；如果基于关注设备的上报数据和历史数据，得到某项数据的统计值超出了预设阈值，此时可根据告警策略判定该关注设备发生异常事件，其异常情况为异常。上述告警策略中还可以配置发生异常事件时，如何将该异常事件通知给用户，包括比如具体通知哪些用户，以哪种方式通知(例如可以通过邮件等对出现异常事件的关注设备进行批量通知等)以及通知频率(例如通知发送的间隔时间)等等。

因此，通过分析上报数据以及与该上报数据相对应的历史数据，基于预先配置的告警策略，可以确定关注设备的异常情况。

S204、当确定上述关注设备出现异常事件时，基于预先配置的异常解决策略，处理上述异常事件。

若基于预设的告警策略，判断关注设备出现了异常事件，此时需要解决该异常情况，即，基于预先配置的异常解决策略，处理上述异常事件。示例性的，在异常解决策略中，可以预先配置常见异常事件的处理方案，比如，针对某项数据的统计值大于预设阈值，则可以通过调整该关注设备的某些参数，使该项数据恢复正常。示例性的，比如该项数据为中央处理器(central processing unit，CPU)使用率，异常解决策略可规定若CPU使用率高于某个阈值，则可以通过调整该关注设备上的应用程序运行数量等，使其CPU使用率趋于正常值。此外，也可以通过机器学习算法，引入预先训练好的模型来实现更为智能的异常解决策略。

根据本申请实施例的方案，首先采集多个被监控设备的上报数据，然后根据多个被监控设备，确定关注设备，之后根据关注设备的上报数据和与上报数据对应的历史数据，基于预先配置的告警策略，确定关注设备的异常情况，最后当确定关注设备出现异常事件时，基于预先配置的异常解决策略，处理异常事件。采用本申请实施例的方案，通过对关注设备的上报数据和与之对应的历史数据进行关联分析，基于预先配置的告警策略确定关注设备的异常情况，并在确定关注设备出现异常事件时解决该异常事件，从而提供了从发现关注设备的异常状态到解决该关注设备的异常状态的闭环解决方案，与现有技术中通过人力观察发现问题并通过专业人员调参解决问题的方式相比，在面对海量数据的情况下，本申请实施例提供的方案更加灵活，成本更低。

图3A是本申请实施例提供的异常排查方法的流程示意图。该方法的可以为图1所示的终端设备(被监控设备)、云端服务器以及用户所使用的的终端设备之间的交互，该方法包括：

S301、被监控设备上报数据。

可选地，上报数据可以包括两种类型的数据，设备数据和业务数据，其中，设备数据反映被监控设备的运行情况，业务数据反映被监控设备的业务执行情况。举例来说，设备数据比如设备是否在线，设备的CPU使用率，网络是否通畅，设备是否有遮挡，画面是否清晰等反映设备自身情况的数据，而业务数据比如可以为业务相关的指标，如人脸抓拍图质量、人脸抓拍图数量、区域人数、性别/年龄/着装分布等。上报数据多样化更有助于云端进行推理分析，从而更加准确地定位异常并解决异常。

S302、云端服务器采集多个被监控设备的上报数据。

前述实施例中对于步骤S201的描述同样适用于本步骤，此处不再赘述。

S303、云端服务器获取管理信息。

在采集完上报数据后，云端服务器还可以获取管理信息。

示例性的，该管理信息可以如图3A所示，基于用户通过其所使用的的终端设备的输入获得。

示例性的，该管理信息可以包括关注设备的标签。这里的标签比如可以是用户主动选择的标签，以从被监控设备中筛选出感兴趣的设备作为关注设备。示例性的，上述标签可以是关注设备的类型(比如关注设备是摄像机、闸机等)、关注设备的型号、关注设备的安装地点(比如幼儿园、园区等)、关注设备所处的场景(比如关注设备是在室内还是室外)、关注设备的光照条件(比如背光与否等)。以关注设备的场景为例，室内或室外由于场景发生改变，因此光照条件完全不同，因此，针对关注设备的一些参数设置，比如亮度、宽动态等参数也会完全不同。

示例性的，上述管理信息除了包括关注设备的标签，还可以包括用于配置告警策略的监控项、监控项的统计方式、监控项对应的告警条件以及用于生成告警通知的通知信息。其中，监控项可以为关注设备上报数据中某一项或某几项；监控项的统计方式可以为比如求平均值、最大值等；监控项对应的告警条件比如可以为当监控项的统计值大于某个阈值等；通知信息比如可以包括告警通知的对象、通知频率、通知方式等。

示例性的，该管理信息可以是用户自定义的。云端服务器可以基于用户输入来获取上述管理信息。比如，用户可以通过云平台选择其感兴趣的标签、监控项等，以筛选关注设备和配置告警策略，从而实现更为灵活的异常排查，提升用户体验。

需要说明的是，可以将较高频率会用到的监控项，比如抓拍图数量、抓拍图质量等作为默认监控项，被监控设备在上报时可上报这些默认监控项的当前数值。在此基础上，用户也可以通过管理信息，从上述默认监控项中自定义感兴趣的监控项。

S304、云端服务器根据上述管理信息，从上述多个被监控设备中筛选出上述关注设备。

当获取了管理信息之后，云端服务器可以根据该管理信息，从多个被监控设备中筛选出关注设备。

例如，该管理信息中的标签为幼儿园及室内，那么就可以从被监控设备中，筛选幼儿园场景下，安装于室内的被监控设备作为关注设备。通过管理信息的设置，可以实现对关注设备的灵活选择。

可选地，从上述多个被监控设备中筛选出关注设备之后，还可以对管理信息中的监控项进行呈现。具体地，可以根据管理信息中的监控项和监控项的统计值，输出关注设备的状态信息，该状态信息可以用于反映关注设备的运行状态。输出状态信息可以让用户更清楚地获知当前关注设备的运行状态，有助于更高效的异常排查。此外，在输出状态信息时，可以比如以图表形式向上述用户呈现上述状态信息，形式更加友好，用户体验更好。

S305、云端服务器基于上述管理信息配置上述告警策略。

云端服务器获取了管理信息后，除了筛选出关注设备，还可基于管理信息配置告警策略。

根据上述管理信息，可以在告警策略中配置监控项、监控项的统计方式、监控项对应的告警条件以及用于生成告警通知的通知信息。配置好的告警策略定义了当监控项的统计值满足该监控项对应的告警条件时，确定该关注设备出现了异常事件，并且，根据上述通知信息向用户通知该异常事件，即，告警策略定义了如何确定异常以及如何通知异常。相比于采用默认设置，管理信息中的监控项等配置信息更加多样，因此，告警策略也可被适时调整以适应于不同用户的需求，从而提高整个方案的灵活性和适应性。

示例性的，可以基于管理信息中的监控项、监控项的统计方式以及监控项对应的告警条件在告警策略中配置如何确定异常事件的发生，并基于管理信息中的通知信息在告警策略中配置发生异常事件时如何将该异常事件通知给用户，包括比如具体通知哪些用户，以哪种方式通知(例如可以通过邮件等对出现异常事件的关注设备进行批量通知等)以及通知频率(例如通知发送的间隔时间)等等。

需要说明的是，管理信息中的监控项和监控项的统计值既可以如步骤S304所述用于呈现状态信息，也可以如步骤S305所述用于配置告警策略，具体选择哪个或哪些监控项，针对这个或这些监控项以哪种统计方式进行处理，对于状态信息的呈现和告警策略的配置这两个过程是类似的，不同之处在于，在状态信息的呈现是对于这个或这些监控项的指标展示和对比，而告警策略则是在这个或这些监控项的指标基础上进一步进行了异常判定和通知。

此外，还需要说明的是，上述步骤S304和S305的执行顺序不分先后，也可同步执行。

S306、云端服务器确定上述关注设备的异常情况。

基于上述配置的告警策略，云端服务器可以进一步确定关注设备的异常情况。

具体地，云端服务器可以根据上述关注设备的上报数据、与上述上报数据对应的历史数据和上述监控项的统计方式，确定上述关注设备的上述监控项的统计值是否满足上述监控项对应的告警条件；当确定上述监控项的统计值满足上述监控项对应的告警条件时，确定上述关注设备出现上述异常事件；当确定上述关注设备出现上述异常事件时，根据上述通知信息生成上述告警通知，上述告警通知用于提醒用户上述关注设备出现上述异常事件。举例来说，上述上报数据和历史数据均为抓拍图数量，统计方式可以为求一段预设时间的平均值，那么，可以查看抓拍图数量的平均值是否满足告警条件，并在满足时生成告警通知。由于这里是通过统计的方式来对上报数据和历史数据进行分析，因此，考虑了数据之间的时间关联性，从而可以更加准确地配置告警策略。

作为一种可行的实施方式，上述监控项的统计值满足上述监控项对应的告警条件可以为上述监控项的统计值达到预设阈值的次数超过预设次数，即在某项指标多次触发阈值时，即判定为满足了警告条件；作为另一种可行的实施方式，上述监控项的统计值满足上述监控项对应的告警条件可以为上述监控项的统计值的环比增长率出现异常，即对某项指标进行统计，当其统计值的环比增长率异常时，即判定为满足了警告条件，举例来说，当监控项为人脸抓拍数量，该数量的平均值环比下降，则可认为出现异常事件；作为再一种可行的实施方式，上述监控项的统计值满足上述监控项对应的告警条件可以为上述监控项的统计值的累积变化出现异常。上述预设阈值和预设次数可以根据实际需求确定，这里并不做具体限制。通过设置告警条件，可以更加灵活地确定关注设备是否异常，方式简单，用户体验良好。需要说明的是，告警条件可以是自定义的运算规则，其作用是限定什么情况下触发告警，在实际应用中，可以根据具体需求灵活设置，并不限于以上列举的三种方式。

可选地，上述告警通知可以包括上述异常事件的级别、类型以及事件内容。

示例性的，异常事件的级别比如可以分为四个等级，严重、重要、警告和通知，其中，严重表示设备或设备的某个功能完全不可用；重要表示监控项的状态已经影响到设备或功能的正常使用；警告表示监控项的状态虽然可以使用，但已经超出建议范围；通知表示监控项和历史值相比有变化，提醒用户查看或关注。举例来说，设备离线时，该设备已完全不可用，因此可将其定义为严重级别的异常事件；CPU使用率比如大于95％，这种状态已经影响设备的正常使用，因此可将其定义为重要级别的异常事件；设备存储卡将满，比如将超90％，此时虽然设备仍可使用，但已经超出建议范围，因此可将其定义为警告级别的异常事件；设备在当前上报时间段内上报的人脸抓拍数相对于历史数据有变化，比如上周三抓拍到工业园区平均人数为300人，本周三抓拍到该工业园区的平均人数为20人，此时可提醒用户注意，因此将该事件定义为通知级别的异常事件。当然，在实际应用中，可以根据具体应用场景来定义告警通知，此处仅为举例，并不构成对本申请的限制。

示例性的，异常事件的类型比如可以为监控项的数据类型，如CPU使用率、人脸抓拍数量、抓拍质量等等；异常事件的事件内容比如可以是某个具体事件的定性或定量判断，比如CPU使用率过高之类的定性通知，以及CPU使用率达到95％这样的定量通知。

如步骤S303所述，通知信息比如可以包括告警通知的对象、通知频率、通知方式等，因此，在本步骤中，以人脸抓拍为例，监控项比如可以为人脸抓拍图片数量，告警条件为环比增长率异常，假设关注设备为某个工业园区的监控摄像头，如果每周三的人脸抓拍图片数量平均值为300左右，而某一周三的人脸抓拍图片数量的平均值突然骤降至20，此时即可判断人脸抓拍图片数量的平均值的环比增长率发生异常，因此可确定发生异常事件，此时可生成通知信息，提醒用户查看关注。

通过如上方式设置告警通知，可以让用户更清楚地了解目前关注设备的异常状态，更有助于实现高效的异常排查。

S307、当确定上述关注设备出现异常事件时，云端服务器基于预先配置的异常解决策略，处理上述异常事件。

前述实施例中对于步骤S204的描述同样适用于本步骤，此处不再赘述。

此外，该异常解决策略中配置了异常事件集合以及对应于上述异常事件集合中异常事件的解决策略。当上述关注设备的异常事件属于上述异常事件集合时，根据上述关注设备的异常事件和上述异常解决策略，输出对应于上述关注设备的异常事件的解决策略。

作为一种可行的实施方式，可以预先设置一些参数模板，针对关注设备的异常事件，用户可以通过简单应用模板，就完成对该异常事件的处理。

示例性的，该异常事件比如为CPU使用率过高，其对应的异常解决策略为自动调整关注设备的应用程序运行情况；或者异常事件比如为人脸抓拍质量过差，其对应的异常解决策略为基于该关注设备的历史配置，调整其参数，以提升拍摄质量等等。事实上，这是为用户提供了解决异常事件的模板，从而在异常事件发生时，无须人工调整参数，只需应用模板即可解决异常，操作简单，从而更高效地处理关注设备的异常情况。

示例性的，异常解决策略可以以决策树的形式实现。举例来说，人脸抓拍数量如上文示例中所述的剧烈下降的情况，则该异常解决策略可以提醒用户查看该关注设备自身的设备数据是否正常，比如首先提醒用户观察设备是否离线，若未离线，则可提醒用户查看关注设备的实时监控视频，以判断是否是因该关注设备的角度发生变换而导致抓拍数量的剧烈下降，还可以提醒用户查看关注设备的业务数据是否正常，比如当前该关注设备的光照条件是否正常，若光照条件不正常，也可以给用户提供一些参数配置模板，这样用户无须具备专业知识即可完成配置。当然，也可以为用户提供自定义选项，以便于用户根据实际使用场景及需求自行配置，这样更加灵活方便。

可选地，如果在异常事件集合中并未找到上述异常事件，则也可预先设定一条备选解决策略，例如，请找专业人员协助解决等等，来帮助用户解决故障，由于用户可能并非专业人员，对于一些异常事件，用户自己无法解决或解决起来耗时耗力，提供备选解决策略有助于实现更高效的异常排查。

可选地，当确定上述关注设备未出现异常事件时，还可以输出提示信息，上述提示信息用于提示用户上述关注设备未出现异常事件。比如，可以以对话框的形式提示用户，当前设备运行良好等类似通知，以方便用户了解关注设备的状态，有助于提升用户体验。

图3B是本申请实施例提供的异常排查方法的流程示例。如图3B所示，AI设备端可以为上文所述的被监控设备，比如可以有摄像头，闸机等，由AI设备端进行数据上报，云端完成数据采集，然后对数据进行提取聚合，在AI推理中通过流计算、视觉/语音模型、推理引擎等完成对采集数据的分析，之后再进行异常检测，具体是基于异常检测算子，比如阈值、监控项的突升突降、监控项的同环比异常、监控项的累积变化异常等，最后通过事件感知进行决策，决策可以是如上文所示基于规则或者是基于模型。上述示例与图3A所对应的实施例类似，比如，其中的AI设备端上报数据类似于步骤S301，云端服务器采集数据的步骤类似于步骤S302，之后AI推理类似于步骤S303-S305，异常检测的步骤类似于步骤S306，基于事件感知而进行的决策类似于步骤S307。

面向接入***中多种类型、地域分散的AI设备，对云端上的设备状态、设备数据、业务数据等进行采集，在云端对采集到的大量数据进行分析，因各台设备的硬件类型、型号、安装地点、所处场景、光照条件均有所不同，需将这些条件结合分组、标签等管理信息生成报表(即上述步骤S304中对状态信息的呈现)，设置触发告警策略，将多台设备的不同级别的报警信息以不同方式通知用户，并在***中提供设备巡检向导功能，从现有技术所述的被动滞后转化为主动及时地发现问题。这里的设备巡检向导比如可以是定期为用户名下的被监控设备做巡检，以确定其状态是否异常。在发现问题之后，根据告警级别、类型、内容等信息给出问题智能排查向导，以决策树的形式提供解决方法，如需调节参数来优化视频及抓拍效果，则在***中直接跳转到相关设置，并通过安装在设备的代理(agent)来支持远程调节端上参数，形成发现问题到解决问题的闭环。上述问题智能排查向导比如可以是前文实施例所述的以决策树形式实现的异常解决策略。

在本示例中，通过采集大量AI设备端数据，对其进行智能分析，根据异常决策算子判断问题并提供问题排查向导决策，最终应用到设备端，形成设备端和云端的效果优化闭环，可极大降低用户的运维成本，提升使用体验。此外，本申请实施例的方案针对AI设备，在海量设备的数据基础上，根据模型和规则做智能分析并提供问题排查向导，实现云端协同提升效果的闭环。

图4是本申请实施例提供的异常排查装置的模块结构图。该异常排查装置400包括：

采集模块401，用于采集多个被监控设备的上报数据；

确定模块402，用于根据所述多个被监控设备，确定关注设备；

所述确定模块402还用于：根据所述关注设备的上报数据和与所述上报数据对应的历史数据，基于预先配置的告警策略，确定所述关注设备的异常情况；

处理模块403，用于当所述确定模块402确定所述关注设备出现异常事件时，基于预先配置的异常解决策略，处理所述异常事件。

作为一种可行的实施方式，所述告警策略中配置了监控项、所述监控项的统计方式、所述监控项对应的告警条件以及用于生成告警通知的通知信息；

所述确定模块402具体用于：

根据所述关注设备的上报数据、与所述上报数据对应的历史数据和所述监控项的统计方式，确定所述关注设备的所述监控项的统计值是否满足所述监控项对应的告警条件；

当确定所述监控项的统计值满足所述监控项对应的告警条件时，确定所述关注设备出现所述异常事件；

当确定所述关注设备出现所述异常事件时，根据所述通知信息生成所述告警通知，所述告警通知用于提醒用户所述关注设备出现所述异常事件。

作为一种可行的实施方式，所述监控项的统计值满足所述监控项对应的告警条件包括以下中的至少一个：所述监控项的统计值达到预设阈值的次数超过预设次数、所述监控项的统计值的环比增长率出现异常、所述监控项的统计值的累积变化出现异常。

作为一种可行的实施方式，所述告警通知包括所述异常事件的级别、类型以及事件内容。

作为一种可行的实施方式，所述异常解决策略中配置了异常事件集合以及对应于所述异常事件集合中异常事件的解决策略；

所述处理模块403具体用于：

当所述关注设备的异常事件属于所述异常事件集合时，根据所述关注设备的异常事件和所述异常解决策略，输出对应于所述关注设备的异常事件的解决策略。

作为一种可行的实施方式，所述处理模块403还用于：

当所述关注设备的异常事件不属于所述异常事件集合时，输出预设解决策略。

作为一种可行的实施方式，所述处理模块403还用于：

当确定所述关注设备未出现异常事件时，输出提示信息，所述提示信息用于提示用户所述关注设备未出现异常事件。

作为一种可行的实施方式，所述上报数据包括设备数据和业务数据，所述设备数据反映所述被监控设备的运行情况，所述业务数据反映所述被监控设备的业务执行情况。

作为一可选实施例，在图4所示实施例的基础上，所述装置400还包括获取模块；

所述获取模块用于获取管理信息，所述管理信息包括所述关注设备的标签；

所述确定模块402具体用于：

根据所述管理信息，从所述多个被监控设备中筛选出所述关注设备。

作为一种可行的实施方式，所述管理信息还包括用于配置所述告警策略的所述监控项、所述监控项的统计方式、所述监控项对应的告警条件以及所述用于生成告警通知的通知信息；

所述装置还包括配置模块，用于基于所述管理信息配置所述告警策略。

作为一可选实施例，在图4所示实施例的基础上，该装置400还包括输出模块，用于根据所述监控项和所述监控项的统计值，输出所述关注设备的状态信息，所述状态信息用于反映所述关注设备的运行状态。

作为一种可行的实施方式，所述输出模块具体用于：

以图表形式向所述用户呈现所述状态信息。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的异常排查的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的异常排查的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的异常排查的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的异常排查的方法对应的程序指令/模块(例如，附图4所示的采集模块401、确定模块402和处理模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的异常排查的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据异常排查的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至异常排查的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

异常排查的方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与异常排查的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种异常排查方法，包括：

采集多个被监控设备的上报数据；

根据所述多个被监控设备，确定关注设备；

2.根据权利要求1所述的方法，其中，所述告警策略中配置了监控项、所述监控项的统计方式、所述监控项对应的告警条件以及用于生成告警通知的通知信息；

所述确定所述关注设备的异常情况包括：

3.根据权利要求2所述的方法，其中，所述根据所述多个被监控设备，确定关注设备之前，还包括：

获取管理信息，所述管理信息包括所述关注设备的标签；

所述根据所述多个被监控设备，确定关注设备包括：

4.根据权利要求3所述的方法，其中，所述管理信息还包括用于配置所述告警策略的所述监控项、所述监控项的统计方式、所述监控项对应的告警条件以及所述用于生成告警通知的通知信息；

所述确定所述关注设备的异常情况之前，还包括：

基于所述管理信息配置所述告警策略。

5.根据权利要求2所述的方法，其中，所述监控项的统计值满足所述监控项对应的告警条件包括以下中的至少一个：所述监控项的统计值达到预设阈值的次数超过预设次数、所述监控项的统计值的环比增长率出现异常、所述监控项的统计值的累积变化出现异常。

6.根据权利要求2所述的方法，其中，所述告警通知包括所述异常事件的级别、类型以及事件内容。

7.根据权利要求2所述的方法，其中，所述从所述多个被监控设备中筛选出关注设备之后，还包括：

根据所述监控项和所述监控项的统计值，输出所述关注设备的状态信息，所述状态信息用于反映所述关注设备的运行状态。

8.根据权利要求7所述的方法，其中，所述输出所述关注设备的状态信息，包括：

以图表形式向所述用户呈现所述状态信息。

9.根据权利要求1-8中任一项所述的方法，其中，所述异常解决策略中配置了异常事件集合以及对应于所述异常事件集合中异常事件的解决策略；

所述基于预先配置的异常解决策略，处理所述异常事件，包括：

10.根据权利要求9所述的方法，还包括：

11.根据权利要求1-8中任一项所述的方法，还包括：

12.根据权利要求1-8中任一项所述的方法，其中，所述上报数据包括设备数据和业务数据，所述设备数据反映所述被监控设备的运行情况，所述业务数据反映所述被监控设备的业务执行情况。

13.一种异常排查装置，包括：

采集模块，用于采集多个被监控设备的上报数据；

确定模块，用于根据所述多个被监控设备，确定关注设备；

处理模块，用于当所述确定模块确定所述关注设备出现异常事件时，基于预先配置的异常解决策略，处理所述异常事件。

14.根据权利要求13所述的装置，其中，所述告警策略中配置了监控项、所述监控项的统计方式、所述监控项对应的告警条件以及用于生成告警通知的通知信息；

所述确定模块具体用于：

15.根据权利要求14所述的装置，还包括获取模块；

所述确定模块具体用于：

16.根据权利要求15所述的装置，其中，所述管理信息还包括用于配置所述告警策略的所述监控项、所述监控项的统计方式、所述监控项对应的告警条件以及所述用于生成告警通知的通知信息；

17.根据权利要求14所述的装置，其中，所述监控项的统计值满足所述监控项对应的告警条件包括以下中的至少一个：所述监控项的统计值达到预设阈值的次数超过预设次数、所述监控项的统计值的环比增长率出现异常、所述监控项的统计值的累积变化出现异常。

18.根据权利要求14所述的装置，其中，所述告警通知包括所述异常事件的级别、类型以及事件内容。

19.根据权利要求14所述的装置，还包括输出模块，用于根据所述监控项和所述监控项的统计值，输出所述关注设备的状态信息，所述状态信息用于反映所述关注设备的运行状态。

20.根据权利要求19所述的装置，其中，所述输出模块具体用于：

以图表形式向所述用户呈现所述状态信息。

21.根据权利要求13-20中任一项所述的装置，其中，所述异常解决策略中配置了异常事件集合以及对应于所述异常事件集合中异常事件的解决策略；

所述处理模块具体用于：

22.根据权利要求21所述的装置，其中，所述处理模块还用于：

23.根据权利要求13-20中任一项所述的装置，其中，所述处理模块还用于：

24.根据权利要求13-20中任一项所述的装置，其中，所述上报数据包括设备数据和业务数据，所述设备数据反映所述被监控设备的运行情况，所述业务数据反映所述被监控设备的业务执行情况。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。