CN112114986B - 数据异常识别方法、装置、服务器和存储介质 - Google Patents

数据异常识别方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN112114986B
CN112114986B CN201910537152.8A CN201910537152A CN112114986B CN 112114986 B CN112114986 B CN 112114986B CN 201910537152 A CN201910537152 A CN 201910537152A CN 112114986 B CN112114986 B CN 112114986B
Authority
CN
China
Prior art keywords
data
application
performance index
application performance
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910537152.8A
Other languages
English (en)
Other versions
CN112114986A (zh
Inventor
范奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910537152.8A priority Critical patent/CN112114986B/zh
Publication of CN112114986A publication Critical patent/CN112114986A/zh
Application granted granted Critical
Publication of CN112114986B publication Critical patent/CN112114986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种数据异常识别方法、装置、服务器和存储介质,其中,该数据异常识别方法包括:获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。本发明实施例中通过提取应用数据中的应用性能指标数据,输入异常识别网络模型进行异常分类识别,判断应用数据中应用性能指标是否存在异常,使得识别检测应用数据的效率大大提升,并提高了异常识别的准确度,有效避免了异常数据错判的现象。

Description

数据异常识别方法、装置、服务器和存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种数据异常识别方法、装置、服务器和存储介质。
背景技术
互联网的迅猛发展使得数据不再昂贵,而如何从数据中更快速获取价值变得日益重要,因此,数据实时化成为了一个大趋势。越来越多的业务场景需要实时分析,以极低的延迟来分析实时数据并给出分析结果,从而提高业务效率,带来更高价值。
随着智能终端技术的不断发展,目前市场上的应用程序(Application,APP)数量和种类迅速增长,用户对APP的稳定性要求也不断提高,而APP性能指标是影响其稳定性的重要因素,也是影响智能终端正常使用的关键因素,因此对于APP的异常检测尤为重要。目前对于APP自身性能测试,大多是使用随身调GT工具等来进行APP测试,获取APP性能指标数据。
但是该应用性能检测过程,需要人工在测试终端执行APP的点击、滑动、输入等操作,以进入APP各种逻辑和页面,从而获取在APP运行过程的性能指标,这种人工测试方式提高了的人力成本,也降低了测试的效率。
发明内容
本发明实施例提供一种数据异常识别方法、装置、服务器和存储介质,使得识别检测异常数据的效率大大提升,并提高了识别异常数据的准确度。
第一方面,本申请提供一种数据异常识别方法,所述数据异常识别方法包括:
获取终端反馈的目标应用的应用数据;
提取所述应用数据中的应用性能指标数据;
将所述应用性能指标数据,输入异常识别网络模型;
根据所述异常识别网络模型对所述应用性能指标数据进行数据异常分类识别,输出异常识别结果;
根据所述异常识别结果,确定所述应用数据中应用性能指标是否异常。
第二方面,本申请提供一种数据异常识别装置,所述数据异常识别装置包括获取单元、提取单元、输入单元、分类单元和确定单元,其中:
获取单元,用于获取终端反馈的目标应用的应用数据;
提取单元,用于提取所述应用数据中的应用性能指标数据;
输入单元,用于将所述应用性能指标数据,输入异常识别网络模型;
分类单元,用于根据所述异常识别网络模型对所述应用性能指标数据进行数据异常分类识别,输出异常识别结果;
确定单元,用于根据所述异常识别结果,确定所述应用数据中应用性能指标是否异常。
第三方面,本申请提供一种服务器,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取终端反馈的目标应用的应用数据;
提取所述应用数据中的应用性能指标数据;
将所述应用性能指标数据,输入异常识别网络模型;
根据所述异常识别网络模型对所述应用性能指标数据进行数据异常分类识别,输出异常识别结果;
根据所述异常识别结果,确定所述应用数据中应用性能指标是否异常。
第四方面,本申请提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行第一方面中任一项所述的数据异常识别方法中的步骤。
本申请通过获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。本申请通过提取应用数据中的应用性能指标数据,输入异常识别网络模型进行异常分类识别,判断应用数据中应用性能指标是否存在异常,使得识别检测应用数据的效率大大提升,并提高了异常识别的准确度,有效避免了异常数据错判的现象。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据异常识别***的一个实施例场景示意图;
图2是本发明实施例提供的服务器为APM服务器的一个实施例结构示意图;
图3是本发明实施例提供的数据异常识别方法的一个实施例流程示意图;
图4是本发明实施例中采集应用数据的一个场景示意图;
图5是本发明实施例提供的应用性能指标的一个实施例示意图;
图6是本发明实施例中应用数据对应的原始时序信号的频域特征图提取流程示意图;
图7是本发明实施例提供的正样本数据和负样本数据的一个实施例比对示意图;
图8是本发明实施例中神经网络模型的一个实施例结构示意图;
图9是本发明实施例中数据异常识别方法的另一个实施例流程示意图;
图10是本发明实施例中数据异常识别装置的一个实施例结构示意图;
图11是本发明实施例提供的服务器的一个实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有说明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”或“单元”可看做为在该运算***上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算***上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本发明实施例提供一种数据异常识别方法、装置、服务器和存储介质。以下分别进行详细说明。
请参阅图1,图1为本发明实施例所提供的数据异常识别***的场景示意图,该数据异常识别***可以包括终端100和服务器200,终端100和服务器200通过网络连接,终端中安装有应用客户端(简称应用),服务器200中集成有数据异常识别装置,终端100可以访问服务器200。本发明实施例中服务器200主要用于获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。
本发明实施例中,该服务器200可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本发明实施例中所描述的服务器200,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本发明的实施例中,服务器与终端之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(Worldwide Interoperability for Microwave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)协议的计算机网络通信等。
可以理解的是,本发明实施例中所使用的终端100可以理解为客户端设备,终端100既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种终端可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的客户端100具体可以是台式终端或移动终端,终端100具体可以手机、平板电脑、笔记本电脑等中的一种,终端100中预先安装有至少一种可访问网络的应用,例如游戏应用(如王者荣耀)、通讯应用(如微信或QQ)等。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的服务器,或者服务器网络连接关系,例如图1中仅示出1个服务器和2个终端,可以理解的,该数据异常识别***还可以包括一个或多个其他服务器,或/且一个或多个与服务器网络连接的终端,具体此处不作限定。
在本发明一些实施例中,如图2所示,该服务器200可以是应用性能管理(Application Performance Management,APM)服务器,以服务器200为APM服务器为例,其具体还可以包括APM数据服务器201、APM分析服务器202和APM预测服务器203,其中,APM数据服务器201可以用于接收用户在使用应用的过程中发送的应用性能指标数据(例如接收游戏玩家在游戏应用中游戏过程中发送的应用性能指标数据),APM分析服务器202用于对接收自APM数据服务器201的应用性能指标数据进行预处理(如提取频域特征),并发送给APM预测服务器203,请求预测结果(即数据异常识别结果),APM预测服务器203中部署有本申请中训练的异常识别网络模型,该异常识别网络模型可以对接收自APM分析服务器202的应用数据,作为输入,输出数据异常识别结果,并可以对数据异常识别结果进行分析,生成报表或发出异常预警。本发明实施例中,APM预测服务器203可以是tensorflow-serving服务器,采用tensorflow-serving服务器来部署本发明实施例中异常识别网络模型,可以提升模型预测效率和降低模型的维护成本。
其中,应用性能管理(Application Performance Management,APM)是一个对应用程序性能管理和故障管理的***化解决方案。
另外,如图1所示,该数据异常识别***还可以包括存储器300,用于存储应用数据,如用户自己通过终端反馈的异常数据,或者服务器200自身主动收集的应用数据(例如通知应用客户端收集应用数据,并反馈给服务器)。
需要说明的是,图1所示的数据异常识别***的场景示意图仅仅是一个示例,本发明实施例描述的数据异常识别***以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着数据异常识别***的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合具体实施例进行详细说明。
在本实施例中,将从数据异常识别装置的角度进行描述,该数据异常识别装置具体可以集成在服务器200中。
本发明提供一种数据异常识别方法,该数据异常识别方法包括:获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。
请参阅图3,为本发明实施例中本发明实施例中数据异常识别方法的一个实施例流程示意图,该数据异常识别方法包括:
301、获取终端反馈的目标应用的应用数据。
本发明实施例中,目标应用可以是终端中预先安装的应用,例如,游戏应用(如王者荣耀或QQ飞车等),视频应用(如腾讯视频),及时通讯应用(如微信或QQ等),邮箱应用(如QQ邮箱),地图应用(如高德地图或腾讯地图等),论坛应用(如百度贴吧或知乎等),阅读应用(如微信读书,追书神器等)。该目标应用可以终端中预先安装的任何应用,具体此处限定。
如图4所示,目标应用的应用数据可以包括用户(即用户利用应用客户端)反馈的异常数据,例如,用户在使用应用客户端时,当出现掉线或者卡顿,闪退等异常现象时,应用客户端会主动收集异常数据,在特定时期(如闲时,或者按照预设故障数据反馈周期)反馈到服务器,服务器即可采集到该用户反馈的异常数据。另外,目标应用的应用数据还可以包括终端主动收集的应用数据,例如,应用客户端可以按照预设周期定期采集收集的使用数据,以发送给服务器,便于研发人员分析应用的使用情况。
本发明实施例中,目标应用的应用数据中包括应用性能指标数据,该应用性能指标数据可以是预设类型的应用性能指标数据,该预设类型的应用性能指标可以是如下步骤302中描述的目标应用性能指标,具体的,目标应用的应用数据中包括的应用性能指标数据可以包括一种或多种应用性能指标的数据,如应用标志参数、GPU使用率、实际使用的物理内存(或内存使用率)、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量、GPU使用率中的一种或多种。
可以理解的是,本发明实施例中目标应用的应用数据除了包括应用性能指标数据之外,一般情况下,还可以包括其他类型的数据,例如采集该目标应用的应用数据的时间信息,如2019.1.1 12:38:53,又例如目标应用的应用数据中还可以包括预设时间段(例如一周内)该目标应用的使用日志(log)数据(用户在使用目标应用时,会生成使用日志),便于研发人员分析应用的使用情况,在一个具体实施方式中,目标应用的应用数据可以包括应用的应用性能指标数据、采集该目标应用的应用数据的时间信息以及预设时间段该目标应用的使用日志数据,需要说明的是,目标应用的应用数据具体组成至少需包括应用性能指标数据,具体组成此处不作限定。
302、提取应用数据中的应用性能指标数据。
其中,应用性能指标为应用在使用过程中的展现的性能指标,例如应用性能指标是应用的一种非功能特性,它关注的不是应用是否能够完成特定的应用功能,而是在完成该应用功能时展示出来的性能指标,例如,游戏应用在被用户使用时,游戏应用在使用过程中展现的性能指标,具体的如FPS,中央处理器(CPU,Central Processing Unit)使用率,图形处理器(Graphics Processing Unit,GPU)使用率,内存使用率等等。本发明实施例,应用性能指标数据可以包括应用标志参数、GPU使用率、实际使用的物理内存(或内存使用率)、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量、GPU使用率。其中,应用标志参数,可以是标志该应用的特殊或重要参数,对于不同的应用,应用标志参数可以不同,例如对于游戏应用,应用标志参数可以是FPS,可以理解的是对于其他类型的应用,该应用标志参数可以是其他应用性能指标,例如响应时间,GPU使用率等。
以一个游戏应用为例,如图5所示,展示了游戏应用的一个应用性能指标数据示意图,该游戏应用性能指标数据可以包括如下应用性能指标参数:
1)FPS:游戏帧率;2)CPU:CPU使用率;3)PSS:实际使用的物理内存;4)TCP_rx:TCP接收流量;5)TCP_tx:TCP发送流量;6)UDP_rx:UDP接收流量;7)UDP_tx:UDP发送流量。
在本发明具体实施时,发明人在对应用性能指标数据的时间序列分析时发现,很难从时域特征上判定该时间段的应用数据是否存在异常。因此,为了提高异常识别网络模型的识别异常数据的准确度,本发明实施例中先将应用性能指标数据的时域特征转换为频域特征,然后再根据异常识别网络模型进行异常识别。
因此,在本发明实施例中,该提取应用数据中的应用性能指标数据的步骤可以包括:提取应用数据中目标应用性能指标的频域特征,得到应用性能指标数据。其中,本发明实施例中可以采用傅里叶变换(Fourier Transform)将目标应用性能指标的时域特征转换为频域特征(即为提取应用数据中目标应用性能指标的频域特征),然后从频域的角度分析该目标应用性能指标的时序信号的构成。具体的,傅里叶变换可以是快速傅里叶变换(FastFourier Transformation,FFT)。
由于目前对于APP性能指标的异常检测上,大多采用单性能指标的规则方法,即一次仅考虑单个性能指标的变化来判断当前应用数据是否存在异常。单性能指标的异常检测方法灵活性比较低,阈值选择对经验要求非常高,对于很多动态变化的性能指标无法有效给出合理阈值,导致误报或漏报,从而造成重大损失。此外,单个性能指标往往无法有效评估当前状态是否存在异常,这使得基于单性能指标的异常识别准确度较低;而且,异常状态往往是一个过程问题(即一段时间内的异常),通过简单的阈值过滤并无法有效发掘异常。
因此,本发明实施例中,该目标应用性能指标中可以包括至少两种应用性能指标参数,具体的,例如目标应用性能指标包括应用标志参数、CPU使用率、GPU使用率、实际使用的物理内存、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量中至少两种。优选的,为了提高后续异常识别网络模型的识别准确度,目标应用性能指标中可以包括尽可能多的应用性能指标参数。
具体的,该提取应用数据中目标应用性能指标的频域特征,得到应用性能指标数据的步骤可以进一步包括:获取采样应用数据的采样时间点;根据采样时间点,在应用数据中截取第一时间序列;在第一时间序列中提取目标应用性能指标的频域特征,得到应用性能指标数据。
其中,采集应用数据的采样时间点,可以是用户通过客户端反馈该应用数据的时间点,一般情况下,由于反馈异常数据都会占用终端的资源(如网络资源,运算资源等),因此,在应用开发时,都不会设置用户实施反馈数据,以避免对用户当前进行的业务造成影响,而是在一定的场景下,反馈应用的异常数据,如设定的闲时(如晚上11点到早上7点之间)反馈应用的异常数据,或者按照预设周期(如每天晚上11点)反馈应用的异常数据。因此,这样应用数据中一般包括发生异常前的数据,和发生异常后的数据。本发明实施例中可以将采样时间点对应的一段数据截取出来,以作后续分析使用。
在本发明一个实施方式中,根据采样时间点,在应用数据中截取第一时间序列,可以包括:根据采样时间点,向前扩第一时间长度,确定第一时间点;根据采样时间点,向后扩第二时间长度,确定第二时间点;截取应用数据中,第一时间点和第二时间点之间的时间序列,作为第一时间序列。其中,第一时间长度和第二时间长度可以相同,也可以不同,具体可以根据实际应用设置。
在一个具体实施例中,根据采样时间点,在应用数据中截取第一时间序列的具体实现方式为:根据采样时间点,向前扩3min(180个点)向后扩1min(60个点),从而将应用数据截取为包含采样时间点的长为240s的定长的第一时间序列。
在本发明一些实施例中,在所述第一时间序列中提取所述目标应用性能指标的频域特征,得到应用性能指标数据的步骤又可以具体包括:对第一时间序列进行采样,获取预设长度的多个子序列;对多个子序列分别提取目标应用性能指标的频域特征,得到多个频域特征;将多个频域特征拼接成频域特征图;对频域特征图进行归一化处理,得到应用性能指标数据。具体的,多个子序列的长度可以相同,多个子序列的数量可以是预设数量,预设数量和预设长度可以根据实际应用场景进行预先设定,具体此处不作限定。
由于各应用数据的时域特征长短不同,因此本发明实施例中可以采用基于滑窗的固定窗口FFT来提取整条应用数据的特征。在一个具体实施例中,提取应用数据中目标应用性能指标的频域特征,得到应用性能指标数据的实现方式可以是:采用固定窗口以3为步长,将应用数据采样成40条长度为120s的子序列;然后分别对该40条子序列进行FFT目标应用性能指标的频域特征提取,对每条子序列采用FFT提取频域特征;最后,对所有子序列对应的频域特征图进行归一化处理,将所有频域特征拼接成一个频域特征图,并对频域特征图采用min-max归一化至[0,1]之间。如图6所示,为应用数据对应的原始时序信号的频域特征图提取流程示意图。
本发明实施例中,应用数据也可能是服务器主动收集的正常使用的应用数据(例如应用客户端根据服务器的指令要求自动收集的应用数据反馈给服务器),此时,由于可能没有采用时间点这一参数,该提取所述应用数据中的目标应用性能指标的频域特征,得到应用性能指标数据的步骤可以包括:在应用数据中随机截取第二时间序列;提取第二时间序列中目标应用性能指标的频域特征,得到应用性能指标数据。需要说明的是,为了便于后续数据分析使用,第一时间序列的长度和第二时间序列在时域上的长度可以设置相同,例如均为240s。其中,提取第二时间序列中目标应用性能指标的频域特征,得到应用性能指标数据的具体方式可以参照上述实施例中在第一时间序列中提取目标应用性能指标的频域特征,得到应用性能指标数据的具体方式,此处不再详细阐述。
303、将应用性能指标数据,输入异常识别网络模型。
本发明实施例中,该异常识别网络模型可以根据实际应用的需求进行设定,比如,该异常识别网络模型可以是卷积神经网络(CNN,Convolutional Neural Network)结构,也可以是长短期记忆网络(Long Short-Term Memory,LSTM)结构,具体此处不作限定。
在将所述应用性能指标数据,输入异常识别网络模型之前,本发明实施例中方法会预先训练预设的神经网络模型,以得到该异常识别网络模型,即该异常识别网络模型为预先训练得到的,本发明实施例中还可以包括训练得到异常识别网络模型的过程。具体的,该异常识别网络模型的训练过程如下:
(1)、采集目标应用的样本数据。
如图4所示,目标应用的样本数据可以包括用户(即用户使用的客户端)反馈的异常数据,例如,用户在使用应用客户端时,当出现掉线或者卡顿,闪退等异常现象时,应用客户端会主动收集异常数据,在特定时期(如闲时,或者按照预设故障数据反馈周期)反馈到服务器,服务器即可采集到该用户反馈的异常数据。另外,应用的样本数据还可以包括终端主动收集的应用数据,例如,应用客户端可以按照预设周期定期采集收集的使用数据,以发送给服务器,便于研发人员分析应用的使用情况。
具体的,该应用的样本数据(简称样本数据)包括应用的正样本数据和负样本数据;该采集应用的样本数据的步骤可以包括:采集应用的正样本数据和负样本数据,其中正样本数据可以为应用的异常使用数据(简称异常数据),即上述描述的用户(即用户使用的客户端)反馈的异常数据,负样本数据可以是用户体验正常的数据(简称正常数据),例如可以是上述描述终端主动收集的应用数据,具体的,当应用为游戏应用时,该负样本数据可以是每秒传输帧数(Frames Per Second,FPS)高于预设帧数的应用数据(用户体验正常),预设帧数可以是例如20帧/s,具体可根据实际需要进行设定。
在具体实施时,对于一条应用数据,区分标记其为正样本数据(异常数据)或负样本数据(FPS≥20的正常数据)的方式可以采用如下方式:
其中,S+表示异常数据集,So表示应用数据集,Xi[FPS]表示其对应的FPS数据。yi为应用数据的标签,例如为正样本数据还是负样本数据,当应用数据对应的yi为positive时,表示当前应用数据为正样本数据(即应用的异常使用数据),当应用数据对应的yi为negtive时,表示当前应用数据为应用数据为负样本数据(即FPS≥20的正常应用数据)。
另外,在服务器中可以预置保存应用异常数据的异常数据表,以及保存应用正常使用数据的应用数据表,以游戏应用为例,玩家在游戏过程中出现体验异常后,可以主动选择反馈异常,并将异常数据上传服务器保存至异常数据表中,如果玩家在游戏中没有反馈数据,则玩家游戏数据可以正常被服务器采集上传至应用数据表中。
(2)、提取样本数据中的应用性能指标数据。
当样本数据中包括正样本数据和负样本数据时,步骤302中提取样本数据中的应用性能指标数据,具体可以包括:提取正样本数据中的第一应用性能指标数据;提取负样本数据中的第二应用性能指标数据。
如图7所示,为本发明实施例中应用的正常数据和应用的异常数据的一个应用性能指标参数的对比示意图,当样本数据中包括正样本数据和负样本数据时,提取正样本数据中的第一应用性能指标数据;提取负样本数据中的第二应用性能指标数据可以包括:提取正样本数据中目标应用性能指标的频域特征,得到第一应用性能指标数据;提取负样本数据中目标应用性能指标的频域特征,得到第二应用性能指标数据。其中,本发明实施例中提取正样本数据或负样本数据中目标应用性能指标的频域特征可以参照上述实施例中描述的提取应用数据中目标应用性能指标的频域特征的相关实现过程,具体此处不再赘述。
本发明实施例中对正样本数据和负样本数据采用不同的提取频域特征的方式,具体的,当正样本数据为应用的异常使用数据(简称异常数据)时,上述提取正样本数据中目标应用性能指标的频域特征,得到第一应用性能指标数据的步骤可以进一步包括:获取采样每个正样本数据的异常时间点;根据每个正样本数据的异常时间点,在每个正样本数据截取第三时间序列;在第三时间序列中提取目标应用性能指标的频域特征,得到每个正样本数据对应的频域特征数据,即得到第一应用性能指标数据。
需要说明的是,本发明实施例中,正样本数据可以指的是正样本数据集合,其可以包括多个正样本数据,同样的,负样本数据可以指的是负样本数据集合,其可以包括多个负样本数据,此时,正样本数据中每个正样本数据都对应一个异常时间点。
在本发明一些实施例中,根据异常时间点,在正样本数据中截取第三时间序列的步骤可以包括:根据每个正样本数据的异常时间点,向前扩第三时间长度,确定第三时间点;根据每个正样本数据的异常时间点,向后扩第四时间长度,确定第四时间点;截取每个正样本数据中,第三时间点和第四时间点之间的时间序列,作为第三时间序列。其中,第三时间长度和第四时间长度可以相同,也可以不同,具体可以根据实际应用设置,另外,第三时间长度可以与上述实施例中的第一时间长度相同,第四时间长度可以与上述实施例中的第二时间长度相同。
在一个具体实施例中,根据异常时间点,在正样本数据中截取第三时间序列具体实现方式为:对于正样本数据,根据异常时间点,向前扩3min(180个点)向后扩1min(60个点),从而将正样本数据截取为包含异常时间点的长为240的定长的第三时间序列。
在本发明一些实施例中,在第三时间序列中提取目标应用性能指标的频域特征,得到第一应用性能指标数据的步骤又可以具体包括:对第三时间序列进行采样,获取预设数量的预设长度的多个子序列;对该多个子序列分别提取目标应用性能指标的频域特征,得到多个频域特征;将多个频域特征拼接成频域特征图;对频域特征图进行归一化处理,得到第一应用性能指标数据。具体的,多个子序列的长度可以相同,预设数量和预设长度可以根据实际应用场景进行预先设定,具体此处不作限定。
本发明实施例中,在第三时间序列中提取目标应用性能指标的频域特征,得到第一应用性能指标数据的具体过程可以参照上述实施例中在第一时间序列中提取目标应用性能指标的频域特征,得到应用性能指标数据的实现方式,具体此处不再赘述。
当负样本数据为应用的正常使用数据时,上述提取负样本数据中目标应用性能指标的频域特征,得到第二应用性能指标数据的步骤可以包括:在每个负样本数据中随机截取第四时间序列;提取第四时间序列中目标应用性能指标的频域特征,得到第二应用性能指标数据。即对于负样本数据可以随机截取预设长度的第四时间序列。
需要说明的是,为了便于后续数据分析使用,第三时间序列的长度和第四时间序列在时域上的长度可以设置相同,例如均为240s。其中,提取第四时间序列中所述目标应用性能指标的频域特征,得到第二应用性能指标数据的具体方式可以参照上述实施例中在第一时间序列中提取目标应用性能指标的频域特征,得到应用性能指标数据的具体方式,此处不再详细阐述。
为了便于后续输入异常识别网络模型中的数据类型相同,其中,第一应用性能指标数据和第二应用性能指标数据中包括相同类型的应用性能指标,即均为目标应用性能指标,例如,当应用为游戏应用时,第一应用性能指标包括FPS、CPU使用率、实际使用的物理内存、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量等7种类型的应用性能指标,而第二应用性能指标包括FPS、CPU使用率、实际使用的物理内存、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量等7种相同类型的应用性能指标。
(3)、根据应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型。
具体的,当样本数据中包括正样本数据和负样本数据时,步骤(3)中根据应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型的步骤可以包括:根据第一应用性能指标数据和第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型。其中,该根据第一应用性能指标数据和第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型的步骤可以包括:根据第一应用性能指标数据和第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型。
本发明实施例中,该预设的神经网络模型可以根据实际应用的需求进行设定,比如,该预设的神经网络模型可以是CNN结构,也可以是LSTM结构,具体此处不作限定。在本发明一个具体实施例中,采用的训练-验证的样本数据可以如下表所示:
表1
总样本 正样本(异常)数据 负样本(正常)数据
训练集 14.0W 7.8W 6.2W
验证集 3.5W 2.0W 1.5W
在发明人对预设的神经网络的训练过程中,本申请采用ROC曲线下方的面积大小(Area Under Curve,AUC)作为结果评价指标,采用binary cross-entropy作为过程评价指标。
为了验证本申请方法的有效性,发明人通过实验将LSTM结构和CNN结构进行对比,具体结果如表2所示。
表2
方法名称 数据预处理 验证集loss 验证集AUC
LSTM 原始时域特征 0.136 0.8819
CNN(时域特征) 原始时域特征 0.112 0.9183
CNN(频域特征) 频域特征 0.091 0.9346
从表2中可以看出:1)采用CNN结构,输入为频域特征的数据的方法最终在验证集上的AUC达到0.935,表明该结构模型能有效区分正常与异常数据;2)对比时域CNN结构和LSTM结构可以发现,CNN结构效果比LSTM结构好,说明CNN结构在处理时间序列异常检测种具有更好的效果;3)对比时域CNN(即采用CNN结构,输入为时域特征)和频域CNN(即采用CNN结构,输入为频域特征)方法可以发现,频域CNN的异常检测效果要高于时域CNN的,说明在频域CNN为能更好的挖掘应用体验异常的结构。
因此,优选的,该预设的神经网络模型可以为卷积神经网络(CNN,ConvolutionalNeural Network)而结构,以预设的神经网络模型为CNN结构为例,则该预设的神经网络模型的网络架构具体可以包括如下:
卷积层:主要用于对输入的特征数据进行特征提取(即将应用数据映射到隐层特征空间),其中,卷积核大小可以根据实际应用而定,比如(3,3),可选的,为了降低计算的复杂度,提高计算效率,卷积层的卷积核大小也可以都设置为(3,3)。可选的,为了提高模型的表达能力,还可以通过加入激活函数来加入非线性因素,在本发明实施例中,该激活函数均为“relu(线性整流函数,Rectified Linear Unit)”。
池化层:与卷积层交替设置,具体的,即在第一个卷积层之后和第二个卷积层之后分别设置池化层,池化层用于进行下采样(pooling)操作,该下采样操作与卷积的操作基本相同,只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(meanpooling)等。
全连接层:可以将学到的“分布式特征表示”映射到样本标记空间,其在整个卷积神经网络中主要起到“分类器”的作用,全连接层的每一个结点都与上一层输出的所有结点相连,其中,全连接层的一个结点即称为全连接层中的一个神经元,全连接层中神经元的数量可以根据实际应用的需求而定,比如,在该卷积神经网络模型中,全连接层的神经元数量可以设置为512个,或者,也可以设置为128个等等。与卷积层类似,可选的,在全连接层中,也可以通过加入激活函数来加入非线性因素,比如,可以加入激活函数sigmoid(S型函数)。
本发明实施例中,预设的卷积神经网络模型中可以设置有一个或多个全连接层,每个全连接层的神经元数量可以设置为不同数量,具体可以根据实际应用需要进行设置,例如第一个全连接层的神经元数量可以设置为1024个,第二个全连接层神经元可以设置为512个。
损失层:对于卷积神经网络,损失层用于计算比较与每个频域特征数据对应的数据真实值,和数据监测值之间的差异,并通过反向传播算法对卷积神经网络模型中的参数进行不断地修正优化,得到异常识别网络模型,其中,损失函数可以采用softmax函数,或交叉熵损失函数。
需说明的是,在本发明实施例中,还可以包括用于输入数据的输入层和用于输出数据的输出层,以及其他一些可以设置的层,例如归一化(BatchNormalization)层,线性整流层(relu),在此不作赘述。
如图8所示,当应用为游戏应用时,该异常识别网络模型为游戏体验异常检测模型(ReLU、BatchNormalization、Dropout等没在图中展示出来)的一个实施例结构示意图。
本发明实施例中,根据第一应用性能指标数据和第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型,具体可以包括:
1、将第一应用性能指标数据和第二应用性能指标数据,组成样本数据集合。
2、获取样本数据集合中每个频域特征数据对应的数据真实值。
其中,每个频域特征数据对应的数据真实值,即该频域特征数据对应的样本数据对应的数据真实值,具体的,可以通过用户预先手动设置数据真实值,或者先标记其真实值,例如某个样本数据,其为异常数据,可以将其数据真实值标为异常数据对应的数据真实值。
3、分别将样本数据集合中频域特征数据输入到预设的神经网络模型,以获取每个频域特征数据对应的数据检测值。
分别将样本数据集合中频域特征数据输入到预设的神经网络模型,即可分别获得该神经网络模型的输出值,该输出值即为每个频域特征数据对应的数据检测值。
4、对数据检测值和数据真实值进行收敛,得到异常识别网络模型。
对数据检测值和数据真实值进行收敛,得到异常识别网络模型的过程,可以采用上述内容中描述的损失层对数据检测值和数据真实值进行收敛,具体的,即采用预设损失函数对每个频域特征数据对应的数据检测值和所述数据真实值进行收敛,得到异常识别网络模型。其中,该损失函数可以根据实际应用需求进行灵活设置,比如,损失函数可以为交叉熵损失函数。通过降低每个频域特征数据对应的的属性预测值与属性真实值之间的误差,进行不断训练,以调整预设的神经网络模型的参数至合适数值,便可得到异常识别网络模型。
(4)、根据异常识别网络模型,对获取的应用数据进行异常识别。
在步骤(3)中训练得到异常识别网络模型之后,之后集成在服务器中的数据异常识别装置在获取到应用数据后,即可根据该异常识别网络模型,对获取的应用数据进行异常识别,输出识别结果,根据该识别结果可以区分该应用数据是否异常,如该应用数据为异常数据,或正常数据,因此可以快速检测识别应用数据是否异常。
304、根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果。
在步骤303中将应用性能指标数据,输入异常识别网络模型之后,该异常识别网络模型即可输出异常识别结果。其中,异常识别结果一般都是对应用数据中应用性能指标是检测值,例如0,1等。
305、根据异常识别结果,确定应用数据中应用性能指标是否异常。
本发明实施例中,对于异常识别结果,会先设定好应用数据中应用性能指标异常时对应的异常识别结果对应的检测值,以及应用数据中应用性能指标正常时对应的异常识别结果对应的检测值。在异常识别结果确定时,即可根据异常识别结果,与应用数据中应用性能指标正常或异常时分别对应的异常识别结果对应的检测值进行比较,确定应用数据中应用性能指标是否异常。
本发明实施例中通过获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。本发明实施例中通过提取应用数据中的应用性能指标数据,输入异常识别网络模型进行异常分类识别,判断应用数据中应用性能指标是否存在异常,使得识别检测应用数据的效率大大提升,并提高了异常识别的准确度,有效避免了异常数据错判的现象。
为了进一步对应用异常进行分析,本发明实施例中,数据异常识别装置可以汇总最近一段时间(如最近半小时)中应用异常数据占比,生成分析报告或发出异常预警(如信息提示)。在具体实施时,本发明实施例中数据异常识别方法还可以包括:获取预设时间区间内获取的应用数据的异常识别结果;统计异常识别结果中异常数据的占比;当所述占比超过预设阈值时,生成分析报告或/且发出预警提示。其中,该预设阈值可以根据实际情况进行设定,例如20%,具体比例此处不作限定。
下面结合一具体应用场景对本发明实施例中数据异常识别方法进行描述。
请参阅图9,图9为本发明实施例提供的数据异常识别方法的另一流程示意图,该方法流程可以包括:
901、采集王者荣耀应用的正样本数据和负样本数据。
其中,王者荣耀应用的正样本数据为用户在使用王者荣耀应用打游戏时,出现掉线或者卡顿,闪退等异常现象,主动反馈的异常数据;王者荣耀应用的负样本数据为王者荣耀应用客户端主动收集的用户使用王者荣耀应用的正常数据(取其中FPS≥20帧/s的数据)。
902、提取正样本数据中的频域特征数据1,提取负样本数据中的频域特征数据2。
本实施例中,假设王者荣耀应用的正样本数据和负样本数据中均包括7种类型的目标应用性能指标参数,具体如下:CPU、PSS、FPS、TCP_rx、TCP_tx、UDP_rx、UDP_tx。提取正样本数据中的频域特征数据1之后,得到正样本数据中的CPU、PSS、FPS、TCP_rx、TCP_tx、UDP_rx、UDP_tx等参数。
对于正样本数据中提取的频域特征数据1,根据用户的反馈时间点(即该正样本数据采集的异常时间点),向前扩3min(180个点)向后扩1min(60个点),从而将正样本数据截取为包含异常点的长为240的定长时间序列1;其次,定长滑窗:采用固定窗口以3为步长,将时间序列1采样成40条长度为120的子序列;然后,FFT频域特征提取:对每条子序列采用FFT提取频域特征;最后,进行频域特征图&归一化处理:将所有频域特征拼接成一个频域特征图,并对频域特征图采用min-max归一化至[0,1]之间。
本实施例中,提取负样本数据中的频域特征之后,得到的频域特征数据2,得到负样本数据中的CPU、PSS、FPS、TCP_rx、TCP_tx、UDP_rx、UDP_tx等参数。
对于负样本数据(fps>=20的无反馈数据),在整个时域中随机截取长度为240的时间序列2。同样的,采用定长滑窗的方式:采用固定窗口以3为步长,将时间序列2采样成40条长度为120的子序列;然后,FFT频域特征提取:对每条子序列采用FFT提取频域特征;最后,进行频域特征图&归一化处理:将所有频域特征拼接成一个频域特征图,并对频域特征图采用min-max归一化至[0,1]之间。
903、将频域特征数据1和频域特征数据2,组成样本数据集合。
904、获取样本数据集合中每个频域特征数据对应的数据真实值。
905、分别将样本数据集合中频域特征数据输入到预设的CNN网络模型,以获取每个频域特征数据对应的数据检测值。
906、对数据检测值和数据真实值进行收敛,得到异常识别网络模型。
由于预设的神经网络模型为CNN网络模型,此时异常识别网络模型也是CNN结构的网络模型,同时由于异常识别网络模型的输入为频域特征数据,因此可以异常检测效果更准确,检测效率更高。
907、根据异常识别网络模型,对获取王者荣耀应用的应用数据进行异常识别。
其中,根据异常识别网络模型,对获取王者荣耀应用的应用数据进行异常识别可以具体包括:获取终端反馈的王者荣耀应用的应用数据;提取应用数据中的应用性能指标数据(如上述步骤902中描述的7种应用性能指标);将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果,根据异常识别结果,确定应用数据中应用性能指标是否异常。
本发明实施例中通过提取王者荣耀应用的应用数据中的应用性能指标数据,输入异常识别网络模型进行异常分类识别,判断应用数据中应用性能指标是否存在异常,使得识别检测王者荣耀应用的应用数据的效率大大提升,并提高了异常识别的准确度,有效避免了异常数据错判的现象。
为便于更好的实施本发明实施例提供的数据异常识别方法,本发明实施例还提供一种基于上述数据异常识别方法的装置。其中名词的含义与上述数据异常识别方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图10,图10为本发明实施例提供的数据异常识别装置的结构示意图,该数据异常识别装置1000可以包括获取单元1001、提取单元1002、输入单元1003、分类单元1004和确定单元1005,其中:
获取单元1001,用于获取终端反馈的目标应用的应用数据;
提取单元1002,用于提取应用数据中的应用性能指标数据;
输入单元1003,用于将应用性能指标数据,输入异常识别网络模型;
分类单元1004,用于根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;
确定单元1005,用于根据异常识别结果,确定应用数据中应用性能指标是否异常。
在本申请一些实施例中,该提取单元1002具体用于:
提取应用数据中目标应用性能指标的频域特征,得到应用性能指标数据。
在本申请一些实施例中,该提取单元1002具体用于:
获取采样应用数据的采样时间点;
根据采样时间点,在应用数据中截取第一时间序列;
在第一时间序列中提取目标应用性能指标的频域特征,得到应用性能指标数据。
在本申请一些实施例中,该提取单元1002具体用于:
根据采样时间点,向前扩第一时间长度,确定第一时间点;
根据采样时间点,向后扩第二时间长度,确定第二时间点;
截取应用数据中,第一时间点和第二时间点之间的时间序列,作为第一时间序列。
在本申请一些实施例中,该提取单元1002具体用于:
对第一时间序列进行采样,获取预设长度的多个子序列;
对多个子序列分别提取目标应用性能指标的频域特征,得到多个频域特征;
将多个频域特征拼接成频域特征图;
对频域特征图进行归一化处理,得到应用性能指标数据。
在本申请一些实施例中,该提取单元1002具体用于:
在应用数据中随机截取第二时间序列;
提取第二时间序列中目标应用性能指标的频域特征,得到应用性能指标数据。
在本申请一些实施例中,所述装置还包括训练单元,该训练单元具体用于:
在将应用性能指标数据,输入异常识别网络模型之前,采集目标应用的样本数据;
提取样本数据中的应用性能指标数据;
根据应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型。
在本申请一些实施例中,应用的样本数据包括应用的正样本数据和负样本数据;
训练单元具体用于:提取正样本数据中目标应用性能指标的第一应用性能指标数据,提取负样本数据中目标应用性能指标的第二应用性能指标数据;根据第一应用性能指标数据和第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型。
在本申请一些实施例中,训练单元具体用于:提取正样本数据中目标应用性能指标的频域特征,得到第一应用性能指标数据;提取负样本数据中目标应用性能指标的频域特征,得到第二应用性能指标数据。
在本申请一些实施例中,训练单元具体用于:
将第一应用性能指标数据和第二应用性能指标数据,组成样本数据集合;
获取样本数据集合中每个应用性能指标数据对应的数据真实值;
分别将样本数据集合中应用性能指标数据输入到预设的神经网络模型,以获取每个应用性能指标数据对应的数据检测值;
对数据检测值和数据真实值进行收敛,得到异常识别网络模型。
在本申请一些实施例中,目标应用性能指标包括应用标志参数、CPU使用率、GPU使用率、实际使用的物理内存、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量中至少两种。
在本申请一些实施例中,所述装置还包括统计单元,统计单元具体用于:
获取预设时间区间内不同终端反馈的应用数据的异常识别结果集合;
统计异常识别结果集合中,异常识别结果为应用性能指标异常的终端数量;
计算终端数量,占所述预设时间区间内反馈应用数据的终端总数量的比例;
当该比例超过预设阈值时,生成分析报告或/且发出预警提示。
在本申请一些实施例中,正样本数据为应用的异常使用数据;训练单元具体用于:
获取采样每个正样本数据的异常时间点;
根据异常时间点,在正样本数据中截取第三时间序列;
在第三时间序列中提取目标应用性能指标的频域特征,得到第一应用性能指标数据。
在本申请一些实施例中,训练单元具体用于:
根据异常时间点,向前扩第一时间长度,确定第三时间点;
根据异常时间点,向后扩第二时间长度,确定第四时间点;
截取正样本数据中,第三时间点和第四时间点之间的时间序列,作为第三时间序列。
在本申请一些实施例中,训练单元具体用于:
对第三时间序列进行采样,获取预设长度的多个子序列;
对多个子序列分别提取目标应用性能指标的频域特征,得到多个频域特征;
将多个频域特征拼接成频域特征图;
对频域特征图进行归一化处理,得到第一应用性能指标数据。
在本申请一些实施例中,负样本数据为应用的正常使用数据,训练单元具体用于:
在每个负样本数据中随机截取第四时间序列;
提取第四时间序列中目标应用性能指标的频域特征,得到第二应用性能指标数据。
本发明实施例中还提供一种服务器,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取终端反馈的目标应用的应用数据;
提取应用数据中的应用性能指标数据;
将应用性能指标数据,输入异常识别网络模型;
根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;
根据异常识别结果,确定应用数据中应用性能指标是否异常。
具体的,本发明实施例还提供一种服务器,如图11所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器1101、一个或一个以上计算机可读存储介质的存储器1102、电源1103和输入单元1104等部件。本领域技术人员可以理解,图11中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1101是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器1102内的软件程序和/或模块,以及调用存储在存储器1102内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器1101可包括一个或多个处理核心;优选的,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作存储介质、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。
存储器1102可用于存储软件程序以及模块,处理器1101通过运行存储在存储器1102的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1102可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作存储介质、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1102还可以包括存储器控制器,以提供处理器1101对存储器1102的访问。
服务器还包括给各个部件供电的电源1103,优选的,电源1103可以通过电源管理存储介质与处理器1101逻辑相连,从而通过电源管理存储介质实现管理充电、放电、以及功耗管理等功能。电源1103还可以包括一个或一个以上的直流或交流电源、再充电存储介质、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元1104,该输入单元1104可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器1101会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1102中,并由处理器1101来运行存储在存储器1102中的应用程序,从而实现各种功能,如下:
获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种数据异常识别方法中的步骤。例如,该指令可以执行如下步骤:
获取终端反馈的目标应用的应用数据;提取应用数据中的应用性能指标数据;将应用性能指标数据,输入异常识别网络模型;根据异常识别网络模型对应用性能指标数据进行数据异常分类识别,输出异常识别结果;根据异常识别结果,确定应用数据中应用性能指标是否异常。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种数据异常识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种数据异常识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种数据异常识别方法、装置、服务器和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种数据异常识别方法,其特征在于,所述数据异常识别方法包括:
获取终端反馈的目标应用的应用数据;
提取所述应用数据中的应用性能指标数据,包括:提取所述应用数据中目标应用性能指标的频域特征,得到应用性能指标数据;
将所述应用性能指标数据,输入异常识别网络模型;
根据所述异常识别网络模型对所述应用性能指标数据进行数据异常分类识别,输出异常识别结果;
根据所述异常识别结果,确定所述应用数据中应用性能指标是否异常。
2.根据权利要求1所述的数据异常识别方法,其特征在于,所述提取所述应用数据中目标应用性能指标的频域特征,得到应用性能指标数据,包括:
获取采样所述应用数据的采样时间点;
根据所述采样时间点,在所述应用数据中截取第一时间序列;
在所述第一时间序列中提取所述目标应用性能指标的频域特征,得到应用性能指标数据。
3.根据权利要求2所述的数据异常识别方法,其特征在于,所述根据所述采样时间点,在所述应用数据中截取第一时间序列,包括:
根据所述采样时间点,向前扩第一时间长度,确定第一时间点;
根据所述采样时间点,向后扩第二时间长度,确定第二时间点;
截取所述应用数据中,所述第一时间点和所述第二时间点之间的时间序列,作为第一时间序列。
4.根据权利要求2所述的数据异常识别方法,其特征在于,所述在所述第一时间序列中提取所述目标应用性能指标的频域特征,得到应用性能指标数据,包括:
对所述第一时间序列进行采样,获取预设长度的多个子序列;
对所述多个子序列分别提取所述目标应用性能指标的频域特征,得到多个频域特征;
将所述多个频域特征拼接成频域特征图;
对所述频域特征图进行归一化处理,得到所述应用性能指标数据。
5.根据权利要求1所述的数据异常识别方法,其特征在于,所述提取所述应用数据中的目标应用性能指标的频域特征,得到应用性能指标数据,包括:
在所述应用数据中随机截取第二时间序列;
提取所述第二时间序列中所述目标应用性能指标的频域特征,得到应用性能指标数据。
6.根据权利要求1所述的数据异常识别方法,其特征在于,在将所述应用性能指标数据,输入异常识别网络模型之前,所述方法还包括:
采集所述目标应用的样本数据;
提取所述样本数据中的应用性能指标数据;
根据所述应用性能指标数据,训练预设的神经网络模型,得到所述异常识别网络模型。
7.根据权利要求6所述的数据异常识别方法,其特征在于,所述目标应用的样本数据包括目标应用的正样本数据和负样本数据;
所述提取所述样本数据中的应用性能指标数据,包括:提取所述正样本数据中目标应用性能指标的第一应用性能指标数据,提取所述负样本数据中目标应用性能指标的第二应用性能指标数据;
所述根据所述应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型,包括:根据所述第一应用性能指标数据和所述第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型。
8.根据权利要求7所述的数据异常识别方法,其特征在于,所述提取所述正样本数据中目标应用性能指标的第一应用性能指标数据,提取所述负样本数据中目标应用性能指标的第二应用性能指标数据,包括:
提取所述正样本数据中目标应用性能指标的频域特征,得到第一应用性能指标数据;
提取所述负样本数据中目标应用性能指标的频域特征,得到第二应用性能指标数据。
9.根据权利要求7所述的数据异常识别方法,其特征在于,所述根据所述第一应用性能指标数据和所述第二应用性能指标数据,训练预设的神经网络模型,得到异常识别网络模型,包括:
将所述第一应用性能指标数据和所述第二应用性能指标数据,组成样本数据集合;
获取所述样本数据集合中每个应用性能指标数据对应的数据真实值;
分别将所述样本数据集合中应用性能指标数据输入到预设的神经网络模型,以获取每个应用性能指标数据对应的数据检测值;
对所述数据检测值和所述数据真实值进行收敛,得到所述异常识别网络模型。
10.根据权利要求7至9中任一所述的数据异常识别方法,其特征在于,所述目标应用性能指标包括应用标志参数、CPU使用率、GPU使用率、实际使用的物理内存、TCP接收流量、TCP发送流量、UDP接收流量和UDP发送流量中至少两种。
11.根据权利要求1至9中任一所述的数据异常识别方法,其特征在于,所述方法还包括:
获取预设时间区间内不同终端反馈的应用数据的异常识别结果集合;
统计所述异常识别结果集合中,异常识别结果为应用性能指标异常的终端数量;
计算所述终端数量,占所述预设时间区间内反馈应用数据的终端总数量的比例;
当所述比例超过预设阈值时,生成分析报告或/且发出预警提示。
12.一种数据异常识别装置,其特征在于,所述数据异常识别装置包括:
获取单元,用于获取终端反馈的目标应用的应用数据;
提取单元,用于提取所述应用数据中的应用性能指标数据,所述提取单元还具体用于:提取所述应用数据中目标应用性能指标的频域特征,得到应用性能指标数据;
输入单元,用于将所述应用性能指标数据,输入异常识别网络模型;
分类单元,用于根据所述异常识别网络模型对所述应用性能指标数据进行数据异常分类识别,输出异常识别结果;
确定单元,用于根据所述异常识别结果,确定所述应用数据中应用性能指标是否异常。
13.一种服务器,其特征在于,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取终端反馈的目标应用的应用数据;
提取所述应用数据中的应用性能指标数据,包括:提取所述应用数据中目标应用性能指标的频域特征,得到应用性能指标数据;
将所述应用性能指标数据,输入异常识别网络模型;
根据所述异常识别网络模型对所述应用性能指标数据进行数据异常分类识别,输出异常识别结果;
根据所述异常识别结果,确定所述应用数据中应用性能指标是否异常。
14.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11中任一项所述的数据异常识别方法中的步骤。
CN201910537152.8A 2019-06-20 2019-06-20 数据异常识别方法、装置、服务器和存储介质 Active CN112114986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537152.8A CN112114986B (zh) 2019-06-20 2019-06-20 数据异常识别方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537152.8A CN112114986B (zh) 2019-06-20 2019-06-20 数据异常识别方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN112114986A CN112114986A (zh) 2020-12-22
CN112114986B true CN112114986B (zh) 2023-10-13

Family

ID=73795964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537152.8A Active CN112114986B (zh) 2019-06-20 2019-06-20 数据异常识别方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN112114986B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925797A (zh) * 2020-10-10 2021-06-08 陈夏焱 基于人工智能和大数据的异常行为检测方法及***
CN113094284A (zh) * 2021-04-30 2021-07-09 中国工商银行股份有限公司 应用故障检测方法及装置
CN113448806B (zh) * 2021-06-30 2022-12-09 平安证券股份有限公司 数据库集群异常检测方法、装置、终端设备及存储介质
CN115438102B (zh) * 2022-11-09 2023-03-24 成都新希望金融信息有限公司 时空数据异常识别方法、装置和电子设备
CN115781136B (zh) * 2023-02-03 2023-04-25 苏芯物联技术(南京)有限公司 一种焊接热输入异常智能识别及优化反馈方法
CN117196651B (zh) * 2023-08-09 2024-05-03 首都经济贸易大学 基于数据异步处理的企业异常监控方法、装置及存储介质
CN116743637B (zh) * 2023-08-15 2023-11-21 中移(苏州)软件技术有限公司 一种异常流量的检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256661A1 (en) * 2004-05-13 2005-11-17 Johnson Controls Technology Company Method of and apparatus for evaluating the performance of a control system
US20080195369A1 (en) * 2007-02-13 2008-08-14 Duyanovich Linda M Diagnostic system and method
CN101384054A (zh) * 2007-09-04 2009-03-11 中兴通讯股份有限公司 一种通过性能数据监测网络异常情况的方法
CN102006614A (zh) * 2010-11-19 2011-04-06 暨南大学 一种移动核心网异常数据线性判别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256661A1 (en) * 2004-05-13 2005-11-17 Johnson Controls Technology Company Method of and apparatus for evaluating the performance of a control system
US20080195369A1 (en) * 2007-02-13 2008-08-14 Duyanovich Linda M Diagnostic system and method
CN101384054A (zh) * 2007-09-04 2009-03-11 中兴通讯股份有限公司 一种通过性能数据监测网络异常情况的方法
CN102006614A (zh) * 2010-11-19 2011-04-06 暨南大学 一种移动核心网异常数据线性判别方法

Also Published As

Publication number Publication date
CN112114986A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN112114986B (zh) 数据异常识别方法、装置、服务器和存储介质
CN111177095B (zh) 日志分析方法、装置、计算机设备及存储介质
CN106940679B (zh) 数据处理方法及装置
CN107729210B (zh) 分布式服务集群的异常诊断方法和装置
CN110851321B (zh) 一种业务告警方法、设备及存储介质
CN110008343A (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN108230016B (zh) 一种农产品市场价格传递分析方法及分析装置
CN111930526B (zh) 负载预测方法、装置、计算机设备和存储介质
CN103746829A (zh) 一种基于集群的故障感知***及其方法
WO2019209503A1 (en) Unsupervised anomaly detection for identifying anomalies in data
CN107579858A (zh) 云主机的告警方法及装置、通信***
Hanbanchong et al. SARIMA based network bandwidth anomaly detection
CN112948223A (zh) 一种监测运行情况的方法和装置
CN110796591A (zh) 一种gpu卡的使用方法及相关设备
CN110414591A (zh) 一种数据处理方法以及设备
CN112052399A (zh) 一种数据处理方法、装置和计算机可读存储介质
CN114756301B (zh) 日志处理方法、装置和***
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
JP2021502789A5 (zh)
CN114969333A (zh) 基于数据挖掘的网络信息安全管理方法及装置
CN114443904A (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
CN112312590A (zh) 一种设备通信协议识别方法和装置
CN105897503A (zh) 基于资源信息增益的Hadoop集群瓶颈检测算法
CN107566187B (zh) 一种sla违例监测方法、装置和***
CN114915434A (zh) 一种网络代理检测方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035735

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant