CN110491106A - 基于知识图谱的数据预警方法、装置和计算机设备 - Google Patents
基于知识图谱的数据预警方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN110491106A CN110491106A CN201910661958.8A CN201910661958A CN110491106A CN 110491106 A CN110491106 A CN 110491106A CN 201910661958 A CN201910661958 A CN 201910661958A CN 110491106 A CN110491106 A CN 110491106A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- function
- preset
- accounting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B29/00—Checking or monitoring of signalling or alarm systems; Prevention or correction of operating errors, e.g. preventing unauthorised operation
- G08B29/18—Prevention or correction of operating errors
- G08B29/185—Signal analysis techniques for reducing or preventing false alarms or for enhancing the reliability of the system
- G08B29/188—Data fusion; cooperative systems, e.g. voting among different detectors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请揭示了一种基于知识图谱的数据预警方法、装置、计算机设备和存储介质,所述方法包括:生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)‑f(t),获取函数H(t);获取函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并计算出所述正常数据时间占比;若所述正常数据时间占比大于预设占比阈值,则从包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取关联成员的第二数据,并判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。从而实现了提高预警的准确性。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于知识图谱的数据预警方法、装置、计算机设备和存储介质。
背景技术
当今社会中的方方面面大多具有预警的需要,如何得到准确的预警结果是人们所追求却又难以实现的。传统技术一般只能对一个主体的数据进行收集、分析,并得出是否需要预警的结论。然而现实生产生活中,主体并不是孤立的,一个主体会受到有强烈关联关系的主体的影响,因此仅分析单个主体的数据进行预警分析,得出的预警结论并不准确。因此传统技术缺乏综合性地准确预警方案。
发明内容
本申请的主要目的为提供一种基于知识图谱的数据预警方法、装置、计算机设备和存储介质,旨在提高预警的准确性。
为了实现上述发明目的,本申请提出一种基于知识图谱的数据预警方法,包括以下步骤:
采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;
获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;
判断所述正常数据时间占比是否大于预设占比阈值;
若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;
获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;
若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
进一步地,所述采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理的步骤,包括:
采用Python语言的Scrapy框架,在预设网站中爬取指定成员的第一数据;
将所述第一数据的数值组成指定数值组,并采用预设的公式:计算所述指定数值组中第m个数值的总体方差其中N为所述指定数值组中的数值的总数,Am为所述指定数值组的第m个数值,B为所述指定数值组的平均值;
判断所述总体方差是否均小于预设的方差阈值;
若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值对应的第一数据作为噪音并进行去除处理。
进一步地,所述根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值的步骤之前,包括:
获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;
根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;
若所述时间数值L大于预设的时间阈值,则生成函数H(t)获取指令。
进一步地,所述根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0的步骤之前,包括:
从预设的数据库中获取与所述第一数据的类型相同的历史数据,其中所述历史数据中记载了危险数据阈值,所述危险数据阈值指将所述历史数据划分为正常数据与异常数据的分界线;
将所述参数值p的数值设置为所述危险数据阈值。
进一步地,所述若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员的步骤之前,包括:
采用预设的知识图谱构建工具从预先收集的指定信息中识别出初始实体,其中所述指定信息至少记载了所述指定成员,所述初始实体至少包括所述指定成员;
对所述初始实体进行去重处理,从而获取最终实体;
从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。
进一步地,所述获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常的步骤,包括:
获取所述关联成员的第二数据,并从所述第二数据中提取最大数值与最小数值;
判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;
若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。
进一步地,所述若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据的步骤,包括:
若所述第二数据异常,则根据所述包括所述指定成员的知识图谱的知识节点相互影响关系,获取所述第二数据对所述指定成员的影响趋势;
生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。
本申请提供一种基于知识图谱的数据预警装置,包括:
第一数据函数生成单元,用于采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
函数H(t)生成单元,用于根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;
正常数据时间占比获取单元,用于获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;
预设占比阈值判断单元,用于判断所述正常数据时间占比是否大于预设占比阈值;
知识图谱调取单元,用于若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;
第二数据判断单元,用于获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;
预警信息生成单元,用于若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于知识图谱的数据预警方法、装置、计算机设备和存储介质,生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t);获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。从而实现了提高预警的准确性。
附图说明
图1为本申请一实施例的基于知识图谱的数据预警方法的流程示意图;
图2为本申请一实施例的基于知识图谱的数据预警装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于知识图谱的数据预警方法,包括以下步骤:
S1、采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
S2、根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;
S3、获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;
S4、判断所述正常数据时间占比是否大于预设占比阈值;
S5、若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;
S6、获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;
S7、若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
如上述步骤S1所述,采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数。其中所述第一数据可以通过互联网,移动互联网,物联网获取,可对包括图片、视频、文字信息在内的数据进行处理以获得,可以采用开源的Storm(一种分布式的、容错的实时计算***)进行数据处理,也可以采用Python语言的Scrapy框架,在预设网站中爬取,从而得到指定成员的第一数据。其中第一数据可为任意形式的数据,例如为流量数据,金融数据等等。并进行降噪处理,以保证数据更准确。并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数,用以后续分析第一数据是否异常。
如上述步骤S2所述,根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值。从而根据公式获取函数H(t),用以表征第一数据函数与标准数据随时间变化的函数的贴合程度。若第一数据函数与标准数据随时间变化的函数的贴合程度小,表明所述第一数据正常,反之,所述第一数据异常。
如上述步骤S3所述,获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比。其中,当函数H(t)取值为m时,表示第一数据的数值过大,处于异常状态;当函数H(t)取值不为m时,表示第一数据正常,处于正常状态,据此计算出正常数据时间占比。从而可以通过正常数据时间占比判断所述第一数据是否处于异常状态。
如上述步骤S4所述,判断所述正常数据时间占比是否大于预设占比阈值。若所述正常数据时间占比大于预设占比阈值,表明所述第一数据总体上正常的,从而判定所述第一数据正常;若所述正常数据时间占比不大于预设占比阈值,则表明所述第一数据总体上异常的,从而判定所述第一数据异常。
如上述步骤S5所述,若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员。若所述正常数据时间占比大于预设占比阈值,表明所述第一数据正常。但是为了更准确地分析数据,得到准确的预警结论,本申请还对关联成员的数据进行了分析。其中,预设的知识图谱库中预存有多个知识图谱。所述知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,由多个知识节点(或称之知识主体、主体)以及知识节点间的相互关系构成。据此,从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员。其中关联成员与指定成员、知识图谱相关,例如,当指定成员为服务器集群中的一个服务器时,关联成员例如为与所述服务器建立直接联系的数据库服务器等;当指定成员为自然人主体时,所述关联成员例如为该自然人主体的直系亲属。
如上述步骤S6所述,获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常。其中所述关联成员的第二数据可以通过任意方式获得,例如通过数据采集技术从网络中获取,也可以从数据库中直接调取。预设的数据异常判断算法可以与前述判断第一数据是否异常的方法相同,也可以为其他的判断方法,例如:从所述第二数据中提取最大数值与最小数值;判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据是否正常。从而判断所述第二数据是否异常。
如上述步骤S7所述,若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。若所述第二数据异常,虽然第一数据处于正常状态,但是由于关联成员的第二数据可能影响指定成员。因此仍然生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
在一个实施方式中,所述采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理的步骤S1,包括:
S101、采用Python语言的Scrapy框架,在预设网站中爬取指定成员的第一数据;
S102、将所述第一数据的数值组成指定数值组,并采用预设的公式:计算所述指定数值组中第m个数值的总体方差其中N为所述指定数值组中的数值的总数,Am为所述指定数值组的第m个数值,B为所述指定数值组的平均值;
S103、判断所述总体方差是否均小于预设的方差阈值;
S104、若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值对应的第一数据作为噪音并进行去除处理。
如上所述,实现了使用预设的降噪算法进行降噪处理,从而获得指定数据。其中采用预设的数据采集技术获取指定成员的第一数据包括,采用Python语言的Scrapy框架在预设网站中进行爬取信息,其中所述Python语言的Scrapy框架主要包括:引擎、调度器、下载器、爬虫、项目管道、下载器中间件、爬虫中间件、调度中间件等。具体爬取过程包括:引擎从调度器中取出一个链接用于接下来的抓取;引擎把链接封装成一个请求传给下载器;下载器把资源下载下来;爬虫解析出实体,交给实体管道进行进一步的处理。由于爬取的数值中可能存在不准确数据,本申请采用预设的公式:计算所述指定数值组中第m个数据的总体方差判断所述总体方差是否均小于预设的方差阈值;若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值的第一数据作为噪音并进行去除处理。从而避免噪音数据带来的数据处理失准的问题。
在一个实施方式中,所述根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值的步骤S2之前,包括:
S11、获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;
S12、根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;
S13、若所述时间数值L大于预设的时间阈值,则生成函数H(t)获取指令。
如上所述,实现了生成函数H(t)获取指令。为了减少计算消耗,本申请还采用预先处理的方式,提前判断所述第一数据是否正常,并在判断出所述第一数据可能异常的情况下,生成函数H(t)获取指令。具体地,获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;若所述时间数值L大于预设的时间阈值,则表示所述第一数据可能异常,据此生成函数H(t)获取指令。
在一个实施方式中,所述根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0的步骤S12之前,包括:
S111、从预设的数据库中获取与所述第一数据的类型相同的历史数据,其中所述历史数据中记载了危险数据阈值,所述危险数据阈值指将所述历史数据划分为正常数据与异常数据的分界线;
S112、将所述参数值p的数值设置为所述危险数据阈值。
如上所述,实现了将所述参数值p的数值设置为所述危险数据阈值。其中所述参数值p用于衡量所述第一数据是否存在异常的嫌疑。由于与所述第一数据的类型相同的历史数据已经得出准确的结论,包括在历史数据中的危险情数据阈值的具体数值,因此本申请还采用再次利用历史数据的方式,既使数据得到充分利用,更通过将所述参数值p的数值设置为所述危险数据阈值的方式,使所述参数值p的设置更有依据,更准确。
在一个实施方式中,所述若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员的步骤S5之前,包括:
S41、采用预设的知识图谱构建工具从预先收集的指定信息中识别出初始实体,其中所述指定信息至少记载了所述指定成员,所述初始实体至少包括所述指定成员;
S42、对所述初始实体进行去重处理,从而获取最终实体;
S43、从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。
如上所述,实现了构建所述包括所述指定成员的知识图谱。其中预设的知识图谱构建工具可以为任意工具,任如为现有的SPSS、Sci2 Tools、Ucinet NetDraw、Pajek、VOSviewer等等,由于上述工具是现有的知识图谱构建工具,因此不再赘述。其中所述实体即是知识图谱中的知识节点,初始实体指未经过去重处理的知识节点。识别出初始实体的过程例如为:对指定信息进行分词处理,从而获得由多个词构成的词序列,将所述词序列输入预设的语句结构模型,从而在所述词序列中获取初始实体。再对所述初始实体进行去重处理,从而获取最终实体。去重处理的过程例如为:对所有初始实体进行同义词判断,将属于同一同义词组的初始实体替换为所述同义词组中的一个词汇。再从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。其中三元组例如指两个实体之间的关系。其中,所述从所述指定信息中提取出最终实体之间的关系的方法例如:将所述指定信息套入预设的语句结构,从而通过所述语句结构将表述多个实体间的关系的词汇提取出来。
在一个实施方式中,所述获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常的步骤S6,包括:
S601、获取所述关联成员的第二数据,并从所述第二数据中提取最大数值与最小数值;
S602、判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;
S603、若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。
如上所述,实现了根据预设的数据异常判断算法,判断所述第二数据是否异常。本申请采用从所述第二数据中提取最大数值与最小数值,判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内的方式判断所述第二数据是否异常。其中,由于第二数据(例如流量数量)是随着时间波动变化的,一般具有周期性,因此第二数据的最大值与最小值应分别出现在第一预设时间范围之内和第二预设时间范围之内。因此,若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。若所述最大数值出现的时间点不在第一预设时间范围之内,或者所述最小数值出现的时间点不在第二预设时间范围之内,则判定所述第二数据异常。进一步地,在不考虑计算资源耗费的情况下,所述判断所述第二数据是否异常的方法还可以与判断所述第一数据是否异常的方法相同。
在一个实施方式中,所述若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据的步骤S7,包括:
S701、若所述第二数据异常,则根据所述包括所述指定成员的知识图谱的知识节点相互影响关系,获取所述第二数据对所述指定成员的影响趋势;
S702、生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。
如上所述,实现了在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。由于前述的知识图谱不仅包括了指定成员与关联成员,还包括了指定成员与关联成员的相互影响关系。据此,生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。进一步地,在所述知识图谱中记录有所述关联成员对所述指定成员的影响公式,则根据所述影响公式,获取所述关联成员的第二数据对所述指定成员的影响数值,并在所述预警信息中附上所述影响数值。
本申请的基于知识图谱的数据预警方法,生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t);获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。从而实现了提高预警的准确性。
参照图2,本申请实施例提供一种基于知识图谱的数据预警装置,包括:
第一数据函数生成单元10,用于采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
函数H(t)生成单元20,用于根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;
正常数据时间占比获取单元30,用于获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;
预设占比阈值判断单元40,用于判断所述正常数据时间占比是否大于预设占比阈值;
知识图谱调取单元50,用于若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;
第二数据判断单元60,用于获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;
预警信息生成单元70,用于若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
如上述单元10所述,采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数。其中所述第一数据可以通过互联网,移动互联网,物联网获取,可对包括图片、视频、文字信息在内的数据进行处理以获得,可以采用开源的Storm(一种分布式的、容错的实时计算***)进行数据处理,也可以采用Python语言的Scrapy框架,在预设网站中爬取,从而得到指定成员的第一数据。其中第一数据可为任意形式的数据,例如为流量数据,金融数据等等。并进行降噪处理,以保证数据更准确。并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数,用以后续分析第一数据是否异常。
如上述单元20所述,根据公式:
H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值。从而根据公式获取函数H(t),用以表征第一数据函数与标准数据随时间变化的函数的贴合程度。若第一数据函数与标准数据随时间变化的函数的贴合程度小,表明所述第一数据正常,反之,所述第一数据异常。
如上述单元30所述,获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比。其中,当函数H(t)取值为m时,表示第一数据的数值过大,处于异常状态;当函数H(t)取值不为m时,表示第一数据正常,处于正常状态,据此计算出正常数据时间占比。从而可以通过正常数据时间占比判断所述第一数据是否处于异常状态。
如上述单元40所述,判断所述正常数据时间占比是否大于预设占比阈值。若所述正常数据时间占比大于预设占比阈值,表明所述第一数据总体上正常的,从而判定所述第一数据正常;若所述正常数据时间占比不大于预设占比阈值,则表明所述第一数据总体上异常的,从而判定所述第一数据异常。
如上述单元50所述,若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员。若所述正常数据时间占比大于预设占比阈值,表明所述第一数据正常。但是为了更准确地分析数据,得到准确的预警结论,本申请还对关联成员的数据进行了分析。其中,预设的知识图谱库中预存有多个知识图谱。所述知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,由多个知识节点(或称之知识主体、主体)以及知识节点间的相互关系构成。据此,从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员。其中关联成员与指定成员、知识图谱相关,例如,当指定成员为服务器集群中的一个服务器时,关联成员例如为与所述服务器建立直接联系的数据库服务器等;当指定成员为自然人主体时,所述关联成员例如为该自然人主体的直系亲属。
如上述单元60所述,获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常。其中所述关联成员的第二数据可以通过任意方式获得,例如通过数据采集技术从网络中获取,也可以从数据库中直接调取。预设的数据异常判断算法可以与前述判断第一数据是否异常的方法相同,也可以为其他的判断方法,例如:从所述第二数据中提取最大数值与最小数值;判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据是否正常。从而判断所述第二数据是否异常。
如上述单元70所述,若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。若所述第二数据异常,虽然第一数据处于正常状态,但是由于关联成员的第二数据可能影响指定成员。因此仍然生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
在一个实施方式中,所述第一数据函数生成单元,包括:
第一数据爬取子单元,用于采用Python语言的Scrapy框架,在预设网站中爬取指定成员的第一数据;
方差计算子单元,用于将所述第一数据的数值组成指定数值组,并采用预设的公式:计算所述指定数值组中第m个数值的总体方差其中N为所述指定数值组中的数值的总数,Am为所述指定数值组的第m个数值,B为所述指定数值组的平均值;
方差阈值判断子单元,用于判断所述总体方差是否均小于预设的方差阈值;
去噪子单元,用于若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值对应的第一数据作为噪音并进行去除处理。
如上所述,实现了使用预设的降噪算法进行降噪处理,从而获得指定数据。其中采用预设的数据采集技术获取指定成员的第一数据包括,采用Python语言的Scrapy框架在预设网站中进行爬取信息,其中所述Python语言的Scrapy框架主要包括:引擎、调度器、下载器、爬虫、项目管道、下载器中间件、爬虫中间件、调度中间件等。具体爬取过程包括:引擎从调度器中取出一个链接用于接下来的抓取;引擎把链接封装成一个请求传给下载器;下载器把资源下载下来;爬虫解析出实体,交给实体管道进行进一步的处理。由于爬取的数值中可能存在不准确数据,本申请采用预设的公式:计算所述指定数值组中第m个数据的总体方差判断所述总体方差是否均小于预设的方差阈值;若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值的第一数据作为噪音并进行去除处理。从而避免噪音数据带来的数据处理失准的问题。
在一个实施方式中,所述装置,包括:
反函数获取单元,用于获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;
时间数值L计算单元,用于根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;
生成函数H(t)获取指令单元,用于若所述时间数值L大于预设的时间阈值,则生成函数H(t)获取指令。
如上所述,实现了生成函数H(t)获取指令。为了减少计算消耗,本申请还采用预先处理的方式,提前判断所述第一数据是否正常,并在判断出所述第一数据可能异常的情况下,生成函数H(t)获取指令。具体地,获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;若所述时间数值L大于预设的时间阈值,则表示所述第一数据可能异常,据此生成函数H(t)获取指令。
在一个实施方式中,所述装置,包括:
历史数据获取单元,用于从预设的数据库中获取与所述第一数据的类型相同的历史数据,其中所述历史数据中记载了危险数据阈值,所述危险数据阈值指将所述历史数据划分为正常数据与异常数据的分界线;
参数值设置单元,用于将所述参数值p的数值设置为所述危险数据阈值。
如上所述,实现了将所述参数值p的数值设置为所述危险数据阈值。其中所述参数值p用于衡量所述第一数据是否存在异常的嫌疑。由于与所述第一数据的类型相同的历史数据已经得出准确的结论,包括在历史数据中的危险情数据阈值的具体数值,因此本申请还采用再次利用历史数据的方式,既使数据得到充分利用,更通过将所述参数值p的数值设置为所述危险数据阈值的方式,使所述参数值p的设置更有依据,更准确。
在一个实施方式中,所述装置,包括:
初始实体识别单元,用于采用预设的知识图谱构建工具从预先收集的指定信息中识别出初始实体,其中所述指定信息至少记载了所述指定成员,所述初始实体至少包括所述指定成员;
获取最终实体单元,用于对所述初始实体进行去重处理,从而获取最终实体;
知识图谱生成单元,用于从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。
如上所述,实现了构建所述包括所述指定成员的知识图谱。其中预设的知识图谱构建工具可以为任意工具,任如为现有的SPSS、Sci2 Tools、Ucinet NetDraw、Pajek、VOSviewer等等,由于上述工具是现有的知识图谱构建工具,因此不再赘述。其中所述实体即是知识图谱中的知识节点,初始实体指未经过去重处理的知识节点。识别出初始实体的过程例如为:对指定信息进行分词处理,从而获得由多个词构成的词序列,将所述词序列输入预设的语句结构模型,从而在所述词序列中获取初始实体。再对所述初始实体进行去重处理,从而获取最终实体。去重处理的过程例如为:对所有初始实体进行同义词判断,将属于同一同义词组的初始实体替换为所述同义词组中的一个词汇。再从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。其中三元组例如指两个实体之间的关系。其中,所述从所述指定信息中提取出最终实体之间的关系的方法例如:将所述指定信息套入预设的语句结构,从而通过所述语句结构将表述多个实体间的关系的词汇提取出来。
在一个实施方式中,所述第二数据判断单元60,包括:
数值提取子单元,用于获取所述关联成员的第二数据,并从所述第二数据中提取最大数值与最小数值;
数值判断子单元,用于判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;
判定第二数据正常子单元,用于若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。
如上所述,实现了根据预设的数据异常判断算法,判断所述第二数据是否异常。本申请采用从所述第二数据中提取最大数值与最小数值,判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内的方式判断所述第二数据是否异常。其中,由于第二数据(例如流量数量)是随着时间波动变化的,一般具有周期性,因此第二数据的最大值与最小值应分别出现在第一预设时间范围之内和第二预设时间范围之内。因此,若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。若所述最大数值出现的时间点不在第一预设时间范围之内,或者所述最小数值出现的时间点不在第二预设时间范围之内,则判定所述第二数据异常。进一步地,在不考虑计算资源耗费的情况下,所述判断所述第二数据是否异常的方法还可以与判断所述第一数据是否异常的方法相同。
在一个实施方式中,所述预警信息生成单元70,包括:
影响趋势获取子单元,用于若所述第二数据异常,则根据所述包括所述指定成员的知识图谱的知识节点相互影响关系,获取所述第二数据对所述指定成员的影响趋势;
生成预警信息子单元,用于生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。
如上所述,实现了在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。由于前述的知识图谱不仅包括了指定成员与关联成员,还包括了指定成员与关联成员的相互影响关系。据此,生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。进一步地,在所述知识图谱中记录有所述关联成员对所述指定成员的影响公式,则根据所述影响公式,获取所述关联成员的第二数据对所述指定成员的影响数值,并在所述预警信息中附上所述影响数值。
本申请的基于知识图谱的数据预警装置,生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t);获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。从而实现了提高预警的准确性。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于知识图谱的数据预警方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的数据预警方法。
上述处理器执行上述基于知识图谱的数据预警方法,包括以下步骤:采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
在一个实施方式中,所述采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理的步骤,包括:采用Python语言的Scrapy框架,在预设网站中爬取指定成员的第一数据;将所述第一数据的数值组成指定数值组,并采用预设的公式:计算所述指定数值组中第m个数值的总体方差其中N为所述指定数值组中的数值的总数,Am为所述指定数值组的第m个数值,B为所述指定数值组的平均值;判断所述总体方差是否均小于预设的方差阈值;若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值对应的第一数据作为噪音并进行去除处理。
在一个实施方式中,所述根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值的步骤之前,包括:获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;若所述时间数值L大于预设的时间阈值,则生成函数H(t)获取指令。
在一个实施方式中,所述根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0的步骤之前,包括:从预设的数据库中获取与所述第一数据的类型相同的历史数据,其中所述历史数据中记载了危险数据阈值,所述危险数据阈值指将所述历史数据划分为正常数据与异常数据的分界线;将所述参数值p的数值设置为所述危险数据阈值。
在一个实施方式中,所述若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员的步骤之前,包括:采用预设的知识图谱构建工具从预先收集的指定信息中识别出初始实体,其中所述指定信息至少记载了所述指定成员,所述初始实体至少包括所述指定成员;对所述初始实体进行去重处理,从而获取最终实体;从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。
在一个实施方式中,所述获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常的步骤,包括:获取所述关联成员的第二数据,并从所述第二数据中提取最大数值与最小数值;判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。
在一个实施方式中,所述若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据的步骤,包括:若所述第二数据异常,则根据所述包括所述指定成员的知识图谱的知识节点相互影响关系,获取所述第二数据对所述指定成员的影响趋势;生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t);获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。从而实现了提高预警的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于知识图谱的数据预警方法,包括以下步骤:采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
在一个实施方式中,所述采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理的步骤,包括:采用Python语言的Scrapy框架,在预设网站中爬取指定成员的第一数据;将所述第一数据的数值组成指定数值组,并采用预设的公式:计算所述指定数值组中第m个数值的总体方差其中N为所述指定数值组中的数值的总数,Am为所述指定数值组的第m个数值,B为所述指定数值组的平均值;判断所述总体方差是否均小于预设的方差阈值;若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值对应的第一数据作为噪音并进行去除处理。
在一个实施方式中,所述根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值的步骤之前,包括:获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;若所述时间数值L大于预设的时间阈值,则生成函数H(t)获取指令。
在一个实施方式中,所述根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0的步骤之前,包括:从预设的数据库中获取与所述第一数据的类型相同的历史数据,其中所述历史数据中记载了危险数据阈值,所述危险数据阈值指将所述历史数据划分为正常数据与异常数据的分界线;将所述参数值p的数值设置为所述危险数据阈值。
在一个实施方式中,所述若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员的步骤之前,包括:采用预设的知识图谱构建工具从预先收集的指定信息中识别出初始实体,其中所述指定信息至少记载了所述指定成员,所述初始实体至少包括所述指定成员;对所述初始实体进行去重处理,从而获取最终实体;从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。
在一个实施方式中,所述获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常的步骤,包括:获取所述关联成员的第二数据,并从所述第二数据中提取最大数值与最小数值;判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。
在一个实施方式中,所述若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据的步骤,包括:若所述第二数据异常,则根据所述包括所述指定成员的知识图谱的知识节点相互影响关系,获取所述第二数据对所述指定成员的影响趋势;生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。
本申请的计算机可读存储介质,生成所述第一数据随时间变化的第一数据函数;根据公式:H(t)=min(G(t),m),其中E(t)=F(t)-f(t),获取函数H(t);获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并计算出所述正常数据时间占比;判断所述正常数据时间占比是否大于预设占比阈值;若所述正常数据时间占比大于预设占比阈值,则从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。从而实现了提高预警的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于知识图谱的数据预警方法,其特征在于,包括:
采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
根据公式:H(t)=min(G(t),m),其中获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;
获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;
判断所述正常数据时间占比是否大于预设占比阈值;
若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;
获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;
若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
2.根据权利要求1所述的基于知识图谱的数据预警方法,其特征在于,所述采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理的步骤,包括:
采用Python语言的Scrapy框架,在预设网站中爬取指定成员的第一数据;
将所述第一数据的数值组成指定数值组,并采用预设的公式:计算所述指定数值组中第m个数值的总体方差其中N为所述指定数值组中的数值的总数,Am为所述指定数值组的第m个数值,B为所述指定数值组的平均值;
判断所述总体方差是否均小于预设的方差阈值;
若所述总体方差不均小于预设的方差阈值,则将所述总体方差不小于预设的方差阈值对应的第一数据作为噪音并进行去除处理。
3.根据权利要求1所述的基于知识图谱的数据预警方法,其特征在于,所述根据公式:
H(t)=min(G(t),m),其中获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值的步骤之前,包括:
获取所述第一数据函数的反函数F-1(y),其中F(t)为第一数据函数,y为所述第一数据;
根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0;
若所述时间数值L大于预设的时间阈值,则生成函数H(t)获取指令。
4.根据权利要求3所述的基于知识图谱的数据预警方法,其特征在于,所述根据公式:计算出时间数值L,并判断所述时间数值L是否大于预设的时间阈值,其中p为预设的参数值,p大于0的步骤之前,包括:
从预设的数据库中获取与所述第一数据的类型相同的历史数据,其中所述历史数据中记载了危险数据阈值,所述危险数据阈值指将所述历史数据划分为正常数据与异常数据的分界线;
将所述参数值p的数值设置为所述危险数据阈值。
5.根据权利要求1所述的基于知识图谱的数据预警方法,其特征在于,所述若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员的步骤之前,包括:
采用预设的知识图谱构建工具从预先收集的指定信息中识别出初始实体,其中所述指定信息至少记载了所述指定成员,所述初始实体至少包括所述指定成员;
对所述初始实体进行去重处理,从而获取最终实体;
从所述指定信息中提取出最终实体之间的关系,从而形成三元组,并依据所述三元组生成所述包括所述指定成员的知识图谱。
6.根据权利要求1所述的基于知识图谱的数据预警方法,其特征在于,所述获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常的步骤,包括:
获取所述关联成员的第二数据,并从所述第二数据中提取最大数值与最小数值;
判断所述最大数值出现的时间点是否在第一预设时间范围之内,以及判断所述最小数值出现的时间点是否在第二预设时间范围之内;
若所述最大数值出现的时间点在第一预设时间范围之内,并且所述最小数值出现的时间点在第二预设时间范围之内,则判定所述第二数据正常。
7.根据权利要求1所述的基于知识图谱的数据预警方法,其特征在于,所述若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据的步骤,包括:
若所述第二数据异常,则根据所述包括所述指定成员的知识图谱的知识节点相互影响关系,获取所述第二数据对所述指定成员的影响趋势;
生成预警信息,并在所述预警信息中附上所述关联成员的第二数据和所述第二数据对所述指定成员的影响趋势。
8.一种基于知识图谱的数据预警装置,其特征在于,包括:
第一数据函数生成单元,用于采用预设的数据采集技术获取指定成员的第一数据,对所述第一数据进行降噪处理,并根据降噪处理后的第一数据生成所述第一数据随时间变化的第一数据函数;
函数H(t)生成单元,用于根据公式:
H(t)=min(G(t),m),其中获取函数H(t),其中F(t)为所述第一数据函数,f(t)为预设的标准数据随时间变化的函数,E(t)为所述第一数据函数与所述标准数据随时间变化的函数的差值函数,为所述差值函数对时间的微分函数,min指最小值函数,t为时间,m为预设的大于0的误差参数值;
正常数据时间占比获取单元,用于获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,并根据公式:正常数据时间占比=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述正常数据时间占比;
预设占比阈值判断单元,用于判断所述正常数据时间占比是否大于预设占比阈值;
知识图谱调取单元,用于若所述正常数据时间占比大于预设占比阈值,则从预设的知识图谱库中调取包括所述指定成员的知识图谱,并从所述包括所述指定成员的知识图谱中获取与所述指定成员有直接连接关系的关联成员;
第二数据判断单元,用于获取所述关联成员的第二数据,并根据预设的数据异常判断算法,判断所述第二数据是否异常;
预警信息生成单元,用于若所述第二数据异常,则生成预警信息,并在所述预警信息中附上所述关联成员的第二数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910661958.8A CN110491106B (zh) | 2019-07-22 | 2019-07-22 | 基于知识图谱的数据预警方法、装置和计算机设备 |
PCT/CN2020/088051 WO2021012745A1 (zh) | 2019-07-22 | 2020-04-30 | 基于知识图谱的数据预警方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910661958.8A CN110491106B (zh) | 2019-07-22 | 2019-07-22 | 基于知识图谱的数据预警方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110491106A true CN110491106A (zh) | 2019-11-22 |
CN110491106B CN110491106B (zh) | 2022-03-18 |
Family
ID=68547864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910661958.8A Active CN110491106B (zh) | 2019-07-22 | 2019-07-22 | 基于知识图谱的数据预警方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110491106B (zh) |
WO (1) | WO2021012745A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737493A (zh) * | 2020-06-23 | 2020-10-02 | 平安科技(深圳)有限公司 | 基于决策树的异常数据源输出方法、装置和计算机设备 |
WO2021012745A1 (zh) * | 2019-07-22 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 基于知识图谱的数据预警方法、装置和计算机设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116366321B (zh) * | 2023-03-23 | 2023-09-12 | 北京惠朗时代科技有限公司 | 一种基于云平台的印控仪安全管控*** |
CN116465104A (zh) * | 2023-06-09 | 2023-07-21 | 山东龙普太阳能股份有限公司 | 基于大数据的太阳能热水器温度监控方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5552787A (en) * | 1995-10-10 | 1996-09-03 | The United States Of America As Represented By The Secretary Of The Navy | Measurement of topography using polarimetric synthetic aperture radar (SAR) |
CN106383999A (zh) * | 2016-09-13 | 2017-02-08 | 北京协力筑成金融信息服务股份有限公司 | 一种多源时序数据的趋势分析方法和装置 |
CN106598822A (zh) * | 2015-10-15 | 2017-04-26 | 华为技术有限公司 | 一种用于容量评估的异常数据检测方法及装置 |
CN106779150A (zh) * | 2016-11-17 | 2017-05-31 | 同济大学 | 一种大规模知识图谱复杂路径查询的视图物化方法 |
CN107092637A (zh) * | 2017-02-16 | 2017-08-25 | 北京小度信息科技有限公司 | 数据处理方法及装置 |
CN108628721A (zh) * | 2018-05-02 | 2018-10-09 | 腾讯科技(上海)有限公司 | 用户数据值的异常检测方法、装置、存储介质及电子装置 |
CN109325129A (zh) * | 2018-06-08 | 2019-02-12 | 浙江捷尚人工智能研究发展有限公司 | 一种知识图谱推理方法、电子设备、存储介质及*** |
CN109558502A (zh) * | 2018-12-18 | 2019-04-02 | 福州大学 | 一种基于知识图谱的城市安全数据检索方法 |
CN109740928A (zh) * | 2018-12-29 | 2019-05-10 | 北京中电普华信息技术有限公司 | 电力咨询业务处理方法和装置 |
CN109767070A (zh) * | 2018-12-14 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 案件分配方法、装置、计算机设备和存储介质 |
CN109840282A (zh) * | 2019-03-01 | 2019-06-04 | 东北大学 | 一种基于模糊理论的知识图谱优化方法 |
CN109918452A (zh) * | 2019-02-14 | 2019-06-21 | 北京明略软件***有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897273B (zh) * | 2017-04-12 | 2018-02-06 | 福州大学 | 一种基于知识图谱的网络安全动态预警方法 |
US10740398B2 (en) * | 2017-11-27 | 2020-08-11 | International Business Machines Corporation | Structuring incoherent nodes by superimposing on a base knowledge graph |
US10762083B2 (en) * | 2017-12-21 | 2020-09-01 | Microsoft Technology Licensing, Llc | Entity- and string-based search using a dynamic knowledge graph |
CN108182245A (zh) * | 2017-12-28 | 2018-06-19 | 北京锐安科技有限公司 | 人对象属性分类知识图谱的构建方法及装置 |
CN110491106B (zh) * | 2019-07-22 | 2022-03-18 | 深圳壹账通智能科技有限公司 | 基于知识图谱的数据预警方法、装置和计算机设备 |
-
2019
- 2019-07-22 CN CN201910661958.8A patent/CN110491106B/zh active Active
-
2020
- 2020-04-30 WO PCT/CN2020/088051 patent/WO2021012745A1/zh active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5552787A (en) * | 1995-10-10 | 1996-09-03 | The United States Of America As Represented By The Secretary Of The Navy | Measurement of topography using polarimetric synthetic aperture radar (SAR) |
CN106598822A (zh) * | 2015-10-15 | 2017-04-26 | 华为技术有限公司 | 一种用于容量评估的异常数据检测方法及装置 |
CN106383999A (zh) * | 2016-09-13 | 2017-02-08 | 北京协力筑成金融信息服务股份有限公司 | 一种多源时序数据的趋势分析方法和装置 |
CN106779150A (zh) * | 2016-11-17 | 2017-05-31 | 同济大学 | 一种大规模知识图谱复杂路径查询的视图物化方法 |
CN107092637A (zh) * | 2017-02-16 | 2017-08-25 | 北京小度信息科技有限公司 | 数据处理方法及装置 |
CN108628721A (zh) * | 2018-05-02 | 2018-10-09 | 腾讯科技(上海)有限公司 | 用户数据值的异常检测方法、装置、存储介质及电子装置 |
CN109325129A (zh) * | 2018-06-08 | 2019-02-12 | 浙江捷尚人工智能研究发展有限公司 | 一种知识图谱推理方法、电子设备、存储介质及*** |
CN109767070A (zh) * | 2018-12-14 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 案件分配方法、装置、计算机设备和存储介质 |
CN109558502A (zh) * | 2018-12-18 | 2019-04-02 | 福州大学 | 一种基于知识图谱的城市安全数据检索方法 |
CN109740928A (zh) * | 2018-12-29 | 2019-05-10 | 北京中电普华信息技术有限公司 | 电力咨询业务处理方法和装置 |
CN109918452A (zh) * | 2019-02-14 | 2019-06-21 | 北京明略软件***有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
CN109840282A (zh) * | 2019-03-01 | 2019-06-04 | 东北大学 | 一种基于模糊理论的知识图谱优化方法 |
Non-Patent Citations (1)
Title |
---|
刘绍华,王曦,孙靖凯: "融合机理模型和功率曲线的故障根因知识图谱研究", 《工程科技》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021012745A1 (zh) * | 2019-07-22 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 基于知识图谱的数据预警方法、装置和计算机设备 |
CN111737493A (zh) * | 2020-06-23 | 2020-10-02 | 平安科技(深圳)有限公司 | 基于决策树的异常数据源输出方法、装置和计算机设备 |
CN111737493B (zh) * | 2020-06-23 | 2023-05-02 | 平安科技(深圳)有限公司 | 基于决策树的异常数据源输出方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110491106B (zh) | 2022-03-18 |
WO2021012745A1 (zh) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491106A (zh) | 基于知识图谱的数据预警方法、装置和计算机设备 | |
JP6577455B2 (ja) | スレッド強度分析を用いた季節的傾向把握および予測によるクラウドサービスにおけるsla違反の予測的診断 | |
Li et al. | Multivariate time series anomaly detection and interpretation using hierarchical inter-metric and temporal embedding | |
US10789054B2 (en) | Methods, systems, apparatuses and devices for facilitating change impact analysis (CIA) using modular program dependency graphs | |
Weiß | The INARCH (1) model for overdispersed time series of counts | |
US11755769B2 (en) | Differentially private query budget refunding | |
US20060173804A1 (en) | Integration of a non-relational query language with a relational data store | |
CN103577529B (zh) | 基于上下文的图形数据库和计算机*** | |
US20170032270A1 (en) | Method for predicting personality trait and device therefor | |
WO2021000061A1 (zh) | 一种基于改进证据融合算法的燃气管网泄露等级判断方法 | |
US20200014660A1 (en) | Rule-based information exchange in internet of things | |
Liu et al. | Enhancing veracity of IoT generated big data in decision making | |
CN110011990A (zh) | 内网安全威胁智能分析方法 | |
CN101986267A (zh) | 一种基于依赖关系约简的需求优先级排序方法及*** | |
CN113282927B (zh) | 恶意代码检测方法、装置、设备及计算机可读存储介质 | |
Al-Shargabi et al. | Quality of context in context-aware systems | |
Ebanks et al. | Leadership Communication and Power: Measuring Leadership in the US House of Representatives from Social Media Data | |
Freitas et al. | Uncertainty identification in context-aware systems using public datasets | |
CN110874469A (zh) | 数据库高危操作检测方法、装置、计算机设备和存储介质 | |
Abarza et al. | Quality Assessment Using Data Ontologies | |
CN111177132A (zh) | 关系型数据的标签清洗方法、装置、设备及存储介质 | |
Buga et al. | Management of accurate profile matching using multi-cloud service interaction | |
CN113822532A (zh) | 信息***资产风险评估方法及其装置和存储介质 | |
Jemth | Edge Computing Targeted Data Profiling for Assessing the Quality of Sensor Data | |
Tanaka | Superharmonic priors for autoregressive models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |