CN111858527B

CN111858527B - 一种日志数据建模分析方法及计算机可读存储介质

Info

Publication number: CN111858527B
Application number: CN202010576181.8A
Authority: CN
Inventors: 武永卫; 陈祥麟; 章明星
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-07-07
Anticipated expiration: 2040-06-22
Also published as: CN111858527A

Abstract

本发明提供一种日志数据建模分析方法及计算机可读存储介质，方法包括：根据自定义的日志关键信息抽取每条日志数据中的关键信息；关键信息包括至少一种信息；根据关键信息构建所述日志之间的日志子图，日志子图是可扩展的属性图；日志子图包括顶点和所述顶点的属性边；顶点是所述关键信息中的一种信息，顶点的属性边根据顶点的属性在两个存在关联关系的顶点之间构建；每个顶点和属性边从属至少一个日志子图；所有日志子图组成第一集合并存储；接收用户的访问请求，根据访问请求对第一集合进行建模分析生成与访问请求对应的分析结果。提出可扩展的属性图的结构，大大提升了日志图这样天然的异构图的表达分析能力。

Description

一种日志数据建模分析方法及计算机可读存储介质

技术领域

本发明涉及计算机信息处理技术领域，尤其涉及一种日志数据建模分析方法及计算机可读存储介质。

背景技术

日志是记录***运行状况以及用户操作行为的一种重要的手段。在大数据时代，随着服务种类的增加，服务器***每秒钟会产生海量的日志信息。对海量日志的管理不仅切合《网络安全法》网络日志需要至少留存六个月的要求，还能帮助***管理人员从海量日志中分析***性能、监视***异常行为以及挖掘有价值的信息。这些复杂的处理需求促使日志管理***除了能够满足简单的检索功能外，还需要具有对日志进行关联分析的能力。例如，从海量日志中发现异常的用户行为、利用关键路径分析服务性能等等。

目前的日志处理流程，其一是以ElasticSearch为代表的全文检索引擎提供简单的搜索功能，其二是利用一定的规则匹配对日志进行分析，都无法满足日志的关联分析任务。将日志信息建模成图，并利用图处理的研究成果分析日志之间的关联关系是提升日志存储以及分析能力的有效手段也是一个广泛的需求。

而当前对于图数据的管理和分析***分为了两大类，一是图数据库***，以neo4j为代表，专注于图数据的有效存储和事物处理，但是不太适合大容量的数据分析以及图挖掘，二是图计算引擎，比如***的Pregel，或GraphX之类的并行图形处理***，可以并行地在多台机器上处理和分析大规模图形数据，但是这类***缺少丰富的图数据模型。日志建模成图，因为每条日志数据的信息都十分丰富，首先需要支持不具有固定模式的异构属性，然后数据模型不仅能够表示单个图，还要能够表示图的集合，最后这个模型还要能够提供通用的图的各种高效算法用于海量日志分析。当前的图数据管理和分析***都不能很好地满足这三个要求。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明为了解决现有的问题，提供一种日志数据建模分析方法及计算机可读存储介质。

为了解决上述问题，本发明采用的技术方案如下所述：

一种日志数据建模分析方法，包括如下步骤：S1：根据自定义的日志关键信息抽取每条日志数据中的关键信息；所述关键信息包括至少一种信息；S2：根据所述关键信息构建所述日志之间的日志子图，所述日志子图是可扩展的属性图；所述日志子图包括顶点和所述顶点的属性边；所述顶点是所述关键信息中的一种信息，所述顶点的属性边根据所述顶点的属性在两个存在关联关系的所述顶点之间构建；每个所述顶点和所述属性边从属至少一个所述日志子图；S3：所有所述日志子图组成第一集合并存储；S4：接收用户的访问请求，根据所述访问请求对所述第一集合进行建模分析生成与所述访问请求对应的分析结果。

优选地，采用分布式存储存储所述第一集合。

优选地，所述第一集合中各个所述日志子图中的元信息存储在第一存储文件中，各个所述日志子图中所述顶点和所述顶点的属性边的信息存储在第二存储文件中；每个所述顶点具有唯一的ID且只存储一次，每个所述属性边被连接的两个顶点分别存储一次。

优选地，通过搭建Hadoop集群，并基于Hadoop集群构建HBase集群和Flink集群进行分布式存储。

优选地，在所述HBase集群中采用键值对的形式存储数据；在所述HBase集群中建立第一集合的表，所述表中每个条目是所述日志子图；在所述HBase集群中建立顶点表，所述表中的每个条目包含了所述日志子图中的所述顶点和所述顶点的属性边的信息。

优选地，根据所述访问请求采用Flink为计算引擎对所述日志数据的图的集合进行分析生成与所述访问请求对应的分析结果。

优选地，采用Flink为计算引擎对所述日志数据的图的集合进行分析包括：S51：根据所述访问请求对所述第一集合进行过滤得到与所述访问请求对应的第二集合；S52：将所述第二集合中日志子图合并成单张子图；S53：在所述单张子图上进行运算。

优选地，所述日志数据中的关键信息包括：告警等级、访问源IP地址、用户操作内容。

优选地，根据自定义的日志关键信息抽取大于10TB级别的日志数据集中每条日志数据中的关键信息。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种日志数据建模分析方法及计算机可读存储介质，通过将日志建模成图，可以表达日志之间的关联关系，能够轻易地通过关键路径等图计算算法对影响到整个***的子服务进行分析。

进一步地，提出可扩展的属性图的结构，不仅能够对单个日志图进行分析，还能将日志构建成图的集合，并对图集合应用图计算的各种算法，大大提升了日志图这样天然的异构图的表达分析能力。

再次，建模成图结构后采用分布式存储，采用不同的方法对图数据进行物理分区，保证负载平衡和时空局部性。

最后，使用Flink作为计算引擎，能够在分布式***上进行图的转换，计算；达到高吞吐，低延迟，高性能的日志图计算方法的目的，而且提供了多种计算接口，可以实现子图匹配，SSSP，图之间的交集，并集，图的聚合这样丰富的图计算分析接口。

附图说明

图1是本发明实施例中一种日志数据建模分析方法的示意图。

图2是本发明实施例中采用Flink为计算引擎对所述日志数据的图的集合进行分析的方法示意图。

图3是本发明实施例中一种日志数据建模分析***的示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，本发明提供一种日志数据建模分析方法，包括如下步骤：

S1：根据自定义的日志关键信息抽取每条日志数据中的关键信息；所述关键信息包括至少一种信息；

S2：根据所述关键信息构建所述日志之间的日志子图，所述日志子图是可扩展的属性图；所述日志子图包括顶点和所述顶点的属性边；所述顶点是所述关键信息中的一种信息，所述顶点的属性边根据所述顶点的属性在两个存在关联关系的所述顶点之间构建；每个所述顶点和所述属性边从属至少一个所述日志子图；

S3：所有所述日志子图组成第一集合并存储；

S4：接收用户的访问请求，根据所述访问请求对所述第一集合进行建模分析生成与所述访问请求对应的分析结果。

通过本发明的方法，将日志数据建模成图，日志信息不再是单独的个体，还可以表达日志之间的关联关系，诸如单个的服务请求涉及到的多个子服务之间的日志，可以抽取出服务之间相互关联，相互依赖的关系。能够轻易地通过关键路径等图计算算法对影响到整个***的子服务进行分析。

本发明提供的是可扩展的属性图的结构，使得不仅能够对单个日志图进行分析，还能将日志构建成图的集合，并对图集合应用图计算的各种算法，大大提升了日志图这样天然的异构图的表达分析能力。

与现有技术中的属性图不同，在存储顶点和边时在其中添加了顶点或边所属的图的集合，使得单条日志可以从属不同的属性图，充分地表达出了日志图的异构的特征；避免了单条日志在不同的属性图中的重复存储。

本发明可以用于处理10TB级别以上的日志数据集中每条日志，建模成图结构后，可能占有PB级的空间，因此需要分布式存储，采用不同的方法对图数据进行物理分区，保证负载平衡和时空局部性，同时将图处理的通信开销降到最低，日志还具备时间的先后性，要求能够基于时间的图分析，存储方案要能够应对硬件故障，具备容错能力。

在本发明的一种实施例中，所述第一集合中各个所述日志子图中的元信息存储在第一存储文件中，各个所述日志子图中所述顶点和所述顶点的属性边的信息存储在第二存储文件中；

每个所述顶点具有唯一的ID且只存储一次，每个所述属性边被连接的两个顶点分别存储一次。

本发明提出的使用构建在Hadoop上的HBase存储日志图结构是最优解，它能够跨集群存储大量的结构化和半结构化的数据，并提供快速随机读写。与关系模型不同，HBase的表不是静态的，每个列族可以有大量不同的列，可以针对稀疏的图数据进行灵活的存储布局，每个日志都可以具有各种属性，无需遵循全局的结构。HBase基于HDFS，可以通过数据的副本保证数据的可靠性，并且HBase天然提供了时间戳，能够保证数据的版本控制。极大程度满足将日志数据建模成图的所有要求。

本发明利用已有的三个开源大数据组件：Hadoop分布式存储计算平台，HBase分布式数据库与Flink流式计算引擎，通过搭建Hadoop集群，并基于Hadoop集群构建HBase集群和Flink集群进行分布式存储。

通过Flink对获取到的日志数据进行预处理；将处理后的数据加载到Hbase集群中；从HBase读取数据，在Flink集群内存中构建成可扩展的属性图模型。用户定义查询内容，以Flink为计算引擎，完成日志图中的SSSP算法，BFS算法，图匹配算法，图的聚合等算法分析日志数据；将查询结果与分析结果载入到Hbase集群之中。

上述是在同一物理集群上搭建三个大数据组件。Hadoop分布式存储计算平台提供分布式文件***HDFS存储所有的日志，图数据。HDFS是一种开源的主从结构分布式文件***，由一个NameNode节点和若干个DataNode节点组成。NameNode管理文件***的命名空间和客户端对文件的访问操作，DataNode负责存储数据。具备高度容错性，高可靠的特点。能够提供高吞吐的数据访问。

HBase同样是主从结构，它是一个分布式的，面向列的开源非关系型数据库，底层的存储以Hadoop中的HDFS为基础。它具备高可靠，高性能，面向列，可伸缩的特点，支持非结构化数据，使用了键值对的形式存储数据，能够快速高效的通过行键取得数据。HBase能够极好地满足海量，异构日志图数据的存储要求。Flink是一种开源的分布式流式计算引擎，在实际场景中，日志数据连续不断地产生。使用Flink作为底层计算引擎，既可以满足对现有日志图数据进行批处理计算分析的要求，也能够满足对新增日志图数据完成流处理计算分析的要求。

本发明根据用户自定义的日志关键信息，如告警等级、访问源IP地址、用户操作内容等抽取每条日志中的关键信息，并将关键信息作为日志图中的顶点，每个日志顶点中具体的信息根据不同的信息类型处理成该顶点中的属性，然后为任意两个存在关联关系的顶点之间添加属性边。最后根据用户处理日志的需求，为每个顶点和边添加所属的日志子图，每个顶点和边都可以从属不同的子图，这样的图结构，被称为可扩展的属性图。

在本发明的一种实施例中，用户需要从日志节点中构建社交网络图，就从日志顶点的属性信息中取出该日志涉及到的用户名，用户点赞，关注信息，构建出社交网络子图用于分析任务，该日志节点的所属子图增加了社交网络这一子图。该日志节点仍会包含访问的ip地址信息，操作时间，构建的该用户的ip地址网络图可以用于保护账号安全，警告用户异地登录等。同一个顶点可以属于不同的子图，该节点所属的子图id信息存储于节点上，所以称为可扩展的属性图。

HBase集群中采用键值对的形式存储数据；在所述HBase集群中建立第一集合的表，所述表中每个条目是所述日志子图；在所述HBase集群中建立顶点表，所述表中的每个条目包含了所述日志子图中的所述顶点和所述顶点的属性边的信息。将第一集合中各个子图的meta信息存储在HBase的表中，并将所有顶点和边的信息存储在另一个表(顶点表)中，每个顶点虽然可能属于多个子图，但是都只存储一次且拥有自己的唯一的id，边被入点和出点分别存储一次。该方法可以快速访问顶点，包括其属性和边。也能够快速地通过meta表获取到该子图的所有信息。将边和顶点存储在同一子图，可以避免图计算时顶点表和边表带来的昂贵的连接(join)计算，而冗余存储边而不是顶点的原因在于：对于日志图来说，每个顶点的属性远远多于边的属性。冗余存储边的信息比冗余存储顶点信息的代价小。

在本发明的一种实施例中，根据所述访问请求采用Flink为计算引擎对所述日志数据的图的集合进行分析生成与所述访问请求对应的分析结果。

如图2所示，采用Flink为计算引擎对所述日志数据的图的集合进行分析包括：

S51：根据所述访问请求对所述第一集合进行过滤得到与所述访问请求对应的第二集合；

S52：将所述第二集合中日志子图合并成单张子图；

S53：在所述单张子图上进行运算。

在本发明的一种实施例中，添加了将可扩展的属性图去掉所属的子图数据，转换为Flink库已有的可以直接使用Gelly进行图计算任务的图数据结构的方法，去掉顶点与边所属的子图的属性，使其能够针对可扩展的属性图模型进行图计算的相关任务。针对图的集合，充分利用了Flink的基本操作——在DataSet数据集进行各种转换的操作(map,filter)。在进行图集合的聚合运算时，对所有图中数据进行过滤(filter)，将图集合合并生成单张子图，对于顶点，保证顶点所属的子图集合中包括了需要转换的图集合。即如果需要转换的图的集合为G₁,g表示子图，G₁＝(g1∪g3∪g5,…)，顶点所属的子图集合为G₂,G₂＝(g2∪g3∪g7,…)，当存在g∈G₁,并且g∈G₂,该顶点属于需要转换的图的集合G₁。对于边来说，需要确保边的源顶点和目标顶点都属于需要转换的图集合。对于边来说，需要确保边的源顶点和目标顶点都属于需要转换的图集合。使用了Flink的广播(broadcast)变量，将数据集发送到集群中的每个节点执行过滤任务。最后在过滤完成的数据集上构建出新的子图，将图集合的运算任务变更为了单张子图上的运算任务。此时可以调用Gelly库进行相关计算，也能够使用count，sum等聚合函数。

使用Flink作为计算引擎，能够在分布式***上进行图的转换，计算。达到高吞吐，低延迟，高性能的日志图计算方法的目的，而且提供了多种计算接口，可以实现子图匹配，SSSP，图之间的交集，并集，图的聚合这样丰富的图计算分析接口。

在本发明的一种具体的实施例中，如图3所示，比如twitter或者微博的用户关联关系图，虽然能够通过直接dump数据库获得，但是这样对于一个在线的服务***，会影响到***的OLAP的性能，此时公司往往将这些信息存储到日志中，通过日志离线分析用户，***的执行日志已经包含了用户之间相互“@”以及参与到某个话题的信息，那么通过本发明的方法，不仅将该日志顶点加入到社交网络图中，还将该顶点加入到兴趣网络图中。

首先定义出日志所能包含的子图集合，比如日志图中存在社交网络图，兴趣网络图等，如果有需求，社交网络图还能继续细分为校园关系网络，工作关系网络等，每个子图都有着自己的属性，标签以及唯一的id。

构建存储日志顶点时，为顶点赋予一个全局唯一的id，并根据日志中的属性信息让顶点参与到不同的子图之中，记录该顶点所属的子图id的集合。创建边与子图中的各个顶点相连接，其中边也有自己的子图id的集合。

将图存入HBase时，子图的集合作为一个表，所有顶点存储在顶点表，每个顶点还包含了它的属性以及边的信息，这样边的信息会在它的入点和出点分别存储一次，虽然有着部分的冗余存储，但是我们避免了在图的处理时顶点表与边表之间昂贵的连接计算。

在分析日志数据时，可以单独为社交网络子图分析用户“张三”的关注信息，利用聚合操作，列出张三所关注的人的关注信息，为张三推荐新的关注用户，利用聚合操作，计算出张三与其他用户的互动次数，给出张三与他好友间的亲密度排名。能够将社交网络子图和兴趣网络子图合并为新的子图，使用随机游走算法，PageRank算法为张三推荐感兴趣的话题。

最后，通过Hadoop，HBase，Flink的组合，能够通过分布式存储，计算***，很好地处理存在着关联关系海量日志信息。Hadoop分布式存储计算平台提供分布式文件***HDFS存储所有的日志，图数据。HBase底层的存储以Hadoop中的HDFS为基础。使用了键值对的形式存储数据，能够快速高效的通过行键取得数据。HBase能够极好地满足海量，异构日志图数据的存储要求，所有的图数据都存储在HBase中。使用Flink作为底层计算引擎，需要进行日志图的计算分析任务时，将图数据从HBase读出，使用Flink进行计算。

在标准性能测试中：使用了关联数据基准委员会(LDBC)的社交网络基准(SNB)数据集进行测试，生成了尺度因子(scale factor)分别为10(20GB)和100(200GB)的数据，物理环境为3台机器组成的集群，每台机器有两个E5-2630cpu,12个核心，64GB内存，4块512GBSSD。每台机器都安装有Hadoop3.0，Flink2.11，HBase1.4.10。

定义了如下的查询语句，查询在社交网络图中与某人互相了解的人的个数：

MATCH(p1:Person)-[:knows]->(p2:Person)-[:knows]->(p1)

WHEREp1.firstName＝“{firstName}”

RETURNcount(distinct p2)

针对20GB数据，执行时间为45s。

针对200GB数据，执行时间为380s。

第二个查询语句匹配了某人的朋友对他进行了回复操作：

MATCH(p1:Person)-[:knows]->(p2:Person),(p2)<-[:hasCreator]-(comment:Comment),(comment)–[replyOf*1..10]->(post:Post),(post)–[:hasCreator]->(p1)

WHERE p1.firstName＝“{firstName}”

RETURN p1.firstName,p2.firstName

针对20GB数据，执行时间为85s。

针对200GB数据，执行时间为780s。

本发明的方法太适合大容量的数据分析以及图挖掘，通过日志建模成图，数据模型不仅能够表示单个图，还要能够表示图的集合，还能提供通用的图的各种高效算法用于海量日志分析。

本申请实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的方法。

本申请实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的方法。

本申请实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom AccessMemory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种日志数据建模分析方法，其特征在于，包括如下步骤：

S3：所有所述日志子图组成第一集合并存储；

S4：接收用户的访问请求，根据所述访问请求对所述第一集合进行建模分析生成与所述访问请求对应的分析结果；

通过搭建Hadoop集群，并基于Hadoop集群构建HBase集群和Flink集群进行分布式存储；

根据所述访问请求采用Flink为计算引擎对所述日志数据的图的集合进行分析生成与所述访问请求对应的分析结果；

采用Flink为计算引擎对所述日志数据的图的集合进行分析包括：

S52：将所述第二集合中日志子图合并成单张子图；

S53：在所述单张子图上进行运算；

构建存储日志顶点时，为顶点赋予一个全局唯一的id，并根据日志中的属性信息让顶点参与到不同的子图之中，记录该顶点所属的子图id的集合，创建边与子图中的各个顶点相连接，其中边也有自己的子图id的集合；

将图存入HBase时，子图的集合作为一个表，所有顶点存储在顶点表，每个顶点还包含了它的属性以及边的信息，每个顶点只存储一次，边的信息在它的入点和出点即被连接的两个顶点分别存储一次；由此，将所述第一集合中各个子图的元信息存储在HBase的表中，并将所有顶点和边的信息存储在另一个表即顶点表中。

2.如权利要求1所述的日志数据建模分析方法，其特征在于，采用分布式存储存储所述第一集合。

3.如权利要求2所述的日志数据建模分析方法，其特征在于，所述第一集合中各个所述日志子图中的元信息存储在第一存储文件中，各个所述日志子图中所述顶点和所述顶点的属性边的信息存储在第二存储文件中。

4.如权利要求1所述的日志数据建模分析方法，其特征在于，在所述HBase集群中采用键值对的形式存储数据；

在所述HBase集群中建立第一集合的表，所述表中每个条目是所述日志子图；

在所述HBase集群中建立顶点表，所述表中的每个条目包含了所述日志子图中的所述顶点和所述顶点的属性边的信息。

5.如权利要求1-4任一所述的日志数据建模分析方法，其特征在于，所述日志数据中的关键信息包括：告警等级、访问源IP地址、用户操作内容。

6.如权利要求1-4任一所述的日志数据建模分析方法，其特征在于，根据自定义的日志关键信息抽取大于10TB级别的日志数据集中每条日志数据中的关键信息。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一所述方法的步骤。