CN107453948A - 一种网络测量数据的存储方法及*** - Google Patents

一种网络测量数据的存储方法及*** Download PDF

Info

Publication number
CN107453948A
CN107453948A CN201710631557.9A CN201710631557A CN107453948A CN 107453948 A CN107453948 A CN 107453948A CN 201710631557 A CN201710631557 A CN 201710631557A CN 107453948 A CN107453948 A CN 107453948A
Authority
CN
China
Prior art keywords
subdata
data
storage
storage strategy
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710631557.9A
Other languages
English (en)
Inventor
黄韬
刘玉贞
鄂新华
妥艳君
杨帆
刘江
李吉良
张学敏
张文志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
CETC 54 Research Institute
Original Assignee
Beijing University of Posts and Telecommunications
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, CETC 54 Research Institute filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710631557.9A priority Critical patent/CN107453948A/zh
Publication of CN107453948A publication Critical patent/CN107453948A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种网络测量数据的存储方法和装置,属于互联网技术领域。所述方法包括:获取待存储的网络测量数据;根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。采用本发明,可以提高存储网络测量数据的效率。

Description

一种网络测量数据的存储方法及***
技术领域
本发明涉及互联网技术领域,特别是涉及一种网络测量数据的存储方法及***。
背景技术
SDN(Software Defined Network,软件定义网络)是网络虚拟化的一种实现方式,其核心技术OpenFlow(交换机)通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智能。在SDN网络中,通常包括控制节点和多个服务节点,该控制节点可以与多个服务节点连接,从而实现对多个服务节点的控制。
为了实时了解SDN网络的运行状态,SDN网络还设置有监控节点,监控节点会在每达到预设的数据采集周期时,采集网络的网络测量数据,网络策略数据包括SDN网络的控制节点发送的网络运行数据,以及各服务节点发送的节点运行数据。其中,网络运行数据包括网络性能数据、控制器性能数据和网络日志信息等;节点运行数据包括五元组信息、节点运行数据和节点传输内容等。网络测量数据可以反映SDN网络的运行状态、以及每个服务节点的运行状态是否正常。监控节点采集到网络测量数据后,会将网络测量数据持久化存储数据库中,以便后续进行分析或查看。
然而,监控节点采集到的网络测量数据的数据量通常是很大的,而对网络测量数据进行持久化的耗时会很长,从而导致存储网络测量数据的进程比较缓慢,存储网络测量数据的效率较低。
发明内容
本发明实施例的目的在于提供一种网络测量数据的存储方法和装置,以实现提高存储网络测量数据的效率。具体技术方案如下:
第一方面,提供了一种网络测量数据的存储方法,所述方法包括:
获取待存储的网络测量数据;
根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;
对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
可选的,当所述第一子数据的分类信息为数据类型时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,所述存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项;
当所述第一子数据的分类信息为未分类时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略;
当所述第一子数据的分类信息为脏数据时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:将预设的脏数据存储策略作为该第一子数据的存储策略,所述脏数据存储策略为将所述脏数据存储到脏数据列表,并设定所述第一子数据的删除时限。
可选的,当所述第一子数据的分类信息为数据类型时,所述对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,根据所述第一子数据对应的存储策略,对所述第一子数据进行存储,包括:
根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中;
根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中;
将所述第二子数据逐条存储到对应的持久化设备中。
可选的,所述根据预设的数据分类算法,对所述网络测量数据进行分类处理,包括:
根据预设的数据分类算法,计算所述网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为所述网络测量数据的数据类型。
可选的,所述根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略,包括:
确定与所述未分类数据的相似度最大的预设数目个数据类型,获取确定出的数据类型对应的存储策略;
基于获取到的每个存储策略,分别对所述未分类数据进行模拟存储,并确定所述每个存储策略对应的存储效率;
将所述存储效率最高的存储策略作为所述未分类数据的存储策略。
第二方面,提供了一种网络测量数据的存储装置,所述装置包括:
数据采集模块,用于获取待存储的网络测量数据;
分类模块,用于根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;
存储模块,用于对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
可选的,当所述第一子数据的分类信息为数据类型时,所述存储模块,还用于:根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,所述存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项;
当所述第一子数据的分类信息为未分类时,所述存储模块,还用于:根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略;
当所述第一子数据的分类信息为脏数据时,所述存储模块,还用于:将预设的脏数据存储策略作为该第一子数据的存储策略,所述脏数据存储策略为将所述脏数据存储到脏数据列表,并设定所述第一子数据的删除时限。
可选的,当所述第一子数据的分类信息为数据类型时,所述存储模块,还用于:
根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中;
根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中;
将所述第二子数据逐条存储到对应的持久化设备中。
可选的,所述分类模块,还用于:
根据预设的数据分类算法,计算所述网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为所述网络测量数据的数据类型。
第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
本发明实施例提供的一种网络测量数据的存储方法,可以获取待存储的网络测量数据,根据预设的数据分类算法,对网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,分类信息为数据类型、未分类或脏数据,对于每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。这样,可以针对不同类型的数据,可以采用不同的存储策略,可以提高存储网络测量数据的效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种***框架图;
图2为本发明实施例提供的一种SDN网络测量数据的存储方法流程图;
图3为本发明实施例提供的一种SDN网络测量数据的存储装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种SDN网络测量数据的采集方法,该方法可以应用于SDN网络中用于存储网络测量数据的设备中,该设备可以是SDN网络中的存储节点。该存储节点可以与各种存储连接,该存储设备可以是缓存设备,也可以是持久化设备。如图1所示,为本实施例提供的***框架图,其中,存储节点可以与监控节点和存储设备连接,控制节点可以与SDN网络中控制节点以及各服务节点连接,其中存储设备可以包括第一次缓存设备和持久化设备以各持久化设备对应的最近缓存设备。
如图2所示,以该方法应用于存储节点为例,该方法的处理过程可以如下:
步骤201,获取待存储的网络测量数据。
在实施中,在SDN网络运行的过程中,控制节点实时监控SDN网络的网络运行数据,并对网络运行数据进行存储。网络运行数据包括但不限于五元组信息、网络性能数据、控制节点性能数据和网络日志信息等。其中,五元组信息可以是各服务节点的五元组信息,包括{源地址,目的地址,源端口,目的端口,协议号};网络性能数据包括但不限于网络的吞吐量和传输速率等数据;控制节点性能数据包括但不限于包括但不限于控制器处理效率、控制器缓存性能数据、控制指令响应时间与控制器能耗数据等。同理,每个服务节点也可以监控自身的节点运行数据,并对节点运行数据进行存储。节点运行数据包括但不限于服务节点性能数据和节点传输内容等,其中,服务节点性能数据包括但不限于节点CPU性能数据、缓存性能数据、节点能耗数据与节点响应时间等;节点传输内容主要指网络中能抓取到的节点应用***业务数据等。本步骤的处理可以由存储节点中的数据采集器来实现。
例如,网络中出现传输图片文件的请求,那么在网络采集的过程中会采集到服务节点的静态数据:比如所涉及到网络中服务器的IP地址、型号、网络组网结构等数据;会采集到所属业务的内容数据:如所传输的图片数据、所交互的业务请求命令、所交互的加密信息等;会采集到所属服务器的动态数据:服务器内存运行情况、服务器CPU运行情况、服务器所产生的日志、服务器温度等。还会采集到所关联网络的动态数据:如网络带宽占用率、网络请求状态、网络日志等。
步骤202,根据预设的数据分类算法,对网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息。
其中,分类信息可以为数据类型、未分类或脏数据。
在实施中,存储节点可以根据预设的数据分类算法,对网络测量数据进行分类处理,将网络测量数据分为多个子数据(即第一子数据),并可以确定每个第一子数据的对应的分类信息。其中,能够确定出数据类型的第一子数据,其分类信息为确定出的数据类型;对于未能确定出数据类型的第一子数据,网络测量数据未分类;另外,在分类处理过程中,还会检测到错误数据,比如当前时间为2017-7-1,而接收到的时间戳为2017-7-10,这些错误数据的分类信息为脏数据。
可选的,对网络测量数据进行分类的处理过程可以如下:根据预设的分类算法,计算网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为网络测量数据的数据类型。
其中,数据类型可以根据存储***中支持的缓存设备来确定,例如,可以将缓存设备所缓存的数据类型,作为分类处理中的数据类型。
在实施中,对于网络测量数据的分类可以分为两个层面。当接收到网络测量数据后,存储节点可以先根据网络测量数据的内容,对网络测量数据进行分类。例如,可以分为数据类型信息、网络传输业务内容、日志数据、网络传输数据等。对于不同的内容类型的数据,存储节点可以进行进一步分类。存储节点中可以预先存储内容类型和分类规则的对应关系,进而根据该对应关系,分别对每种内容类型的数据进行分类。例如,对于内容类型为网络传输业务内容的数据,存储节点可以将其分为非结构化数据、半结构化数据和结构化数据。对网络测量数据进行分类的策略可以由技术人员设置,本实施例不做限定。
本步骤的处理可以由存储节点中的测量数据调度器来实现,测量数据调度器可以包括分类模块、调度模块和分发模块。其中,分类模块中可以维护***分类表簇与分类计算组件,分类表簇中包括但不限于数据类型分类、网络传输类型分类、传输协议分类、日志分类等预制分类表,分类计算组件通过计算所采集每条数据的所属分类,并计算各自分类维度权重,得到网络测量数据与各数据类型的相似度。
步骤203,对于每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
在实施中,存储节点中可以预先存储分类信息和存储策略的对应关系,对于任意第一子数据,存储节点可以根据该第一子数据的分类信息,确定该第一子数据的存储策略,进而根据该存储策略,对第一子数据进行存储。
可选的,对于不同分类信息的第一子数据,可以采用不同的处理方式,具体可以由如下几种情况:
情况一,当第一子数据的分类信息为数据类型时,存储节点可以根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项。
在实施中,对于步骤202由分类模块来实现的情况,分类模块在判断第一子数据为已有分类时,可以将第一子数据发送给调度模块,自身不做存储处理。调度模块中可以预先存储有存储策略和数据类型的对应关系,然后可以根据该对应关系,确定该第一子数据的数据类型对应的存储策略,进而根据该存储策略对第一子数据进行存储。该存储策略可以包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项。对于不同数据类型的第一子数据,可以只进行第一次缓存,可以直接进行持久化,也可以先进行第一次缓存,再进行第二次缓存,然后再进行持久化。具体的策略可以由技术人员设置,本实施例不做限定。
本发明实施例中,缓存策略与持久化策略是指对***内置的不同的存储形式的选择与存储介质的选择,并指***内部对于不同消息格式的存储方式选择。其中,存储设备的存储形式包括但不限于单机存储与分布式存储等,缓存介质不限于文件形式、XML形式与数据库形式等。
情况二,当第一子数据的分类信息为未分类时,根据该第一子数据对应的分类信息,确定第一子数据对应的存储策略,包括:根据预设的存储策略选择规则,确定未分类数据对应的存储策略。
在实施中,当分类模块判断数据为未知分类时(即第一子数据的分类信息为未分类),则可以将该第一子数据以及分类信息(即未分类)发送给调度模块,并可以在本地做暂存处理,等待调度模块的调度反馈。
情况三,当第一子数据的分类信息为脏数据时,根据该第一子数据对应的分类信息,确定第一子数据对应的存储策略,包括:将预设的脏数据存储策略作为该第一子数据的存储策略,脏数据存储策略为将脏数据存储到脏数据列表,并设定第一子数据的删除时限。
在实施中,当分类模块比对网络测量数据与脏数据规则表相吻合时,则可以判断该数据为脏数据,分类模块可以将脏数据存储在脏数据临时表中,同时可以设定删除时限,并可以提示用户进行人工处理(比如删除),或者,也可以在达到预设时长时,自动删除该脏数据。
可选的,对于上述情况一,对第一子数据的存储处理可以包括以下步骤:
步骤一,根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中。
在实施中,上述数据类型可以需要使用的第一次缓存设备来确定,例如,可以将第一次缓存设备所缓存的数据类型,作为分类处理中的数据类型。存储节点中可以预先存储第一次缓存设备和数据类型的对应关系。对于任一第一子数据,存储节点可以根据该第一子数据的数据类型,确定对应的第一次缓存设备,然后将该第一子数据存储到该缓存设备中,从而实现对该第一子数据的第一次缓存。例如,网络传输业务内容中的非结构化数据与半结构化数据缓存在NOSQL数据库中、网络传输数据存储在分布式或单机关系型内存数据库中等。
另外,存储节点还可以记录第一子数据的数据内容和数据关联信息,其中,数据关联关系可以包括该子数据所属的数据包信息、所属的服务节点的信息,以及该第一子数据与其他其他子数据的关联关系,比如如果存在与该第一子数据的数据内容相同的子数据,则可以记录二者的关联关系。
步骤二,根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中。
步骤二的处理是对数据的第二次缓存,具体可以包括以下处理过程:
1、将第一次(粗粒度)缓存中的数据,分配至与多个存储设备相近的位置(即最近缓存设备中)。
存储节点的调度模块还可以获取存储***支持的各持久化设备的存储规则,比如存储的数据内容,以及数据格式等。在持久化设备中,网络测量数据通常是按照类别进行存储,不同的持久化设备中可以存储不同类别的数据,该分类通常比存储设备对网络测量数据的分类细致。存储节点可以根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据。划分的依据是根据持久化设备的存储规则(比如数据内容等),对第一次缓存中的数据进行逻辑划分,得到第二子数据。然后,可以将第二子数据转储至第二次缓存,也即,分发模块分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中。其中,持久化设备的最近缓存设备可以是离该持久化设备距离最近的缓存设备,比如可以是该持久化设备所属服务器上的缓存设备。
2、在转储过程(也可称为分配过程)中,收集中的队列机制管理,即可以将几批数据(比如多个第二子数据)放入内存队列,以加速处理速度。
3、分配期间可以设置事物机制保护,即当一批数据没有处理完时,不能进行下一批数据的转储操作,可以保护数据的完整性。
4、在分配的同时记录下分配的过程与所分配数据间的关系;
存储节点还可以记录第二子数据的数据关联信息,并可以基于该数据关联信息,从第一次缓存设备中抓取与该第二子数据相关联的数据,将抓取到的数据存储到该最近缓存设备中,以便进行进一步的持久化同步操作。在步骤一和步骤二的处理过程中,存储节点还可以记录该处理过程的日志信息。另外,调度模块还可以先对第二子数据进行处理,然后再发送给分发模块,该处理包括但不限于数据格式转化、分表、文档化处理等。
在第二次缓存中,第二次缓存的数据在每一批数据中是逻辑相关的,因此要求与持久化设备严格映射。但是处理过程是分布式的,将会把数据缓存在多个不同的持久存储设备附近(处理速度最快的逻辑距离),而批次内的逻辑关系要记录在持久化日志中,以方便数据回滚和处理过程提速。
步骤三,将第二子数据逐条存储到对应的持久化设备中。
在实施中,存储节点可以将最近缓存设备中的数据,逐条存储到其对应的持久化设备中,并可以在持久化的同时冗余记录相应数据的缓存过程中所记录的各第二子数据的数据关联信息,以及将记录的日志数据同步存储到日志持久化设备中。
本实施例还提供了一种已知分类的网络测量数据进行存储的示例,具体如下:
当网络中出现传输图片文件的请求时,监控节点会采集到的数据可以包括:1、所属服务器的静态数据,比如所涉及到网络中服务器的IP地址、型号、网络组网结构等数据;2、所属业务的内容数据,比如所传输的图片数据、所交互的业务请求命令、所交互的加密信息等;3、所属服务器的动态数据,比如服务器内存运行情况、服务器CPU运行情况、服务器所产生的日志、服务器温度等;4、SDN网络的动态数据:如网络带宽占用率、网络请求状态、网络日志等。
在分类过程中,可以根据所采集到的数据特性将数据分为非结构化(第一优先级)/动态(第二优先级)/应用(第三优先级)分类数据。相应的存储策略可以为,第一次缓存时,记录下这段数据的数据关联信息(数据时间、数据ID、数据所属业务等),并将数据关联信息缓存在预置的关系型数据库中;将其中的图片数据以文件形式缓存在NOSQL数据库中,将其中的网络静态数据与动态数据缓存在分布式关系型数据库中;将其中业务数据缓存在单机关系型数据库中;并同时将网络日志文件与本***中阶段性缓存日志文件结合保存在相应的分布式关系型数据库中。
在第二次缓存时,可以根据与业务相关的图片静态信息、业务动态信息、网络动态数据存储在业务持久化设备就近的缓存设备(即业务持久化设备的最近缓存设备)中;将网络动态数据、服务器动态数据存储在性能持久化设备就近的缓存设备(即性能持久化设备的最近缓存设备)中;结合本次缓存策略与首次缓存的日志与关联数据等描述信息缓存在日志持久化缓存设备中;而图片数据仍保留在上次缓存设备中。
然后,将业务持久化设备的最近缓存设备中的数据,逐条存储到业务持久化设备中,并将性能持久化设备的最近缓存设备中的数据,逐条存储到性能持久化设备中,将日志持久化缓存设备中的数据,逐条存储到日志持久化设备中。
可选的,对于上述情况二,确定未分类数据的存储策略的处理过程可以如下:确定与未分类数据的相似度最大的预设数目个数据类型,获取确定出的数据类型对应的存储策略;基于获取到的每个存储策略,分别对未分类数据进行模拟存储,并确定每个存储策略对应的存储效率;将存储效率最高的存储策略作为未分类数据的存储策略。
在实施中,对于未分类数据,可以根据网络测量数据与各数据类型的相似度,选取相似度最大的预设数目个数据类型,进而获取这些数据类型对应的存储策略,然后可以从未分类数据中选择数据段,对于获取到的每个存储策略,分别基于该存储策略对该数据段进行第一次缓存,并分别确定每个存储策略在第一次缓存该数据段时的存储系效率,该存储效率可以是存储该数据段所用的时间。存储节点可以确定存储效率最高的第一次缓存策略(即所用的时间最短的第一次缓存策略),然后基于该第一次缓存策略,对该未分类数据进行第一次缓存。类似的,存储节点还可以分别进行第二次缓存策略和持久化策略的选择,从而得到该未分类数据最优选的第一次缓存策略、第二次缓存策略和持久化策略,进而根据最优选的第一次缓存策略、第二次缓存策略和持久化策略,对该未分类数据进行存储。
本发明实施例提供的一种网络测量数据的存储方法,可以获取待存储的网络测量数据,根据预设的数据分类算法,对网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,分类信息为数据类型、未分类或脏数据,对于每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。这样,可以针对不同类型的数据,可以采用不同的存储策略,可以提高存储网络测量数据的效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
基于相同的技术构思,本实施例还提供了一种网络测量数据的存储装置,如图3所示,所述装置包括:
数据采集模块310,用于获取待存储的网络测量数据;
分类模块320,用于根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;
存储模块330,用于对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
可选的,当所述第一子数据的分类信息为数据类型时,所述存储模块330,还用于:根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,所述存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项;
当所述第一子数据的分类信息为未分类时,所述存储模块330,还用于:根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略;
当所述第一子数据的分类信息为脏数据时,所述存储模块330,还用于:将预设的脏数据存储策略作为该第一子数据的存储策略,所述脏数据存储策略为将所述脏数据存储到脏数据列表,并设定所述第一子数据的删除时限。
可选的,当所述第一子数据的分类信息为数据类型时,所述存储模块330,还用于:
根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中;
根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中;
将所述第二子数据逐条存储到对应的持久化设备中。
可选的,所述分类模块320,还用于:
根据预设的数据分类算法,计算所述网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为所述网络测量数据的数据类型。
本发明实施例提供的一种网络测量数据的存储方法,可以获取待存储的网络测量数据,根据预设的数据分类算法,对网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,分类信息为数据类型、未分类或脏数据,对于每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。这样,可以针对不同类型的数据,可以采用不同的存储策略,可以提高存储网络测量数据的效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取待存储的网络测量数据;
根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;
对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
可选的,当所述第一子数据的分类信息为数据类型时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,所述存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项;
当所述第一子数据的分类信息为未分类时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略;
当所述第一子数据的分类信息为脏数据时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:将预设的脏数据存储策略作为该第一子数据的存储策略,所述脏数据存储策略为将所述脏数据存储到脏数据列表,并设定所述第一子数据的删除时限。
可选的,当所述第一子数据的分类信息为数据类型时,所述对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,根据所述第一子数据对应的存储策略,对所述第一子数据进行存储,包括:
根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中;
根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中;
将所述第二子数据逐条存储到对应的持久化设备中。
可选的,所述根据预设的数据分类算法,对所述网络测量数据进行分类处理,包括:
根据预设的数据分类算法,计算所述网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为所述网络测量数据的数据类型。
可选的,所述根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略,包括:
确定与所述未分类数据的相似度最大的预设数目个数据类型,获取确定出的数据类型对应的存储策略;
基于获取到的每个存储策略,分别对所述未分类数据进行模拟存储,并确定所述每个存储策略对应的存储效率;
将所述存储效率最高的存储策略作为所述未分类数据的存储策略。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Ne twork Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的一种网络测量数据的存储方法,可以获取待存储的网络测量数据,根据预设的数据分类算法,对网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,分类信息为数据类型、未分类或脏数据,对于每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。这样,可以针对不同类型的数据,可以采用不同的存储策略,可以提高存储网络测量数据的效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种网络测量数据的存储方法,其特征在于,所述方法包括:
获取待存储的网络测量数据;
根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;
对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
2.根据权利要求1所述的方法,其特征在于,当所述第一子数据的分类信息为数据类型时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,所述存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项;
当所述第一子数据的分类信息为未分类时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略;
当所述第一子数据的分类信息为脏数据时,所述根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,包括:将预设的脏数据存储策略作为该第一子数据的存储策略,所述脏数据存储策略为将所述脏数据存储到脏数据列表,并设定所述第一子数据的删除时限。
3.根据权利要求1或2所述的方法,其特征在于,当所述第一子数据的分类信息为数据类型时,所述对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定所述第一子数据对应的存储策略,根据所述第一子数据对应的存储策略,对所述第一子数据进行存储,包括:
根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中;
根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中;
将所述第二子数据逐条存储到对应的持久化设备中。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的数据分类算法,对所述网络测量数据进行分类处理,包括:
根据预设的数据分类算法,计算所述网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为所述网络测量数据的数据类型。
5.根据权利要求2所述的方法,其特征在于,所述根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略,包括:
确定与所述未分类数据的相似度最大的预设数目个数据类型,获取确定出的数据类型对应的存储策略;
基于获取到的每个存储策略,分别对所述未分类数据进行模拟存储,并确定所述每个存储策略对应的存储效率;
将所述存储效率最高的存储策略作为所述未分类数据的存储策略。
6.一种网络测量数据的存储装置,其特征在于,所述装置包括:
数据采集模块,用于获取待存储的网络测量数据;
分类模块,用于根据预设的数据分类算法,对所述网络测量数据进行分类处理,得到至少一个第一子数据和每个第一子数据对应的分类信息,所述分类信息为数据类型、未分类或脏数据;
存储模块,用于对于所述每个第一子数据,根据该第一子数据对应的分类信息,确定对应的存储策略,根据该第一子数据对应的存储策略,对该第一子数据进行存储。
7.根据权利要求6所述的装置,其特征在于,当所述第一子数据的分类信息为数据类型时,所述存储模块,还用于:根据预先存储的存储策略和数据类型的对应关系,确定该第一子数据的数据类型对应的存储策略,所述存储策略包括第一次缓存策略、第二次缓存策略和持久化策略中的至少一项;
当所述第一子数据的分类信息为未分类时,所述存储模块,还用于:根据预设的存储策略选择规则,确定所述未分类数据对应的存储策略;
当所述第一子数据的分类信息为脏数据时,所述存储模块,还用于:将预设的脏数据存储策略作为该第一子数据的存储策略,所述脏数据存储策略为将所述脏数据存储到脏数据列表,并设定所述第一子数据的删除时限。
8.根据权利要求6或7所述的装置,其特征在于,当所述第一子数据的分类信息为数据类型时,所述存储模块,还用于:
根据预先存储的第一次缓存设备和数据类型的对应关系,确定该第一子数据的数据类型对应的第一次缓存设备,将该第一子数据存储到该第一子数据的数据类型对应的第一次缓存设备中;
根据各持久化设备的存储规则,将该第一子数据划分为至少一个第二子数据,分别将每个第二子数据存储到对应的持久化设备的最近缓存设备中;
将所述第二子数据逐条存储到对应的持久化设备中。
9.根据权利要求6所述的装置,其特征在于,所述分类模块,还用于:
根据预设的数据分类算法,计算所述网络测量数据与预设的各数据类型的相似度,将相似度大于预设阈值的数据类型作为所述网络测量数据的数据类型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN201710631557.9A 2017-07-28 2017-07-28 一种网络测量数据的存储方法及*** Pending CN107453948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710631557.9A CN107453948A (zh) 2017-07-28 2017-07-28 一种网络测量数据的存储方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710631557.9A CN107453948A (zh) 2017-07-28 2017-07-28 一种网络测量数据的存储方法及***

Publications (1)

Publication Number Publication Date
CN107453948A true CN107453948A (zh) 2017-12-08

Family

ID=60489554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710631557.9A Pending CN107453948A (zh) 2017-07-28 2017-07-28 一种网络测量数据的存储方法及***

Country Status (1)

Country Link
CN (1) CN107453948A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920095A (zh) * 2018-06-06 2018-11-30 深圳市脉山龙信息技术股份有限公司 一种基于crush的数据存储优化方法和装置
CN109947363A (zh) * 2018-12-11 2019-06-28 深圳供电局有限公司 一种分布式存储***的数据缓存方法
CN111404978A (zh) * 2019-09-06 2020-07-10 杭州海康威视***技术有限公司 一种数据存储方法及云存储***
CN116226098A (zh) * 2023-05-09 2023-06-06 北京尽微致广信息技术有限公司 数据处理的方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147711A (zh) * 2010-12-31 2011-08-10 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置
CN102752322A (zh) * 2011-04-18 2012-10-24 中国科学院声学研究所 一种物联网中分布式数据存储和查询的方法
CN102915373A (zh) * 2012-11-06 2013-02-06 无锡江南计算技术研究所 一种数据存储方法和装置
CN103677654A (zh) * 2012-09-24 2014-03-26 联想(北京)有限公司 一种存储数据的方法及电子设备
CN104407991A (zh) * 2014-12-10 2015-03-11 成都科来软件有限公司 一种数据存储方法及装置
CN106155566A (zh) * 2015-03-31 2016-11-23 西门子公司 用于存储数据的方法、装置及***
CN106484332A (zh) * 2016-10-12 2017-03-08 郑州云海信息技术有限公司 一种数据存储方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147711A (zh) * 2010-12-31 2011-08-10 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置
CN102752322A (zh) * 2011-04-18 2012-10-24 中国科学院声学研究所 一种物联网中分布式数据存储和查询的方法
CN103677654A (zh) * 2012-09-24 2014-03-26 联想(北京)有限公司 一种存储数据的方法及电子设备
CN102915373A (zh) * 2012-11-06 2013-02-06 无锡江南计算技术研究所 一种数据存储方法和装置
CN104407991A (zh) * 2014-12-10 2015-03-11 成都科来软件有限公司 一种数据存储方法及装置
CN106155566A (zh) * 2015-03-31 2016-11-23 西门子公司 用于存储数据的方法、装置及***
CN106484332A (zh) * 2016-10-12 2017-03-08 郑州云海信息技术有限公司 一种数据存储方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920095A (zh) * 2018-06-06 2018-11-30 深圳市脉山龙信息技术股份有限公司 一种基于crush的数据存储优化方法和装置
CN108920095B (zh) * 2018-06-06 2021-06-29 深圳市脉山龙信息技术股份有限公司 一种基于crush的数据存储优化方法和装置
CN109947363A (zh) * 2018-12-11 2019-06-28 深圳供电局有限公司 一种分布式存储***的数据缓存方法
CN109947363B (zh) * 2018-12-11 2022-10-14 深圳供电局有限公司 一种分布式存储***的数据缓存方法
CN111404978A (zh) * 2019-09-06 2020-07-10 杭州海康威视***技术有限公司 一种数据存储方法及云存储***
CN116226098A (zh) * 2023-05-09 2023-06-06 北京尽微致广信息技术有限公司 数据处理的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
KR102337092B1 (ko) 트래픽 측정 방법, 장치, 및 시스템
CN107453948A (zh) 一种网络测量数据的存储方法及***
CN104092756B (zh) 一种基于dht机制的云存储***的资源动态分配方法
CN107391280A (zh) 一种小文件的接收和存储方法及装置
CN103425756B (zh) 一种hdfs中数据块的副本管理策略
CN104601696B (zh) 服务处理方法、服务调用***、装置和***
CN104584524B (zh) 聚合中介***中的数据
CN106095572A (zh) 一种大数据处理的分布式调度***及方法
CN103607424B (zh) 一种服务器连接方法及服务器***
CN106027595A (zh) 用于cdn节点的访问日志处理方法及***
WO2017107812A1 (zh) 一种用户日志存储方法及设备
CN110347651A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN107179878A (zh) 基于应用优化的数据存储的方法和装置
CN107528789A (zh) 报文调度方法及装置
CN107220348A (zh) 一种基于Flume与Alluxio的数据收集方法
CN108900626A (zh) 一种云环境下数据存储方法、装置及***
CN109271363A (zh) 一种文件存储的方法及设备
CN108415962A (zh) 一种云存储***
CN110275873A (zh) 文件存储方法、装置、存储管理设备及存储介质
CN109165096A (zh) web集群的缓存利用***及方法
CN107391039A (zh) 一种数据对象存储方法和装置
CN108234227A (zh) 网络节点设备的时延测量方法、装置及网络节点设备
CN110362426A (zh) 一种面向突发性负载的选择性副本实现方法及***
CN106941522A (zh) 轻量级分布式计算平台及其数据处理方法
CN106649530A (zh) 云详单查询管理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication