CN107368527A - 基于数据流的多属性索引方法 - Google Patents

基于数据流的多属性索引方法 Download PDF

Info

Publication number
CN107368527A
CN107368527A CN201710435965.7A CN201710435965A CN107368527A CN 107368527 A CN107368527 A CN 107368527A CN 201710435965 A CN201710435965 A CN 201710435965A CN 107368527 A CN107368527 A CN 107368527A
Authority
CN
China
Prior art keywords
source
place
attribute
port
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710435965.7A
Other languages
English (en)
Other versions
CN107368527B (zh
Inventor
程光
郭春生
周余阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710435965.7A priority Critical patent/CN107368527B/zh
Publication of CN107368527A publication Critical patent/CN107368527A/zh
Application granted granted Critical
Publication of CN107368527B publication Critical patent/CN107368527B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于数据流的多属性索引方法,包括实时数据的存储方法和实时查询方法。网络中数据是以数据流形式到达,需要对网络数据进行约减,截取每条网络报文数据的特定长度形成字节流,将字节流按照特定的数据文件大小存储,并提取字节流中的源IP、宿IP、源端口、宿端口等属性信息,对源IP、宿IP、源端口、宿端口属性进行组合构造,得到多个属性信息,对多属性信息使用布隆过滤器Bloom Filter算法建立索引文件,每个字节流的多属性信息哈希映射到同一个索引结构中,占用空间小且存储摘要信息多,同时使用三个不同的哈希函数降低哈希冲突率;实时查询时,可以按照多个属性的组合对索引文件进行查找,匹配之后再对数据存储文件进行查找,获得详细信息,查询迅速且准确。

Description

基于数据流的多属性索引方法
技术领域
本发明涉及海量数据处理领域,尤其是一种对于海量网络数据的多属性索引建立和查找方法。
背景技术
在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值得集合和相应的指向表中物理标识这些值得数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。随着信息技术的快速发展,社会进入大数据时代,对于海量数据的查找成为研究的热点,大量结构化、非结构化数据需要相应的方法进行查找。目前对于海量数据的查询一般是基于大型数据库的,通过分布式计算技术、表分区技术和查询分解技术来对海量数据进行查询,这种方法主要针对结构化数据;对于非结构化数据的查找一般基于索引技术,通过对数据进行哈希建立索引,按照索引进行查找以减少查找工作量,查找速度较快,目前主流的哈希算法有MD5算法、Bit-Map算法、Bloom Filter算法等,MD5算法是将数据进行运算后得到一个128位的信息摘要,将原有数据压缩,使得索引结构存储空间减小,但信息摘要仍然占用较大的存储空间;Bit-Map算法是将数据映射到BitSet中的某一位上,每条数据对应于一个bit位,索引结构空间极小,但容易出现哈希表冲突,对于查询来说出错的概率较高;布隆过滤器Bloom Filter算法是使用一个m位的BitSet,用k个哈希函数对数据进行哈希,每个哈希函数的取值范围为0到m-1,每个哈希函数将数据映射到BitSet的某一位去,这样BitSet的k个位对应于一个数据,不仅使得索引结构存储空间小,还降低了冲突率,查询效率高。本发明中的海量网络数据就是非结构化数据,因此使用布隆过滤器Bloom Filter算法对数据建立索引,使用三个不同的哈希函数对网络数据建立索引,查找快捷。
目前的索引技术大多是针对数据中的某个属性建立索引的,而对于需要查询数据中更多属性内容的情况,往往需要分别对各个属性建立索引表,索引表较多,而且查找时,需要多次载入不同的索引表,查找过程繁琐,而本发明采用多属性索引方法,将网络数据中的多种属性内容哈希映射到同一个索引表中,查找时,只需要载入一张索引表,就可以查询多个属性内容,简单便捷。
哈希函数就是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值或哈希值。这种转换是一种压缩映射,也就是,哈希值的空间通常远小于输入的空间,不同的输入可能会哈希成相同的输出,而不可能从哈希值来唯一的确定输入值。简单的说就哈希函数是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
发明内容
本发明提供一种实现分级检索、多属性查找匹配、索引结构简单、占用空间小且查找快速快的基于数据流的多属性索引方法。
本发明采用如下技术方案:
一种基于数据流的多属性索引方法,包括:实时数据的存储方法和实时查询方法,
所述实时数据的存储方法为:
步骤101配置参数,设一文件阈值F,设置一个大小为2N的比特向量B,N为大于1的正整数,比特向量B中的所有2N比特的初始值设置为0,
步骤102创建新空网络数据存储文件及索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,
步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP、源端口、宿端口和网络数据,并从所截取的字节流中提取源IP、宿IP、源端口和宿端口,对源IP、宿IP、源端口和宿端口属性进行组合构造,得到源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,K为所截取字节流的字节数并为正整数,
步骤104将哈希值的取值范围选定为0到2N-1,分别对源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到当前网络报文的源IP属性的哈希值n1、宿IP属性的哈希值n2、源IP端口属性组合值的哈希值n3、宿IP端口属性组合值的哈希值n4及四元组属性组合值的哈希值n5,再分别在比特向量B中的第n1、n2、n3、n4及n5位上置1,保存并形成当前比特向量B,同时将当前截取的字节流作为一条数据记录,写入网络数据存储文件,保存并形成当前网络数据存储文件,
步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值,则将当前比特向量B写入索引文件并置于索引文件库中,将当前网络数据存储文件存放于网络数据存储文件库中,然后再清空当前比特向量B,得到初始值为0的比特向量B,返回步骤102;否则,返回步骤103;
所述实时查询方法为:
步骤201配置一个大小为2N的比特向量BC,N为大于1的正整数,比特向量BC中所有2N比特的初始值设置为0,
步骤202获取待查源IP、宿IP、源端口和宿端口属性信息,对待查源IP、宿IP、源端口和宿端口属性进行组合构造,得到待查源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,采用步骤104所述的哈希值计算,分别对待查源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到待查源IP属性的哈希值n′1、宿IP属性的哈希值n′2、源IP端口属性组合值的哈希值n′3、宿IP端口属性组合值的哈希值n′4及四元组属性组合值的哈希值n′5,再分别在比特向量BC中的第n′1、n′2、n′3、n′4及n′5位上置1,保存并形成当前比特向量BC,
步骤203将当前比特向量BC与索引文件库中的每个索引文件进行逐个匹配,查找出第n′1、n′2、n′3、n′4及n′5位位置上为1的索引文件,在根据查到的索引文件,从网络数据存储文件库中查找出相应的网络数据存储文件,进而获得字节流、网络报文。
与现有技术相比,本发明具有如下优点:
(1)本发明中在对网络报文数据建立索引时,先对每条报文数据中的源IP、宿IP、源端口和宿端口属性进行组合构造,再分别对源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值使用布隆过滤器Bloom Filter哈希算法建立索引,多个属性的索引值存储在同一个索引结构中,同时每个索引结构中对应多条网络报文数据,索引结构简单,占用空间小,且使用三个不同的哈希函数计算使得哈希冲突率低,而多属性检索时,只需载入一个索引表,即可实现多属性的匹配查询,索引匹配查找快速,有很好的时间和空间效率。
(2)本发明中对数据流结构的网络报文数据采取的是以提取关键信息的方式存储,而不是对报文的全文内容存储,占用存储空间小且存取效率高,能达到实时的存储;其他非全文内容存储的方式中以提取结构化的数据存储到数据库中,而本发明提取到的报文关键信息是非结构化的,以文件的形式存储,处理速率较快,记录了更多有效细节信息;本发明使用Bloom Filter哈希算法对网络报文数据建立索引,实现文件内容的分级检索,检索时先查找索引文件,匹配后再查找数据文件,查询效率高。
(3)本发明将网络数据存储文件按特定文件大小分割,每个文件中报文数据记录一定,多条报文数据使用哈希算法建立索引,同时对多个属性建立索引,放置在同一个索引文件中,索引结构简单,索引内容丰富,占用空间更少,每个数据存储文件中的数据经过哈希建立索引文件,实现了分级检索,查找某个数据时,可以通过某个属性信息去查找,也可以使用多属性信息进行匹配查找,查找更加精准,同时查找时,先去索引文件查找是否存在,若存在之后再去数据存储文件中进行查找,节约了查找时间。
附图说明
为了更清楚的说明本发明实施实例的技术方案,下面对实施实例或现有技术描述中所使用的附图做简单介绍。
图1是基于数据流的多属性索引方法功能流程图。
图2 Bloom Filter算法使用三个不同哈希函数的哈希映射示意图。
具体实施方式
下面结合本发明实施实例中的附图,对本发明实施实例中的技术方案进行清楚、完整地描述,当然所描述的实施实例仅仅是本发明一部分实施实例,而不是全部的实施实例
实施例1:
一种基于数据流的多属性索引方法,包括:实时数据的存储方法和实时查询方法,
所述实时数据的存储方法为:
步骤101配置参数,设一文件阈值F,设置一个大小为2N的比特向量B,N为大于1的正整数,比特向量B中的所有2N比特的初始值设置为0,
步骤102创建新空网络数据存储文件及索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,
步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP、源端口、宿端口和网络数据,并从所截取的字节流中提取源IP、宿IP、源端口和宿端口,对源IP、宿IP、源端口和宿端口属性进行组合构造,得到源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,K为所截取字节流的字节数并为正整数,本实施例中K取值为64,
步骤104将哈希值的取值范围选定为0到2N-1,分别对源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到当前网络报文的源IP属性的哈希值n1、宿IP属性的哈希值n2、源IP端口属性组合值的哈希值n3、宿IP端口属性组合值的哈希值n4及四元组属性组合值的哈希值n5,再分别在比特向量B中的第n1、n2、n3、n4及n5位上置1,保存并形成当前比特向量B,同时将当前截取的字节流作为一条数据记录,写入网络数据存储文件,保存并形成当前网络数据存储文件,所述哈希值计算可以选取1个哈希函数,也可以采用布隆过滤器Bloom Filter哈希算法,选取多个哈希函数,
步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值,则将当前比特向量B写入索引文件并置于索引文件库中,将当前网络数据存储文件存放于网络数据存储文件库中,然后再清空当前比特向量B,得到初始值为0的比特向量B,返回步骤102;否则,返回步骤103;
所述实时查询方法为:
步骤201配置一个大小为2N的比特向量BC,N为大于1的正整数,比特向量BC中所有2N比特的初始值设置为0,
步骤202获取待查源IP、宿IP、源端口和宿端口属性信息,对待查源IP、宿IP、源端口和宿端口属性进行组合构造,得到待查源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,采用步骤104所述的哈希值计算,分别对待查源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到待查源IP属性的哈希值n′1、宿IP属性的哈希值n′2、源IP端口属性组合值的哈希值n′3、宿IP端口属性组合值的哈希值n′4及四元组属性组合值的哈希值n′5,再分别在比特向量BC中的第n′1、n′2、n′3、n′4及n′5位上置1,保存并形成当前比特向量BC,
步骤203将当前比特向量BC与索引文件库中的每个索引文件进行逐个匹配,查找出第n′1、n′2、n′3、n′4及n′5位位置上为1的索引文件,在根据查到的索引文件,从网络数据存储文件库中查找出相应的网络数据存储文件,进而获得字节流、网络报文。
在本实施例中,步骤102所述的网络数据存储文件是以创建时的***时间为名称的网络数据存储文件,所述的索引文件是以创建时的***时间为名称的索引文件。
在本实施例中,步骤103中所述的对源IP、宿IP、源端口和宿端口属性进行组合构造的具体方法是:将源IP属性与源端口属性进行组合并将源IP属性置于高位后得到源IP端口属性组合值,同时将宿IP属性与宿端口属性进行组合并将宿IP属性置于高位后得到宿IP端口属性组合值,然后将源IP端口属性组合值与宿IP端口属性组合值进行组合并将源IP端口属性组合值置于高位,得到源IP属性、源端口属性、宿IP属性与宿端口属性的四元组属性组合值。
在本实施例中,步骤202中所述的对待查源IP、宿IP、源端口和宿端口属性进行组合构造的具体方法是:将源IP属性与源端口属性进行组合并将源IP属性置于高位后得到源IP端口属性组合值,同时将宿IP属性与宿端口属性进行组合并将宿IP属性置于高位后得到宿IP端口属性组合值,然后将源IP端口属性组合值与宿IP端口属性组合值进行组合并将源IP端口属性组合值置于高位,得到源IP属性、源端口属性、宿IP属性与宿端口属性的四元组属性组合值。
实施例2:
一种基于数据流的多属性索引方法,包括:实时数据的存储方法和实时查询方法,
所述实时数据的存储方法为:
步骤101配置参数,设一文件阈值F,设置一个大小为2N的比特向量B,N为大于1的正整数,比特向量B中的所有2N比特的初始值设置为0,
步骤102创建新空网络数据存储文件及索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,
步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP、源端口、宿端口和网络数据,并从所截取的字节流中提取源IP、宿IP、源端口和宿端口,对源IP、宿IP、源端口和宿端口属性进行组合构造,得到源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,K为所截取字节流的字节数并为正整数,K可为64,
步骤104将哈希值的取值范围选定为0到2N-1,分别对源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,哈希值计算采用布隆过滤器Bloom Filter算法并采用三个不同的哈希函数Hash1、Hash2及Hash3,分别得到源IP属性的三个哈希值n11、n12、n13,宿IP属性的三个哈希值n21、n22、n23,源IP端口属性组合值的三个哈希值n31、n32、n33,宿IP端口属性组合值的三个哈希值n41、n42、n43及四元组属性组合值的三个哈希值n51、n52、n53,并在比特向量B中的第n11、n12、n13、n21、n22、n23、n31、n32、n33、n41、n42、n43、n51、n52和n53位上均置1,保存并形成当前比特向量B,同时将当前截取的字节流作为一条数据记录,写入网络数据存储文件,保存并形成当前网络数据存储文件,
步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值,则将当前比特向量B写入索引文件并置于索引文件库中,将当前网络数据存储文件存放于网络数据存储文件库中,然后再清空当前比特向量B,得到初始值为0的比特向量B,返回步骤102;否则,返回步骤103;
所述实时查询方法为:
步骤201配置一个大小为2N的比特向量BC,N为大于1的正整数,比特向量BC中所有2N比特的初始值设置为0,
步骤202获取待查源IP、宿IP、源端口和宿端口属性信息,对待查源IP、宿IP、源端口和宿端口属性进行组合构造,得到待查源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,采用步骤104所述的哈希值计算,分别对待查源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,哈希值计算采用所述的布隆过滤器Bloom Filter算法并采用所述的三个不同的哈希函数Hash1、Hash2及Hash3,分别得到待查源IP属性的三个哈希值n′11、n′12、n′13,宿IP属性的三个哈希值n′21、n′22、n′23,源IP端口属性组合值的三个哈希值n′31、n′32、n′33,宿IP端口属性组合值的三个哈希值n′41、n′42、n′43及四元组属性组合值的三个哈希值n′51、n′52、n′53,并在比特向量BC的第n′11、n′12、n′13、n′21、n′22、n′23、n′31、n′32、n′33、n′41、n′42、n′43、n′51、n′52和n′53位上均置1,保存并形成当前比特向量BC,
步骤203将当前比特向量BC与索引文件库中的每个索引文件进行逐个匹配,查找出第n′11、n′12、n′13、n′21、n′22、n′23、n′31、n′32、n′33、n′41、n′42、n′43、n′51、n′52及n′53位位置上为1的索引文件,在根据查到的索引文件,从网络数据存储文件库中查找出相应的网络数据存储文件,进而获得字节流、网络报文。
在本实施例中,步骤102所述的网络数据存储文件是以创建时的***时间为名称的网络数据存储文件,所述的索引文件是以创建时的***时间为名称的索引文件。
在本实施例中,步骤103中所述的对源IP、宿IP、源端口和宿端口属性进行组合构造的具体方法是:将源IP属性与源端口属性进行组合并将源IP属性置于高位后得到源IP端口属性组合值,同时将宿IP属性与宿端口属性进行组合并将宿IP属性置于高位后得到宿IP端口属性组合值,然后将源IP端口属性组合值与宿IP端口属性组合值进行组合并将源IP端口属性组合值置于高位,得到源IP属性、源端口属性、宿IP属性与宿端口属性的四元组属性组合值。
在本实施例中,步骤202中所述的对待查源IP、宿IP、源端口和宿端口属性进行组合构造的具体方法是:将源IP属性与源端口属性进行组合并将源IP属性置于高位后得到源IP端口属性组合值,同时将宿IP属性与宿端口属性进行组合并将宿IP属性置于高位后得到宿IP端口属性组合值,然后将源IP端口属性组合值与宿IP端口属性组合值进行组合并将源IP端口属性组合值置于高位,得到源IP属性、源端口属性、宿IP属性与宿端口属性的四元组属性细合值。

Claims (6)

1.一种基于数据流的多属性索引方法,包括:实时数据的存储方法和实时查询方法,其特征在于,
所述实时数据的存储方法为:
步骤101配置参数,设一文件阈值F,设置一个大小为2N的比特向量B,N为大于1的正整数,比特向量B中的所有2N比特的初始值设置为0,
步骤102创建新空网络数据存储文件及索引文件,所述网络数据存储文件的阈值取为步骤101所设的文件阈值F,
步骤103获取网络报文,截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP、源端口、宿端口和网络数据,并从所截取的字节流中提取源IP、宿IP、源端口和宿端口,对源IP、宿IP、源端口和宿端口属性进行组合构造,得到源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,K为所截取字节流的字节数并为正整数,
步骤104将哈希值的取值范围选定为0到2N-1,分别对源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到当前网络报文的源IP属性的哈希值n1、宿IP属性的哈希值n2、源IP端口属性组合值的哈希值n3、宿IP端口属性组合值的哈希值n4及四元组属性组合值的哈希值n5,再分别在比特向量B中的第n1、n2、n3、n4及n5位上置1,保存并形成当前比特向量B,同时将当前截取的字节流作为一条数据记录,写入网络数据存储文件,保存并形成当前网络数据存储文件,
步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值,则将当前比特向量B写入索引文件并置于索引文件库中,将当前网络数据存储文件存放于网络数据存储文件库中,然后再清空当前比特向量B,得到初始值为0的比特向量B,返回步骤102;否则,返回步骤103;
所述实时查询方法为:
步骤201配置一个大小为2N的比特向量BC,N为大于1的正整数,比特向量BC中所有2N比特的初始值设置为0,
步骤202获取待查源IP、宿IP、源端口和宿端口属性信息,对待查源IP、宿IP、源端口和宿端口属性进行组合构造,得到待查源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值,采用步骤104所述的哈希值计算,分别对待查源IP属性、宿IP属性、源IP端口属性组合值、宿IP端口属性组合值及四元组属性组合值进行哈希值计算,得到待查源IP属性的哈希值n′1、宿IP属性的哈希值n′2、源IP端口属性组合值的哈希值n′3、宿IP端口属性组合值的哈希值n′4及四元组属性组合值的哈希值n′5,再分别在比特向量BC中的第n′1、n′2、n′3、n′4及n′5位上置1,保存并形成当前比特向量BC,
步骤203将当前比特向量BC与索引文件库中的每个索引文件进行逐个匹配,查找出第n′1、n′2、n′3、n′4及n′5位位置上为1的索引文件,在根据查到的索引文件,从网络数据存储文件库中查找出相应的网络数据存储文件,进而获得字节流、网络报文。
2.根据权利要求1所述的基于数据流的多属性索引方法,其特征在于,步骤102所述的网络数据存储文件是以创建时的***时间为名称的网络数据存储文件,所述的索引文件是以创建时的***时间名称的索引文件。
3.根据权利要求1所述的基于数据流的多属性索引方法,其特征在于,所述步骤103中的对源IP、宿IP、源端口和宿端口属性进行组合构造的具体方法是:将源IP属性与源端口属性进行组合并将源IP属性置于高位后得到源IP端口属性组合值,同时将宿IP属性与宿端口属性进行组合并将宿IP属性置于高位后得到宿IP端口属性组合值,然后将源IP端口属性组合值与宿IP端口属性组合值进行组合并将源IP端口属性组合值置于高位,得到源IP属性、源端口属性、宿IP属性与宿端口属性的四元组属性组合值。
4.根据权利要求1所述的基于数据流的多属性索引方法,其特征在于,所述步骤202中对待查源IP、宿IP、源端口和宿端口属性进行组合构造的具体方法是:将源IP属性与源端口属性进行组合并将源IP属性置于高位后得到源IP端口属性组合值,同时将宿IP属性与宿端口属性进行组合并将宿IP属性置于高位后得到宿IP端口属性组合值,然后将源IP端口属性组合值与宿IP端口属性组合值进行组合并将源IP端口属性组合值置于高位,得到源IP属性、源端口属性、宿IP属性与宿端口属性的四元组属性组合值。
5.根据权利要求1、2、3或4所述的基于数据流的多属性索引方法,其特征在于,步骤104中的哈希值计算采用布隆过滤器Bloom Filter算法并采用三个不同的哈希函数Hash1、Hash2及Hash3,分别得到源IP属性的三个哈希值n11、n12、n13,宿IP属性的三个哈希值n21、n22、n23,源IP端口属性组合值的三个哈希值n31、n32、n33,宿IP端口属性组合值的三个哈希值n41、n42、n43及四元组属性组合值的三个哈希值n51、n52、n53,并在比特向量B中的第n11、n12、n13、n21、n22、n23、n31、n32、n33、n41、n42、n43、n51、n52和n53位上均置1,保存并形成当前比特向量B;步骤202中的哈希值计算采用所述的布隆过滤器Bloom Filter算法并采用所述的三个不同的哈希函数Hash1、Hash2及Hash3,分别得到待查源IP属性的三个哈希值n′11、n′12、n′13,宿IP属性的三个哈希值n′21、n′22、n′23,源IP端口属性组合值的三个哈希值n′31、n′32、n′33,宿IP端口属性组合值的三个哈希值n′41、n′42、n′43及四元组属性组合值的三个哈希值n′51、n′52、n′53,并在比特向量BC的第n′11、n′12、n′13、n′21、n′22、n′23、n′31、n′32、n′33、n′41、n′42、n′43、n′51、n′52和n′53上均置1,保存并形成当前比特向量BC。
6.根据权利要求5所述的基于数据流的多属性索引方法,其特征在于,K取值为64。
CN201710435965.7A 2017-06-09 2017-06-09 基于数据流的多属性索引方法 Expired - Fee Related CN107368527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710435965.7A CN107368527B (zh) 2017-06-09 2017-06-09 基于数据流的多属性索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710435965.7A CN107368527B (zh) 2017-06-09 2017-06-09 基于数据流的多属性索引方法

Publications (2)

Publication Number Publication Date
CN107368527A true CN107368527A (zh) 2017-11-21
CN107368527B CN107368527B (zh) 2020-06-30

Family

ID=60306473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710435965.7A Expired - Fee Related CN107368527B (zh) 2017-06-09 2017-06-09 基于数据流的多属性索引方法

Country Status (1)

Country Link
CN (1) CN107368527B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886025A (zh) * 2019-01-04 2019-06-14 平安科技(深圳)有限公司 用户标识的管理方法、装置、计算机设备及存储介质
CN109981529A (zh) * 2017-12-27 2019-07-05 西门子(中国)有限公司 报文获取方法、装置、***及计算机存储介质
CN110019985A (zh) * 2017-12-29 2019-07-16 上海全土豆文化传播有限公司 索引文件的建立、查询方法及装置
CN110704438A (zh) * 2019-09-26 2020-01-17 深圳前海微众银行股份有限公司 一种区块链中布隆过滤器的生成方法及装置
CN110932983A (zh) * 2019-12-04 2020-03-27 锐捷网络股份有限公司 一种tcp负载均衡方法、装置、设备及介质
CN112714040A (zh) * 2020-12-11 2021-04-27 深圳供电局有限公司 全息报文检测方法、装置、设备及存储介质
CN112800142A (zh) * 2020-12-15 2021-05-14 赛尔网络有限公司 Mr作业处理方法、装置、电子设备及存储介质
CN112905852A (zh) * 2021-03-04 2021-06-04 睿石网云(杭州)科技有限公司 一种基于会话索引的应用性能报文存储装置
CN114567434A (zh) * 2022-03-07 2022-05-31 亿咖通(湖北)技术有限公司 一种证书和密钥的存储方法和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088473A1 (en) * 2004-03-17 2005-09-22 Abb Research Ltd Apparatus and method for data consistency validation
CN101741743A (zh) * 2009-12-11 2010-06-16 东南大学 基于网络地址排序的双向流组流方法
CN101753639A (zh) * 2009-12-11 2010-06-23 东南大学 基于流量通信模式的服务角色识别方法
CN102025563A (zh) * 2010-11-30 2011-04-20 东南大学 基于哈希冲突补偿的网络大流识别方法
CN103020296A (zh) * 2012-12-31 2013-04-03 湖南大学 一种高精度多维计数布鲁姆过滤器及其大数据处理方法
DE102013210914A1 (de) * 2012-06-29 2014-01-02 International Business Machines Corp. Datenverarbeitungsverfahren, Datenabfrageverfahren in Datenbank und entsprechende Einheit
CN104009888A (zh) * 2014-06-05 2014-08-27 东南大学 综合报文和流的二维网络活跃节点测量方法
CN104115463A (zh) * 2011-11-07 2014-10-22 网络流逻辑公司 用于处理网络元数据的流式传输方法和***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088473A1 (en) * 2004-03-17 2005-09-22 Abb Research Ltd Apparatus and method for data consistency validation
CN101741743A (zh) * 2009-12-11 2010-06-16 东南大学 基于网络地址排序的双向流组流方法
CN101753639A (zh) * 2009-12-11 2010-06-23 东南大学 基于流量通信模式的服务角色识别方法
CN102025563A (zh) * 2010-11-30 2011-04-20 东南大学 基于哈希冲突补偿的网络大流识别方法
CN104115463A (zh) * 2011-11-07 2014-10-22 网络流逻辑公司 用于处理网络元数据的流式传输方法和***
DE102013210914A1 (de) * 2012-06-29 2014-01-02 International Business Machines Corp. Datenverarbeitungsverfahren, Datenabfrageverfahren in Datenbank und entsprechende Einheit
CN103020296A (zh) * 2012-12-31 2013-04-03 湖南大学 一种高精度多维计数布鲁姆过滤器及其大数据处理方法
CN104009888A (zh) * 2014-06-05 2014-08-27 东南大学 综合报文和流的二维网络活跃节点测量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENGGUANG等: "A Detecting Superpoint Algorithm on Multiple Sampling Technology", 《2008 SECOND INTERNATIONAL CONFERENCE ON FUTURE GENERATION COMMUNICATION AND NETWORKING》 *
柴佳林等: "一种基于支持向量机的IP网络流量预测方法", 《西华大学学报(自然科学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981529A (zh) * 2017-12-27 2019-07-05 西门子(中国)有限公司 报文获取方法、装置、***及计算机存储介质
CN109981529B (zh) * 2017-12-27 2021-11-12 西门子(中国)有限公司 报文获取方法、装置、***及计算机存储介质
CN110019985B (zh) * 2017-12-29 2021-09-24 阿里巴巴(中国)有限公司 索引文件的建立、查询方法及装置
CN110019985A (zh) * 2017-12-29 2019-07-16 上海全土豆文化传播有限公司 索引文件的建立、查询方法及装置
CN109886025A (zh) * 2019-01-04 2019-06-14 平安科技(深圳)有限公司 用户标识的管理方法、装置、计算机设备及存储介质
CN110704438A (zh) * 2019-09-26 2020-01-17 深圳前海微众银行股份有限公司 一种区块链中布隆过滤器的生成方法及装置
CN110704438B (zh) * 2019-09-26 2023-10-03 深圳前海微众银行股份有限公司 一种区块链中布隆过滤器的生成方法及装置
CN110932983A (zh) * 2019-12-04 2020-03-27 锐捷网络股份有限公司 一种tcp负载均衡方法、装置、设备及介质
CN110932983B (zh) * 2019-12-04 2022-03-18 锐捷网络股份有限公司 一种tcp负载均衡方法、装置、设备及介质
CN112714040A (zh) * 2020-12-11 2021-04-27 深圳供电局有限公司 全息报文检测方法、装置、设备及存储介质
CN112800142A (zh) * 2020-12-15 2021-05-14 赛尔网络有限公司 Mr作业处理方法、装置、电子设备及存储介质
CN112800142B (zh) * 2020-12-15 2023-08-08 赛尔网络有限公司 Mr作业处理方法、装置、电子设备及存储介质
CN112905852A (zh) * 2021-03-04 2021-06-04 睿石网云(杭州)科技有限公司 一种基于会话索引的应用性能报文存储装置
CN114567434A (zh) * 2022-03-07 2022-05-31 亿咖通(湖北)技术有限公司 一种证书和密钥的存储方法和电子设备
CN114567434B (zh) * 2022-03-07 2023-08-11 亿咖通(湖北)技术有限公司 一种证书和密钥的存储方法和电子设备

Also Published As

Publication number Publication date
CN107368527B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN107368527A (zh) 基于数据流的多属性索引方法
US11238098B2 (en) Heterogenous key-value sets in tree database
US9405790B2 (en) System, method and data structure for fast loading, storing and access to huge data sets in real time
US11620397B2 (en) Methods and apparatus to provide group-based row-level security for big data platforms
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
CN107357843A (zh) 基于数据流结构的海量网络数据查找方法
US9275110B2 (en) Disk-based hash join process
CN106326381B (zh) 基于MapDB构建的HBase数据检索方法
US10255378B2 (en) Database structure for distributed key-value pair, document and graph models
CN105069111B (zh) 云存储中基于相似性的数据块级数据去重方法
CN104112026B (zh) 一种短信文本分类方法及***
US8099421B2 (en) File system, and method for storing and searching for file by the same
US9760599B2 (en) Group-by processing for data containing singleton groups
AU2016345990A1 (en) A system and method for processing big data using electronic document and electronic file-based system that operates on RDBMS
CN103544261B (zh) 一种海量结构化日志数据全局索引管理方法及装置
CN102332030A (zh) 用于分布式键-值存储***的数据存储、管理和查询方法及***
CN103678491A (zh) 一种基于Hadoop中小文件优化和倒排索引的方法
RU2005105582A (ru) База данных и система управления знаниями
CN110858823B (zh) 一种数据包的分类方法、装置及计算机可读存储介质
CN106682042A (zh) 一种关系数据缓存及查询方法及装置
CN103207889A (zh) 一种基于Hadoop的海量人脸图像的检索方法
US20220222233A1 (en) Clustering of structured and semi-structured data
CN103366008A (zh) 一种查找资源的方法和装置
CN105718521A (zh) 一个基于Wavelet Tree的网络数据包索引***
CN104881475A (zh) 一种用于大数据随机抽样的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200630