CN112468410B

CN112468410B - 一种增强网络流量特征准确率的方法和装置

Info

Publication number: CN112468410B
Application number: CN202011220805.9A
Authority: CN
Inventors: 白司特; 雷葆华; 曾伟; 李竞
Original assignee: Wuhan Greenet Information Service Co Ltd
Current assignee: Wuhan Greenet Information Service Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-10-22
Anticipated expiration: 2040-11-05
Also published as: CN112468410A

Abstract

本发明涉及流量数据处理技术领域，提供了一种增强网络流量特征准确率的方法和装置。在进行第一流量识别的时候，使用各个目标流量特征信息进行匹配；若第一流量所包含的特征信息与各个目标流量特征信息匹配失败时，并且备用特征信息为空时，调用各个背景流量特征信息进行与第一流量的上下文环境中所包含的背景特征信息的匹配；在第一背景流量特征信息匹配相似度大于预设阈值时，判断第一流量与第一目标流量特征信息归属于同一应用、同一终端、同一***或者同一类终端的会话。本发明所提出的方法能够通过新增动态的备用特征信息和相对静态的背景流量特征信息，并通过相应的匹配策略完成了复杂数据流场景下的不同层次主体的关联流量同源同宿问题。

Description

一种增强网络流量特征准确率的方法和装置

【技术领域】

本发明涉及流量数据处理技术领域，特别是涉及一种增强网络流量特征准确率的方法和装置。

【背景技术】

现有技术中，网络流量管理设备都会有自己调研的特征库，特征库里包含用于识别每个应用软件的流量特征信息。通常网络流量管理设备都是使用五元组(源IP地址、目的IP地址、源端口、目的端口和协议号)来标识网络上唯一的一个流量单元或称为会话。每个应用软件运行时都会产生很多不同的五元组流量或会话，用于不同功能的通信。因此网络协议分析工程师需要对一个软件产生的全部可能的五元组流量进行调研，找到识别每个五元组流量的特征信息，加入到特征库中，那么这些五元组流量的特征点集合，就构成了这个应用全部流量的特征集合。

然而，在具体实现过程中，应用于五元组之间的对应性并非唯一的，有可能出现一个应用对应于多套五元组或者一套五元组被分配给多个应用使用情况发生，对于后者而言更多可能是在不同应用分时段申请IP端口资源时发生。

【发明内容】

本发明要解决的技术问题是现有特征匹配方法方式过于死板和单一，无法解决越来越复杂的数据流量环境。

本发明采用如下技术方案：

第一方面，本发明提供了一种增强网络流量特征准确率的方法，在产生目标流量会话的目标流量特征信息的同时，根据所述目标流量会话的上下文环境，同时生成与目标流量会话匹配的背景流量特征信息，其中，所述目标流量特征信息和所述背景流量特征信息之间建立有关联关系，分别用以描述所述目标流量会话，以及目标流量会话的上下文环境，方法包括：

在进行第一流量识别的时候，使用各个目标流量特征信息进行匹配；

若所述第一流量所包含的特征信息与各个目标流量特征信息匹配失败时，并且备用特征信息为空时，调用各个背景流量特征信息进行与所述第一流量的上下文环境中所包含的背景特征信息的匹配；

在第一背景流量特征信息匹配相似度大于预设阈值时，判断所述第一流量与第一目标流量特征信息归属于同一应用、同一终端、同一***或者同一类终端的会话；

将从所述第一流量中提取出的目标流量特征信息更新到所述第一目标流量特征信息所关联的备用特征信息中；所述备用特征信息用于在第一目标流量特征信息匹配失败时，并且在进行第一背景流量特征信息匹配之前进行备用匹配，用于识别被分析的流量与所述第一目标流量特征信息是否归属于同一应用、同一终端、同一***或者同一类终端的会话。

优选的，所述根据所述目标流量特征的上下文环境，同时生成与之匹配的背景流量特征信息，具体包括：

在目标流量会话的前流量和/或后流量中，提取预设个数会话流量，并在预设个数会话流量中通过各个特征的相似度匹配，找到满足相似度匹配条件，可作为背景流量特征的一项或者多项特征信息，构成与所述目标流量会话相关联的背景流量特征点集合；

从所述背景流量特征点集合中挑选一个或者多个特征信息构成所述背景流量特征信息。

优选的，在构成与所述目标流量会话相关联的背景流量特征点集合后，所述方法还包括：

通过相似度匹配，将不同的背景流量特征信息中包含的各项特征信息进行匹配，若在不同的背景流量特征信息中包含有相同的特征信息项，则相应特征信息项将作为背景流量特征信息中的辅助信息项；

其中，在进行第一流量与各背景流量特征信息进行匹配时，若仅满足背景流量特征信息中的辅助信息项匹配，则相应的匹配结果不作为所述第一流量与相应背景流量特征信息之间匹配的依据。

优选的，在进行第一流量与各背景流量特征信息进行匹配时，若仅满足背景流量特征信息中的辅助信息项匹配，所述方法还包括：

根据历史背景流量特征点集合中各特征信息项所处流量位置，进行归属于第一流量的在互斥流量位置上的特征提取，作为待分析目标特征；

将相应待分析目标特征，进行大数据分析和识别，并将分析和识别结果作为归属于第一流量的背景流量特征信息，更新到整个背景流量特征点集中。

优选的，若用于匹配表征某一流量的备用特征信息中包含的备用特征信息组数大于预设数量时，并且历史统计的使用所述备用特征信息进行数据匹配的平均时长超过使用背景流量特征信息进行匹配的平均时长时，为相应备用特征信息设置匹配优先级高于其备用特征集合的匹配优先级，其中，一组备用特征信息用于表征与其备用特征信息匹配上的流量，与其关联的目标流量特征信息属于同一应用、同一终端、同一***或者同一类终端的会话，所述方法包括：

若所述第一流量所包含的特征信息与各个目标流量特征信息匹配失败，在进行备用特征信息和/或背景流量特征信息匹配过程中，确认背景流量特征信息匹配优先级高于所述备用特征信息的匹配优先级时，跳过备用特征集合的匹配，直接调用相应背景流量特征信息，进行与所述第一流量的上下文环境中所包含的背景特征信息的匹配。

优选的，所述背景流量特征信息包括：

软件类型、软件名称、开发公司、协议类型、协议的指定字段值、报文的包长度、报文的时间和数据流方向信息中的一项或者多项。

优选的，所述使用各个目标流量特征信息进行匹配，具体为：

将第一流量的目标特征项进行hash运算，并与各个目标流量特征信息所对应的hash值进行匹配；

若存在一组目标流量特征信息的hash值与第一流量的目标特征项hash值相同，则确认所述第一流量与目标流量特征信息匹配成功。

优选的，若存在多组与目标流量特征信息所关联的备用特征信息时，针对每一组备用特征信息进行hash值计算，并将目标流量特征信息所关联下的所有备用特征信息的hash值进行排序；

在进行所述第一流量和所述目标流量特征信息所关联的各组备用特征信息的匹配时，分别将位于排序后的首位和末位的hash值与所述第一流量中相应特征信息项生成的hash值进行比较，若相应第一流量的hash值位于所述排序后的首位和末位的hash值区间之外，则判断匹配失败；若相应第一流量的hash值位于所述排序后的首位和末位的hash值区间之内，则进一步通过二叉法完成排序后的首位和末位的hash值内剩余hash值的匹配。

优选的，用于计算hash值的目标特征项具体为TCP/IP五元组。

第二方面，本发明还提供了一种增强网络流量特征准确率的装置，用于实现第一方面所述的增强网络流量特征准确率的方法，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的增强网络流量特征准确率的方法。

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的增强网络流量特征准确率的方法。

本发明提出了一种结合备用特征信息和背景流量特征信息的网络流量识别方法，能够克服现有技术中五元组方式仅能支撑传统应用的数据流量，而在未来的大数据、分布式计算应用场景下，相应传统的数据实现方法越来越跟不上数据流量多样性的演变速度；而本发明所提出的方法能够通过新增动态的备用特征信息和相对静态的背景流量特征信息，并通过相应的匹配策略完成了复杂数据流场景下的不同层次主体的关联流量同源同宿问题。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的现有技术中数据流量特征提取分析的方法流程图；

图2是本发明实施例提供的一种增强网络流量特征准确率的方法流程示意图；

图3是本发明实施例提供的一种增强网络流量特征准确率的方法流程示意图；

图4是本发明实施例提供的一种使用wireshark抓包工具获取的两个不同IP地址产生的同样某应用的流量；

图5是本发明实施例提供的一种增强网络流量特征准确率的方法流程示意图；

图6是本发明实施例提供的一种增强网络流量特征准确率的装置结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

其中每一个五元组流量，其流量的特征是网络协议分析工程师人工定义，或者根据一定方法，在其中的信息里面提取某些固定的特征点作为其目标流量特征。由于很多厂商的特征信息都是人工主观判断定义的，因此其作为特征的准确性无法保证。即使有些厂商使用算法得出特征信息，但由于得出的特征信息仅仅是从实验环境的目标流量中得出，因此描述的特征信息仍存有一定描述缺失。

作为特征信息需要满足两个必要条件：

1.不变性，即特征信息在实际使用时是要能够完全匹配到的，然而调研的时候人工测试采集的样本是有限的，因此无从判断定义的特征在实际使用时是否能够覆盖到全部情况。

2.唯一性，即特征信息只能是被调研的应用才会产生，而其它应用不会产生，如果其它应用也会匹配到，则出现了误识别情况，此特征无效，需要继续寻找其它唯一特征信息。因此这两点，使用传统的特征提取方法，并没有措施进行自动量化评估以及自动改正。

现有的技术方案如图1所示，就是从目标流量中提取用于最后匹配流量的特征信息，可能是一个特征值，也可能是某几个特征值组合。由于考虑到性能问题，更多的特征意味着需要消耗更多的匹配计算资源。而且由于多个特征信息之间是采用逻辑与的操作将多个特征点组合在一起，因此一旦其中一个特征点失效，则整个特征组合也失效了。因此特征组合的数量不会很多，一般都是刚刚够用。但实际上一个流量里面客观绝对存在的特征信息可能有很多个。所以基于以上原因，最后选择作为匹配用的特征组合数量一般都很少。那么这时候一旦特征值或组合产生问题，就需要重新回到开始阶段，进行新的调研，并且由于没有反馈和改进手段，出现的问题依旧可能还是会继续发生。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

本发明实施例1提供了一种增强网络流量特征准确率的方法，在产生目标流量会话的目标流量特征信息的同时，根据所述目标流量会话的上下文环境，同时生成与目标流量会话匹配的背景流量特征信息，其中，所述目标流量特征信息和所述背景流量特征信息之间建立有关联关系，分别用以描述所述目标流量会话，以及目标流量会话的上下文环境，如图2所示，方法包括：

在步骤201中，在进行第一流量识别的时候，使用各个目标流量特征信息进行匹配。

在步骤202中，若所述第一流量所包含的特征信息与各个目标流量特征信息匹配失败时，并且备用特征信息为空时，调用各个背景流量特征信息进行与所述第一流量的上下文环境中所包含的背景特征信息的匹配。

在本发明实施例中，给予了一种目标流量特征信息、备用特征信息和背景流量特征信息三者之间关系的数据结构呈现形式，{目标流量匹配特征A：[备用特征信息a]，[背景流量特征项A1、背景流量特征项A2、背景流量特征项A3...]}、{目标流量特征B：[备用特征信息b]，[背景流量特征项B1、背景流量特征项B2、背景流量特征项B3...]}。

与本发明相比，传统的特征信息只有匹配特征A、匹配特征B这样的目标流量特征信息，而缺少与之对应的背景流量特征集合及备用特征信息。本发明的实质创新点之一就是，新增加背景流量特征集合和备用特征信息，用以描述目标流量特征产生的上下文流量环境，以及当匹配特征有问题时自动选择备用的特征信息来进行替换并轮询进行质量评估。

在步骤203中，在第一背景流量特征信息匹配相似度大于预设阈值时，判断所述第一流量与第一目标流量特征信息归属于同一应用、同一终端、同一***或者同一类终端的会话。

所述背景流量特征信息包括：软件类型、软件名称、开发公司、协议类型、协议的指定字段值、报文的包长度、报文的时间和数据流方向信息中的一项或者多项。在本发明实施例中，所述“第一”的表述没有特殊的限定含义，只是为了方便将某些具有特定关联关系的对象进行凸显方式阐述才引入的，不应该作为相应表征顺序或者其他特定限定含义的解释。

在步骤204中，将从所述第一流量中提取出的目标流量特征信息更新到所述第一目标流量特征信息所关联的备用特征信息中；所述备用特征信息用于在第一目标流量特征信息匹配失败时，并且在进行第一背景流量特征信息匹配之前进行备用匹配，用于识别被分析的流量与所述第一目标流量特征信息是否归属于同一应用、同一终端、同一***或者同一类终端的会话。

本发明实施例提出了一种结合备用特征信息和背景流量特征信息的网络流量识别方法，能够克服现有技术中五元组方式仅能支撑传统应用的数据流量，而在未来的大数据、分布式计算应用场景下，相应传统的数据实现方法越来越跟不上数据流量多样性的演变速度；而本发明实施例所提出的方法能够通过新增动态的备用特征信息和相对静态的背景流量特征信息，并通过相应的匹配策略完成了复杂数据流场景下的不同层次主体的关联流量同源同宿问题。

结合本发明实施例，上述步骤202涉及，根据所述目标流量特征的上下文环境，同时生成与之匹配的背景流量特征信息，具体包括：

在目标流量会话的前流量和/或后流量中，提取预设个数(例如：5-10个)会话流量，并在预设个数会话流量中通过各个特征的相似度匹配，找到满足相似度匹配条件，可作为背景流量特征的一项或者多项特征信息，构成与所述目标流量会话相关联的背景流量特征点集合；其中，所述满足相似度匹配条件包括但不限定于，该项特征信息在同一会话的多条数据流量中均重复出现，并且，与其它会话的数据流量之间存在一定的差异性(最优的是完全不同，次优的是小概率相同)，在具体实现过程中，所述相似度匹配条件首先关注的是自身会话中严格重复出现的特征项。

从所述背景流量特征点集合中挑选一个或者多个特征信息构成所述背景流量特征信息。其中，在挑选的过程中，才是针对上述仅针对同一会话的多条数据流量中均重复出现条件整理到的背景流量特征点集合，进一步与相邻的会话中所包含的特征项进行差异性比较后，满足上述差异性条件的才作为背景流量特征信息项。

为了进一步精细化的对背景流量特征信息进行管理，结合本发明实施例，在构成与所述目标流量会话相关联的背景流量特征点集合后，所述方法还包括：

通过相似度匹配，将不同的背景流量特征信息中包含的各项特征信息进行匹配，若在不同的背景流量特征信息中包含有相同的特征信息项，则相应特征信息项将作为背景流量特征信息中的辅助信息项。

这种方式相比较上述的，直接去与相邻的数据流量进行背景流量特征点集合中的特征项的比对来的更为有效和便捷，并且，为了避免可能因为上述过于严格的筛选方式，丢失掉针对某一数据流量下所有背景流量特征信息的情况发生，才有了上述“辅助信息项”的概念引入，并且，由于“辅助信息项”的固有属性就是在不同的背景流量特征信息中都存在过，那么其唯一性是存在天然质疑的，因此，才有了上述的操作方式:若仅满足背景流量特征信息中的辅助信息项匹配，则相应的匹配结果不作为所述第一流量与相应背景流量特征信息之间匹配的依据。由此，保证了整个技术方案实现过程中的逻辑严密性。

在本发明实施例实现过程中，考虑到针对不同应用、终端或者***所整理出来的背景流量特征信息项所处位置可能是各不相同的，这是因为不同的软件开发方他们会有各自的一套数据包定义方式，因此，在进行第一流量与各背景流量特征信息进行匹配时，若仅满足背景流量特征信息中的辅助信息项匹配，则表明需要对当前的数据流量进行新一轮的分析过程，如图3所示，所述方法还包括：

在步骤301中，根据历史背景流量特征点集合中各特征信息项所处流量位置，进行归属于第一流量的在互斥流量位置上的特征提取，作为待分析目标特征。其中，所述互斥流量位置具体解释在当前数据流量中存在位置，而历史背景流量特征点集合中并不包含的特征项位置。

在步骤302中，将相应待分析目标特征，进行大数据分析和识别，并将分析和识别结果作为归属于第一流量的背景流量特征信息，更新到整个背景流量特征点集中。

通过上述步骤301-302的实现，保证了相应背景流量特征点集的活性，即在产生了新数据流量，在历史的背景流量特征点集中均没有合适的匹配的情况下，就需要对历史背景流量特征点各自所属流量数据中的位置信息进行确认，从而在新的流量数据(例如本发明实施例中的第一流量数据)中通过排除法寻找到其他位置上可潜在作为背景流量特征点的待分析目标特征。因此，在具体实现过程中，优选的，相应背景流量特征点集合中的各个特征点均有相应数据流量的位置参数信息，而作为更优的实现方式，在对上述需要步骤301-302来维护的新数据流量进行分析的时候，可以接入相关工作人员，对于相应的新数据流量的数据格式进行第三渠道的导入，从而让整个分析过程更为的高效；否则，智能通过各种语法和关键词学习才能完成相应新数据流量的待分析目标特征的获取，相对来说准确度和效率都会有所下降。

在本发明实施例中，出于所述备用特征信息和背景流量特征信息均为本发明提出的新概念，而两者除了在实施例1步骤201-204中所体现的应用策略以外，还存在一种更优的改进策略，具体阐述如下：

若用于匹配表征某一流量的备用特征信息中包含的备用特征信息组数大于预设数量时，并且历史统计的使用所述备用特征信息进行数据匹配的平均时长超过使用背景流量特征信息进行匹配的平均时长时，为相应备用特征信息设置匹配优先级高于其备用特征集合的匹配优先级，其中，一组备用特征信息用于表征与其备用特征信息匹配上的流量，与其关联的目标流量特征信息属于同一应用、同一终端、同一***或者同一类终端的会话，所述方法包括：

作为示例性的，所述使用各个目标流量特征信息进行匹配，具体为：

将第一流量的目标特征项进行hash运算，并与各个目标流量特征信息所对应的hash值进行匹配；若存在一组目标流量特征信息的hash值与第一流量的目标特征项hash值相同，则确认所述第一流量与目标流量特征信息匹配成功。其中，可选的，用于计算hash值的目标特征项具体为TCP/IP五元组。

进一步的，若存在多组与目标流量特征信息所关联的备用特征信息时，针对每一组备用特征信息进行hash值计算，并将目标流量特征信息所关联下的所有备用特征信息的hash值进行排序；

相比较上述通过hash值来比较方式而言，更为传统的，比较内容更为全面的方式则是采用逐一的特征项内容进行比较的方式进行。而上述的通过hash值来比较的方式，则是一种综合考虑数据完整一致性角度下的可选解决方案之一而已。

实施例2：

本发明实施例件结合抓包工具，以及相应抓包得到的实例流量数据，对本发明实施例1所提出的方法内容给予实体技术场景下的方案实现内容呈现。相应的方法过程可以借鉴图5中的流程过程。

如图4所示，上下两个图是使用wireshark抓包工具获取的两个不同IP地址(IP地址1、IP地址2)产生的同样某应用(今日头条APP)的流量。虚线框标识的是目标想要识别的五元组会话流量，其特征点使用虚线框标识。例如均为使用HTTP协议，都是使用GET方法，URL里面都有/video/tos/字符串，并且Host信息均为v6-tt.ixigua.com。传统协议识别库只有这些特征信息的逻辑与组合，来标识这个会话流量的特征信息。但是一旦其中某个字节在实际网络部署当中发生变化，那么整个逻辑与的条件就不成立了，因此特征就会失效，这就是匹配特征的不变性无法成立的一种情况。例如本实施例中如果实际网络中Host信息不是v6-tt.ixigua.com，而是v7-tt.ixigua.com，则此特定信息不成立，并且与之逻辑与的整个特征信息组合都会失效。其次，由于得出此特征信息的方式是本地实验流量样本得出的，特征的唯一性无法得到有效保障，因为无法获取理论上其它所有流量的信息，因此定义的特征不一定能够唯一区分出本应用，例如其它应用流量的也可能包含/video/tos/这种普通单词组合，并不能证明其唯一性，并且诸如v6-tt.ixigua.com(虽然域名里tt猜测可能代表头条的拼音首字母，ixigua代表其旗下视频平台)也并不能证明其它应用流量里不能有，例如其它应用引用视频资源，触发此流量。因此其唯一性并没有技术方法来支撑。

理论上，如果一个应用的流量和另一个应用的流量相似度很高，甚至完全一样，那么这两个应用可能就是同一个。当然完全刻画一个应用的流量是不现实以及复杂的，并且目前的应用功能丰富多彩，有很多不同的功能以及定制化的信息，因此流量信息也是高度复杂的。但是针对某个功能的单一会话的流量，其产生时所处的上下文流量环境却是相对简单的。因此描述出一个目标会话流量上下文流量环境，则相对简单且准确有效。用于描述目标会话上下文流量信息的范围可以根据一定会话数量的特征点(例如目标会话前后按顺序最近的各10个会话里面的特征信息)，或者一定时间范围内的特征点(例如目标会话前后1秒内或N秒内的会话里面的特征信息)。

获取在这个范围内的背景流量特征信息的方式：由于是要描述背景流量信息的特征，因此可以从报文的各种维度来获取信息，包括但不限于例如：

协议类型(HTTP、TCP、UDP、TLS、DNS协议等)；

协议的某些字段值(例如URL里的特征字符。或者像TLS/DNS等字段类协议的某些字段信息，例如域名信息)；

报文的包长度可以用来描述传输数据的量(再加上方向信息：+代表同向，-代表反向)；

固定或一定范围内的16进制数值特征；

某些固定的逻辑表达式，例如报文的负载长度和报文里面某个16进制数值存在一个固定的差值；或者某两个固定偏移位置的16进制数值存在一个或多个固定的差值；或者一个报文里面某些信息是另一个报文信息里面经过某个固定运算得出来的。

使用如上方法中的一种或多种方式来描述背景流量，从而得出一个背景流量特征集合[背景流量特征项A1、背景流量特征项A2、背景流量特征项A3...]。再将此背景流量特征集合和对应的目标特征信息结合，就得到了{目标流量特征A：[背景流量特征项A1、背景流量特征项A2、背景流量特征项A3...]}。如图4例中所示{目标流量特征的描述为[HTTP协议、GET方法、URL里包含/video/tos/、Host为v6-tt.ixigua.com]：背景流量特征点集合[TLS协议的SNI字段值为(sf3-ttcdn-tos.pstatp.com、mcs.snssdk.com、xlog.snssdk.com、a3.pstatp.com)、HTTP协议的Host字段为p6-tt-ipv6.byteimg.com且为GET方法且URL开始为/img/pgc-image/、HTTP协议的Host字段为p3.pstatp.com且为GET方法且URL开始为/origin/、HTTP协议的Host字段为172.16.100.200:8081且为GET方法且URL开始为/IXC]}。

再选择目标流量特征里面的某个特征组合作为匹配用特征，其余作为备用特征。如图例{目标流量特征的描述为[匹配特征[HTTP协议、GET方法、Host为v6-tt.ixigua.com]：备用特征[URL里包含/video/tos/等其它特征信息]，背景流量特征点集合[TLS协议的SNI字段值为(sf3-ttcdn-tos.pstatp.com、mcs.snssdk.com、xlog.snssdk.com、a3.pstatp.com)、HTTP协议的Host字段为p6-tt-ipv6.byteimg.com且为GET方法且URL开始为/img/pgc-image/、HTTP协议的Host字段为p3.pstatp.com且为GET方法且URL开始为/origin/、HTTP协议的Host字段为172.16.100.200:8081且为GET方法且URL开始为/IXC]}。相比较实施例1，本发明实施例进一步扩展了备用特征信息的内容呈现性，在实施例1中更佳凸显的是，相应的备用特征信息和目标流量特征信息是属于同类型固定，只是他们共同的被属于同一目标对象的数据流量所承载。相比较而，实施例1中实现的方式更着眼于未来的万物物联环境下的分布式数据处理场景的呈现。

1、在进行特征匹配的时候，仍可以兼容以往的匹配方式，即只匹配目标流量特征信息A、B、C...方式组成的匹配特征库，但同时存有一个与之对应的背景流量特征库、备用匹配特征库。

2、特征在部署上线初期，使用如下方法，针对现网流量进行自学习。使用目标流量特征库对现网流量进行匹配，并将匹配到的IP地址的流量，使用如上提到的背景流量描述方法，自动提取其背景流量维度信息，并将这些维度信息，使用机器学习的聚类算法进行聚类，此时针对聚类后的数量N个类别进行判断，将N个类别分别去匹配这个目标特征流量对应的背景流量特征库，得出对应的匹配率，例如类别1里面其中一个会话匹配背景流量特征库里的Y个背景流量特征，匹配到了X个，则相似度为X/Y。并且每个类别的会话数量K为识别量也是已知的。

如果X/Y高于一定阈值(例如85％)，认为聚类里面的会话流量和的目标流量特征高度相似，或者认为是相同的(因为背景流量都相似)，如果此时此类别的识别量K的数量高于一定数量(例如现网总共10万个IP，此类别K的数量为2万个)，那么根据这个目标应用流量应有的识别量进行评估(例如根据下载量，用户量，装机量等应用商店提供的信息来进行评估)。如果达到了应用的识别量，则此特征的识别率以及误判率都是正常的。如果特征的识别量低(既K数量小于应有的数量)，则说明目前的特征只识别率小部分流量，即特征可能存在漏判或者错误的情况。因此特征需要重新调研并修改目标流量特征。其中一种增强此流量特征的方法是：由于有这个目标流量相关的背景流量，因此可以直接使用此背景流量去匹配现网流量，找到于此背景流量匹配率最高的流量群，使用此高度匹配到的流量样本，去自动提取目标流量当中相应字段的值。如图4例所示，由于的目标流量特征里有Host为v6-tt.ixigua.com这个特征点，当实际网络部署时，检测到K数量小于应用的数量(例如10万用于IP只匹配到了100个，而由于此应用识别量应该有100万个，因此属于低识别量)。使用此目标流量特征的背景流量特征集合在网络里进行特征匹配，按照匹配率从高到低，采集N个IP的目标流量样本。然后自动提取相应字段的值，并进行去重操作。例如此例的HTTP协议的Host字段值。此时会发现Host值还存在v5-tt.ixigua.com、v7-tt.ixigua.com两种值。然后自动补充到此目标流量特征的特征信息里。并继续如上迭代继续进行新的特征质量评估。

如果X/Y低于一定阈值(例如50％)，即相似度低。认为聚类里面的会话流量和的目标流量特征高度不相似，如果此类别K的数量高于一定阈值，说明有相当数量的一个类别虽然能够匹配的特征，但是背景流量却大不相同，甚至完全不一样。说明可能存在误识别的情况，目标流量特征并不能唯一的标识想要标识的应用流量，需要重新对的目标流量特征进行调研和修改。因此选择备用特征库里面的特征点进行替换，并尝试新一轮的特征质量评估，看是否能够满足特征唯一性。

如果此类别K的数量很低，说明匹配特征既不相似也没有匹配到，因此特征很可能就是错误的，因此也尝试使用备用特征库进行替换，并尝试新一轮的特征质量评估。

实施例3：

如图6所示，是本发明实施例的增强网络流量特征准确率的装置的架构示意图。本实施例的增强网络流量特征准确率的装置包括一个或多个处理器21以及存储器22。其中，图6中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的增强网络流量特征准确率的方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行增强网络流量特征准确率的方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的增强网络流量特征准确率的方法，例如，执行以上描述的图2、图3和图5所示的各个步骤。

值得说明的是，上述装置和***内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强网络流量特征准确率的方法，其特征在于，在产生目标流量会话的目标流量特征信息的同时，根据所述目标流量会话的上下文环境，同时生成与目标流量会话匹配的背景流量特征信息，其中，所述目标流量特征信息和所述背景流量特征信息之间建立有关联关系，分别用以描述所述目标流量会话，以及目标流量会话的上下文环境，方法包括：

在第一流量的背景特征信息与第一背景流量特征信息匹配相似度大于预设阈值时，判断所述第一流量与第一目标流量特征信息归属于同一应用、同一终端、同一***或者同一类终端的会话；

将从所述第一流量中提取出的目标流量特征信息更新到所述第一目标流量特征信息所关联的备用特征信息中；所述备用特征信息用于在第一目标流量特征信息匹配失败时，并且在进行第一背景流量特征信息匹配之前进行备用匹配，用于识别被分析的流量与所述第一目标流量特征信息是否归属于同一应用、同一终端、同一***或者同一类终端的会话；

所述根据所述目标流量特征的上下文环境，同时生成与之匹配的背景流量特征信息，具体包括：

2.根据权利要求1所述的增强网络流量特征准确率的方法，其特征在于，在构成与所述目标流量会话相关联的背景流量特征点集合后，所述方法还包括：

3.根据权利要求2所述的增强网络流量特征准确率的方法，其特征在于，在进行第一流量与各背景流量特征信息进行匹配时，若仅满足背景流量特征信息中的辅助信息项匹配，所述方法还包括：

4.根据权利要求1所述的增强网络流量特征准确率的方法，其特征在于，若用于匹配表征某一流量的备用特征信息中包含的备用特征信息组数大于预设数量时，并且历史统计的使用所述备用特征信息进行数据匹配的平均时长超过使用背景流量特征信息进行匹配的平均时长时，为相应备用特征信息设置匹配优先级高于其备用特征集合的匹配优先级，其中，一组备用特征信息用于表征与其备用特征信息匹配上的流量，与其关联的目标流量特征信息属于同一应用、同一终端、同一***或者同一类终端的会话，所述方法包括：

5.根据权利要求1-4任一所述的增强网络流量特征准确率的方法，其特征在于，所述背景流量特征信息包括：

6.根据权利要求1-4任一所述的增强网络流量特征准确率的方法，其特征在于，所述使用各个目标流量特征信息进行匹配，具体为：

7.根据权利要求6所述的增强网络流量特征准确率的方法，其特征在于，若存在多组与目标流量特征信息所关联的备用特征信息时，针对每一组备用特征信息进行hash值计算，并将目标流量特征信息所关联下的所有备用特征信息的hash值进行排序；

8.根据权利要求7所述的增强网络流量特征准确率的方法，其特征在于，用于计算hash值的目标特征项具体为TCP/IP五元组。

9.一种增强网络流量特征准确率的装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行权利要求1-8任一所述的增强网络流量特征准确率的方法。