CN105279230A - 通过主动学习方法构建互联网应用特征识别数据库的方法及*** - Google Patents

通过主动学习方法构建互联网应用特征识别数据库的方法及*** Download PDF

Info

Publication number
CN105279230A
CN105279230A CN201510588327.XA CN201510588327A CN105279230A CN 105279230 A CN105279230 A CN 105279230A CN 201510588327 A CN201510588327 A CN 201510588327A CN 105279230 A CN105279230 A CN 105279230A
Authority
CN
China
Prior art keywords
internet
applications
application
feature
simulator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510588327.XA
Other languages
English (en)
Inventor
谭彦
李元新
龙云亮
邓博存
梁志禧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Shunde Zhongka Cloud Network Technology Co Ltd
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Guangdong Shunde Zhongka Cloud Network Technology Co Ltd
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shunde Zhongka Cloud Network Technology Co Ltd, SYSU CMU Shunde International Joint Research Institute filed Critical Guangdong Shunde Zhongka Cloud Network Technology Co Ltd
Priority to CN201510588327.XA priority Critical patent/CN105279230A/zh
Publication of CN105279230A publication Critical patent/CN105279230A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种通过主动学习方法构建互联网应用特征识别数据库的方法及***,方法包括:在互联网上部署客户端模拟器,主动向互联网应用发起交互访问,获取应用运行时的协议交互过程报文,提取报文固定特征位生成对互联网应用的交互特征样本,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型,对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。该方法对互联网中应用的特征可实现动态的学习,有操作灵活,可扩展性好,部署容易的特点,应用特征数据库中的特征数据有实时性,实现一点构建,全网通用。

Description

通过主动学习方法构建互联网应用特征识别数据库的方法及***
技术领域
本发明涉及智能管道技术领域,尤其涉及一种通过主动学习方法构建互联网应用特征识别数据库的方法及***。
背景技术
应用特征识别在智能管道、网络安全等领域应用很广,一般通过调用应用特征库对流经的数据流量进行识别,但由于互联网应用协议变化比较大而且有相当多的应用并不遵循RFC等标准要求,因此应用特征库如果不能快速更新就直接用于识别应用时,识别率不高。
现有技术中,应用特征库均是通过人工整理方法给出的,由于技术的差异,在使用深度包检测功能时,都存在着更新应用特征库慢、不能检测出所有的应用流量等问题。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),首先提出一种通过主动学习方法构建互联网应用特征识别数据库的方法。该方法对互联网中应用的特征可实现动态的学习,具有操作灵活,可扩展性好,部署容易的特点,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。
本发明还提出一种通过主动学习方法构建互联网应用特征识别数据库的***。
为了实现上述目的,本发明的技术方案如下:
一种通过主动学习方法构建互联网应用特征识别数据库的方法,包括以下步骤:
1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本;
2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;
3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
本发明公开的通过主动学习方法构建应用特征识别数据库的方法,通过模拟的虚拟客户端,向真实的互联网应用发起交互访问,获取协议交互特征,再通过协议特征提取单元,将协议交互特征转化为应用特征记录,并写入应用特征识别数据库。本发明对互联网应用的特征可实现动态的学习,操作灵活,可扩展性好,部署容易,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。
优选的,所述步骤1)中获取的应用特征包括IP地址、URL、端口和元素。
一种通过主动学习方法构建互联网应用特征识别数据库的***,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元;
所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果;
所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本;
所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型。
所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的特征采集是采用部署在互联网上的的模拟器实现,与现有采集端无关,生成的特征数据库可直接替换现有特征库或者***现有特征库供识别设备使用。本发明还可作为第三方数据库提供给运营商网内的应用识别设备使用,能够帮助运营商区分传输管道内传输的各类互联网应用分布的情况、带宽占用等情况,从而帮助运营商制定更加合理的流量套餐;可以为客户提供个性化的增值服务,帮助客户分析其购买带宽的利用情况,帮助客户减少在流量分析、网络管理及网络安全方面的投资。
附图说明
图1为采用本发明方法实现应用特征库自动构建的示意图。
图2为本发明***的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1,一种通过主动学习方法构建互联网应用特征识别数据库的方法,包括以下步骤:
1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本;
2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;
3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
本发明公开的通过主动学习方法构建应用特征识别数据库的方法,通过模拟的虚拟客户端,向真实的互联网应用发起交互访问,获取协议交互特征,再通过协议特征提取单元,将协议交互特征转化为应用特征记录,并写入应用特征识别数据库。本发明对互联网应用的特征可实现动态的学习,操作灵活,可扩展性好,部署容易,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。
如图2,一种通过主动学习方法构建互联网应用特征识别数据库的***,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元;
所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果;
所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本;
所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型。
所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
本发明提出的特征采集是采用部署在互联网上的的虚拟机实现,与现有采集端无关,生成的特征数据库可直接替换现有特征库或者***现有特征库供识别设备使用。
目前由于DPI技术在网络上大量使用,对应用识别准确性要求越来越高了,目前采用特征库匹配的DPI设备占据大多数,大部分设备需要更新特征库来保证设备具备高的识别准确性,否则,会因为互联网应用协议的变化而导致识别率下降,因此,运营商就有使用第三方特征库对设备特征库进行更新的需求。
本发明提出一种可以自动学习生成特征库的方法,通过该方法,可以构建出最新的特征库条目,通过人工或者自动的方式,对DPI设备现有的特征库进行在线更新,使得采用了DPI技术的设备,能够保持全网识别能力的一致性,并且能够跟上移动互联网快速更新的特点,使得识别准确性得以保持甚至提高。
本发明还可作为第三方数据库提供给运营商网内的应用识别设备使用,能够帮助运营商区分传输管道内传输的各类互联网应用分布的情况、带宽占用等情况,从而帮助运营商制定更加合理的流量套餐;可以为客户提供个性化的增值服务,帮助客户分析其购买带宽的利用情况,帮助客户减少在流量分析、网络管理及网络安全方面的投资。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种通过主动学习方法构建应用特征识别数据库的方法,其特征在于,包括以下步骤:
1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本;
2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;
3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
2.根据权利要求1所述的方法,其特征在于,所述步骤1)中获取的应用特征包括IP地址、URL、端口和元素。
3.一种通过主动学习方法构建互联网应用特征识别数据库的***,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元;
所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果;
所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本;
所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;
所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。
CN201510588327.XA 2015-09-16 2015-09-16 通过主动学习方法构建互联网应用特征识别数据库的方法及*** Pending CN105279230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510588327.XA CN105279230A (zh) 2015-09-16 2015-09-16 通过主动学习方法构建互联网应用特征识别数据库的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510588327.XA CN105279230A (zh) 2015-09-16 2015-09-16 通过主动学习方法构建互联网应用特征识别数据库的方法及***

Publications (1)

Publication Number Publication Date
CN105279230A true CN105279230A (zh) 2016-01-27

Family

ID=55148244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510588327.XA Pending CN105279230A (zh) 2015-09-16 2015-09-16 通过主动学习方法构建互联网应用特征识别数据库的方法及***

Country Status (1)

Country Link
CN (1) CN105279230A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106850349A (zh) * 2017-02-08 2017-06-13 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN109857726A (zh) * 2019-02-27 2019-06-07 深信服科技股份有限公司 一种应用特征库维护方法、装置、电子设备及存储介质
CN111158704A (zh) * 2020-01-02 2020-05-15 中国银行股份有限公司 模型建立方法、部署流程生成方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102420701A (zh) * 2011-11-28 2012-04-18 北京邮电大学 一种互联网业务流特征的提取方法
CN102938764A (zh) * 2012-11-09 2013-02-20 北京神州绿盟信息安全科技股份有限公司 应用识别处理方法及装置
CN102984243A (zh) * 2012-11-20 2013-03-20 杭州迪普科技有限公司 一种ssl协议中应用的自动识别方法和装置
US20130097308A1 (en) * 2011-04-05 2013-04-18 Ss8 Networks, Inc. Collecting asymmetric data and proxy data on a communication network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097308A1 (en) * 2011-04-05 2013-04-18 Ss8 Networks, Inc. Collecting asymmetric data and proxy data on a communication network
CN102420701A (zh) * 2011-11-28 2012-04-18 北京邮电大学 一种互联网业务流特征的提取方法
CN102938764A (zh) * 2012-11-09 2013-02-20 北京神州绿盟信息安全科技股份有限公司 应用识别处理方法及装置
CN102984243A (zh) * 2012-11-20 2013-03-20 杭州迪普科技有限公司 一种ssl协议中应用的自动识别方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106850349A (zh) * 2017-02-08 2017-06-13 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN106850349B (zh) * 2017-02-08 2020-01-03 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN109857726A (zh) * 2019-02-27 2019-06-07 深信服科技股份有限公司 一种应用特征库维护方法、装置、电子设备及存储介质
CN109857726B (zh) * 2019-02-27 2023-05-12 深信服科技股份有限公司 一种应用特征库维护方法、装置、电子设备及存储介质
CN111158704A (zh) * 2020-01-02 2020-05-15 中国银行股份有限公司 模型建立方法、部署流程生成方法、装置和电子设备
CN111158704B (zh) * 2020-01-02 2023-08-22 中国银行股份有限公司 模型建立方法、部署流程生成方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN109639481B (zh) 一种基于深度学习的网络流量分类方法、***及电子设备
CN109033471B (zh) 一种信息资产识别方法及装置
Wang et al. A smart home gateway platform for data collection and awareness
CN107360145B (zh) 一种多节点蜜罐***及其数据分析方法
JP2019513246A (ja) ランダムフォレストモデルの訓練方法、電子装置及び記憶媒体
CN104951544A (zh) 用户数据处理方法、用户数据的提供方法和***
CN104506484A (zh) 一种私有协议分析与识别方法
CN108418727B (zh) 一种探测网络设备的方法及***
CN106789242B (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析方法
EP1785841A3 (en) Database for multiple implementation of http to obtain information from devices
CN104168316B (zh) 一种网页访问控制方法、网关
CN103618792B (zh) 数据流的识别方法及设备
CN105516390B (zh) 域名管理的方法和装置
CN113825129B (zh) 一种5g网络环境下工业互联网资产测绘方法
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN105279230A (zh) 通过主动学习方法构建互联网应用特征识别数据库的方法及***
DE102013209934B4 (de) Starten oder Stoppen virtueller Server in angemessener Reihenfolge
CN104052737A (zh) 一种网络数据报文的处理方法及装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN112887329A (zh) 隐藏服务溯源方法、装置及电子设备
CN107070700B (zh) 一种基于身份自动识别的网络服务提供方法
CN104731937A (zh) 用户行为数据的处理方法及装置
CN104184723A (zh) 一种应用程序识别方法、装置和网络设备
CN111242509B (zh) 一种用于智慧社区的服务管理***及其服务管理方法
CN105100246A (zh) 一种基于下载资源名称的网络流量管控方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160127

RJ01 Rejection of invention patent application after publication