CN102684997A - 一种通信报文的分类、训练方法和装置 - Google Patents
一种通信报文的分类、训练方法和装置 Download PDFInfo
- Publication number
- CN102684997A CN102684997A CN2012101105444A CN201210110544A CN102684997A CN 102684997 A CN102684997 A CN 102684997A CN 2012101105444 A CN2012101105444 A CN 2012101105444A CN 201210110544 A CN201210110544 A CN 201210110544A CN 102684997 A CN102684997 A CN 102684997A
- Authority
- CN
- China
- Prior art keywords
- communication message
- message
- sample
- characteristic vector
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种通信报文的分类方法和装置、一种报文分类器的训练方法和装置,其中的通信报文的分类方法具体包括:获取通信报文;对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。本申请能够提高通信报文分类的细粒度。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种通信报文的分类方法和装置、一种报文分类器的训练方法和装置。
背景技术
海量用户使用各种网络设备和终端访问网络产生了海量的通信报文,这些海量的通信报文中存在各式各样的报文类型,为了能对这些通信报文进行深度的分析和挖掘,必须能正确的识别各类报文,也即对通信报文进行正确地分类。
报文分类也称为流分类。流是从一个源到一个目的的报文序列,是具有相同属性的报文的集合。组成流的最小单位是网络报文。现有的报文分类方法主要基于报头的一个或多个域,根据一定的策略或规则识别该报文所属的流。
现有的报文分类方法能够识别通信报文所属的流,且在网络中的很多领域得到了广泛应用。例如,为了限制经过加密或模糊之后的P2P(点对点,Peer to Peer)报文在网络中的传输,运营商需要识别网络中的采用各种特定协议加密的P2P报文流。
现有的报文分类方法通常仅能对局域网环境下的P2P报文等HTTP(超文本传输协定,HyperText Transfer Protocol)应用报文进行准确区分,也即,仅能识别到HTTP应用的粒度。但是,为了能对这些通信报文进行深度的分析和挖掘,需要将通信报文划分到比HTTP应用更为细致的层面,现有的报文分类方法不能满足上述细粒度需求。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高通信报文分类的细粒度。
发明内容
本申请所要解决的技术问题是提供一种通信报文的分类方法和装置、一种报文分类器的训练方法和装置,能够提高通信报文分类的细粒度。
为了解决上述问题,本申请公开了一种通信报文的分类方法,包括:
获取通信报文;
对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;
根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
优选的,所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤,包括:
通过分析所述通信报文的报文结构和报文内容中的一项或多项,提取与所述通信报文相应的特征向量。
优选的,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,包括:
对所述通信报文的报文内容进行语义分词处理,并依据语义分词结果提取相应的特征向量。
优选的,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,包括:
针对所述通信报文提取相应的变动特征;
针对所述通信报文对应的用户标识,提取与所述通信报文相应的固定特征;
所述变动特征和固定特征组成所述通信报文的特征向量。
优选的,所述获取通信报文的步骤,包括:
对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文;或
从通信网关获得用户与网络间的通信报文。
优选的,所述方法还包括:
依据该特征向量所属的报文类别对相应的通信报文进行处理,所述处理包括记录、存储和丢弃处理中的一种或多种。
优选的,所述用户行为类别包括用户登录行为、用户搜索行为、用户点击行为、用户展示行为中的一种或多种。
优选的,在对所述通信报文进行特征提取,得到相应的特征向量的步骤前,所述方法还包括:
对所述通信报文进行数据清洗;
所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤为,对数据清洗后的通信报文进行特征提取,得到与所述通信报文相应的特征向量。
另一方面,本申请还公开了一种报文分类器的训练方法,包括:
获取通信报文样本;
对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;
依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
优选的,所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤,包括:
通过分析所述通信报文样本的报文结构和报文内容中一项或多项,提取与所述通信报文样本相应的特征向量。
优选的,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,包括:
对所述通信报文样本的报文内容进行语义分词处理,并依据语义分词结果提取与所述通信报文样本相应的特征向量。
优选的,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,包括:
针对所述通信报文样本提取相应的变动特征;
针对所述通信报文样本对应的用户标识,提取与所述通信报文样本相应的固定特征;
所述变动特征和固定特征组成所述通信报文样本的特征向量。
优选的,在对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤前,所述方法还包括:
对所述通信报文样本进行数据清洗;
所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤为,对数据清洗后的通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量。
优选的,所述获取通信报文样本的步骤,包括:
对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文样本;或
从通信网关获得用户与网络间的通信报文样本。
另一方面,本申请还公开了一种通信报文的分类装置,包括:
报文获取模块,用于获取通信报文;
特征提取模块,用于对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;及
分类判别模块,用于根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
另一方面,本申请还公开了一种报文分类器的训练装置,包括:
样本获取模块,用于获取通信报文样本;
样本特征提取模块,用于对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;及
特征向量训练模块,用于依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
与现有技术相比,本申请具有以下优点:
本申请根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器;由于同一用户行为类别的多个通信报文样本在某些特征上具有一定的相似性,而不同用户行为类别的通信报文样本之间具有一定的差异,故本申请采用训练得到的报文分类器能够具有与特定用户行为类别相应的通信报文样本的特征描述能力,以及,不同用户行为类别相应的通信报文样本之间细微差别的判别能力。
因此,相对于现有技术仅能识别到HTTP应用的细粒度,本申请可以将通信报文的识别细化到用户行为类别的细粒度,也即,能够依据报文分类器从通信报文中识别出用户搜索报文等各种与用户行为类别相应的通信报文,提高通信报文分类的细粒度。
附图说明
图1是本申请一种报文分类器的训练方法实施例的流程图;
图2是本申请一种通信报文的分类方法实施例的流程图;
图3是本申请一种报文分类器的训练装置实施例的结构图;
图4是本申请一种通信报文的分类装置实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为了能对这些通信报文进行深度的分析和挖掘,需要将通信报文划分到更细致的层面,一个典型的例子是从通信报文中识别出用户搜索报文。
本申请发明人经研究发现,用户行为反映在用户使用网络设备或终端访问网络产生的通信报文中;实际上,用户搜索报文就是与用户行为类别相应的一种通信报文样本,通常的用户行为类别具体可以包括用户登录行为、用户搜索行为、用户点击行为、用户展示行为等,那么,用户搜索报文就是与用户搜索行为相应的一种通信报文样本。
综上,本申请实施例依据与用户行为类别相应的通信报文样本构造报文分类器;由于同一用户行为类别的多个通信报文样本在某些特征上具有一定的相似性,而不同用户行为类别的通信报文样本之间具有一定的差异,故本申请采用训练得到的报文分类器能够具有与特定用户行为类别相应的通信报文样本的特征描述能力,以及,不同用户行为类别相应的通信报文样本之间细微差别的判别能力。因此,应用本申请,可以依据报文分类器从通信报文中识别出用户搜索报文等各种与用户行为类别相应的通信报文,将通信报文的识别细化到用户行为类别的细粒度。
参照图1,示出了本申请一种报文分类器的训练方法实施例的流程图,具体可以包括:
步骤101、获取通信报文样本;
步骤102、对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;
步骤103、依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
本申请可以提供如下获取通信报文样本的方案:
获取方案一、
对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文样本。
方案一主要以离线方式定期获取通信报文样本,在具体实现中,可采用数据库、日志、文件等形式存储获取的通信报文样本,这里的定期可以根据实际情况设置,例如每天、每三天、每周等。例如,在本申请的一种应用示例中,可以将海量通信报文数据存储到线下服务器,然后通过并行计算平台进行通信报文样本的获取。
采用获取方案一获取通信报文样本,线下服务器存储的往往是用户历史行为的通信报文数据,这些用户历史行为往往在过去(如一周前、三天前等)形成;依据过去形成的用户历史行为所反映的通信报文样本数据进行报文分类器的训练,能够使得报文分类器具有与特定用户行为类别相应的通信报文样本的特征描述能力,以及,不同用户行为类别相应的通信报文样本之间细微差别的判别能力。
但是,获取方案一需要占用大量的存储资源,增加存储装置的负担。例如中国上网用户至少6个亿,一个登录操作就可能产生10个亿的报文,几小时的报文量就可能是百亿甚至千亿等。
另外,互联网规模和覆盖面的迅速增长带来了信息超载问题:过量信息的同时呈现使得用户无法快速从中获取对自己有用的部分,信息使用效率反而降低。为了降低用户享用信息的成本,需要向用户推荐所需要的信息。其中,向用户推荐信息需要对用户行为进行深度的分析和挖掘,以精准的定位用户的行为特性。
为了更精确地定位用户的行为特性,可能需要对某种用户行为类别进行进一步细分,例如,将用户搜索行为细分为数码类、奢侈品类、护肤品、服装类,等等。这样,如果一周前用户购买数码相机,归类到数码类,一周后购买LV包,在依据过去形成的用户历史行为所反映的通信报文样本数据进行报文分类器的训练的情况下,容易影响分类结果的时效性和准确性。
获取方案二、
针对上述情形,获取方案二从通信网关获得用户与网络间的通信报文样本,也即以在线方式从网关获得报文,只进行临时存储或缓存;既能够减少存储资源的占用,减轻存储装置的负担,又能够避免影响分类结果的时效性和准确性,有利于对某种用户行为类别进行进一步细分,提高通信报文分类的细粒度。
以上对获取通信报文样本的两种方案进行了介绍,可以理解,本领域技术人员可以根据实际需要,独立或联合使用上述两种方案,或者采用其它获取通信报文样本的方案,本申请对具体的获取通信报文样本的方案不加以限制。
本申请可以提供如下对所述通信报文样本进行特征提取,得到相应的特征向量的方案:
在本申请的一种优选实施例中,所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤,可以进一步包括:通过分析所述通信报文样本的报文结构和/或报文内容,提取与所述通信报文样本相应的特征向量。
本领域技术人员可以依据报文结构和报文内容中的一项或多项的属性对所述通信报文样本进行相应的分析,从而提取相应的特征向量,本申请对具体的分析方法不加以限制。
在本申请的另一种优选实施例中,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,可以进一步包括:
对所述通信报文样本的报文内容进行语义分词处理,并依据语义分词结果提取相应的特征向量。
通常报文内容中主要包括URL(统一资源定位符,Uniform ResourceLocator)。
在本申请的一种应用示例中,URL的格式为:http://www.soopat.com/,语义分词结果可以为:http、:、//、www、.、soopat、.、com、/,则可以根据语义分词的有用性从语义分词结果中提取出与原始URL相应的特征www、soopat、com,组成特征向量。
在本申请的另一种应用示例中,还可以在语义分词的有用性的基础上,进一步提取与原始URL相应的特征,例如,URL的格式为:http://www.***.com/s?bs=%CC%EC%B3%D3%B6%D4%B9%AC&f=8&rsv_bp=1&rsv_spt=3&wd=%CE%DE%CF%DF%C2%B7%D3%C9%C6%F7&inputT=7687,可以首先根据语义分词的有用性提取www、***、com、s?bs=%CC%EC%B3%D3%B6%D4%B9%AC&f=8&rsv_bp=1&rsv_spt=3&wd=%CE%DE%CF%DF%C2%B7%D3%C9%C6%F7&inputT=7687等特征,然后进一步确定该URL为某搜索引擎的搜索结果,故可以依据某搜索引擎的URL规则提取相应的特征(例如,可以得知该搜索结果相应的关键词为无线路由器),最后根据提取的特征组成特征向量。
通常,特征向量可以用行向量或者列向量表示,以列向量为例,则上述提取的与所述通信报文样本相应的特征作为列元素组成一个或多个列向量;通常列向量的数目可与特征的数目相应。由于根据提取的特征组成特征向量为本技术领域内的公知技术,故在此不作赘述。
在本申请的再一种优选实施例中,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,可以进一步包括:
针对所述通信报文样本提取相应的变动特征;
针对所述通信报文样本对应的用户标识,提取与所述通信报文样本相应的固定特征;
所述变动特征和固定特征组成所述通信报文样本的特征向量。
评价分类器性能主要有两个方面的因素,一个是识别精度,一个是算法的效率。其中,影响模型精度的一个重要因素就是特征的充分性,具体可以包括特征的强弱和数目。
特征提取方案二从增加特征数目的途径出发,提高报文分类器的识别精度。由于通信报文是用户通过用户行为产生的,针对所述通信报文提取相应的变动特征仅能反映用户行为本身,如果能依据所述通信报文样本对应的用户标识提取相应的固定特征,则能够增加特征数目,提高报文分类器的识别精度。
在实际应用中,所述变动特征与用户行为直接关联,具体可以包括:与用户登录行为相关的变动特征、与用户搜索行为相关的变动特征(可根据需要细化到搜索关键词)、与用户点击行为相关的变动特征、与用户展示行为相关的变动特征等等。
所述固定特征与用户标识(用户ID(Identity)或者用户IP(网络之间互连的协议,Internet Protocol))直接关联,具体可以包括:用户的性别、年龄、职业、收入、层次、兴趣、爱好等等,在实际中也可以通过用户在网站的注册信息,或者对用户在过去一段时期内的历史行为分析统计得到,本申请对具体的获取变动特征的方法不加以限制。
通信报文由用户使用网络设备或终端访问网络产生。本技术领域中,可以通过分析所述通信报文中携带的网络设备端或终端的内容,识别相应的用户标识。
识别用户标识为本技术领域内的公知技术,在此提供一个识别用户标识的示例:当该用户注册或登录时,以该用户的ID作为该用户的标识;当该用户以未登录状态浏览时,根据该用户的cookie(用于存储用户私有信息的小文本文件)识别该用户的标识。
在实际应用中,对于一个需要用户ID注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以用户ID为准,当用户在未登录状态浏览时以用户的cookie为准。
其中,基于cookie的用户识别是现有一种典型的用户识别方法。当通过自定义Apache日志格式或者JavaScript的方法获得用户cookie时,其实已经找到了一个非常有效的用户识别的手段。cookie在未被清除的前提下可以认为是跟某个访问客户端电脑绑定的,所以基于cookie的用户识别的准确度比较高。例如,如在某网站注册过的用户,便会有cookies信息存储在用户的电脑的c盘里面,当该用户再次访问该网站时,该网站的***会去指定的路径去取cookies信息,如果取到了,则即使该用户不登录,也能取到登录名,如果取不到,则会新建一个cookies信息到用户的电脑里面。目前大多数用户都不清除自己的cookies信息。所以,可以利用该技术,得到用户的标识。
上述对对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的几种方案进行了介绍,可以理解,本领域技术人员可以根据实际需要,独立或联合使用上述几种方案,或者采用其它方案,本申请对具体的对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的方案不加以限制。
在本申请的一种优选实施例中,在对所述通信报文样本进行特征提取,得到相应的特征向量的步骤前,所述方法还可以包括:
对所述通信报文样本进行数据清洗;
则所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤可以为,对数据清洗后的通信报文样本进行特征提取,得到相应的特征向量。
数据清洗的主要任务是过滤那些不符合要求的数据,不符合要求的数据主要可以包括不完整的数据、错误的数据、重复的数据等等。
在具体实现中,可以依据报文结构和报文内容中一项或多项设置清洗规则。由于报文内容主要是URL,故可以依据规定的URL格式进行清洗,例如,协议的一个清洗规定为:只允许保留HTTP的请求报文。
另外,本领域技术人员还可以依据自定义的URL清洗规则进行清洗,凡是不符合规定或规则的结构就不再保留。
自定义URL清洗规则一个例子是,比如url中含有单独的ad字符串,就会被丢弃,比如http://xxx.xx.xxx/ad/xxx,http://xxx.xx.xxx/ad.html等等都被会丢弃,而http://xxx.xx.xxx/xxadxx/xxx不会被丢弃。
自定义URL清洗规则另一个例子是,假设本领域技术人员欲从通信报文中识别出用户搜索报文,则需要构造两类的报文分类器,用以判别用户搜索类别和非用户搜索类别,而凡是以“js”结尾的URL都与用户搜索行为无关,故在对所述通信报文样本进行数据清洗的过程中,可以将以“js”结尾的URL从用户搜索类别的通信报文样本中丢弃,可选地,还可以将以“js”结尾的URL放至非用户搜索类别的通信报文样本中。
本步骤是在所述特征向量基础上训练得到报文分类器;所述报文分类器用于从通信报文中识别出用户搜索报文等各种与用户行为类别相应的通信报文。在实际应用中,可以对步骤101获取的通信报文样本标注相应的报文类别以备接下来的训练。
本领域技术人员可以根据实际需要,构造两类或两类以上的报文分类器。例如,两类的报文分类器用于两类的判别,例如可以用于判别待分类的通信报文“是否”为与特定用户行为类别相应的通信报文;又如,多类的报文分类器可以用于多类的判别,如四类的报文分类器可以用于将待分类的通信报文判别中下述四种类别中的一种:用户登录报文类别、用户搜索报文类别、用户点击报文类别、用户展示报文类别。
以两类的报文分类器为例,可以将用户搜索报文类别的通信报文样本的特征向量作为训练的正样本特征,将非用户搜索报文类别的通信报文样本的特征向量作为训练的反样本特征,构造一个具有判别能力的报文分类器。
在众多机器学习方法中,支持向量机(SVM,support vector machine)是一种使得分类结构化误差最小的分类器构造方法,是一种具有更好推广性的分类器构造方法。因而,本发明优选采用支持向量机作为两类分类器来构造所述报文分类器假脸模型,所述构造报文分类器假脸模型的步骤可以通过以下子步骤来实现:
子步骤E1、按照学习能力对通信报文样本及特征向量组成的训练数据进行分组;
子步骤E2、针对当前组训练数据,训练获得相应的报文分类器,依据所述报文分类器计算得到错分样本集,并判断当前组训练数据是否为最后一组训练数据,若是,则判断当前报文分类器的分类错误率是否在预置范围内,若是,则结束本次操作,否则从第一组数据开始训练;
否则,依据所述错分样本集更新当前组训练数组,并进行下一组训练。
在本申请的一种优选实施例中,可以根据通信报文分类的准确性来调整所述报文分类器的参数,使得所述报文分类器的参数为最优参数,具体而言,所述方法还可以包括:对所述报文分类器进行开放测试,并依据开放测试结果调整所述报文分类器的参数。
本技术领域中,开放测试主要用于对***或模型的精度进行测试,本申请实施例中则是用于测试报文分类器的精度。其中,开放测试所用的测试样本并不属于步骤101获取的训练样本集合,开放测试的流程大致为:将测试样本作为待测试通信报文输入至报文分类器,输出相应的分类结果,如果分类结果有误,则可以相应调整报文分类器的参数,如果分类结果正确,则可以不作任何调整。
另外,一旦步骤101获取通信报文样本有所更新,本申请都会不断执行步骤102和步骤103,以保证所述报文分类器的参数时效性,提高通信报文分类的准确性。
参照图2,示出了本申请一种通信报文的分类方法实施例的流程图,具体可以包括:
步骤201、获取通信报文;
步骤202、对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;
步骤203、根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
在本申请的一种优选实施例中,可以采用如下步骤中的一项或多项获取通信报文:
步骤R1、对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文;
步骤R2、从通信网关获得用户与网络间的通信报文。
在具体实现中,所述报文分类器可以通过以下训练步骤获得:
步骤S1、获取通信报文样本;
步骤S2、对所述通信报文样本进行特征提取,得到相应的特征向量;
步骤S3、依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
在本申请实施例中,优选的是,所述用户行为类别具体可以包括用户登录行为、用户搜索行为、用户点击行为、用户展示行为中的一种或多种。
为了提高通信报文分类的准确率,本实施例采用与训练步骤(步骤S2)相同的方法对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量。
本申请可以提供如下对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的方案,在实际中,可依据训练步骤从中选择一种或多种加以利用:
在本申请的一种优选实施例中,可以通过分析所述通信报文的报文结构和报文内容中的一项或多项,提取与所述通信报文相应的特征向量;
在本申请的另一种优选实施例中,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,可以进一步包括:
对所述通信报文的报文内容进行语义分词处理,并依据语义分词结果提取相应的特征向量。
在本申请的再一种优选实施例中,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,可以进一步包括:
针对所述通信报文提取相应的变动特征;
针对所述通信报文对应的用户标识,提取与所述通信报文相应的固定特征;
所述变动特征和固定特征组成所述通信报文的特征向量。
在本申请的一种优选实施例中,所述根据报文分类器判别该特征向量所属的报文类别的步骤可以为,将该特征向量输入到所述报文分类器中,输出相应的报文分类结果,以两类的报文分类器(用户搜索报文类别和非用户搜索报文类别)为例,所述根据报文分类器判别该特征向量所属的报文类别的步骤具体可以包括:
步骤T1、将步骤202提取的特征向量作为报文分类器的输入特征向量z,得到报文分类器输出的数值;
步骤T2、根据该数值对待分类的通信报文进行判别,若该数值≥1,则输出属于用户搜索报文类别的分类结果;若该数值≤-1,则输出属于非用户搜索报文类别的分类结果;若-1<该数值<1,则根据计算得到的置信值,输出分类结果。
例如,训练步骤采用SVM方法,最终得到待认证用户的报文分类器为其中,n代表样本类别数,zi为某类别一样本的特征向量,yi为该样本所属的样本类别,b为分类阈值,wi为训练得到的最优分类参数,K为SVM所使用的核函数,z为待分类通信报文的特征向量。
假设报文分类器为两类分类器,用于判别用户搜索报文类别和用户点击报文类别,则上例中n=2,y1代表用户搜索报文类别,y2代表用户点击报文类别,w1和w2分别为上述两种类别的参数,z1和z2分别为上述两种类别的特征向量。
不同的与用户行为类别相应的通信报文样本的报文内容及提取的特征均存在着差异,例如,可从某搜索引擎的搜索结果提取出“Result”这一特征,而可从针对该搜索引擎的某搜索结果的点击网页中提取出“TiffFile”特征等等,故z1的特征向量中可能包括“Result”这一特征,且z2的特征向量中可能包括“TiffFile”这一特征。
那么,判别过程可以为:
①「若f(z)≥1,则判别所述通信报文为用户搜索报文类别;
②「若f(z)≤-1,则判别所述通信报文为非用户搜索报文类别;
计算得到的置信值,判别所述通信报文的分类结果。
需要说明的是,上述SVM只是作为报文分类器的一种示例,实际上,本申请的报文分类器还可以是贝叶斯分类器、神经网络分类器、决策树分类器、自适应增强(adaboost,adaptive boosting)分类器等等,本申请对报文分类器所使用的分类器算法不加以限制。
对于报文分类方法实施例而言,由于其训练步骤与图1所示的训练方法实施例基本相似,所以描述的比较简单,相关之处参见训练方法实施例的部分说明即可。
在本申请的一种优选实施例中,在对所述通信报文进行特征提取,得到相应的特征向量的步骤前,所述方法还可以包括:
对所述通信报文进行数据清洗;
所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤可以为,对数据清洗后的通信报文进行特征提取,得到与所述通信报文相应的特征向量。
在实际应用中报文分类器需要处理的数据量非常庞大。例如,中国上网用户至上6个亿,一个登录操作就可能产生10个亿的报文,几小时的报文量就可能是百亿甚至千亿等,如果加上点击操作和搜索操作,那么报文分类器需要处理的数据量将不堪设想。
针对上述情形,本优选实施例通过数据清洗丢弃那些没必要进行分类的通信报文,以减轻报文分类器的负担。具体的数据清洗方案可参照前述说明。
在本申请的一种优选实施例中,所述方法还可以包括:
依据该特征向量所属的报文类别对相应的通信报文进行处理,所述处理具体可以包括记录、存储和丢弃处理中的一种或多种。
在实际中,对某些类别的通信报文可以只记录统计结果,然后丢弃通信报文。例如用户登录网站时发生的通信报文只进行记录访问次数、时间等信息。对某些类别的通信报文可以进行存储处理,例如,可以存储用户搜索报文类别、用户点击报文类别、用户展示报文类别的通信报文等等。总之,本申请可以针对不同报文类别的通信报文进行不同的处理,本申请对具体的报文类别与处理方式之间的对应关系以及具体的处理方式不加以限制。
与前述训练方法相应,本申请还提供了一种报文分类器的训练装置实施例,参照图3所示的结构图,具体可以包括:
样本获取模块301,用于获取通信报文样本;
样本特征提取模块302,用于对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;及
特征向量训练模块303,用于依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
在本申请的一种优选实施例中,所述样本特征提取模块302可以进一步包括:
样本分析提取子模块,用于通过分析所述通信报文样本的报文结构和报文内容中的一项或多项,提取与所述通信报文样本相应的特征向量。
在本申请的另一种优选实施例中,所述样本分析提取子模块可以包括:
样本语义分词单元,用于对所述通信报文样本的报文内容进行语义分词处理;
样本提取单元,用于依据语义分词结果提取与所述通信报文样本相应的特征向量。
在本申请的再一种优选实施例中,所述样本特征提取模块302可以进一步包括:
样本变动提取子模块,用于针对所述通信报文样本提取相应的变动特征;
样本固定提取子模块,用于针对所述通信报文样本对应的用户标识,提取与所述通信报文样本相应的固定特征;所述变动特征和固定特征组成所述通信报文样本的特征向量。
在本申请的一种优选实施例中,所述装置还可以包括:
数据清洗模块,用于在对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤前,对所述通信报文样本进行数据清洗;
则所述样本特征提取模块302,可具体用于对数据清洗后的通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量。
在本申请的一种优选实施例中,所述样本获取模块301具体可以包括:
第一样本获取子模块,用于对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文样本;或
第二样本获取子模块,用于从通信网关获得用户与网络间的通信报文样本。
在本申请的一种优选实施例中,所述装置还可以包括:
开放测试模块,用于对所述报文分类器进行开放测试;
参数调整模块,用于依据开放测试结果调整所述报文分类器的参数。
对于训练装置实施例而言,由于其与图1所示的训练方法实施例基本相似,所以描述的比较简单,相关之处参见训练方法实施例的部分说明即可。
与前述分类方法实施例相应,本申请还公开了一种通信报文的分类装置,参照图4所示的结构图,具体可以包括:
报文获取模块401,用于获取通信报文;
特征提取模块402,用于对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;及
分类判别模块403,用于根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
在本申请实施例中,优选的是,所述用户行为类别具体可以包括用户登录行为、用户搜索行为、用户点击行为、用户展示行为中的一神或多种。
在本申请的一种优选实施例中,所述特征提取模块402可以进一步包括:
分析提取子模块,用于通过分析所述通信报文的报文结构和报文内容中的一项或多项,提取与所述通信报文相应的特征向量。
在本申请的另一种优选实施例中,所述分析提取子模块具体可以包括:
语义分词单元,用于对所述通信报文的报文内容进行语义分词处理;
提取单元,用于依据语义分词结果提取与所述通信报文相应的特征向量。
在本申请的一种优选实施例中,所述特征提取模块402可以进一步包括:
变动提取子模块,用于针对所述通信报文提取相应的变动特征;
固定提取子模块,用于针对所述通信报文对应的用户标识,提取与所述通信报文相应的固定特征;所述变动特征和固定特征组成所述通信报文的特征向量。
在本申请的一种优选实施例中,所述报文获取模块401可以进一步包括:
第一报文获取子模块,用于对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文;或
第二报文获取子模块,用于从通信网关获得用户与网络间的通信报文。
在本申请的一种优选实施例中,所述装置还可以包括:
类别处理模块,用于依据该特征向量所属的报文类别对相应的通信报文进行处理,所述处理具体可以包括记录、存储和丢弃处理中的一种或多种。
对于分类装置实施例而言,由于其与图2所示的分类方法实施例基本相似,所以描述的比较简单,相关之处参见分类方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种通信报文的分类方法和装置、一种报文分类器的训练方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (16)
1.一种通信报文的分类方法,其特征在于,包括:
获取通信报文;
对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;
根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
2.如权利要求1所述的方法,其特征在于,所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤,包括:
通过分析所述通信报文的报文结构和报文内容中的一项或多项,提取与所述通信报文相应的特征向量。
3.如权利要求2所述的方法,其特征在于,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,包括:
对所述通信报文的报文内容进行语义分词处理,并依据语义分词结果提取相应的特征向量。
4.如权利要求2所述的方法,其特征在于,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,包括:
针对所述通信报文提取相应的变动特征;
针对所述通信报文对应的用户标识,提取与所述通信报文相应的固定特征;
所述变动特征和固定特征组成所述通信报文的特征向量。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述获取通信报文的步骤,包括:
对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文;或
从通信网关获得用户与网络间的通信报文。
6.如权利要求1至4中任一项所述的方法,其特征在于,还包括:
依据该特征向量所属的报文类别对相应的通信报文进行处理,所述处理包括记录、存储和丢弃处理中的一种或多种。
7.如权利要求1至4中任一项所述的方法,其特征在于,所述用户行为类别包括用户登录行为、用户搜索行为、用户点击行为、用户展示行为中的一种或多种。
8.如权利要求1至4中任一项所述的方法,其特征在于,在对所述通信报文进行特征提取,得到相应的特征向量的步骤前,所述方法还包括:
对所述通信报文进行数据清洗;
所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤为,对数据清洗后的通信报文进行特征提取,得到与所述通信报文相应的特征向量。
9.一种报文分类器的训练方法,其特征在于,包括:
获取通信报文样本;
对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;
依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
10.如权利要求9所述的方法,其特征在于,所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤,包括:
通过分析所述通信报文样本的报文结构和报文内容中一项或多项,提取与所述通信报文样本相应的特征向量。
11.如权利要求10所述的方法,其特征在于,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,包括:
对所述通信报文样本的报文内容进行语义分词处理,并依据语义分词结果提取与所述通信报文样本相应的特征向量。
12.如权利要求10所述的方法,其特征在于,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,包括:
针对所述通信报文样本提取相应的变动特征;
针对所述通信报文样本对应的用户标识,提取与所述通信报文样本相应的固定特征;
所述变动特征和固定特征组成所述通信报文样本的特征向量。
13.如权利要求9至12中任一项所述的方法,其特征在于,在对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤前,所述方法还包括:
对所述通信报文样本进行数据清洗;
所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤为,对数据清洗后的通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量。
14.如权利要求9至12中任一项所述的方法,其特征在于,所述获取通信报文样本的步骤,包括:
对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文样本;或
从通信网关获得用户与网络间的通信报文样本。
15.一种通信报文的分类装置,其特征在于,包括:
报文获取模块,用于获取通信报文;
特征提取模块,用于对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;及
分类判别模块,用于根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
16.一种报文分类器的训练装置,其特征在于,包括:
样本获取模块,用于获取通信报文样本;
样本特征提取模块,用于对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;及
特征向量训练模块,用于依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101105444A CN102684997A (zh) | 2012-04-13 | 2012-04-13 | 一种通信报文的分类、训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101105444A CN102684997A (zh) | 2012-04-13 | 2012-04-13 | 一种通信报文的分类、训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102684997A true CN102684997A (zh) | 2012-09-19 |
Family
ID=46816382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101105444A Pending CN102684997A (zh) | 2012-04-13 | 2012-04-13 | 一种通信报文的分类、训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102684997A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104579773B (zh) * | 2014-12-31 | 2016-08-24 | 北京奇虎科技有限公司 | 域名***分析方法及装置 |
CN108462970A (zh) * | 2017-02-21 | 2018-08-28 | ***通信有限公司研究院 | 一种丢包判决方法及装置 |
CN109257369A (zh) * | 2018-10-22 | 2019-01-22 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的扫描ip分类方法及装置 |
CN109302381A (zh) * | 2018-08-21 | 2019-02-01 | 新华三大数据技术有限公司 | Radius属性扩展方法、装置、电子设备和计算机可读介质 |
CN110289992A (zh) * | 2019-06-04 | 2019-09-27 | 新华三信息安全技术有限公司 | 一种报文处理方法及装置 |
CN111078878A (zh) * | 2019-12-06 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN111209998A (zh) * | 2018-11-06 | 2020-05-29 | 航天信息股份有限公司 | 基于数据类型的机器学习模型的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035111A (zh) * | 2007-04-13 | 2007-09-12 | 北京启明星辰信息技术有限公司 | 一种智能协议解析方法及装置 |
CN102364897A (zh) * | 2011-09-30 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种网关级在线网络报文检测过滤方法及装置 |
-
2012
- 2012-04-13 CN CN2012101105444A patent/CN102684997A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035111A (zh) * | 2007-04-13 | 2007-09-12 | 北京启明星辰信息技术有限公司 | 一种智能协议解析方法及装置 |
CN102364897A (zh) * | 2011-09-30 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种网关级在线网络报文检测过滤方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104579773B (zh) * | 2014-12-31 | 2016-08-24 | 北京奇虎科技有限公司 | 域名***分析方法及装置 |
CN108462970A (zh) * | 2017-02-21 | 2018-08-28 | ***通信有限公司研究院 | 一种丢包判决方法及装置 |
CN108462970B (zh) * | 2017-02-21 | 2021-05-04 | ***通信有限公司研究院 | 一种丢包判决方法及装置 |
CN109302381A (zh) * | 2018-08-21 | 2019-02-01 | 新华三大数据技术有限公司 | Radius属性扩展方法、装置、电子设备和计算机可读介质 |
CN109302381B (zh) * | 2018-08-21 | 2022-05-10 | 新华三大数据技术有限公司 | Radius属性扩展方法、装置、电子设备和计算机可读介质 |
CN109257369A (zh) * | 2018-10-22 | 2019-01-22 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的扫描ip分类方法及装置 |
CN111209998A (zh) * | 2018-11-06 | 2020-05-29 | 航天信息股份有限公司 | 基于数据类型的机器学习模型的训练方法及装置 |
CN111209998B (zh) * | 2018-11-06 | 2023-08-18 | 航天信息股份有限公司 | 基于数据类型的机器学习模型的训练方法及装置 |
CN110289992A (zh) * | 2019-06-04 | 2019-09-27 | 新华三信息安全技术有限公司 | 一种报文处理方法及装置 |
CN110289992B (zh) * | 2019-06-04 | 2022-07-22 | 新华三信息安全技术有限公司 | 一种报文处理方法及装置 |
CN111078878A (zh) * | 2019-12-06 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102684997A (zh) | 一种通信报文的分类、训练方法和装置 | |
Zheng et al. | Automl for deep recommender systems: A survey | |
CN105224959B (zh) | 排序模型的训练方法和装置 | |
US9818065B2 (en) | Attribution of activity in multi-user settings | |
CN108446964B (zh) | 一种基于移动流量dpi数据的用户推荐方法 | |
WO2017190527A1 (zh) | 一种文本数据分类方法及服务器 | |
US9256692B2 (en) | Clickstreams and website classification | |
Silva et al. | A methodology for community detection in Twitter | |
CN109873810B (zh) | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 | |
CN109903127A (zh) | 一种群组推荐方法、装置、存储介质及服务器 | |
Nazarenko et al. | Features of application of machine learning methods for classification of network traffic (features, advantages, disadvantages) | |
CN113806630B (zh) | 基于注意力的多视角特征融合跨域推荐方法及装置 | |
Li et al. | Traffic identification of mobile apps based on variational autoencoder network | |
US20200394448A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
Wang et al. | Clusterscl: Cluster-aware supervised contrastive learning on graphs | |
Chatterjee et al. | Deep reinforcement learning for detecting malicious websites | |
CN115130542A (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
Santhanakumar et al. | Web usage based analysis of web pages using rapidminer | |
JP2020136894A (ja) | 予測装置、予測方法及びプログラム | |
Zhu et al. | ILETC: Incremental learning for encrypted traffic classification using generative replay and exemplar | |
Ying et al. | PFrauDetector: a parallelized graph mining approach for efficient fraudulent phone call detection | |
CN115795156A (zh) | 物料召回和神经网络训练方法、装置、设备及存储介质 | |
Zhang et al. | A distance-based outlier detection method for rumor detection exploiting user behaviorial differences | |
CN113806638B (zh) | 基于用户画像的个性化推荐方法及相关设备 | |
CN105740329B (zh) | 一种非结构化大数据流的内容语义挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20120919 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |