CN102833085B - 基于海量用户行为数据的通讯网络报文分类***及方法 - Google Patents

基于海量用户行为数据的通讯网络报文分类***及方法 Download PDF

Info

Publication number
CN102833085B
CN102833085B CN201110162097.2A CN201110162097A CN102833085B CN 102833085 B CN102833085 B CN 102833085B CN 201110162097 A CN201110162097 A CN 201110162097A CN 102833085 B CN102833085 B CN 102833085B
Authority
CN
China
Prior art keywords
message
data
disaggregated model
sorting algorithm
communication network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110162097.2A
Other languages
English (en)
Other versions
CN102833085A (zh
Inventor
刘晓亮
罗峰
黄苏支
李娜
王琪
张玉波
阎飞飞
刘书良
刘生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Izp (China) Network Technology Co. Ltd.
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201110162097.2A priority Critical patent/CN102833085B/zh
Publication of CN102833085A publication Critical patent/CN102833085A/zh
Application granted granted Critical
Publication of CN102833085B publication Critical patent/CN102833085B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于海量用户行为数据的通讯网络报文分类***及方法,其特征在于:包括用户数据采集***,所述用户数据采集***将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型,该***及方法能对各类报文准确识别,满足报文分析中数据的细粒度需求,通过报文分类能有效的对用户行为数据,包括用户的访问、搜索数据进行细致分析。

Description

基于海量用户行为数据的通讯网络报文分类***及方法
技术领域
本发明涉及领域包括,海量用户使用各种网络设备和终端访问网络产生的通讯网络报文的分析、根据用户的行为抽取报文特征、使用数据挖掘和机器学习技术对通讯网络报文进行正确的分类预测,特别设计一种基于海量用户行为数据的通讯网络报文分类***及方法。
背景技术
大部分传统的报文分类使用的都是基于规则的***,也就是统计不同报文中出现的关键词,然后形成一规则库,当下一个报文出现时,就去规则库中匹配,得出报文的大概类别。
这种方法的缺点是很明显的:(1)有大量的报文存在,不可能得到一个很精确的规则库;(2)不同规则库中规则的可能重复性,使用匹配策略可能得到不准确的报文类别(3)当报文数量巨大时,匹配策略将不能满足时间上的有效性。
发明内容
本发明目的为提供一种基于海量用户行为数据的通讯网络报文分类***及方法,该***及方法能对各类报文准确识别,满足报文分析中数据的细粒度需求,通过报文分类能有效的对用户行为数据,包括用户的访问、搜索数据进行细致分析。
本发明的技术方案如下:
一种基于海量用户行为数据的通讯网络报文分类***,包括用户数据采集***,所述用户数据采集***将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型。
所述用户数据采集模块将网络收集的数据存储进用户数据存储***。
所述分类算法模块还接收训练数据集的数据,所述分类模型还接收评估数据集的验证数据。
一种基于海量用户行为数据的通讯网络报文分类方法,通过如下步骤实现报文分类:
(1)将用户数据采集模块内的信息导入数据清洗模块对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵,并导入分类算法模块中生成分类模型;
(2)同时使用人工方式对每个通讯网络报文的类别进行标注,建立训练数据集和评估数据集;将训练数据集生成的特征矩阵也同时输入到分类算法模块,分类算法模块对训练数据集进行学习关于报文的分类模型,将评估数据集生产的特征矩阵输入到分类模型中间结果中,验证模型输出结果和人工标注结果,根据所得的正确率和召回率来判断模型的准确度;
(3)将分类模型验证后的参数反馈给分类算法模块,不断的对分类算法模块进行优化,以提高***在现实复杂情况下的鲁棒性和模型精度;
(4)建立最终模型并通过模型输出模块输出用于与新报文连接,预测通讯网络报文的类别。
所述人工方式所区分的网络报文类别标注包括搜索引擎报文,网页浏览报文,资源下载页报文,广告素材报文。
通过用户数据采集模块对用户行为数据进行收集并将信息存储入用户数据存储***。
本发明的技术效果在于:
在通讯网络报文中存在大量的各式各样的报文类型,为了能对这些报文进行深度的分析和挖掘,必须能正确的识别各类报文。由于数据量的巨大,所以在目标时间内和目标准确率内完成这个任务变得非常困难。本发明通过细致分析通讯网络报文,根据用户行为抽取了报文的特征,然后使用来自数据挖掘和机器学习的技术构建了一整套准确识别各类报文的***,包括从原始报文收集到最终在线使用的完整流程,确保了在目标时间内报文的准确识别。
附图说明
图1为本发明所述基于海量用户行为数据的通讯网络报文分类***及方法步骤流程图。
具体实施方式
以下结合附图对本发明做进一步说明。
如图1所示,一种基于海量用户行为数据的通讯网络报文分类***,包括用户数据采集***,所述用户数据采集***将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,所述分类模型通过模型输出模块输出最终用于与报文比对的模型。
所述用户数据采集模块将网络收集的数据存储进用户数据存储***。
所述分类算法模块还接收训练数据集的数据,所述分类模型还接收评估数据集的验证数据。
一种基于海量用户行为数据的通讯网络报文分类方法,通过如下步骤实现报文分类:
(1)将用户数据采集模块内的信息导入数据清洗模块对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵,并导入分类算法模块中生成分类模型;
(2)同时使用人工方式对每个通讯网络报文的类别进行标注,建立训练数据集和评估数据集;将训练数据集生成的特征矩阵也同时输入到分类算法模块,分类算法模块对训练数据集进行学习关于报文的分类模型,将评估数据集生产的特征矩阵输入到分类模型中间结果中,验证模型输出结果和人工标注结果,根据所得的正确率和召回率来判断模型的准确度;
(3)将分类模型验证后的参数反馈给分类算法模块,不断的对分类算法模块进行优化,以提高***在现实复杂情况下的鲁棒性和模型精度;
(4)建立最终模型并通过模型输出模块输出用于与新报文连接,预测通讯网络报文的类别。
所述人工方式所区分的网络报文类别标注包括搜索引擎报文,网页浏览报文,资源下载页报文,广告素材报文。
通过用户数据采集模块对用户行为数据进行收集并将信息存储入用户数据存储***。
分类算法模块优化过程:所述分类算法模块接收电脑与人工所生成的报文分类特征矩阵,并生成分类模型,所述分类模型接收人工输入的评估数据集生成都验证用报文分类特征矩阵,分类模型再将验证后的数据反馈给分类算法模块,以对其分类算法模块进行优化,以便之后更精确的分类。
清洗模块的作用是去除数据中一些噪音,包括两个部分:(1)去除一些不必要的样本;(2)去除某些样本中的某些噪音信息。
所述训练数据集包含两部分,一是人工标注的网络报文类别,再就是表示网络报文的特征向量,一般用稀疏向量表示,为了符合具体分类算法的要求,可以进行相应的格式转换。
特征主要是能区别开各类报文的一些信息,通过人工分析和统计得出,比如广告url特征可以由三部分组成:(1)包含特定关键词、alimama、doubleclick、ad等;(2)一般处于用户访问树的叶子节点;(3)用户直接输入比例一般比较小。
特征矩阵指的是各个样本的特征值构成的矩阵。
评价分类***的性能有两个方面,一个是模型精度,一个是算法的效率。其中影响模型精度的一个重要因素就是特征的充分性,包括特征的强弱和数目。本发明在对海量的通讯网络报文进行深度分析的基础上,根据用户行为对报文进行了细致的分类,精心抽取了各类报文的特征,从而保证了模型的精度和预测的准确性。另外在算法效率上,进行了大量的优化,从而保证了海量数据处理的实效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于海量用户行为数据的通讯网络报文分类***,其特征在于:包括用户数据采集***,所述用户数据采集***将收集到的数据传输给数据清洗模块,所述数据清洗模块将清洗和抽取后的报文特征生成特征矩阵传输给分类算法模块,所述分类算法模块和分类模型相互交换数据,同时使用人工方式对每个通讯网络报文的类别进行标注,建立训练数据集和评估数据集;将训练数据集生成的特征矩阵也同时输入到所述分类算法模块,所述分类算法模块对所述训练数据集进行学习关于报文的所述分类模型,将所述评估数据集生产的特征矩阵输入到所述分类模型中间结果中,验证所述分类模型输出结果和人工标注结果,根据所得的正确率和召回率来判断所述分类模型的准确度;所述分类算法模块接收电脑与人工所生成的报文分类特征矩阵,并生成分类模型,所述分类模型接收人工输入的评估数据集生成的验证用报文分类特征矩阵,所述分类模型再将验证后的数据反馈给所述分类算法模块;所述分类模型通过模型输出模块输出最终用于与报文比对的模型。
2.根据权利要求1所述的基于海量用户行为数据的通讯网络报文分类***,其特征在于:所述用户数据采集***将网络收集的数据存储进用户数据存储***。
3.根据权利要求1所述的基于海量用户行为数据的通讯网络报文分类***,其特征在于:所述分类算法模块还接收人工输入的训练数据集的数据,所述分类模型还接收所述评估数据集的验证数据。
4.一种基于海量用户行为数据的通讯网络报文分类方法,其特征在于:通过如下步骤实现报文分类:
(1)将用户数据采集***内的信息导入数据清洗模块对用户数据进行清洗,抽取用户通讯网络报文的特征,生成特征矩阵,并导入分类算法模块中生成分类模型;
(2)同时使用人工方式对每个通讯网络报文的类别进行标注,建立训练数据集和评估数据集;将训练数据集生成的特征矩阵也同时输入到所述分类算法模块,所述分类算法模块对所述训练数据集进行学习关于报文的所述分类模型,将所述评估数据集生产的特征矩阵输入到所述分类模型中间结果中,验证所述分类模型输出结果和人工标注结果,根据所得的正确率和召回率来判断所述分类模型的准确度;
(3)将所述分类模型验证后的参数反馈给所述分类算法模块,不断的对所述分类算法模块进行优化,以提高***在现实复杂情况下的鲁棒性和模型精度;所述分类算法模块进行优化的过程为:所述分类算法模块接收电脑与人工所生成的报文分类特征矩阵,并生成分类模型,所述分类模型接收人工输入的评估数据集生成的验证用报文分类特征矩阵,所述分类模型再将验证后的数据反馈给分类算法模块;
(4)建立最终模型并通过所述分类模型输出模块输出用于与新报文连接,预测通讯网络报文的类别。
5.根据权利要求4所述的基于海量用户行为数据的通讯网络报文分类方法,其特征在于:所述人工方式所区分的通讯网络报文类别标注包括搜索引擎报文、网页浏览报文、资源下载页报文以及广告素材报文。
6.根据权利要求4所述的基于海量用户行为数据的通讯网络报文分类方法,其特征在于:通过所述用户数据采集***对用户行为数据进行收集并将信息存储入用户数据存储***。
CN201110162097.2A 2011-06-16 2011-06-16 基于海量用户行为数据的通讯网络报文分类***及方法 Expired - Fee Related CN102833085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110162097.2A CN102833085B (zh) 2011-06-16 2011-06-16 基于海量用户行为数据的通讯网络报文分类***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110162097.2A CN102833085B (zh) 2011-06-16 2011-06-16 基于海量用户行为数据的通讯网络报文分类***及方法

Publications (2)

Publication Number Publication Date
CN102833085A CN102833085A (zh) 2012-12-19
CN102833085B true CN102833085B (zh) 2015-09-16

Family

ID=47336064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110162097.2A Expired - Fee Related CN102833085B (zh) 2011-06-16 2011-06-16 基于海量用户行为数据的通讯网络报文分类***及方法

Country Status (1)

Country Link
CN (1) CN102833085B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649455B (zh) * 2016-09-24 2021-01-12 孙燕群 一种大数据开发的标准化***归类、命令集***
CN107404398A (zh) * 2017-05-31 2017-11-28 中山大学 一种网络用户行为判别***
CN112016617B (zh) * 2020-08-27 2023-12-01 中国平安财产保险股份有限公司 细粒度分类方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540048A (zh) * 2009-04-21 2009-09-23 北京航空航天大学 一种基于支持向量机的图像质量评价方法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540048A (zh) * 2009-04-21 2009-09-23 北京航空航天大学 一种基于支持向量机的图像质量评价方法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Internet网页自动分类技术的研究;谢华;《中国优秀硕士学位论文全文数据库信息科技辑》;20070630;对比文件第9页第1段至第11页第5段,图2-1 *
刘博等.改进的KNN方法及其在中文文本分类中的应用.《西华大学学报(自然科学版)》.2008,第27卷(第2期),全文. *

Also Published As

Publication number Publication date
CN102833085A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN105260474B (zh) 一种基于信息交互网络的微博用户影响力计算方法
CN103164427B (zh) 新闻聚合方法及装置
CN102567494B (zh) 网站分类方法及装置
CN103530347B (zh) 一种基于大数据挖掘的互联网资源质量评估方法及***
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及***
CN103927297B (zh) 基于证据理论的中文微博可信度评估方法
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN104657372A (zh) 页面操作数据处理方法及装置
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN105573995A (zh) 一种兴趣识别方法、设备以及数据分析方法
CN105550253B (zh) 一种类型关系的获取方法及装置
CN103793489A (zh) 一种在线社交网络中社群话题的发现方法
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及***
CN104965905A (zh) 一种网页分类的方法和装置
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN101393555A (zh) 一种垃圾博客检测方法
CN103838754A (zh) 信息搜索装置及方法
CN103136358A (zh) 一种自动抽取论坛数据的方法
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN111767443A (zh) 一种高效的网络爬虫分析平台
CN102833085B (zh) 基于海量用户行为数据的通讯网络报文分类***及方法
CN104298782A (zh) 互联网用户主动访问行为轨迹的分析方法
CN102571922B (zh) 一种数据流处理方法及装置
Yu et al. Fast budgeted influence maximization over multi-action event logs
CN102663083A (zh) 基于分布式计算的大规模社交网络信息抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100081, Beijing, Zhongguancun, Haidian District South Avenue, No. 18, International Building, Beijing, block 18, B

Patentee after: Izp (China) Network Technology Co. Ltd.

Address before: 100081, Beijing, Zhongguancun, Haidian District South Avenue, No. 18, International Building, Beijing, block 18, B

Patentee before: Beijing IZP Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150916

Termination date: 20160616