CN105224691B - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN105224691B
CN105224691B CN201510729292.7A CN201510729292A CN105224691B CN 105224691 B CN105224691 B CN 105224691B CN 201510729292 A CN201510729292 A CN 201510729292A CN 105224691 B CN105224691 B CN 105224691B
Authority
CN
China
Prior art keywords
log
access
domain name
user
thresholding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510729292.7A
Other languages
English (en)
Other versions
CN105224691A (zh
Inventor
才华
肖春天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING NETENTSEC Inc
Original Assignee
BEIJING NETENTSEC Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NETENTSEC Inc filed Critical BEIJING NETENTSEC Inc
Priority to CN201510729292.7A priority Critical patent/CN105224691B/zh
Publication of CN105224691A publication Critical patent/CN105224691A/zh
Application granted granted Critical
Publication of CN105224691B publication Critical patent/CN105224691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息处理方法,所述方法包括:从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;获取来自第一用户的上网行为审计设备的网页访问日志;按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。本发明还同时公开了一种信息处理装置。采用本发明的技术方案,能准确识别用户的实际访问行为。

Description

一种信息处理方法及装置
技术领域
本发明涉及网络的管理和安全技术领域,尤其涉及一种信息处理方法及装置。
背景技术
目前,上网行为管理设备能够通过对用户上网流量的审计得到用户的网页访问日志,其获取网页访问日志的原理通常是对用户的网络协议(Internet Protocol,IP)报文进行解析和重组,得到用户超文本传输协议(HTTP,Hyper Text Transfer Protocol)请求和应答中的各种信息。每一条网页访问日志记录有一个特定用户对一个特定统一资源定位符(Uniform Resource Locator,URL)的访问信息。
但是,当使用网页访问日志对用户行为进行分析时,会面临噪声问题;而去除噪声,识别用户实际网页访问行为,是进行后续用户行为分析的基础。噪声来自几个方面:
1.用户访问某个页面时,其点击动作是针对这个页面的主URL,会触发对主URL的请求。但进一步的,浏览器在收到主URL的应答后会发起对主页面所引用的各种内部资源(如图标和图片)和外部资源(如广告)的请求。这些针对资源URL的请求也会被上网行为管理设备审计下来,作为网页访问日志的一部分。通常大型网站的每次访问都会产生数十甚至上百条网页访问日志,但其中只有一条代表了用户的真实行为。
2.当用户访问某个页面后未关闭浏览器时,页面中的脚本会自动产生心跳、状态更新等请求,这些请求同样会产生网页访问日志。
3.某些软件,例如杀毒软件和终端管理软件,使用HTTP协议与应用服务器进行通讯,以支持升级等业务;类似这种软件的自动行为也会产生网页访问日志。
现有技术中,通常利用HTTP请求(request)及其响应(response)中的字段内容进行噪声判断。例如,利用浏览器填写accept()字段的规律、请求和应答中的内容类型(content type)等进行噪声判断。但是,根据RFC(Request For Comments,一系列以编号排定的文件)等标准,上述字段的取值并无强制约束,完全由软件的实现者进行定义,因此无法从根本上体现发起方是用户还是软件。即使由于浏览器的实现、请求和应答的内容存在一定的规律,但随着版本不断更新,这种规律也很可能不再有效。另外,能够发起HTTP请求的并非只有浏览器,使用上述方法也难以对各种各样的软件进行有效覆盖。
发明内容
有鉴于此,本发明的主要目的在于提供一种信息处理方法及装置,能准确识别用户的实际访问行为。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种信息处理方法,所述方法包括:
从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;
按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;
获取来自第一用户的上网行为审计设备的网页访问日志;
按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。
上述方案中,优选地,所述按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息,包括:
对访问同一域名的所有日志,
检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;
若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;
若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;
计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;
否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名。
上述方案中,优选地,所述按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,包括:
基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;
对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;
对于属于第一用户的访问行为的日志,基于URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;
对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;
将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
上述方案中,优选地,所述对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志,包括:
对访问内容类域名的日志,
计算主题的加权长度;
计算主题的信息量;
将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
上述方案中,优选地,所述对访问内容类域名的日志进行时序分析,包括:
按照网站名称对所述访问内容类域名的日志进行分类;
对每一类中的所有日志,按照时间进行排序,并对排序后的日志按照预设规则划分集合;
根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志。
上述方案中,优选地,所述根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志,包括:
对于集合内的日志,根据URL进行去重处理;
判断是否存在已被判定为第一用户的访问行为的日志;
如果存在,将集合中其他日志作为噪音清洗;
如果不存在,获取集合中日志的数量;如果日志的数量未超出第一阈值,将集合中日志作为噪音清洗;如果超出第一阈值,将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
本发明还提供了一种信息处理装置,所述装置包括收集模块、域名分类模块、获取模块和日志分析模块;其中,
所述收集模块,用于从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;
所述域名分类模块,用于按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;
所述获取模块,用于获取来自第一用户的上网行为审计设备的网页访问日志;
所述日志分析模块,用于按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。
上述方案中,优选地,所述域名分类模块,还用于:
对访问同一域名的所有日志,
检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;
若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;
若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;
计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;
否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名。
上述方案中,优选地,所述日志分析模块,包括:
域名分析子模块,用于基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
主题分析子模块,用于对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;
时序分析子模块,用于对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;
周期分析子模块,用于对于属于第一用户的访问行为的日志,基于URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;
频率分析子模块,用于对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;
确定子模块,用于将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
上述方案中,优选地,所述主题分析子模块,还用于:
对访问内容类域名的日志,
计算主题的加权长度;
计算主题的信息量;
将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
上述方案中,优选地,所述时序分析子模块,还用于:
按照网站名称对所述访问内容类域名的日志进行分类;
对每一类中的所有日志,按照时间进行排序,并对排序后的日志按照预设规则划分集合;
根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志。
上述方案中,优选地,所述时序分析子模块,还用于:
对于集合内的日志,根据URL进行去重处理;
判断是否存在已被判定为第一用户的访问行为的日志;
如果存在,将集合中其他日志作为噪音清洗;
如果不存在,获取集合中日志的数量;如果日志的数量未超出第一阈值,将集合中日志作为噪音清洗;如果超出第一阈值,将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
本发明所提供的信息处理方法及装置,从多个采样点的上网行为审计设备收集网页访问日志;按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;获取来自第一用户的上网行为审计设备的网页访问日志;按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。如此,能够有效的从网页访问日志中清洗噪音,准确识别用户的真实访问行为,即识别用户的实际访问行为。
附图说明
图1为本发明提供的信息处理方法的实现流程示意图;
图2为本发明提供的对所收集的网页访问日志的域名进行归类和分析的实现流程示意图;
图3为本发明提供的基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志进行分析的实现流程示意图;
图4为本发明提供的对访问内容类域名的日志进行主题信息分析的实现流程示意图;
图5为本发明提供的对访问内容类域名的日志进行时序分析的实现流程示意图;
图6为本发明提供的信息处理装置的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
实施例一
图1为本发明提供的信息处理方法的实现流程示意图,如图1所示,该信息处理方法主要包括以下步骤:
步骤101:从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数。
本实施例中,步骤101和步骤103中的上网行为审计设备均能够通过对用户上网流量的审计得到用户的网页访问日志。
步骤102:按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息。
优选地,所述按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息,可以包括:
对访问同一域名的所有日志,
检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;
若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;
若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;
计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;
否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名。
具体的,内容类域名主要用于存放指向新闻页面,视频页面等向用户提供浏览内容的URL;资源类域名主要用于存放指向广告,图片等资源的URL。
具体的,所述异常字段通常代表返回的页面是错误页面或不具有有效内容;例如代码为“304”、或“404”、或“error”等错误信息。
这里,所述包含有效主题的日志可以理解为:除不包含主题或包含异常主题的日志之外的日志。
上述第一门限、第二门限、第三门限、第四门限、第五门限的值可以根据实际情况进行设定。
步骤103:获取来自第一用户的上网行为审计设备的网页访问日志。
这里,所述第一用户是指特定用户,即***预析的用户。
步骤104:按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。
需要说明的是,第一预定周期与第二预定周期可以相同,也可以不同。
优选地,所述按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,可以包括:
基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;
对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;
对于属于第一用户的访问行为的日志,基于URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;
对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;
将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
这里,需要说明的是,如果来自第一用户的上网行为审计设备的网页访问日志的域名不在步骤102中所得出的域名分类信息范围之内时,将日志标记为对内容类域名的访问。
优选地,所述对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志,可以包括:
对访问内容类域名的日志,
计算主题的加权长度;
计算主题的信息量;
将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
优选地,所述对访问内容类域名的日志进行时序分析,可以包括:
按照网站名称对所述访问内容类域名的日志进行分类;
对每一类中的所有日志,按照时间进行排序,并对排序后的日志按照预设规则划分集合;
根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志。
优选地,所述对排序后的日志按照预设规则划分集合,可以包括:
对于排序后的日志,以访问时间排名最靠前的日志作为起点,将时间序列位于其后且间隔不超过预定门限T的所有日志,形成一个集合。
当然,所述预设规则并不仅仅限于以上列举的这种形式,在此不列举。
优选地,所述根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志,可以包括:
对于集合内的日志,根据URL进行去重处理;
判断是否存在已被判定为第一用户的访问行为的日志;
如果存在,将集合中其他日志作为噪音清洗;
如果不存在,获取集合中日志的数量;如果日志的数量未超出第一阈值,将集合中日志作为噪音清洗;如果超出第一阈值,将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
这里,所述第一阈值可以根据实际情况进行设定。
本实施例中,所述方法可应用于用于分析或统计或管理用户实际上网行为的设备。
在本发明实施例中,从多个采样点的上网行为审计设备收集网页访问日志;按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;获取来自第一用户的上网行为审计设备的网页访问日志;按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。如此,能够有效的从网页访问日志中清洗噪音,准确识别用户的真实访问行为,即识别用户的实际访问行为。
实施例二
图2为本发明提供的对所收集的网页访问日志的域名进行归类和分析的实现流程示意图,如图2所示,该流程主要包括以下步骤:
步骤201:对访问同一域名的所有日志,检查日志的数量是否超过第一门限,若没有超过第一门限,则代表样本不足,退出分析;如果超过第一门限,执行步骤202;
步骤202:检查日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则代表样本不足,退出分析;如果超过第二门限,执行步骤203;
步骤203:对异常主题的日志进行过滤;然后执行步骤204;
具体地,检查各日志的主题字段中是否包含异常字段,如果有,将主题字段中包含有异常字段的日志排除。
这里,所述异常字段通常代表返回的页面是错误页面或不具有有效内容,例如“304”、“404”、“error”等错误信息。
步骤204:计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,执行步骤205;否则,执行步骤208;
步骤205:计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,执行步骤206;否则,执行步骤208;
具体地,长度权重一方面取决于主题字段的长度,另一方面取决于字符的内容,例如,中文字符的长度权重大于英文字符。
具体地,计算主题长度权重的加权平均数,如果加权平均数低于第四门限,则将域名判定为资源类域名。
步骤206:计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,执行步骤207;否则,执行步骤208;
这里,所述信息量也可以称为熵值。
具体地,计算所述所有包含有效主题的日志中主题的信息量,若信息量低于第五门限,则将域名判定为资源类域名。
步骤207:将通过所有检查的域名判定为内容类域名;
步骤208:将未通过检查的域名判定为资源类域名。
上述步骤201~步骤208的执行主体可以是域名分类子***。
需要注意的是,上述分析模型可结合人工知识的输入,通过人工标注的数据对域名分类子***进行训练最终确定各个环节的有效门限。
另外,对于不适用于上述分析模型的域名,需要通过人工对分类结果进行补充和纠正,通过人工将域名标记为资源类域名或者内容类域名。
实施例三
图3为本发明提供的基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志进行分析的实现流程示意图,如图3所示,该流程主要包括以下步骤:
步骤301:基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
这里,需要说明的是,如果来自第一用户的上网行为审计设备的网页访问日志的域名不在步骤102中所得出的域名分类信息范围之内时,将日志标记为对内容类域名的访问。
步骤302:对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志。
步骤303:对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志。
具体地,将日志按照网站域名进行划分,并按照时间排序;将排序后的日志按照时序划分成一个个集合;根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为用户的真实访问日志。
步骤304:在经过以上流程,并被判定为第一用户的访问行为的日志中,基于URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗。
步骤305:对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗。
步骤306:经过以上流程,将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
上述步骤301~步骤306的执行主体可以是日志分析子***。
实施例四
图4为本发明提供的对访问内容类域名的日志进行主题信息分析的实现流程示意图,如图4所示,该流程主要包括以下步骤:
401:当日志被标记为对内容类域名的访问时,计算日志主题的加权长度;
402:计算日志主题的信息量;
403:判断加权长度和信息量是否均大于相应的门限值,如果是,执行步骤404;
这里,加权长度的门限值为第四门限;信息量的门限值为第五门限。
404:将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
实施例五
图5为本发明提供的对访问内容类域名的日志进行时序分析的实现流程示意图,如图5所示,该流程主要包括以下步骤:
501:按照网站名称对内容类域名的访问日志进行分类。
需要说明的是,此处的网站名称是指***、sina等一级域名。可以从URL中根据域名的命名规则提取。
502:将访问同一网站的日志按时间进行排序。
503:以访问时间排名最靠前的日志作为起点,将时间序列位于其后且间隔不超过预定门限T的所有日志,形成一个集合。
504:剔除集合内URL重复的日志。
505:判断是否存在已被判定为第一用户的访问行为的日志,如果存在,执行步骤506;如果不存在,执行步骤507;
步骤506:将集合中其他日志作为噪音清洗;
步骤507:获取集合中日志的数量,并判断日志的数量是否超出第一阈值,如果未超过,执行步骤508;如果超过,执行步骤509;
步骤508:将集合中日志作为噪音清洗。
步骤509:将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
实施例六
图6为本发明提供的信息处理装置的组成结构示意图,如图6所示,所述装置包括收集模块61、域名分类模块62、获取模块63和日志分析模块64;其中,
所述收集模块61,用于从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;
所述域名分类模块62,用于按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;
所述获取模块63,用于获取来自第一用户的上网行为审计设备的网页访问日志;
所述日志分析模块64,用于按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志。
优选地,所述域名分类模块62,还用于:
对访问同一域名的所有日志,
检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;
若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;
若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;
计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;
否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名。
优选地,所述日志分析模块64,包括:
域名分析子模块641,用于基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
主题分析子模块642,用于对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;
时序分析子模块643,用于对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;
周期分析子模块644,用于对于属于第一用户的访问行为的日志,基于URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;
频率分析子模块645,用于对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;
确定子模块646,用于将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
优选地,所述主题分析子模块642,还用于:
对访问内容类域名的日志,
计算主题的加权长度;
计算主题的信息量;
将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
优选地,所述时序分析子模块643,还用于:
按照网站名称对所述访问内容类域名的日志进行分类;
对每一类中的所有日志,按照时间进行排序,并对排序后的日志按照预设规则划分集合;
根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志。
优选地,所述时序分析子模块643,还用于:
对于集合内的日志,根据URL进行去重处理;
判断是否存在已被判定为第一用户的访问行为的日志;
如果存在,将集合中其他日志作为噪音清洗;
如果不存在,获取集合中日志的数量;如果日志的数量未超出第一阈值,将集合中日志作为噪音清洗;如果超出第一阈值,将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
具体地,所述收集模块61和所述域名分类模块62可组成域名分类子***;所述获取模块63和所述日志分析模块64可组成日志分析子***。
本领域技术人员应当理解,图6中所示的信息处理装置中的各处理模块的实现功能,可参照前述信息处理方法的相关描述而理解。本领域技术人员应当理解,图6所示的信息处理装置中各处理模块,可通过运行于处理器上的程序而实现,也可通过具体地逻辑电路而实现。
以上各实施例所述的网络切换装置中的收集模块61、域名分类模块62、获取模块63、日志分析模块64以及各个子模块,在实际应用中均可由所述信息处理装置或所述信息处理装置所在设备中的中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)或可编程门阵列(FPGA,Field Programmable GateArray)实现。
实施例七
下面通过一个具体案例详细说明本发明技术方案。
假设某个用户点击一个新浪新闻页面所生成的网页访问日志为如表1所示:
表1
步骤701:对域名进行分析。
根据域名分类子***的输入,对于ID为1~6的日志,其域名“news.sina.com.cn”为内容类域名;对于ID为9的日志,其域名“sax.sina.com.cn”为资源类域名;而对于ID为7~8的日志,具体的,ID为7的日志所对应的域名“1303.adsina.allyes.com”,ID为8的日志“1352.adsina.allyes.com”,这两个域名均未出现在域名分类结果中,故仍作为内容类域名。
步骤702:对主题进行分析。
具体地,本实施例中,应对标记为内容类域名的日志,即ID 1~6、7、8进行主题分析。
首先,进行加权长度分析;具体的,ID为1的日志,主题包含20个中文字符和3个特殊字符。在一种实现下,中文字符的加权值为2,英文和特殊字符的加权值为1,加权长度为20*2+3=43;ID 2~6的加权长度为8;ID 7~8的加权长度为0。
之后,进行信息量分析;具体的,ID为1的日志,熵值为1.09;ID为2~6的日志,熵值为0.6;ID为7、8的日志,熵值为0。
这里,对如何进行阈值计算不再赘述。
在一种具体是实例中,若选择熵值的门限为0.5,加权长度的门限为30,则ID为1的日志被判定为用户行为。
步骤703:对时序进行分析。
(1)划分分类
根据网站名称,ID为1~6和9的日志划分为同一个分类(即sina),ID为7、8的日志划分为另一个分类(即allyes)。
(2)排序并划分集合
在一种实现下,假设5秒以内的日志具有关联性。
在sina分类中,经过排序后,ID 1~ID 6和ID 9被划分为集合A;ID 10被划分为另一个集合B。集合A的起始日志为ID 1的日志;由于集合B中没有访问内容类型的日志,集合B被作为无效集合。
在allyes分类中,ID 7、ID 8被划分为同一集合C。
(3)去重
按照URL对集合A、集合C进行去重,没有日志被剔除。
(4)判定
集合A中,ID 1在此前被标记为用户行为,因此,其他日志作为噪音过滤。
集合C中,去重后的日志数为2。在一种实现下,日志数门限取值为5,因此,集合C中的所有日志被判定为噪音。
步骤704:进行周期分析。
在一种实现下,以8小时为范围进行周期分析。在8小时内,用户访问http://news.sina.com.cn/w/2015-06-29/062832030997.shtml的次数只有一次。因此,不具有周期性。
步骤705:进行频率分析。
在一种实现下,以5分钟为范围进行频率分析,并且访问同一网站的频率门限为50。在5分钟内,用户访问http://news.sina.com.cn并且被判定为用户行为的日志为1条。因此,未超过频率门限。
步骤706:进行决策。
综上所述,ID为1的日志被判定为用户的真实访问行为。
本发明提供的信息处理方法及装置,能够针对现有方法去除噪声的缺陷,本发明根据对域名下资源类型的分析,利用网页访问的时序特征、周期特征和频率特征等,能够有效的从网页访问日志中清洗噪音,准确识别用户的真实访问行为,即识别用户的实际访问行为。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种信息处理方法,其特征在于,所述方法包括:
从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;
按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;
获取来自第一用户的上网行为审计设备的网页访问日志;
按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志;
并且,所述按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息,包括:
对访问同一域名的所有日志,
检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;
若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;
若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;
计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;
否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名;
所述按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,包括:
基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;
对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;
对于属于第一用户的访问行为的日志,基于统一资源定位符URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;
对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;
将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
2.根据权利要求1所述的方法,其特征在于,所述对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志,包括:
对访问内容类域名的日志,
计算主题的加权长度;
计算主题的信息量;
将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
3.根据权利要求1所述的方法,其特征在于,所述对访问内容类域名的日志进行时序分析,包括:
按照网站名称对所述访问内容类域名的日志进行分类;
对每一类中的所有日志,按照时间进行排序,并对排序后的日志按照预设规则划分集合;
根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志。
4.根据权利要求3所述的方法,其特征在于,所述根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志,包括:
对于集合内的日志,根据URL进行去重处理;
判断是否存在已被判定为第一用户的访问行为的日志;
如果存在,将集合中其他日志作为噪音清洗;
如果不存在,获取集合中日志的数量;如果日志的数量未超出第一阈值,将集合中日志作为噪音清洗;如果超出第一阈值,将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
5.一种信息处理装置,其特征在于,所述装置包括收集模块、域名分类模块、获取模块和日志分析模块;其中,
所述收集模块,用于从N个采样点的上网行为审计设备收集网页访问日志;其中,N为正整数;
所述域名分类模块,用于按照第一预定周期对所述网页访问日志的域名进行归类和分析,生成域名分类信息;
所述获取模块,用于获取来自第一用户的上网行为审计设备的网页访问日志;
所述日志分析模块,用于按照第二预定周期,并基于域名分类信息对所述来自第一用户的上网行为审计设备的网页访问日志进行分析,以识别用于表征第一用户的真实访问行为的网页访问日志;
并且所述域名分类模块,还用于:
对访问同一域名的所有日志,
检查日志的数量是否超过第一门限,若没有超过第一门限,则退出分析;
若超过第一门限,则检查所述所有日志中发起访问的用户数是否超过第二门限,若没有超过第二门限,则退出分析;
若超过第二门限,则检查各日志的主题字段中是否包含异常字段,并将主题字段中包含有异常字段的日志排除;
计算包含有效主题的日志的比例,若包含有效主题的日志的比例超过第三门限,计算所有包含有效主题的日志中主题长度权重的分布,若主题长度权重的加权平均数超过第四门限,计算所述所有包含有效主题的日志中主题的信息量,若信息量超过第五门限,则判定域名为内容类域名;
否则,若包含有效主题的日志的比例未超过第三门限,或若主题长度权重的加权平均数未超过第四门限,或若信息量未超过第五门限,则判定域名为资源类域名;
所述日志分析模块,包括:
域名分析子模块,用于基于域名分类信息对来自第一用户的上网行为审计设备的网页访问日志的域名进行分析,将网页访问日志划分为对内容类域名的访问和对资源类域名的访问;
主题分析子模块,用于对访问内容类域名的日志进行主题信息分析,查找出属于第一用户的访问行为的日志;
时序分析子模块,用于对访问内容类域名的日志进行时序分析,查找出属于第一用户的访问行为的日志;
周期分析子模块,用于对于属于第一用户的访问行为的日志,基于URL进行周期性分析,判断是否具有周期性特征,如果具有,则作为噪声清洗;
频率分析子模块,用于对于经过周期性分析后仍被判定为第一用户的访问行为的日志,基于域名进行访问频率分析,判断访问频率是否超过第六门限,如果超过,则作为噪声清洗;
确定子模块,用于将经过频率分析后仍被判定为第一用户的访问行为的日志,确定为第一用户的真实访问行为。
6.根据权利要求5所述的装置,其特征在于,所述主题分析子模块,还用于:
对访问内容类域名的日志,
计算主题的加权长度;
计算主题的信息量;
将加权长度和信息量均大于相应的门限值的日志判定为属于第一用户的访问行为的日志。
7.根据权利要求5所述的装置,其特征在于,所述时序分析子模块,还用于:
按照网站名称对所述访问内容类域名的日志进行分类;
对每一类中的所有日志,按照时间进行排序,并对排序后的日志按照预设规则划分集合;
根据集合中的域名类型、URL信息、主题信息、以及日志数量,在符合时序模型的集合中选定日志,作为第一用户的真实访问行为的网页访问日志。
8.根据权利要求7所述的装置,其特征在于,所述时序分析子模块,还用于:
对于集合内的日志,根据URL进行去重处理;
判断是否存在已被判定为第一用户的访问行为的日志;
如果存在,将集合中其他日志作为噪音清洗;
如果不存在,获取集合中日志的数量;如果日志的数量未超出第一阈值,将集合中日志作为噪音清洗;如果超出第一阈值,将集合中起始的日志判定为表征第一用户的真实访问行为的网页访问日志。
CN201510729292.7A 2015-10-30 2015-10-30 一种信息处理方法及装置 Active CN105224691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510729292.7A CN105224691B (zh) 2015-10-30 2015-10-30 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729292.7A CN105224691B (zh) 2015-10-30 2015-10-30 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN105224691A CN105224691A (zh) 2016-01-06
CN105224691B true CN105224691B (zh) 2019-03-26

Family

ID=54993659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729292.7A Active CN105224691B (zh) 2015-10-30 2015-10-30 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN105224691B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931073A (zh) * 2016-04-08 2016-09-07 久远谦长(北京)技术服务有限公司 一种移动互联网广告平台分析方法和***
CN106682096A (zh) * 2016-12-01 2017-05-17 北京奇虎科技有限公司 一种日志数据的管理方法和装置
CN107704478B (zh) * 2017-01-16 2019-03-15 贵州白山云科技股份有限公司 一种写入日志的方法和***
CN108897804A (zh) * 2018-06-15 2018-11-27 东北大学秦皇岛分校 一种互联网空间数据的搜索***及方法
CN109688094B (zh) * 2018-09-07 2022-05-17 平安科技(深圳)有限公司 基于网络安全的可疑ip配置方法、装置、设备及存储介质
CN110912860B (zh) * 2018-09-18 2022-02-18 北京数安鑫云信息技术有限公司 一种检测伪周期性访问行为的方法及装置
CN109347688B (zh) * 2018-11-26 2022-04-26 锐捷网络股份有限公司 一种在无线局域网中定位故障的方法和装置
CN110825873B (zh) * 2019-10-11 2022-04-12 支付宝(杭州)信息技术有限公司 用于对日志异常分类规则进行扩充的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855248A (zh) * 2011-06-29 2013-01-02 ***通信集团广西有限公司 一种用户特征信息的确定方法、装置及***
CN103605738A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网页访问数据统计方法及装置
CN104298780A (zh) * 2014-11-05 2015-01-21 百纳(武汉)信息技术有限公司 一种浏览器网页信息的预获取方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855248A (zh) * 2011-06-29 2013-01-02 ***通信集团广西有限公司 一种用户特征信息的确定方法、装置及***
CN103605738A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网页访问数据统计方法及装置
CN104298780A (zh) * 2014-11-05 2015-01-21 百纳(武汉)信息技术有限公司 一种浏览器网页信息的预获取方法及***

Also Published As

Publication number Publication date
CN105224691A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN105224691B (zh) 一种信息处理方法及装置
CN103218431B (zh) 一种能识别网页信息自动采集的***
Stassopoulou et al. Web robot detection: A probabilistic reasoning approach
CN107862022B (zh) 文化资源推荐***
WO2017027320A1 (en) System and methods for detecting bots real-time
US20150186521A1 (en) Method and system for tracking and gathering multivariate testing data
Qiu et al. Analysis of user web traffic with a focus on search activities.
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN110351280A (zh) 一种威胁情报提取的方法、***、设备及可读存储介质
CN102932206A (zh) 监测网站访问信息的方法和***
CN103927370A (zh) 一种组合文字和图片信息的网络资讯批量采集方法
Balla et al. Real-time web crawler detection
CN103530365A (zh) 获取资源的下载链接的方法及***
CN102932207A (zh) 监测网站访问信息的方法及服务器
CN107612925A (zh) 一种基于访问行为特征的WebShell挖掘方法
CN107395650A (zh) 基于沙箱检测文件识别木马回连方法及装置
US9336316B2 (en) Image URL-based junk detection
Sujatha Improved user navigation pattern prediction technique from web log data
Fang et al. Fine-grained HTTP web traffic analysis based on large-scale mobile datasets
CN103605670B (zh) 一种用于确定网络资源点的抓取频率的方法和装置
CN108268370B (zh) 基于Referer和模板库匹配的网站质量分析方法、装置和***
Upadhyay et al. Web usage mining has pattern discovery
EP3082090A1 (en) Method for determining a user profile in relation to certain web content
CN105989019B (zh) 一种清洗数据的方法及装置
CN102932400B (zh) 一种识别统一资源定位符主链接的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant