CN101079066A - 一种网络审计中的数据分析***及其方法 - Google Patents

一种网络审计中的数据分析***及其方法 Download PDF

Info

Publication number
CN101079066A
CN101079066A CN 200710076252 CN200710076252A CN101079066A CN 101079066 A CN101079066 A CN 101079066A CN 200710076252 CN200710076252 CN 200710076252 CN 200710076252 A CN200710076252 A CN 200710076252A CN 101079066 A CN101079066 A CN 101079066A
Authority
CN
China
Prior art keywords
data
search key
search
key
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710076252
Other languages
English (en)
Inventor
阮伟军
林飞
申屠青春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd filed Critical SHENZHEN ZHONGKE SEEN INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN 200710076252 priority Critical patent/CN101079066A/zh
Publication of CN101079066A publication Critical patent/CN101079066A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网络审计中的数据分析***,其包括依次连接的数据获取模块、统计分析模块及存储模块,所述数据获取模块用于接收网络数据,并从中提取出用户搜索关键字,统计分析模块接收所述搜索关键词并在存储模块中进行比对查找,根据查找结果相应建立或修改所述搜索关键词统计项值。本发明还提供一种网络审计中的数据分析方法。由于本发明网络审计中的数据分析***及其方法通过提取网络审计的上网数据中搜索关键字,并进行统计分析排序,可通过统计分析结果反映人们当前的兴趣趋向和关心的事物,提高网络审计产品的使用价值。

Description

一种网络审计中的数据分析***及其方法
技术领域
本发明涉及一种网络审计中的数据分析***及其方法,尤其涉及一种网络审计中的对搜索关键字数据进行分析的***及其方法。
背景技术
随着科学技术的发展,互联网络广泛应用于人们的工作和生活,在网络审计里的数据分析方法中一个非常重要的内容就是对人们上网行为规律的归纳和统计。网络用户输入的搜索关键字,即用户向网络搜索引擎输入框输入的字/词或者是几个词的组合,目前网络搜索引擎主要包括WWW.GOOGLE.COM的GOOGLE搜索引擎,WWW.GOOGLE.CN的谷歌中国搜索引擎,WWW.BAIDU.COM的百度搜索引擎,WWW.YAHOO.COM.CN的雅虎中国搜索引擎等。通过对这些搜索关键字的分析,可以看到最近一段时期内人们最关心的事物是什么,通过对这些搜索关键字的分析和统计,可以在一定程度上反应人们当前的兴趣趋向,从而能进一步提高网络审计产品的使用价值。然而,目前现有的网络审计产品还无法针对搜索关键字进行分析和统计。
发明内容
为了克服现有网络审计产品无法针对搜索关键字进行分析和统计的不足,本发明提供一种网络审计中的数据分析***,其可反映人们当前的兴趣趋向和关心的事物。
本发明另一个所要解决的技术问题是:提供一种网络审计中的数据分析方法,其可反映人们当前的兴趣趋向和关心的事物。
为解决上述技术问题,本发明所采用的技术方案是:提供一种网络审计中的数据分析***,所述数据分析***包括依次连接的数据获取模块、统计分析模块及存储模块,所述数据获取模块用于接收网络数据,并从中提取出用户搜索关键字,统计分析模块接收所述搜索关键词并在存储模块中进行比对查找,根据查找结果相应建立或修改所述搜索关键词统计项值。
所述数据分析***还包括与存储模块连接的统计查看模块,其访问存储模块,并根据所述搜索关键字的统计项值顺序排列搜索关键字。
所述存储模块为数据库或者存储文件。
所述数据获取模块在提取搜索关键字时,还提取与该搜索关键字对应的搜索引擎类别信息,统计分析模块根据查找结果相应建立或修改所述类别中搜索关键字的统计项值。
为解决上述另一个技术问题,本发明采用如下技术方案:提供一种网络审计中的数据分析方法,所述方法包括以下步骤:接收网络审计中的上网数据,从上网数据中提取搜索关键字,将所述搜索关键字与数据库存储数据进行比对查找,根据查找结果相应建立或修改所述搜索关键词统计项值。
所述数据分析方法还包括根据统计项值顺序排列搜索关键字的步骤。
所述从上网数据中提取搜索关键字时,还提取与该搜索关键字对应的搜索引擎类别信息。
所述从上网数据中提取搜索关键字是通过查找不同搜索引擎URL地址中对应搜索关键字的字段的首尾定义字符,即可提取出搜索关键字数据。
所述将所述搜索关键字与数据库存储数据进行比对查找的步骤包括:先比对查找是否存在所述的搜索引擎类别信息,若无则新生成该类别并把该搜索关键字存储到该类别中,并设置建立该搜索关键字统计项初始值;若有则比对查找该类别中是否存在所述的搜索关键字,若无则把该搜索关键字存储到该类别中,并设置建立该搜索关键字统计项初始值,若有则修改该搜索关键字统计项值。
所述数据分析方法还包括根据不同搜索引擎类别信息中的统计项值分别顺序排列搜索关键字的步骤。
本发明的有益效果在于:本发明网络审计中的数据分析***及其方法通过提取网络审计的上网数据中搜索关键字,并进行统计分析排序,可通过统计分析结果反映人们当前的兴趣趋向和关心的事物,提高网络审计产品的使用价值。
附图说明
图1是本发明网络审计中的数据分析***的网络应用示意图;
图2是本发明网络审计中的数据分析***的原理示意图;
图3是本发明网络审计中的数据分析方法的工作流程示意图;
具体实施方式
请参阅图1,本发明网络审计中的数据分析***10与网络服务器20连接,数据分析***10通过网络服务器20提取连接在网络服务器20的多个计算机终端31、32、33、34的网络数据中的搜索关键字,获取到搜索关键字后,对上述关键进行统计排名,按照用户使用搜索关键字的次数由高至低进行排名。因目前人们通常都是通过网页访问搜索引擎的,并且搜索关键字是通过HTTP协议格式的数据传输到搜索引擎,以下即以HTTP协议格式的数据为例说明本发明网络审计中的数据分析***及其方法的实施例。
请一并参阅图2,本发明网络审计中的数据分析***10包括依次连接的数据获取模块11、统计分析模块12、存储模块13(本实施例为数据库或存储文件)及统计查看模块14。
其中数据获取模块11与网络审计***(图未示)中的网络数据捕获模块40连接,并接收网络数据捕获模块40发送过来的上网行为数据,然后从这些数据中分析并提取出搜索关键字。本实施例数据获取模块11分析并提取出搜索关键字的方法包括:首先,确定获取到的HTTP数据包的提交方式为GET;其次,确定HTTP数据包中包含的URL地址含有WWW.GOOGLE.COM或者www.***.com,WWW.GOOGLE.CN或者www.***.cn,WWW.BAIDU.COM或者www.***.com,WWW.YAHOO.COM.CN或者www.yahoo.com.cn等搜索引擎网址的其中之一,再根据包含的字符串对该数据包进行分类,将URL地址含有WWW.GOOGLE.COM或者www.***.com这样的字符串的归为GOOGLE搜索引擎类,将URL地址含有WWW.GOOGLE.CN或者www.***.cn这样的字符串的归为谷歌中国搜索引擎类,将URL地址含有WWW.BAIDU.COM或者www.***.com这样的字符串的归为BAIDU/百度搜索引擎类,将URL地址含有WWW.YAHOO.COM.CN或者www.yahoo.com.cn这样的字符串的归为YAHOO/雅虎中国搜索引擎类,并以此类推对包含不同的搜索引擎字符串的数据包进行归类,由此,如果在HTTP数据包里发现搜索关键字,可按照上面的划分的类别对这些关键字进行分类,比如同样的“鲜花”搜索关键字可能是从YAHOO/雅虎中国搜索引擎获取的或者从谷歌中国搜索引擎获取的,通过上述分类以示区别;再次,从HTTP数据包包含的URL地址中提取出搜索关键字,若搜索引擎为BAIDU/百度类,则先提取URL地址中最后一个“/”以后的数据,然后查找这些数据里是否包含“s?”,如果包含则再查找这些数据是否包含“wd=”,如果包含则取出从“wd=”以后到遇到的第一个“&”以前的所有数据,这些数据就是搜索关键字;若搜索引擎为GOOGLE/谷歌类,则先提取URL地址中最后一个“/”以后的数据,然后查找这些数据里是否包含“search?”,如果包含则再查找这些数据是否包含“q=”,如果包含则取出从“q=”以后到遇到的第一个“&”以前的所有数据,这些数据就是搜索关键字;若搜索引擎为YAHOO/雅虎中国搜索类,则先提取URL地址中最后一个“/”以后的数据,然后查找这些数据里是否包含“search?”,如果包含则再查找这些数据是否包含“p=”,如果包含则取出从“p=”以后到遇到的第一个“&”以前的所有数据,这些数据就是搜索关键字。可以理解,通过查找不同搜索引擎URL地址中对应搜索关键字的字段的首尾定义字符,即可提取出搜索关键字数据。
通过上述步骤,即可把搜索关键字从HTTP格式类型的网络数据包中提取出来,数据获取模块11把获取到的搜索关键字和该关键字对应的搜索引擎类别信息发送给数据统计分析模块12。
统计分析模块12接收来自数据获取模块11的搜索关键字和该搜索关键字对应的搜索引擎类别信息,然后从存储模块13中进行查找比对,并判断是否已经存在该搜索关键字。本实施例的查找方法包括:首先,查找该关键对应的搜索引擎类别信息,查看是否存在该类别,如果不存在该类别,则在存储模块13中新生成该类别,然后把该搜索关键字存储到该类别对应的位置,并设置该搜索关键字的统计项为一;其次,如果存在该类别,查看该类别下面是否包含该关键字,如果不包含该关键字,则把该搜索关键字存储到该类别中,并设置该搜索关键字的统计项为一,如果包含该关键字则在该关键字对应的统计项上加一。
统计查看模块14与存储模块13连接并访问其中的存储数据,其根据不同的搜索引擎类别和搜索关键字的统计项的数值,顺序排列(本实施例为由高至低向下列出)各个搜索关键字,形成各个搜索引擎的搜索关键字的排名列表。本实施例中每个搜索引擎排名列表的内容包括搜索关键字和搜索次数(数据库或者存储文件13中该搜索关键字的统计项的数值)
请一并参阅图4,本发明网络审计中的数据分析方法包括以下步骤:
首先,数据获取模块11接收审计产品中网络数据捕获模块发送过来的上网行为数据,数据获取模块11要对这些HTTP格式类型的上网行为数据进行处理,处理工作包括两部分,第一是对这些HTTP格式类型的上网行为数据进行分类,判断它们是属于哪个搜索引擎的;第二是从这些HTTP格式类型的上网行为数据提取出搜索关键字。其次,数据获取模块11把这些分类信息和搜索关键字发送给统计分析模块12,统计分析模块12根据这些分类信息和搜索关键字检查数据库或者存储文件13,判断数据库或者存储文件13是否已经包含它们的信息,如果已经包含,则只为该搜索关键字对应的统计项加一,如果数据库或者存储文件还没有包含该搜索关键字信息,则需要把该搜索关键字存储进数据库或者存储文件13,并把该搜索关键字对应的统计项设置为一。再次,管理人员通过统计查看模块14查看统计数据。统计查看模块14根据不同的搜索引擎类别,根据搜索关键字的统计项的数值由高至低向下列出各个搜索关键字,形成各个搜索引擎的搜索关键字的排名列表。
可以理解,本发明网络审计中的数据分析***及其方法也可不设置搜索引擎的类别信息,而是对各个搜索引擎的搜索关键字进行统一的统计排序。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1、一种网络审计中的数据分析***,其特征在于:所述数据分析***包括依次连接的数据获取模块、统计分析模块及存储模块,所述数据获取模块用于接收网络数据,并从中提取出用户搜索关键字,统计分析模块接收所述搜索关键词并在存储模块中进行比对查找,根据查找结果相应建立或修改所述搜索关键词统计项值。
2、如权利要求1所述的网络审计中的数据分析***,其特征在于:所述数据分析***还包括与存储模块连接的统计查看模块,其访问存储模块,并根据所述搜索关键字的统计项值顺序排列搜索关键字。
3、如权利要求1所述的网络审计中的数据分析***,其特征在于:所述存储模块为数据库或者存储文件。
4、如权利要求1所述的网络审计中的数据分析***,其特征在于:所述数据获取模块在提取搜索关键字时,还提取与该搜索关键字对应的搜索引擎类别信息,统计分析模块根据查找结果相应建立或修改所述类别中搜索关键字的统计项值。
5、一种网络审计中的数据分析方法,其特征在于包括以下步骤:接收网络审计中的上网数据,从上网数据中提取搜索关键字,将所述搜索关键字与数据库存储数据进行比对查找,根据查找结果相应建立或修改所述搜索关键词统计项值。
6、如权利要求5所述的网络审计中的数据分析方法,其特征在于:所述数据分析方法还包括根据统计项值顺序排列搜索关键字的步骤。
7、如权利要求5所述的网络审计中的数据分析方法,其特征在于:所述从上网数据中提取搜索关键字时,还提取与该搜索关键字对应的搜索引擎类别信息。
8、如权利要求5所述的网络审计中的数据分析方法,其特征在于:所述从上网数据中提取搜索关键字是通过查找不同搜索引擎URL地址中对应搜索关键字的字段的首尾定义字符,即可提取出搜索关键字数据。
9、如权利要求5所述的网络审计中的数据分析方法,其特征在于:所述将所述搜索关键字与数据库存储数据进行比对查找的步骤包括:先比对查找是否存在所述的搜索引擎类别信息,若无则新生成该类别并把该搜索关键字存储到该类别中,并设置建立该搜索关键字统计项初始值;若有则比对查找该类别中是否存在所述的搜索关键字,若无则把该搜索关键字存储到该类别中,并设置建立该搜索关键字统计项初始值,若有则修改该搜索关键字统计项值。
10、如权利要求9所述的网络审计中的数据分析方法,其特征在于:所述数据分析方法还包括根据不同搜索引擎类别信息中的统计项值分别顺序排列搜索关键字的步骤。
CN 200710076252 2007-06-29 2007-06-29 一种网络审计中的数据分析***及其方法 Pending CN101079066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710076252 CN101079066A (zh) 2007-06-29 2007-06-29 一种网络审计中的数据分析***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710076252 CN101079066A (zh) 2007-06-29 2007-06-29 一种网络审计中的数据分析***及其方法

Publications (1)

Publication Number Publication Date
CN101079066A true CN101079066A (zh) 2007-11-28

Family

ID=38906545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710076252 Pending CN101079066A (zh) 2007-06-29 2007-06-29 一种网络审计中的数据分析***及其方法

Country Status (1)

Country Link
CN (1) CN101079066A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909018A (zh) * 2009-06-05 2010-12-08 潘晓丰 根据用户浏览网页返回即时通信群组的方法与***
CN102664946A (zh) * 2012-04-17 2012-09-12 网宿科技股份有限公司 通过监视用户数据搜索动作并推荐优质资源的方法和装置
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN105631050A (zh) * 2016-03-01 2016-06-01 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及***
CN105893462A (zh) * 2016-03-20 2016-08-24 百势软件(北京)有限公司 一种用户网络行为分析方法及装置
CN107038608A (zh) * 2017-04-21 2017-08-11 北京恒冠网络数据处理有限公司 一种大数据分析***
CN108345686A (zh) * 2018-03-08 2018-07-31 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909018A (zh) * 2009-06-05 2010-12-08 潘晓丰 根据用户浏览网页返回即时通信群组的方法与***
CN102664946A (zh) * 2012-04-17 2012-09-12 网宿科技股份有限公司 通过监视用户数据搜索动作并推荐优质资源的方法和装置
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN105631050A (zh) * 2016-03-01 2016-06-01 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及***
CN105631050B (zh) * 2016-03-01 2019-09-17 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及***
CN105893462A (zh) * 2016-03-20 2016-08-24 百势软件(北京)有限公司 一种用户网络行为分析方法及装置
CN107038608A (zh) * 2017-04-21 2017-08-11 北京恒冠网络数据处理有限公司 一种大数据分析***
CN108345686A (zh) * 2018-03-08 2018-07-31 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及***
CN108345686B (zh) * 2018-03-08 2021-12-28 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及***

Similar Documents

Publication Publication Date Title
US11119833B2 (en) Identifying behavioral patterns of events derived from machine data that reveal historical behavior of an information technology environment
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及***
CN108256104B (zh) 基于多维特征的互联网网站综合分类方法
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其***
CA2498376C (en) Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US9317613B2 (en) Large scale entity-specific resource classification
US20070294252A1 (en) Identifying a web page as belonging to a blog
US8886797B2 (en) System and method for deriving user expertise based on data propagating in a network environment
CN101079066A (zh) 一种网络审计中的数据分析***及其方法
Diesner et al. Using network text analysis to detect the organizational structure of covert networks
US8909563B1 (en) Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels
US8239380B2 (en) Systems and methods to tune a general-purpose search engine for a search entry point
US7702618B1 (en) Information retrieval system for archiving multiple document versions
CN101814083A (zh) 网页自动分类方法和***
US20080005091A1 (en) Visual and multi-dimensional search
KR20060048777A (ko) 문서 설명의 문구 기반 생성
KR20060048779A (ko) 정보 검색 시스템에서의 문구 식별
CN1389811A (zh) 搜索引擎的智能化搜索方法
US20150341771A1 (en) Hotspot aggregation method and device
CN1858737A (zh) 一种数据搜索的方法和***
CN103064984B (zh) 垃圾网页的识别方法及***
CN112100372B (zh) 头版新闻预测分类方法
CN106095785B (zh) 基于决策树分类的故障码诊断车辆工项与备件检索方法
CN110209659A (zh) 一种简历过滤方法、***和计算机可读存储介质
TW201333727A (zh) 開端式偵測及文字資料中之字叢集之分類

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20071128