CN107256253A

CN107256253A - 一种基于XML进行web访问模式挖掘的***及方法

Info

Publication number: CN107256253A
Application number: CN201710433165.1A
Authority: CN
Inventors: 王永强
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2017-10-17

Abstract

本发明公开了一种基于XML进行web访问模式挖掘的***和方法，利用数据采集模块记录用户进行web访问的数据并将访问数据生成XML文件，通过挖掘预处理模块对XML文件进行预处理并形成XML文档数据库，模式挖掘模块通过模式挖掘算法对XML文档数据库进行模式挖掘形成模式库，挖掘结果后处理模块用于对模式库进行分析并显示分析结果。本发明在web应用、电子商务、数据挖掘等方面具有良好的应用前景。

Description

一种基于XML进行web访问模式挖掘的***及方法

技术领域

本发明涉及web数据挖掘技术领域,具体地说是一种基于XML进行web访问模式挖掘的***及方法。

背景技术

WWW技术蓬勃发展，由于Web站点的规模和复杂度的增加，网站的一些主要工作，如Web站点设计、Web服务设计、电子商务等工作变得越加复杂和繁重。Web数据挖掘可以帮助分析人员从用户与网站的会话过程产生的大量多种多样的信息中挖掘出对企业和网站设计人员有用的知识。将传统的数据挖掘技术应用于商务站点数据处理工作，并提供一种高效的Web挖掘解决方案，是当今国际数据挖掘领域关注的热门课题。

数据源在Web访问模式发现的过程中非常重要，它直接影响着后面的工作如模式挖掘和模式评估。以往的Web挖掘数据来源虽然广泛，但作为用户访问模式挖掘的基础仍存在片面性和孤立性，且仍不够充分；它们之间不能实现有效的结合，忽视了网站的需求，给数据分析人员带来了很多困扰。

在现实中，用户经常通过代理服务器访问网站，服务器日志记录了代理服务器端AgentID，而忽略了用户的真实ID。这样利用服务器访问日志进行数据挖掘时，就可能存在单IP一多用户、多IP一单用户、多IP一单会话(用户与网站会话中途亦可能更换代理)等情况。目前的Web分析工具仅能提供用户访问网站Web页的统计次数，对于大量的访问日志，正确分析识别用户和真实会话则无能为力，数据源的可信度降低。

目前许多商业网站的销售活动，仅仅限于已注册的消费群体；对于尚未注册，仅抱着浏览态度的匿名登录用户，有些网页或是不可见，或者干脆将其拒之门外。由于访问日志记录信息的局限性和缺少必要的用户登记信息，这些访问者的访问记录在进行数据过滤时往往显得多余。实际上，这些访问者的信息对于发现***群体是十分必要的。

Web访问日志记录的只局限于用户访问浏览到的网页，而用户与网站会话的最终结果则记录在数据库文件中。用户对网页的操作，例如某用户对特定商品的查询、购买等操作并没有记录下来。而这些数据对于发现用户的购买心理和行为模式等十分关键。

发明内容

为克服上述现有技术存在的不足，本发明的目的在于提供一种模式挖掘精确度高、数据格式良好的基于XML进行web访问模式挖掘的***及方法。

本发明解决其技术问题所采用的技术方案是：一种基于XML进行web访问模式挖掘的***，其特征是：包括依次连接的数据采集模块、挖掘预处理模块、模式挖掘模块和挖掘结果后处理模块；数据采集模块用于记录用户进行web访问的数据并将访问数据生成XML文件，挖掘预处理模块用于对XML文件进行预处理并形成XML文档数据库，模式挖掘模块通过模式挖掘算法对XML文档数据库进行模式挖掘形成模式库，挖掘结果后处理模块用于对模式库进行分析并显示分析结果。

进一步地，数据采集模块包括应用程序，所述应用程序用于读取用户的注册信息并获取用户进行web访问的数据。

进一步地，挖掘预处理模块对XML文件的预处理包括数据过滤处理、用户识别处理、会话识别处理和路径补充分析处理。

进一步地，数据过滤处理利用文档解析器对XML文件进行解析、压缩、合并及抽取操作，获得XML树；

用户识别处理通过用户的登陆信息来区分用户；

会话识别处理根据用户ID和访问时间对XML文件进行排序；

路径补充分析处理对XML文件中不完整的URL路径进行补充。

进一步地，会话识别处理将注册用户和匿名用户的web访问信息分别保存在XML文档数据库中。

进一步地，模式挖掘模块采用的模式挖掘算法为FP-树频集算法。

一种基于XML进行web访问模式挖掘的方法，其特征是：包括步骤，

S1，在用户访问web服务器期间，记录用户的访问数据并将访问数据生成XML文件；

S2，通过对XML文件的预处理形成XML文档数据库，

S3，利用模式挖掘算法对XML文档数据库进行模式挖掘形成模式库，

S4，对模式库进行分析和模式评估。

进一步地，对XML文件的预处理包括

数据过滤处理，利用文档解析器对XML文件进行解析、压缩、合并及抽取操作，获得XML树；

用户识别处理，用户识别处理通过用户的登陆信息来区分用户；

会话识别处理，根据用户ID和访问时间对XML文件进行排序；

路径补充分析处理，对XML文件中不完整的URL路径进行补充。

进一步地，利用的模式挖掘算法为FP-树频集算法，采用FP-树频集算法生成模式库的步骤为，

S31,根据Apriori算法，扫描数据库一次生成1一频繁集及支持度计数，并按支持度计数降序排列，放入L表中；

S32，创建根节点，并标识为“null”，扫描数据库一次，当得到数据库的一个项目集时，就把其中的元素按L表的次序排列，然后递归调用FP-growth来实现FP-树的增长；

S33，为FP-树的每个节点生成条件模式库；

S34，用条件模式库构造对应的条件FP-树；

S35，递归构造条件FP-树，增长条件FP-树包含的频繁集；

S36，如果条件FP-树只包含一个路径，则直接生成条件FP-树包含的频繁集。

本发明的有益效果是：

数据采集部分利用ASP技术在应用层获取用户会话信息，并记录于XML格式的会话文档中，提供了数据完备，数据格式良好，准确度高的数据源，并为后阶段的挖掘工作做了充足的准备；

在服务器端收集到的XML文档均是以会话格式记录的，所以在数据预处理阶段，很容易根据用户ID和时间戳Timeout进行用户识别和会话识别，解决了以往的Web访问模式挖掘遇到的用户会话识别不准确的难题；

本发明按照XML属性结构，将用户访问网站过程中的动作都定义为简单事件，在模式挖掘时，仅需扫描一遍数据库，便可以生成单维关联项，挖掘效率得到很大的提高；

在进行会话识别时，对注册用户和匿名用户分别设置了保存方式，使匿名用户进行web访问的相关数据也记录下来，这些也能作为后期数据挖掘的依据，为设计者提供模式参考，具有潜在的经济效益。

附图说明

图1是本发明所述***的结构示意图；

图2是本发明所述方法的流程示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明公开了一种基于XML进行web访问模式挖掘的***，***包括依次连接的数据采集模块、挖掘预处理模块、模式挖掘模块和挖掘结果后处理模块。

数据采集模块用于记录用户进行web访问的数据并将访问数据生成XML文件：

在WWW中，Web服务过程包括:

(1)客户端向服务器端(Web Server)发出请求，根据HTTP协议，这个请求中包含了客户端的IP地址，浏览器的类型，请求URL等一系列信息；

(2)服务器端(Web Server)收到请求后，根据请求将客户端要求的信息内容返回到客户端，如果出现错误，则返回错误代码；

(3)服务器将访问信息记录到日志文件中。

这些与用户密切相关的数据全部以XML文件的形式封装并保存在数据库中。目前各种大型商用数据库***对XML都提供了完善的支持，这种封装形式将极大的有利于数据导入、交换等操作。而且XML树型结构的数据，为一些常用的数据挖掘算法提供了便利。

本发明采用SQL Server 2014(SQL Server系列软件是Microsoft公司推出的关系型数据库管理***)对ASP.NET(ASP即Active Server Pages，是MicroSOft公司开发的服务器端脚本环境，可用来创建动态交互式网页并建立强大的web应用程序。)框架提供支持，在ASP.NET环境下设计的应用程序(日志记录器)可以调用构建ASP.Net平台上的第三方服务。Web服务技术允许应用程序通过调用站点发布的商业服务接口对站点的数据库和访问日志进行操作，包括对数据库中用户注册登记信息的只读访问，查询处理和检索；以及访问日志的的只读操作。本发明所收集的日志包括：

(1)用户注册信息：利用商务站点发布的商业服务接口，通过应用程序读取站点数据库中的用户注册信息；

(2)访问日志：使用应用程序，来获取用户在登录网站期间的一切访问行为；

(3)站点结构设计：采用第三方网络爬虫工具，自动提取所有网页URL并记录，便于为后期数据挖掘分析提供参考。

挖掘预处理模块用于对XML文件进行预处理并形成XML文档数据库，对XML文件的预处理包括数据过滤处理、用户识别处理、会话识别处理和路径补充分析处理。

数据过滤：首先将收集到的XML文档利用解析器DOM进行解析、压缩、合并及抽取操作，之后得到一个精简、抽象的XML树。这样就得到了一个集用户浏览路径与浏览行为于一体的综合数据源。

用户识别：利用用户登陆信息(登陆ID)来区分用户。

会话识别：是把该用户的连续访问看成是同一个时域(Session)。并对XML文件根据用户ID(User ID)和访问时间(AccessTime)进行排序。

会话识别会对会话格式进行识别，会话格式中对用户类设置了User ID属性，当用户为网站注册用户时，用户将保存在User ID里，用户对于商品的发生交易等数据也将保存在与这个User ID相关的数据里；对于非注册(匿名)用户，对于相关网页的查询，商品的浏览、查询这些信息也将保存起来，把User ID设置成NULL，表示并不与具体用户关联，这些数据也能作为后期数据挖掘的依据。

当是网站的注册用户时，以会话为基础的用户访问数据记录可以很好地将用户在浏览网站时进行的操作封装在基于同一Session的数据中，这样的数据能使后期数据识别更加准确，数据源可信度得到了提高。

路径补充分析：结合站点结构设计，对XML文档中不完全的URL路径进行补充完善。

模式挖掘模块通过模式挖掘算法对XML文档数据库进行模式挖掘形成模式库，采用的模式挖掘算法为FP-树频集算法。形成的XML文档数据库包含数据查询统计功能，在利用模式挖掘算法进行模式库生成的过程中频繁访问模式挖掘形成模式库。

挖掘结果后处理模块用于对模式库进行分析并显示分析结果。

用户访问模式挖掘的后续工作是对模式库进行评估、可视化和应用。采取SQL查询(结构化查询语言Structured Query Language)，专家参与的模式评价。

挖掘出的所有模式都认为是未确定的模式，通过专家评价，将挖掘出的模式划分为确定模式和无用模式，并分别存入确定模式集合和无用模式集合。然后对未确定模式集合中的下一个模式进行评价，如此循环，直到满足输入的“终止评价条件”，则终止评价过程。

经过模式分析所得到的有价值的模式，根据用户的需要，采用可视化的技术以图形界面的方式展示给用户，以便用户采取进一步行动，根据获得的模式进行站点结构改造。

如图2所示，本发明还公开了一种基于XML进行web访问模式挖掘的方法，包括步骤，

S2，通过对XML文件的预处理形成XML文档数据库，

S4，对模式库进行分析和模式评估。

本方法在用户访问网站期间，Web服务器端自动生成一个XML文件(Session.xml)，用来记录用户的访问行为。用户访问站点，关键的事件包括:登录login、浏览Navigate、离开Depart、搜索Search,以及一些访问行为如购买Buy、放弃Abandon、选中Choose、删除Delete等。

步骤S2中对XML文件的预处理包括

会话识别处理，根据用户ID和访问时间对XML文件进行排序；

路径补充分析处理，对XML文件中不完整的URL路径进行补充。

步骤S3中采用的模式挖掘算法为FP-树频集算法。利用FP-树频集算法实现模式挖掘的步骤为，

S31，根据Apriori算法，扫描数据库一次生成1一频繁集及支持度计数，并按支持度计数降序排列，放入L表中；

S33，为FP-树的每个节点生成条件模式库；

S34，用条件模式库构造对应的条件FP-树；

S35，递归构造条件FP-树，增长条件FP-树包含的频繁集；

通过以上模式挖掘，形成模式库。

传统的单纯使用Apriori算法时，需要多次扫描XML文档数据库，需要很大的I/O负载，并可能产生庞大的候选集，对时间和空间都是一种挑战。本发明按照XML文件的属性，在数据预处理过程中生成的会话集中的项目全部是简单事件序列，所以本发明采用FP-树频集算法，产生的数据集可以得到很好的应用。FP-树频集算法是一种产生频繁项目集的关联规则算法，算法本身是单维的，在模式挖掘时，仅需扫描一遍数据库，便可以生成单维关联项，挖掘效率得到很大的提高。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视为本发明的保护范围。

Claims

1.一种基于XML进行web访问模式挖掘的***，其特征是：包括依次连接的数据采集模块、挖掘预处理模块、模式挖掘模块和挖掘结果后处理模块；数据采集模块用于记录用户进行web访问的数据并将访问数据生成XML文件，挖掘预处理模块用于对XML文件进行预处理并形成XML文档数据库，模式挖掘模块用于对XML文档数据库进行模式挖掘形成模式库，挖掘结果后处理模块用于对模式库进行分析并显示分析结果。

2.根据权利要求1所述的一种基于XML进行web访问模式挖掘的***，其特征是：数据采集模块包括应用程序，所述应用程序用于读取用户的注册信息并获取用户进行web访问的数据。

3.根据权利要求1所述的一种基于XML进行web访问模式挖掘的***，其特征是：挖掘预处理模块对XML文件的预处理包括数据过滤处理、用户识别处理、会话识别处理和路径补充分析处理。

4.根据权利要求3所述的一种基于XML进行web访问模式挖掘的***，其特征是：数据过滤处理利用文档解析器对XML文件进行解析、压缩、合并及抽取操作，获得XML树；

用户识别处理通过用户的登陆信息来区分用户；

会话识别处理根据用户ID和访问时间对XML文件进行排序；

路径补充分析处理对XML文件中不完整的URL路径进行补充。

5.根据权利要求4所述的一种基于XML进行web访问模式挖掘的***，其特征是：会话识别处理将注册用户和匿名用户的web访问信息分别保存在XML文档数据库中。

6.根据权利要求1所述的一种基于XML进行web访问模式挖掘的***，其特征是：模式挖掘模块通过模式挖掘算法对XML文档库进行文档挖掘，采用的模式挖掘算法为FP-树频集算法。

7.一种基于XML进行web访问模式挖掘的方法，其特征是：包括步骤，

S2，通过对XML文件的预处理形成XML文档数据库，

S4，对模式库进行分析和模式评估。

8.根据权利要求7所述的一种基于XML进行web访问模式挖掘的方法，其特征是：对XML文件的预处理包括

会话识别处理，根据用户ID和访问时间对XML文件进行排序；

路径补充分析处理，对XML文件中不完整的URL路径进行补充。

9.根据权利要求7所述的一种基于XML进行web访问模式挖掘的方法，其特征是：利用的模式挖掘算法为FP-树频集算法，采用FP-树频集算法生成模式库的步骤为，

S33，为FP-树的每个节点生成条件模式库；

S34，用条件模式库构造对应的条件FP-树；

S35，递归构造条件FP-树，增长条件FP-树包含的频繁集；