CN104572976A

CN104572976A - 网站数据更新方法和***

Info

Publication number: CN104572976A
Application number: CN201410855185.4A
Authority: CN
Inventors: 马慧铭; 张�杰; 俞辉; 夏明泽
Original assignee: Guangzhou Vipshop Information And Technology Co Ltd
Current assignee: Guangzhou Pinwei Software Co Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-04-29
Anticipated expiration: 2034-12-30
Also published as: CN104572976B

Abstract

本发明提供一种网站数据更新方法和***，网站数据更新方法包括：获取网站所对应的web服务器的网站日志以及网站的实时业务数据；将网站日志以及实时业务数据上传至基于分布式***基础架构的数据库；在数据库中对所述网站日志以及实时业务数据进行过滤及分类处理；将网站日志以及实时业务数据上传至分布式消息队列；在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理；分别从所述数据库和分布式消息队列中导出过滤及分类后的网站日志以及实时业务数据，并将两部分网站日志以及实时业务数据进行合并；利用合并后的网站日志以及实时业务数据更新网站数据。上述网站数据更新方法和***可以进一步提高该网站处理相应业务的效率。

Description

网站数据更新方法和***

技术领域

本发明涉及互联网技术领域，特别是涉及一种网站数据更新方法和***。

背景技术

随着互联网技术的发展，许多行业对来自相关网站的数据的依赖程度越来越高。传统的网站数据更新一般使用离线数据，即第N天使用及分析的网站数据实际上使用的第N-1天及以前的数据。这种网站数据更新方法无法反应出当天实际数据对网站所开展的业务的影响，一般只适用于对实时数据依赖度不高的行业，而对于一些对实时数据依赖度高的网站而言，比如垂直电商等，其对实时数据的敏感程度远高于历史数据，这些网站亟需实时数据能够参与到网站数据更新中去，因此现有的网站数据更新方法便无法满足如垂直电商这一类对数据更新速度要求快的网站，甚至有可能由于对网站数据分析不及时而影响业务开展进程及效率。

发明内容

基于此，有必要针对现有的网站数据更新方法无法满足如垂直电商这一类对数据更新速度要求快的网站，甚至有可能由于对网站数据分析不及时而影响业务开展进程及效率的技术问题，提供一种网站数据更新方法和***。

一种网站数据更新方法，包括如下步骤：

获取网站所对应的web服务器的网站日志以及网站的实时业务数据；其中，所述实时业务数据包括从网站日志更新的最后时刻至当前时刻内该网站的访问数据；

将所述网站日志以及实时业务数据上传至基于分布式***基础架构的数据库；

在所述数据库中对所述网站日志以及实时业务数据进行过滤及分类处理；

将所述网站日志以及实时业务数据上传至分布式消息队列；

在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理；

分别从所述数据库和分布式消息队列中导出过滤及分类后的网站日志以及实时业务数据，并将两部分网站日志以及实时业务数据进行合并；

利用合并后的网站日志以及实时业务数据更新网站数据。

一种网站数据更新***，包括：

获取模块，用于获取网站所对应的web服务器的网站日志以及网站的实时业务数据；其中，所述实时业务数据包括从网站日志更新的最后时刻至当前时刻内该网站的访问数据；

第一上传模块，用于将所述网站日志以及实时业务数据上传至基于分布式***基础架构的数据库；

第一处理模块，用于在所述数据库中对所述网站日志以及实时业务数据进行过滤及分类处理；

第二上传模块，用于将所述网站日志以及实时业务数据上传至分布式消息队列；

第二处理模块，用于在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理；

合并模块，用于分别从所述数据库和分布式消息队列中导出过滤及分类后的网站日志以及实时业务数据，并将两部分网站日志以及实时业务数据进行合并；

更新模块，用于利用合并后的网站日志以及实时业务数据更新网站数据。

上述网站数据更新方法和***，通过将网站所对应的web服务器的网站日志以及网站的实时业务数据分别上传基于分布式***基础架构的数据库以及分布式消息队列，分别在其所在的数据库以及分布式消息队列中进行过滤及分类处理，并将数据库以及分布式消息队列中过滤及分类处理后的网站日志和实时业务数据进行合并，并利用合并后的网站日志以及实时业务数据更新网站数据。本发明中，利用可以反映该网站的实时业务数据，并结合网站日志所包含的网站历史数据更新网站数据，使所更新的网站数据能准确反映对应的客户端所获取的实时业务数据，保证了网站更新的数据的速度和质量，根据更新后的网站数据进行后续的分析并采取相关应对措施，可以进一步提高该网站处理相应业务的效率。

附图说明

图1为一个实施例的网站数据更新方法流程图；

图2为一个实施例的分布式消息队列数据上传方法流程图；

图3为一个实施例的过滤及分类处理方法流程图；

图4为一个实施例的过滤及分类处理方法流程图；

图5为一个实施例的网站数据更新***结构示意图；

图6为一个实施例的第二上传模块结构示意图；

图7为一个实施例的第一处理模块结构示意图；

图8为一个实施例的第二处理模块结构示意图。

具体实施方式

下面结合附图对本发明的网站数据更新方法和***的具体实施方式作详细描述。

参考图1，图1所示为一个实施例的网站数据更新方法流程图，包括如下步骤：

S10，获取网站所对应的web服务器的网站日志以及网站的实时业务数据；其中，所述实时业务数据包括从网站日志更新的最后时刻至当前时刻内该网站的访问数据；

上述步骤S10中，网站日志一般指以预设时间段为单位记录网站所在服务器接收该网站的相关业务请求以及运行时的出现的异常情况的消息或者文件；网站日志可以包括该网站的会员登陆次数，非会员登录次数，登录的会员等级，各类型的客户分别在该网站的停留时间等等。上述预设时间段可以为一天，即网站日志每天更新一次，当天的网站客户端获取的业务数据为该网站的实时业务数据；也可以为适合阶段性总结对应的网站业务数据的其他时间段。

S20，将所述网站日志以及实时业务数据上传至基于分布式***基础架构的数据库；

上述步骤S20中，将所述网站日志以及实时业务数据上传至基于分布式***基础架构的数据库，上述基于分布式***基础架构的数据库可以基于Hadoop(一个由Apache基金会所开发的分布式***基础架构)，它具有高容错性，可以以一种可靠、高效、可伸缩的方式进行数据处理。这样，相关用户可以在不了解分布式底层细节的情况下，开发分布式程序，并且后续处理中可以对其中的网站日志以及实时业务数据进行高速运算和存储，可以提高数据处理的效率。

S30，在所述数据库中对所述网站日志以及实时业务数据进行过滤及分类处理；

上述步骤S30中，对所述网站日志以及实时业务数据进行过滤及分类处理，可以将数据库中网站日志以及实时业务数据所包含的信息根据网站的时机业务需求筛选出有用信息，并将上述有用信息进行分类处理，使得到的信息更能准确清晰的反映该网站的业务状况。

S40，将所述网站日志以及实时业务数据上传至分布式消息队列；

上述步骤S40中，将所述网站日志以及实时业务数据上传至分布式消息队列，可以使消息的传输具体较低的延迟，进一步加快对相关数据的处理速度；并且使上述网站日志以及实时业务数据分两种路径进行处理，可以提高最终所获取的网站业务数据的准确性。

S50，在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理；

上述步骤S50中，在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理，可以上述网站日志以及实时业务数据所包含的信息根据网站的时机业务需求筛选出有用信息，并将有用信息进行分类处理，使得到的信息更能准确清晰的反映该网站的业务状况。

S60，分别从所述数据库和分布式消息队列中导出过滤及分类后的网站日志以及实时业务数据，并将两部分网站日志以及实时业务数据进行合并；

上述步骤S60中，对于一个数据源同时分别进行两部分处理，将两部分网站日志以及实时业务数据进行合并，可以在提高网站业务数据的完整性和准确性的基础上，保证对网站业务数据的处理效率。

S70，利用合并后的网站日志以及实时业务数据更新网站数据。

上述实施例提供的网站数据更新方法，通过将网站所对应的web服务器的网站日志以及网站的实时业务数据分别上传基于分布式***基础架构的数据库以及分布式消息队列，分别在其所在的数据库以及分布式消息队列中进行过滤及分类处理，并将数据库以及分布式消息队列中过滤及分类处理后的网站日志和实时业务数据进行合并，并利用合并后的网站日志以及实时业务数据更新网站数据。本发明中，利用可以反映该网站的实时业务数据，并结合网站日志所包含的网站历史数据更新网站数据，使所更新的网站数据能准确反映对应的客户端所获取的实时业务数据，保证了网站更新的数据的速度和质量，根据更新后的网站数据进行后续的分析并采取相关应对措施，可以进一步提高该网站处理相应业务的效率。

参考图2，图2所示为一个实施例的分布式消息队列数据上传方法流程图，如图示，上述步骤S40可以包括：

S41，将网站日志所包含的网站数据分解成若干条消息；

S42，分别将每条消息传送至分布式消息队列；

S43，将从网站日志更新的最后时刻至当前时刻内该网站的实时业务数据对应的消息传送至分布式消息队列。

上述实施例提供的分布式消息队列数据上传方法将网站日志所包含的网站数据分解成若干条消息，与实时业务数据对应的消息一起传送至分布式消息队列，其中的分布式消息队列可以为kafka(一种l inkedin用于日志处理的分布式消息队列)；上述分布式消息队列数据上传方法相对于将相应的数据传送至基于分布式***基础架构的数据库，延迟较短，可以进一步提高相关业务数据的处理速度。

参考图3，图3所示为一个实施例的过滤及分类处理方法流程图，如图示，上述步骤S30可以包括：

S31，筛选出所述数据库中的网站日志以及实时业务数据中的非法数据，并进行删除；

S32，在数据库中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第一分类网站日志和实时业务数据并进行存储。

上述实施例中，网站日志以及实时业务数据中的非法数据可以指该网站的会员或者非会员登录错误的相关数据，也可以指在网站的相关网页或者客户端进行浏览过程中的错误数据等；将这些非法数据筛选出来并进行删除，可以有效避免在后续的网站业务数据处理过程中这些非法数据对正常的网站业务数据带来的干扰问题，提高对正常的网站业务数据的处理效率。

参考图4，图4所示为一个实施例的过滤及分类处理方法流程图，如图示，上述步骤S50可以包括：

S51，将分布式消息队列中的网站日志以及实时业务数据同步至strom***；

S52，在strom***中筛选出每条消息所对应的网站日志或者实时业务数据中的非法数据，并进行删除；

S53，在strom***中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第二分类网站日志和实时业务数据。

上述实施例中，storm***是个实时的、分布式以及具备高容错的计算***,可以处理大批量的数据，在保证高可靠性的前提下还可以让处理进行得更加实时；也就是说，所有的信息都会被处理；此外，storm同样还具备容错和分布计算这些特性，这就让Storm可以扩展到不同的机器上进行大批量的数据处理，因此分布式消息队列中的网站日志以及实时业务数据同步至strom***，可以增强对网站业务数据的处理能力。其中的非法数据可以指该网站的会员或者非会员登录错误的相关数据，也可以指在网站的相关网页或者客户端进行浏览过程中的错误数据等；将这些非法数据筛选出来并进行删除，可以有效避免在后续的网站业务数据处理过程中这些非法数据对正常的网站业务数据带来的干扰问题，提高对正常的网站业务数据的处理效率。

在一个实施例中，上述步骤S50后还可以包括：

将分布式消息队列中过滤及分类处理后的网站日志以及实时业务数据存储至redis存储***。

上述实施例中，redis是一个开源的，使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value(一种分布式存储***)的数据库；redis存储***支持存储的value类型相对多，可以包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)等，此外，redis存储***还支持对其中的数据进行多种操作；将分布式消息队列中过滤及分类处理后的网站日志以及实时业务数据存储至redis存储***，有助于操作网站业务数据中不同类型的数据。

参考图5，图5所示为一个实施例的网站数据更新***结构示意图，包括：

获取模块10，用于获取网站所对应的web服务器的网站日志以及网站的实时业务数据；其中，所述实时业务数据包括从网站日志更新的最后时刻至当前时刻内该网站的访问数据；

第一上传模块20，用于将所述网站日志以及实时业务数据上传至基于分布式***基础架构的数据库；

第一处理模块30，用于在所述数据库中对所述网站日志以及实时业务数据进行过滤及分类处理；

第二上传模块40，用于将所述网站日志以及实时业务数据上传至分布式消息队列；

第二处理模块50，用于在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理；

合并模块60，用于分别从所述数据库和分布式消息队列中导出过滤及分类后的网站日志以及实时业务数据，并将两部分网站日志以及实时业务数据进行合并；

更新模块70，用于利用合并后的网站日志以及实时业务数据更新网站数据。

参考图6，图6所示为一个实施例的第二上传模块结构示意图，上述第二上传模块40可以包括：

分解单元41，用于将网站日志所包含的网站数据分解成若干条消息；

第一传送单元42，用于分别将每条消息传送至分布式消息队列；

第二传送单元43，用于将从网站日志更新的最后时刻至当前时刻内该网站的实时业务数据对应的消息传送至分布式消息队列。

参考图7，图7所示为一个实施例的第一处理模块结构示意图，上述第一处理模块30可以包括：

第一删除单元31，用于筛选出所述数据库中的网站日志以及实时业务数据中的非法数据，并进行删除；

第一分类单元32，用于在数据库中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第一分类网站日志和实时业务数据并进行存储。

参考图8，图8所示为一个实施例的第二处理模块结构示意图，上述第二处理模块50可以包括：

同步单元51，用于将分布式消息队列中的网站日志以及实时业务数据同步至strom***；

第二删除单元52，用于在strom***中筛选出每条消息所对应的网站日志或者实时业务数据中的非法数据，并进行删除；

第二分类单元53，用于在strom***中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第二分类网站日志和实时业务数据。

在一个实施例中，上述第二处理模块50后还可以包括：

存储模块，用于将分布式消息队列中过滤及分类处理后的网站日志以及实时业务数据存储至redis存储***

本发明的网站数据更新***与本发明的网站数据更新方法一一对应，在上述网站数据更新方法的实施例阐述的技术特征及其有益效果均适用于网站数据更新***的实施例中，特此声明。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网站数据更新方法，其特征在于，包括如下步骤：

将所述网站日志以及实时业务数据上传至分布式消息队列；

利用合并后的网站日志以及实时业务数据更新网站数据。

2.根据权利要求1所述的网站数据更新方法，其特征在于，所述将所述网站日志以及实时业务数据上传至分布式消息队列的步骤包括：

将网站日志所包含的网站数据分解成若干条消息；

分别将每条消息传送至分布式消息队列；

将从网站日志更新的最后时刻至当前时刻内该网站的实时业务数据对应的消息传送至分布式消息队列。

3.根据权利要求1所述的网站数据更新方法，其特征在于，所述在所述数据库中对所述网站日志以及实时业务数据进行过滤及分类处理的步骤包括：

筛选出所述数据库中的网站日志以及实时业务数据中的非法数据，并进行删除；

在数据库中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第一分类网站日志和实时业务数据并进行存储。

4.根据权利要求1所述的网站数据更新方法，其特征在于，所述在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理的步骤包括：

将分布式消息队列中的网站日志以及实时业务数据同步至strom***；

在strom***中筛选出每条消息所对应的网站日志或者实时业务数据中的非法数据，并进行删除；

在strom***中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第二分类网站日志和实时业务数据。

5.根据权利要求1所述的网站数据更新方法，其特征在于，所述在分布式消息队列中对所述网站日志以及实时业务数据进行过滤及分类处理的步骤后还包括：

6.一种网站数据更新***，其特征在于，包括：

7.根据权利要求6所述的网站数据更新***，其特征在于，所述第二上传模块包括：

分解单元，用于将网站日志所包含的网站数据分解成若干条消息；

第一传送单元，用于分别将每条消息传送至分布式消息队列；

第二传送单元，用于将从网站日志更新的最后时刻至当前时刻内该网站的实时业务数据对应的消息传送至分布式消息队列。

8.根据权利要求6所述的网站数据更新***，其特征在于，所述第一处理模块包括：

第一删除单元，用于筛选出所述数据库中的网站日志以及实时业务数据中的非法数据，并进行删除；

第一分类单元，用于在数据库中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第一分类网站日志和实时业务数据并进行存储。

9.根据权利要求6所述的网站数据更新***，其特征在于，所述第二处理模块包括：

同步单元，用于将分布式消息队列中的网站日志以及实时业务数据同步至strom***；

第二删除单元，用于在strom***中筛选出每条消息所对应的网站日志或者实时业务数据中的非法数据，并进行删除；

第二分类单元，用于在strom***中将所述网站日志以及实时业务数据按照访问网站的会员类型、以及在该网站的停留时间进行分类，得到第二分类网站日志和实时业务数据。

10.根据权利要求6所述的网站数据更新***，其特征在于，所述第二处理模块后还包括：

存储模块，用于将分布式消息队列中过滤及分类处理后的网站日志以及实时业务数据存储至redis存储***。