CN102436506A

CN102436506A - 一种网络服务器端海量数据的处理方法及装置

Info

Publication number: CN102436506A
Application number: CN201110447888XA
Authority: CN
Inventors: 郝占峰; 刘亚萍
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2012-05-02

Abstract

本发明适用于计算机数据处理领域，提供一种网络服务器端海量数据的处理方法和装置，所述方法包括：网络服务器将存储的用户的基本信息数据和用户使用服务所产生的数据进行整理，建立相应的数据仓库；根据预确定的挖掘目标建立相应的数据挖掘模型；对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果。本方法能够得出用户使用记录数据中所蕴含的有价值的信息，这些信息能帮助服务提供商更好的做出相应的商业决策，从而给用户带来了更好的、更加人性化的使用服务。

Description

一种网络服务器端海量数据的处理方法及装置

技术领域

本发明属于计算机数据处理领域，尤其涉及一种网络服务器端海量数据的处理方法及装置。

背景技术

在互联网时代人们已经离不开网络设备，我们经常会通过智能电视或电脑进行在线视频点播或在线音乐收听，而在使用这种类似服务之前，通常都需要进行用户注册，注册成功后便可使用这些服务，在注册同时或者注册成功后需要填写一些用户相关的个人基本信息，比如年龄、性别、职业等等。并且，用户在使用各种服务的过程中也会产生大量的使用数据，譬如用户在一个视频网站注册用户后浏览该网站提供的视频服务，在浏览视频的同时会产生诸如观看了哪些视频、观看了多长时间、什么时候开始观看等等这些使用数据。这些使用数据和用户注册的基本信息数据都存在后台的网络服务器中，而现在的这些服务的提供商没有很好地利用这些数据资源，只是用这些数据进行一些常用的数据库操作，比如仅仅用这些数据生成了视频点击排行榜等，因此现有技术对于这种存储在网路服务器中的海量数据仅仅是经过简单的统计处理，没有为服务提供商和用户带来更多的价值信息。

发明内容

本发明提供一种网路服务器端的海量数据的处理方法，旨在解决现有技术没有充分利用这些用户产生的海量数据，无法为服务提供商和用户带来更多更有价值的信息的技术问题。

本发明是这样实现的，一种网络服务器端的海量数据的处理方法，所述方法包括下述步骤：

网络服务器将存储的用户的基本信息数据和用户使用服务所产生的数据进行整理，建立相应的数据仓库；

根据预确定的挖掘目标建立相应的数据挖掘模型；

对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果。

进一步，在所述对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果步骤之后还包括下述步骤：

通过新的用户使用数据验证所述挖掘结果的正确率，保存其中高正确率的挖掘结果和产生这些挖掘结果的数据挖掘模型，再根据所述产生的数据挖掘模型和采用的挖掘算法得到新的挖掘结果，如此循环得到最好的挖掘结果和挖掘模型。

本发明的另一目的在于提供一种网络服务器端的海量数据的处理装置，所述的装置包括：

数据仓库构建单元，用于将网络服务器存储的用户的基本信息数据和用户使用服务所产生的数据进行整理，建立相应的数据仓库；

挖掘模型确定单元，用于根据确定好的挖掘目标建立相应的数据挖掘模型；

挖掘结果生成单元，用于对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果。

进一步，本装置还包括：

结果模型验证单元，通过新的用户使用数据验证所述挖掘结果的正确率，保存其中高正确率的挖掘结果和产生这些挖掘结果的数据挖掘模型，再根据所述产生的数据挖掘模型和采用的挖掘算法得到新的挖掘结果，如此循环得到最好的挖掘结果和挖掘模型。

本发明的有益效果是：本发明提供了一种网络服务器端的海量数据的处理方法，该方法通过将用户使用服务所产生的数据和用户的基本信息数据加载到数据仓库中，然后根据确定的数据挖掘目标和数据挖掘模型，采用数据挖掘算法得到含有预测信息的挖掘结果，这些挖掘结果能帮助服务提供商更好的做出相应的商业决策，从而给用户带来了更好的、更加人性化的使用服务。

本发明的另一个有益效果是：本发明提供了一种网络服务器端的海量数据的处理装置，该装置通过将用户使用服务所产生的数据和用户的基本信息数据加载到数据仓库中，然后根据确定的数据挖掘目标和数据挖掘模型，采用数据挖掘算法得到含有预测信息的挖掘结果，这些挖掘结果能帮助服务提供商更好的做出相应的商业决策，从而给用户带来了更好的、更加人性化的使用服务。

附图说明

图1是本发明实施例提供的网络服务器端海量数据的处理方法的流程图；

图2是本发明实施例提供的决策树的结构示例图；

图3是本发明实施例提供的网络服务器端海量数据的处理装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的网络服务器端的海量数据的处理流程，为了便于说明仅示出了与本发明实施例相关的部分。

在步骤S1中，网络服务器接收用户注册服务时保存的用户基本信息数据和用户使用服务时所产生的使用数据。

在本发明实施例中，本步骤是用来保存用户数据的前置步骤，所述的海量数据就是用户群生成的大量记录数据，包括用户使用某种服务所产生的使用数据(例如用户在一个视频网站注册用户后浏览该网站提供的视频服务，在浏览视频的同时会产生诸如观看了哪些视频、观看了多长时间、什么时候开始观看等等这些使用数据)和用户本身的基本信息数据。用户使用的网络终端(如电脑、智能电视等)与后台的网络服务器连接，上述所生成的记录数据就保存在网络服务器中。通常用户在使用服务商提供的服务(譬如观看视频、在线听歌、看电子书等)之前需要注册用户，注册成功后***会给每个用户分配一个标识该用户身份的唯一ID，用户可以通过这个ID和注册时所预设的密码来登录网路服务器，注册时或者登录成功后用户还需填写个人基本信息并保存为用户基本信息数据(例如填写的年龄、性别、职业等等个人基本信息)，注册和登录后用户便可以使用服务商提供了一些服务了，此后用户产生的使用数据都与这个用户ID相关联。

在步骤S2中，网络服务器将存储的用户的基本信息数据和用户使用该服务所产生的数据进行整理，以建立相应的数据仓库。

在本发明实施例中，所述的数据仓库是进行数据分析的基础，它的主要工作是将数据库中的原始数据进行归纳整理，聚集成一个可供数据挖掘的数据集合，它的目的是合并和组织这些数据，以便可对其进行分析并用来支持业务决策。所述的用户使用服务所产生的数据和用户的基本信息数据作为数据挖掘的信息源可能是杂乱无序的，所以网络服务器需将接收到的上述用户使用服务所产生的数据和用户的基本信息数据进行整理，例如抽取有用的数据信息，同时对这些有用的数据信息按照实际需求进行数据类型转换，生成适于数据挖掘的数据类型，以建立相应的数据仓库。比如存储在数据库中的用户的年龄数据都是以数字形式存在的，为了方便构建数据仓库，在此可以将具体的年龄数据按照年龄段进行划分，比如30以下属于青年，30到60属于中年，60以上属于老年，在具体实现时，所述的年龄分段规则可根据实际需要自定义，而这种数据类型的转换通过SQL语句即可实现。对这些经类型转换后的数据按照字段排列分组，最终构建成用于数据挖掘的数据仓库。

在步骤S3中，根据预确定的挖掘目标建立相应的数据挖掘模型。

在本发明实施例中，所述的挖掘目标就是根据数据仓库的数据所想得到的预测内容，比如预测武侠类型影片具有很好的点播率，那么这个预测的内容就是所确定的挖掘目标，而数据挖掘模型就是根据这个预测的内容而对应生成的一种预测规则。

在步骤S4中，对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果。

在本发明实施例中，数据挖掘算法的选取决定了预测结果的好坏，本实施例偏向于分类算法，在此可以选用决策树算法，决策树是一个类似流程图的树的结构，最顶层是根节点，下面每个内部的节点表示一个属性上的测试，每个分支代表一个测试的输出，每个叶结点表示类或类的分布，它可以生成易于理解的规则，可以清晰地显示哪些字段比较重要。

决策树算法的基本策略如下：

决策树从训练样本的单个节点开始；

如果训练样本都在同一个类，那么节点成为叶子，并用该类标记；

否则，继续选择字段作为节点把训练样本继续分类；

对字段的每个已知的属性值，创建一个分枝，并据此划分样本；

决策树算法使用同样的过程递归形成每个划分上的样本决策树，一旦一个属性出现在一个节点上，就不必考虑属性会出现在该节点的后代上。

当满足下述三种情况时，决策树的划分结束：

(1)当给定节点的所有的训练样本都属于同一类时停止，并用该类来标记此叶子；

(2)当没有剩余字段可以用来进一步划分训练样本时停止，并且用训练样本的多数的类来标记此叶子；

(3)当分枝没有训练样本时停止，并且用训练样本中的多数的类来标记此叶子。

为了提高决策树算法的效率，决策树的节点选择很重要，在本发明实施例中采用比较信息增益度的方式来选择各个节点，把每一个属性的信息增益度计算出来，按从小到大的顺序构建决策树，最大的作为根节点，依次类推。

下面列举一例说明本算法的实现过程。

首先准备好数据仓库中的数据，格式如下：

性别

年龄

工作性质

影片类型

属性4

属性5

...

属性n

预测结果

男

中年

白领

恐怖

...

爱看

上述的数据是待挖掘的信息源数据按实际需求经类型转换后得到的，转换成有利于数据挖掘的数据类型，这里和前例相同，可以将具体的年龄数据按照预定规则分成“青年”、“中年”和“老年”三类。因为用户记录数据中可能不止如上表所示的几种属性字段，譬如还可以包括“视频播放时间点”、“视频播放时长”等等，这些必要的属性字段在此用n省略表示。而预测结果这个属性，是进行挖掘的样本数据中才会有的属性值，它主要是关注某条数据中的分类，用户是否喜欢看此类影片，亦即我们的预测内容。

接着计算出各个字段属性的信息增益度并据此确定决策树的节点位置。以年龄字段属性为例，首先计算出“年龄”这个属性的数学期望值：

I(S中年，S青年，S老年)＝-(log₂(P中年)+log₂(P青年)+log₂(P老年))

“P中年”表示样本中“年龄”属性为“中年”出现的概率；

“P青年”表示样本中“年龄”属性为“青年”出现的概率；

“P老年”表示样本中“年龄”属性为“老年”出现的概率；

因为“年龄”属性具有三个不同的值，因此可以用“年龄”属性把样本划分为3个子集；其中“S中年”表示年龄为“中年”的在整个样本中的个数；当然在“S中年”这个子集当中，也有其他的一些属性，比如包括“性别”属性：“S男”，“S女”等。根据划分出来的三个子集计算出它们的熵：

E(A)＝{(S11+S21+....Sm1)*I(S11，S21，....Sm1)/S}+{(S12+S22+....Sm2)*I(S12，S22，....Sm2)/S}+{(S13+S23+....Sm3)*I(S13，S23，....Sm3)/S}

其中Sx1(x＝1，2...m)中的“1”表示属性为“中年”，“x”表示“年龄”以外的其它属性，比如“性别”为“男”，因此Sx1表示在年龄属性值为“中年”的样本集中，具有其它某个属性值的样本的个数，因为还可能有很多其它的属性，因此这里采用m个来表示；同理Sx2(x＝1，2...m)表示在年龄属性值为“青年”的样本集中，具有其它某个属性值的样本的个数，Sx3(x＝1，2...m)表示在年龄属性值为“老年”的样本集中，具有其它某个属性值的样本的个数。

最后得到属性为“年龄”的信息增益度为：

Δ年龄＝I(S中年，S青年，S老年)-E(A)

因为这里仅以属性字段为“年龄”为例，因此若是其它属性的属性值有y个状态，即可以划分为y个子集，那么对于任何一个属性其熵的标准式为：

E(A)＝{(S11+S21+....Sm1)*I(S11，S21，....Sm1)/S}+{(S12+S22+....Sm2)*I(S12，S22，....Sm2)/S}+....+{(S1y+S2y+....Smy)*I(S1y，S2y，....Smy)/S}

同理可以计算得出其它属性对应的信息增益度，再将所有信息增益度按从大到小排序，最大的作为根节点，依次类推，最终得到最优决策树。

为了便于理解，参照图2，给出了决策树的结构示例。

在图示中根据信息增益度的大小给出了各个属性节点的位置，这里显然“性别”属性＞“年龄”属性＞“影片类型”属性，当然还有其它属性图示未列出来。

首先将所有样本数据按照性别分类，分成“男”、“女”两个子集，在“男”子集中又按照年龄分成“老年”、“青年”和“中年”三个子集，图示中“老年”和“青年”子集中的样本已经无法分类，成为了决策树中的叶子节点，而“中年”子集又按照影片类型分为多个子集，包括“恐怖”、“言情”等等，在“恐怖”子集和“言情”子集经过一系列的其它属性分类，最终可以得到到底是“喜欢”还是“不喜欢”的预测结果。

在本实施例中，每一个预测结果可以用一个ID来表示，这个ID同时也表示了相应的数据挖掘模型，通过ID标识预测结果，便于后期对其进行处理。

在步骤S5中，通过新的用户使用数据验证所述挖掘结果的正确率，保存其中高正确率的挖掘结果和产生这些挖掘结果的数据挖掘模型，再根据所述产生的数据挖掘模型和采用的挖掘算法得到新的挖掘结果，如此循环得到最好的挖掘结果和挖掘模型。

在本发明实施例中，得到数据挖掘结果(即预测结果)后，为了进一步修正挖掘结果和数据挖掘模型，可以通过用户使用服务所产生的新的使用数据来验证所述的挖掘结果，保存其中正确率较高的挖掘结果到知识库中，同时保存相应的数据挖掘模型。随后对新的数据挖掘模型和所述的挖掘算法再次得到挖掘结果，这样经过几次循环就可以得到最好的挖掘结果和挖掘模型。

在步骤S6中，将所述得到的最好的挖掘结果发送到服务提供商和/或用户。

在本发明实施例中，挖掘结果发送给服务提供商后，服务商可以知道不同用户群体的不同使用喜好，据此服务提供商可以做出更好的商业决策。将挖掘结果发送给用户(例如可以通过短信方式)后可以帮助用户更好的、更加人性化的使用服务。

在步骤S7中，将所述得到的最好的挖掘结果发送给用户，网络服务器接收用户发出的交互信息并保存到存储用户基本信息的数据库中。

在本发明实施例中，用户收到挖掘结果后可以与服务提供商进行信息交互，将交互信息发送到数据库中来完善用户的基本信息，将这些信息数据作为挖掘的数据源，这样可以进一步修正挖掘结果提高挖掘的准确率。

图3示出了网络服务器端的海量数据的处理装置的结构，所述装置包括：

数据仓库构建单元10，用于将网络服务器存储的用户使用服务所产生的数据和用户的基本信息数据进行整理，建立相应的数据仓库，具体如上述步骤S1和S2所述内容，在此不再赘述。

挖掘模型确定单元20，用于根据预确定的挖掘目标建立相应的数据挖掘模型，具体如上述步骤S3所述内容，在此不再赘述。

挖掘结果生成单元30，用于对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果，具体如上述步骤S4所述内容，在此不再赘述。

进一步作为优选的实施例，本装置还包括：

结果模型验证单元40，通过新的用户使用数据验证所述挖掘结果的正确率，保存其中高正确率的挖掘结果和产生这些挖掘结果的数据挖掘模型，再根据所述产生的数据挖掘模型和采用的挖掘算法得到新的挖掘结果，如此循环得到最好的挖掘结果和挖掘模型，具体如上述步骤S5所述内容，在此不再赘述。

进一步作为优选的实施例，本装置还包括：

挖掘结果发送单元50，用于将所述得到的最好的挖掘结果发送到服务提供商和/或用户，具体如上述步骤S6和S7所述内容，在此不再赘述。

在本发明实施例中，通过网络服务器上的用户记录数据建立数据仓库，确定好数据挖掘目标和数据挖掘模型后，采用数据挖掘算法得到相应的数据挖掘预测结果，在通过后续挖掘结果的反复验证，得到最好的挖掘结果，服务提供商得到这些挖掘结果后能够做出更好的商业决策，也为用户带来了更好的服务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络服务器端海量数据的处理方法，其特征在于，所述方法包括下述步骤：

根据预确定的挖掘目标建立相应的数据挖掘模型；

对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据以得到挖掘结果。

2.如权利要求1所述的一种网络服务器端海量数据的处理方法，其特征在于，在所述对建立的数据挖掘模型采用数据挖掘算法分析数据仓库数据得到挖掘结果步骤之后还包括下述步骤：

3.如权利要求2所述的一种网络服务器端海量数据的处理方法，其特征在于，在得到最好的挖掘结果和挖掘模型后，本方法还包括下述步骤：

将所述得到的最好的挖掘结果发送到服务提供商和/或用户。

4.如权利要求2所述的一种网络服务器端海量数据的处理方法，其特征在于，在得到最好的挖掘结果和挖掘模型后，本方法还包括下述步骤：

将所述得到的最好的挖掘结果发送给用户，网络服务器接收用户发出的交互信息并保存到存储用户基本信息的数据库中。

5.如权利要求1至4所述的任一种网络服务器端海量数据的处理方法，其特征在于，在网络服务器将存储的用户的基本信息数据和用户使用服务所产生的数据进行整理，建立相应的数据仓库步骤之前还包括下述步骤：

网络服务器接收用户注册服务时保存的用户基本信息数据和用户使用该服务时所产生的使用数据。

6.如权利要求1至4所述的任一种网络服务器端海量数据的处理方法，其特征在于，所述的数据挖掘算法是决策树算法。

7.如权利要求6所述的一种网络服务器端海量数据的处理方法，其特征在于，所述决策树算法所采用的决策树是通过比较信息增益度的方式构建的。

8.一种网络服务器端海量数据的处理装置，其特征在于，所述的装置包括：

挖掘模型确定单元，用于根据预确定的挖掘目标建立相应的数据挖掘模型；

9.如权利要求8所述的一种网络服务器端海量数据的处理装置，其特征在于，本装置还包括：

10.如权利所述的一种网络服务器端海量数据的处理装置，其特征在于，本装置还包括：

挖掘结果发送单元，用于将所述得到的最好的挖掘结果发送到服务提供商和/或用户。