CN107423339A

CN107423339A - 基于极端梯度推进和随机森林的热门微博预测方法

Info

Publication number: CN107423339A
Application number: CN201710298018.8A
Authority: CN
Inventors: 王建荣; 娄超; 于健; 于瑞国; 高洁; 邸海波
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-04-29
Filing date: 2017-04-29
Publication date: 2017-12-01

Abstract

本发明属于数据挖掘、自然语言处理和信息检索领域，针对用户特征以及微博文本主题特征，提出基于极端梯度推进的特征离散化算法并结合新提出的基于约束的随机森林分类算法实现对热门微博的预测。本发明，基于极端梯度推进和随机森林的热门微博预测方法，包含以下步骤：步骤一：数据清洗；步骤二：文本分词；步骤三：文本主题特征提取；步骤四：微博用户特征提取；步骤五：采用极端梯度推进进行特征离散化；步骤六：进行相应的改进实现对微博档位的分类及热门微博的预测。本发明主要应用于数据挖掘、自然语言处理和信息检索。

Description

基于极端梯度推进和随机森林的热门微博预测方法

技术领域

本发明属于数据挖掘、自然语言处理和信息检索领域，涉及文本的主题特征提取技术、连续特征离散化处理技术和随机森林分类预测技术，尤其是热门微博预测研究。具体讲,涉及基于XGBOOST和随机森林的热门微博预测方法。

背景技术

目前在相关技术中主要有以下两类：一类是特征离散化，通过使用最少的***断点把特征空间分割成若干个子空间，而且在这一过程中要保证特征空间不能被过分的细化。实现这一目的的核心是，以不改变模型的判断关系前提，通过使用比较少的结果***点对模型数据实施离散化操作。但是，如何进行特征完美离散化问题是一个可以在多项式时间内验证的问题(NP问题)，研究能进行较高效率划分的算法有十分重要的意义，目前已经有许多通借助其他方法的实现离散化，基于独立卡方检验的离散化方法使用范围比较广泛，该方法先将已知数据划分到其特征值所在一个范围中，然后通过卡方检验判断哪些邻近范围需要整合，整合终止条件是通过卡方检验的阈值α进行控制。通常，卡方离散化有以下不足：α的不同造成分段的数目不一致；最原始分段数量多造成计算性能较差。

另一类随机森林是集成学***衡分类器的隐患，一定情况下，不能很好的进行分类预测。

发明内容

为克服现有技术的不足，本发明旨在针对用户特征以及微博文本主题特征，提出基于极端梯度推进(eXtreme Gradient Boosting，XGBOOST)的特征离散化算法(XGBOOSTFeature Discretization Algorithm，X-FDA)并结合新提出的基于约束的随机森林分类算法(Constraint Random Forest，CRF)实现对热门微博的预测。本发明采用的技术方案是，基于极端梯度推进和随机森林的热门微博预测方法，包含以下步骤：

步骤一：数据清洗：数据主要是通过爬虫程序针对特定主题、模块的数据源中的信息进行获取和整理，数据源主要有各种不同主题的论坛、各领域明星或名人的微博，通过爬虫得到的数据往往掺杂着很多噪声数据，通过微博数据集中微博发布的数量、微博的内容关键字进行数据清洗；

步骤二：文本分词：通过文本分词，得到句子的结构成分，具体地，通过预处理过程将包括微博内容中的乱码、标点、符号的非文本内容进行过滤，还要使用停止词进行分词；

步骤三：文本主题特征提取：微博文本分词后生成多个词，通过使用生成式概率主题模型LDA(Latent Dirichlet Allocation)提取文本主题特征，把一条文本表示成一个数值化的主题概率向量。

步骤四：微博用户特征提取：提取出微博用户属性可以表达微博数据；

步骤五：采用极端梯度推进XGBOOST(eXtreme Gradient Boosting)进行特征离散化，采用XGBOOST算法进行特征的离散化，记录经过路径和底层分类叶子结点的向量表示；

步骤六：使用随机森林算法作为基础算法，并进行相应的改进实现对微博档位的分类及热门微博的预测。

验证步骤：分类预测采用基础的决策树分类算法进行分类预测来评估算法的效果和性能，采用不同规模的数据进行实验验证，数据进行文本主题特征选择，评价主题数对LDA主题模型影响的标准采用一种信息理论的测量方法Perplexity，其基本思想是，对于一个文本，模型对文本归属某个主题的不确定性，在评价离散化算法的性能方面，使用准确率(Precision)指标作为实验评价标准；

准确率的计算方法如公式(1)

在公式(1)中，η_j表示分类后类别j包含的文本数，η_i,j表示分类后类别j中属于真实类别i的文本数；

在做基于约束的随机森林算法CRF和原始的随机森林算法RF(Random Forest)在微博数据集上进行的对比实验时，整体正确率(OPA)的计算方法如公式(2)所示：

热门微博预测精度的计算方法如公式(3)所示：

上面公式中的k是整体预测对的数量，x_i是算对的数量，取值0或者1，N是所有的测试集的数量，m是预测对的热门微博的数量，M是测试集中真实数量。

一个实例中的具体步骤是：

步骤S0101：数据清洗过程；

步骤S0201：文本分词；

步骤S0301：提取文本主题特征，采用LDA算法进行文本主题特征建模，将每一条微博看成是一个文本，在数据预处理阶段，筛除停用词和高频词；

步骤S0401：提取微博用户特征；

步骤S0501：基于XGBOOST的特征离散化；

步骤S0601：按照分类条件构造决策树，信息增益g(D|A)如公式(4)所示，其中D是XGBOOST离散化后的数据集，表示第j个分区的权重，m和n分别是数据集D和特征A划分的数量，P(d_i)和P(d_j)分别是其中一种取值的概率：

最大信息增益率g_r(D|A)是按照某一特征进行划分后信息增益与训练集关于这个特征的信息熵的比值，然后求最大，如公式(5)所示：

当构造回归树的时候，通常按照最小损失函数进行***属性的选择。最小平方损失拟合出一个最优函数曲线使得左右点到函数曲线的距离的总和最小，如公式(6)所示，其中X是变量，Y是预测值，f(X)是真实值，n是记录数量：

求解目标函数就是要使似然函数的负值最小，站在损失函数的角度看，就会变成log损失函数，如公式(7)所示，其中X是变量，Y是预测值，f(X)是真实值

L(Y,P(Y|X))＝-log(P(Y|X)) (7)。

本发明的特点及有益效果是：

本发明采用基于XGBOOST和随机森林技术，其结果通过实验对比可以看出在微博数据集上，本发明提出的基于约束的随机森林分类算法(CRF)在准确率方面整体比传统的随机森林算法好。

附图说明：

图1为整体示意图。

图2为CRF和RF在微博数据集的准确率对比。

具体实施方式

为实现上述目的，本发明提出一种基于XGBOOST和随机森林的热门微博预测研究，包含以下步骤：

步骤一：数据清洗。数据主要是通过爬虫程序针对特定主题、模块的数据源中的信息进行获取和整理，数据源主要有各种不同主题的论坛、各领域明星或名人的微博等。通过爬虫得到的数据往往掺杂着很多噪声数据，通过微博数据集中微博发布的数量、微博的内容关键字可以进行数据清洗。经过清洗后的数据更符合以后的模型的应用。

步骤二：文本分词。通过文本分词，可以得到句子的结构成分。通常，分词之前要对文本实行预处理操作，预处理过程将微博内容中的乱码、标点、符号等非文本内容进行过滤的过程，比如微博中的提到标记@、转发标记//、话题标记等进行过滤，此外还要使用停止词进行分词。通过去除数据中的无用信息，可以大幅度提升分词性能。

步骤三：文本主题特征提取。微博文本分词后生成多个词，通过使用LDA主题模型提取文本主题特征，把一条文本表示成一个数值化的主题概率向量。

步骤四：微博用户特征提取。微博本身包含的非文本信息也体现着微博的信息。提取出微博用户属性可以表达微博数据，比如，用户发布微博的时间、一段时间内发布总量、单条发布时间等。

步骤五：采用XGBOOST进行特征离散化。采用XGBOOST算法进行特征的离散化，主要方法是记录经过路径和底层分类叶子结点的向量表示。

分类预测采用基础的决策树分类算法进行分类预测来评估算法的效果和性能。采用不同规模的数据进行实验验证，数据进行文本主题特征选择，评价主题数对LDA模型影响的标准有很多种方式，这里采用Perplexity，其基本思想是，对于一个文本，模型对文本归属某个主题的不确定性。在评价离散化算法的性能方面，本发明使用准确率(Precision)指标作为实验评价标准。

准确率的计算方法如公式(1)。

在公式(1)η_i表示真实类别i包含的文本数，η_j表示分类后类别j包含的文本数，η_i,j表示分类后类别j中属于真实类别i的文本数。

在做基于约束的随机森林算法(Constraint Random Forest，CRF)和原始的随机森林算法(Random Forest，RF)在微博数据集上进行对比实验时，整体正确率(OPA)的计算方法如公式(2)所示。

热门微博预测精度的计算方法如公式(3)所示。

使用传统的随机森林算法和CRF算法微博数据集的整体准确率和热门微博预测精度的变化情况，实验通过调节森林中树的数量来观察变化。在实验过程中，使用新方法构造决策树在森林中所占的比例是按照前面的实验的最优比例进行的。整体的准确率的实验对比结果如图2所示。

通过上述实验对比结果可以看出在微博数据集上，本发明提出的基于约束的随机森林分类算法(CRF)在准确率方面整体比传统的随机森林算法好。

下面是一个本发明的实例。

本发明提供了一种基于XGBOOST和随机森林的热门微博预测研究，包括：

步骤S0101：数据清洗过程。

步骤S0201：文本分词。

步骤S0301：提取文本主题特征，采用LDA算法进行文本主题特征建模，将每一条微博看成是一个文本，在数据预处理阶段，筛除停用词和高频词。

步骤S0401：提取微博用户特征。

步骤S0501：基于XGBOOST的特征离散化。

步骤S0601：按照分类条件构造决策树，信息增益g(D|A)如公式(4)所示，其中D是XGBOOST离散化后的数据集，表示第j个分区的权重，m和n分别是数据集D和特征A划分的数量，P(d_i)和P(d_j)分别是其中一种取值的概率。

最大信息增益率是按照某一特征进行划分后信息增益与训练集关于这个特征的信息熵的比值，然后求最大，如公式(5)所示。

当构造回归树的时候，通常按照最小损失函数进行***属性的选择。最小平方损失拟合出一个最优函数曲线使得左右点到函数曲线的距离的总和最小，如公式(6)所示，其中X是变量，Y是预测值，f(X)是真实值，n是记录数量。

求解目标函数就是要使似然函数的负值最小。站在损失函数的角度看，就会变成log损失函数。如公式(7)所示，其中X是变量，Y是预测值，f(X)是真实值。

L(Y,P(Y|X))＝log(P(Y|X)) (7)

本发明针对热门微博的预测，将微博文本主题特征和用户特征相结合，使用本发明提出的X-FDA算法进行特征的离散化，提高模型的分类准确率，同时针对随机森林分类算法存在的不平衡分类问题提出基于约束的随机森林分类算法(CRF)，然后使用X-FDA算法和CRF算法进行热门微博的预测。针对特征的离散化，本发明先对微博主题特征和用户特征相结合，经过标准化处理之后，使用XGBOOST算法实现特征的离散化。基于XGBOOST的离散化算法(X-FDA)主要思想是根据已训练模型进行预测，记录***结点的预测路径从而实现特征离散化，通过实验验证了基于XGBOOST的特征离散化算法在预测准确率方面有较好的效果。

Claims

1.一种基于极端梯度推进和随机森林的热门微博预测方法，其特征是，包含以下步骤：

步骤三：文本主题特征提取：微博文本分词后生成多个词，通过使用生成式概率主题模型LDA(Latent Dirichlet Allocation)提取文本主题特征，把一条文本表示成一个数值化的主题概率向量；

2.如权利要求1所述的基于极端梯度推进和随机森林的热门微博预测方法，其特征是，验证步骤：分类预测采用基础的决策树分类算法进行分类预测来评估算法的效果和性能，采用不同规模的数据进行实验验证，数据进行文本主题特征选择，评价主题数对LDA主题模型影响的标准采用一种信息理论的测量方法Perplexity，其基本思想是，对于一个文本，模型对文本归属某个主题的不确定性，在评价离散化算法的性能方面，使用准确率(Precision)指标作为实验评价标准；准确率的计算方法如公式(1)：

<mrow> <mi>O</mi> <mi>P</mi> <mi>A</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mi>N</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

热门微博预测精度的计算方法如公式(3)所示：

<mrow> <mi>H</mi> <mi>B</mi> <mi>P</mi> <mi>A</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mi>M</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

3.如权利要求1所述的基于极端梯度推进和随机森林的热门微博预测方法，其特征是，一个实例中的具体步骤是：

步骤S0101：数据清洗过程；

步骤S0201：文本分词；

步骤S0401：提取微博用户特征；

步骤S0501：基于XGBOOST的特征离散化；

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> </mfrac> <mo>&times;</mo> <mrow> <mo>(</mo> <mo>-</mo> <mi>P</mi> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> <mo>&times;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>g</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mfrac> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> </mfrac> <mo>&times;</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

当构造回归树的时候，通常按照最小损失函数进行***属性的选择，最小平方损失拟合出一个最优函数曲线使得左右点到函数曲线的距离的总和最小，如公式(6)所示，其中X是变量，Y是预测值，f(X)是真实值，n是记录数量：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>,</mo> <mi>f</mi> <mo>(</mo> <mi>X</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <mi>Y</mi> <mo>-</mo> <mi>f</mi> <mo>(</mo> <mi>X</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

L(Y,P(Y|X))＝log(P(Y|X)) (7)。