CN107423339A - 基于极端梯度推进和随机森林的热门微博预测方法 - Google Patents
基于极端梯度推进和随机森林的热门微博预测方法 Download PDFInfo
- Publication number
- CN107423339A CN107423339A CN201710298018.8A CN201710298018A CN107423339A CN 107423339 A CN107423339 A CN 107423339A CN 201710298018 A CN201710298018 A CN 201710298018A CN 107423339 A CN107423339 A CN 107423339A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- microblogging
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000000205 computational method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 241000270322 Lepidosauria Species 0.000 claims description 2
- 239000012141 concentrate Substances 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000013480 data collection Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000546 chi-square test Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据挖掘、自然语言处理和信息检索领域,针对用户特征以及微博文本主题特征,提出基于极端梯度推进的特征离散化算法并结合新提出的基于约束的随机森林分类算法实现对热门微博的预测。本发明,基于极端梯度推进和随机森林的热门微博预测方法,包含以下步骤:步骤一:数据清洗;步骤二:文本分词;步骤三:文本主题特征提取;步骤四:微博用户特征提取;步骤五:采用极端梯度推进进行特征离散化;步骤六:进行相应的改进实现对微博档位的分类及热门微博的预测。本发明主要应用于数据挖掘、自然语言处理和信息检索。
Description
技术领域
本发明属于数据挖掘、自然语言处理和信息检索领域,涉及文本的主题特征提取技术、连续特征离散化处理技术和随机森林分类预测技术,尤其是热门微博预测研究。具体讲,涉及基于XGBOOST和随机森林的热门微博预测方法。
背景技术
目前在相关技术中主要有以下两类:一类是特征离散化,通过使用最少的***断点把特征空间分割成若干个子空间,而且在这一过程中要保证特征空间不能被过分的细化。实现这一目的的核心是,以不改变模型的判断关系前提,通过使用比较少的结果***点对模型数据实施离散化操作。但是,如何进行特征完美离散化问题是一个可以在多项式时间内验证的问题(NP问题),研究能进行较高效率划分的算法有十分重要的意义,目前已经有许多通借助其他方法的实现离散化,基于独立卡方检验的离散化方法使用范围比较广泛,该方法先将已知数据划分到其特征值所在一个范围中,然后通过卡方检验判断哪些邻近范围需要整合,整合终止条件是通过卡方检验的阈值α进行控制。通常,卡方离散化有以下不足:α的不同造成分段的数目不一致;最原始分段数量多造成计算性能较差。
另一类随机森林是集成学***衡分类器的隐患,一定情况下,不能很好的进行分类预测。
发明内容
为克服现有技术的不足,本发明旨在针对用户特征以及微博文本主题特征,提出基于极端梯度推进(eXtreme Gradient Boosting,XGBOOST)的特征离散化算法(XGBOOSTFeature Discretization Algorithm,X-FDA)并结合新提出的基于约束的随机森林分类算法(Constraint Random Forest,CRF)实现对热门微博的预测。本发明采用的技术方案是,基于极端梯度推进和随机森林的热门微博预测方法,包含以下步骤:
步骤一:数据清洗:数据主要是通过爬虫程序针对特定主题、模块的数据源中的信息进行获取和整理,数据源主要有各种不同主题的论坛、各领域明星或名人的微博,通过爬虫得到的数据往往掺杂着很多噪声数据,通过微博数据集中微博发布的数量、微博的内容关键字进行数据清洗;
步骤二:文本分词:通过文本分词,得到句子的结构成分,具体地,通过预处理过程将包括微博内容中的乱码、标点、符号的非文本内容进行过滤,还要使用停止词进行分词;
步骤三:文本主题特征提取:微博文本分词后生成多个词,通过使用生成式概率主题模型LDA(Latent Dirichlet Allocation)提取文本主题特征,把一条文本表示成一个数值化的主题概率向量。
步骤四:微博用户特征提取:提取出微博用户属性可以表达微博数据;
步骤五:采用极端梯度推进XGBOOST(eXtreme Gradient Boosting)进行特征离散化,采用XGBOOST算法进行特征的离散化,记录经过路径和底层分类叶子结点的向量表示;
步骤六:使用随机森林算法作为基础算法,并进行相应的改进实现对微博档位的分类及热门微博的预测。
验证步骤:分类预测采用基础的决策树分类算法进行分类预测来评估算法的效果和性能,采用不同规模的数据进行实验验证,数据进行文本主题特征选择,评价主题数对LDA主题模型影响的标准采用一种信息理论的测量方法Perplexity,其基本思想是,对于一个文本,模型对文本归属某个主题的不确定性,在评价离散化算法的性能方面,使用准确率(Precision)指标作为实验评价标准;
准确率的计算方法如公式(1)
在公式(1)中,ηj表示分类后类别j包含的文本数,ηi,j表示分类后类别j中属于真实类别i的文本数;
在做基于约束的随机森林算法CRF和原始的随机森林算法RF(Random Forest)在微博数据集上进行的对比实验时,整体正确率(OPA)的计算方法如公式(2)所示:
热门微博预测精度的计算方法如公式(3)所示:
上面公式中的k是整体预测对的数量,xi是算对的数量,取值0或者1,N是所有的测试集的数量,m是预测对的热门微博的数量,M是测试集中真实数量。
一个实例中的具体步骤是:
步骤S0101:数据清洗过程;
步骤S0201:文本分词;
步骤S0301:提取文本主题特征,采用LDA算法进行文本主题特征建模,将每一条微博看成是一个文本,在数据预处理阶段,筛除停用词和高频词;
步骤S0401:提取微博用户特征;
步骤S0501:基于XGBOOST的特征离散化;
步骤S0601:按照分类条件构造决策树,信息增益g(D|A)如公式(4)所示,其中D是XGBOOST离散化后的数据集,表示第j个分区的权重,m和n分别是数据集D和特征A划分的数量,P(di)和P(dj)分别是其中一种取值的概率:
最大信息增益率gr(D|A)是按照某一特征进行划分后信息增益与训练集关于这个特征的信息熵的比值,然后求最大,如公式(5)所示:
当构造回归树的时候,通常按照最小损失函数进行***属性的选择。最小平方损失拟合出一个最优函数曲线使得左右点到函数曲线的距离的总和最小,如公式(6)所示,其中X是变量,Y是预测值,f(X)是真实值,n是记录数量:
求解目标函数就是要使似然函数的负值最小,站在损失函数的角度看,就会变成log损失函数,如公式(7)所示,其中X是变量,Y是预测值,f(X)是真实值
L(Y,P(Y|X))=-log(P(Y|X)) (7)。
本发明的特点及有益效果是:
本发明采用基于XGBOOST和随机森林技术,其结果通过实验对比可以看出在微博数据集上,本发明提出的基于约束的随机森林分类算法(CRF)在准确率方面整体比传统的随机森林算法好。
附图说明:
图1为整体示意图。
图2为CRF和RF在微博数据集的准确率对比。
具体实施方式
为实现上述目的,本发明提出一种基于XGBOOST和随机森林的热门微博预测研究,包含以下步骤:
步骤一:数据清洗。数据主要是通过爬虫程序针对特定主题、模块的数据源中的信息进行获取和整理,数据源主要有各种不同主题的论坛、各领域明星或名人的微博等。通过爬虫得到的数据往往掺杂着很多噪声数据,通过微博数据集中微博发布的数量、微博的内容关键字可以进行数据清洗。经过清洗后的数据更符合以后的模型的应用。
步骤二:文本分词。通过文本分词,可以得到句子的结构成分。通常,分词之前要对文本实行预处理操作,预处理过程将微博内容中的乱码、标点、符号等非文本内容进行过滤的过程,比如微博中的提到标记@、转发标记//、话题标记等进行过滤,此外还要使用停止词进行分词。通过去除数据中的无用信息,可以大幅度提升分词性能。
步骤三:文本主题特征提取。微博文本分词后生成多个词,通过使用LDA主题模型提取文本主题特征,把一条文本表示成一个数值化的主题概率向量。
步骤四:微博用户特征提取。微博本身包含的非文本信息也体现着微博的信息。提取出微博用户属性可以表达微博数据,比如,用户发布微博的时间、一段时间内发布总量、单条发布时间等。
步骤五:采用XGBOOST进行特征离散化。采用XGBOOST算法进行特征的离散化,主要方法是记录经过路径和底层分类叶子结点的向量表示。
步骤六:使用随机森林算法作为基础算法,并进行相应的改进实现对微博档位的分类及热门微博的预测。
分类预测采用基础的决策树分类算法进行分类预测来评估算法的效果和性能。采用不同规模的数据进行实验验证,数据进行文本主题特征选择,评价主题数对LDA模型影响的标准有很多种方式,这里采用Perplexity,其基本思想是,对于一个文本,模型对文本归属某个主题的不确定性。在评价离散化算法的性能方面,本发明使用准确率(Precision)指标作为实验评价标准。
准确率的计算方法如公式(1)。
在公式(1)ηi表示真实类别i包含的文本数,ηj表示分类后类别j包含的文本数,ηi,j表示分类后类别j中属于真实类别i的文本数。
在做基于约束的随机森林算法(Constraint Random Forest,CRF)和原始的随机森林算法(Random Forest,RF)在微博数据集上进行对比实验时,整体正确率(OPA)的计算方法如公式(2)所示。
热门微博预测精度的计算方法如公式(3)所示。
上面公式中的k是整体预测对的数量,xi是算对的数量,取值0或者1,N是所有的测试集的数量,m是预测对的热门微博的数量,M是测试集中真实数量。
使用传统的随机森林算法和CRF算法微博数据集的整体准确率和热门微博预测精度的变化情况,实验通过调节森林中树的数量来观察变化。在实验过程中,使用新方法构造决策树在森林中所占的比例是按照前面的实验的最优比例进行的。整体的准确率的实验对比结果如图2所示。
通过上述实验对比结果可以看出在微博数据集上,本发明提出的基于约束的随机森林分类算法(CRF)在准确率方面整体比传统的随机森林算法好。
下面是一个本发明的实例。
本发明提供了一种基于XGBOOST和随机森林的热门微博预测研究,包括:
步骤S0101:数据清洗过程。
步骤S0201:文本分词。
步骤S0301:提取文本主题特征,采用LDA算法进行文本主题特征建模,将每一条微博看成是一个文本,在数据预处理阶段,筛除停用词和高频词。
步骤S0401:提取微博用户特征。
步骤S0501:基于XGBOOST的特征离散化。
步骤S0601:按照分类条件构造决策树,信息增益g(D|A)如公式(4)所示,其中D是XGBOOST离散化后的数据集,表示第j个分区的权重,m和n分别是数据集D和特征A划分的数量,P(di)和P(dj)分别是其中一种取值的概率。
最大信息增益率是按照某一特征进行划分后信息增益与训练集关于这个特征的信息熵的比值,然后求最大,如公式(5)所示。
当构造回归树的时候,通常按照最小损失函数进行***属性的选择。最小平方损失拟合出一个最优函数曲线使得左右点到函数曲线的距离的总和最小,如公式(6)所示,其中X是变量,Y是预测值,f(X)是真实值,n是记录数量。
求解目标函数就是要使似然函数的负值最小。站在损失函数的角度看,就会变成log损失函数。如公式(7)所示,其中X是变量,Y是预测值,f(X)是真实值。
L(Y,P(Y|X))=log(P(Y|X)) (7)
本发明针对热门微博的预测,将微博文本主题特征和用户特征相结合,使用本发明提出的X-FDA算法进行特征的离散化,提高模型的分类准确率,同时针对随机森林分类算法存在的不平衡分类问题提出基于约束的随机森林分类算法(CRF),然后使用X-FDA算法和CRF算法进行热门微博的预测。针对特征的离散化,本发明先对微博主题特征和用户特征相结合,经过标准化处理之后,使用XGBOOST算法实现特征的离散化。基于XGBOOST的离散化算法(X-FDA)主要思想是根据已训练模型进行预测,记录***结点的预测路径从而实现特征离散化,通过实验验证了基于XGBOOST的特征离散化算法在预测准确率方面有较好的效果。
Claims (3)
1.一种基于极端梯度推进和随机森林的热门微博预测方法,其特征是,包含以下步骤:
步骤一:数据清洗:数据主要是通过爬虫程序针对特定主题、模块的数据源中的信息进行获取和整理,数据源主要有各种不同主题的论坛、各领域明星或名人的微博,通过爬虫得到的数据往往掺杂着很多噪声数据,通过微博数据集中微博发布的数量、微博的内容关键字进行数据清洗;
步骤二:文本分词:通过文本分词,得到句子的结构成分,具体地,通过预处理过程将包括微博内容中的乱码、标点、符号的非文本内容进行过滤,还要使用停止词进行分词;
步骤三:文本主题特征提取:微博文本分词后生成多个词,通过使用生成式概率主题模型LDA(Latent Dirichlet Allocation)提取文本主题特征,把一条文本表示成一个数值化的主题概率向量;
步骤四:微博用户特征提取:提取出微博用户属性可以表达微博数据;
步骤五:采用极端梯度推进XGBOOST(eXtreme Gradient Boosting)进行特征离散化,采用XGBOOST算法进行特征的离散化,记录经过路径和底层分类叶子结点的向量表示;
步骤六:使用随机森林算法作为基础算法,并进行相应的改进实现对微博档位的分类及热门微博的预测。
2.如权利要求1所述的基于极端梯度推进和随机森林的热门微博预测方法,其特征是,验证步骤:分类预测采用基础的决策树分类算法进行分类预测来评估算法的效果和性能,采用不同规模的数据进行实验验证,数据进行文本主题特征选择,评价主题数对LDA主题模型影响的标准采用一种信息理论的测量方法Perplexity,其基本思想是,对于一个文本,模型对文本归属某个主题的不确定性,在评价离散化算法的性能方面,使用准确率(Precision)指标作为实验评价标准;准确率的计算方法如公式(1):
<mrow>
<mi>Pr</mi>
<mi>e</mi>
<mi>c</mi>
<mi>i</mi>
<mi>s</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<msub>
<mi>&eta;</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>&eta;</mi>
<mi>j</mi>
</msub>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
在公式(1)中,ηj表示分类后类别j包含的文本数,ηi,j表示分类后类别j中属于真实类别i的文本数;
在做基于约束的随机森林算法CRF和原始的随机森林算法RF(Random Forest)在微博数据集上进行的对比实验时,整体正确率(OPA)的计算方法如公式(2)所示:
<mrow>
<mi>O</mi>
<mi>P</mi>
<mi>A</mi>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</mrow>
<mi>N</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
热门微博预测精度的计算方法如公式(3)所示:
<mrow>
<mi>H</mi>
<mi>B</mi>
<mi>P</mi>
<mi>A</mi>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</mrow>
<mi>M</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
上面公式中的k是整体预测对的数量,xi是算对的数量,取值0或者1,N是所有的测试集的数量,m是预测对的热门微博的数量,M是测试集中真实数量。
3.如权利要求1所述的基于极端梯度推进和随机森林的热门微博预测方法,其特征是,一个实例中的具体步骤是:
步骤S0101:数据清洗过程;
步骤S0201:文本分词;
步骤S0301:提取文本主题特征,采用LDA算法进行文本主题特征建模,将每一条微博看成是一个文本,在数据预处理阶段,筛除停用词和高频词;
步骤S0401:提取微博用户特征;
步骤S0501:基于XGBOOST的特征离散化;
步骤S0601:按照分类条件构造决策树,信息增益g(D|A)如公式(4)所示,其中D是XGBOOST离散化后的数据集,表示第j个分区的权重,m和n分别是数据集D和特征A划分的数量,P(di)和P(dj)分别是其中一种取值的概率:
<mrow>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>|</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>D</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>&times;</mo>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mi>P</mi>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>&times;</mo>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<mi>P</mi>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
最大信息增益率gr(D|A)是按照某一特征进行划分后信息增益与训练集关于这个特征的信息熵的比值,然后求最大,如公式(5)所示:
<mrow>
<msub>
<mi>g</mi>
<mi>r</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>|</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>D</mi>
<mo>|</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>-</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>D</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>&times;</mo>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>D</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mi>D</mi>
<mo>|</mo>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
当构造回归树的时候,通常按照最小损失函数进行***属性的选择,最小平方损失拟合出一个最优函数曲线使得左右点到函数曲线的距离的总和最小,如公式(6)所示,其中X是变量,Y是预测值,f(X)是真实值,n是记录数量:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>,</mo>
<mi>f</mi>
<mo>(</mo>
<mi>X</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>-</mo>
<mi>f</mi>
<mo>(</mo>
<mi>X</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
求解目标函数就是要使似然函数的负值最小,站在损失函数的角度看,就会变成log损失函数,如公式(7)所示,其中X是变量,Y是预测值,f(X)是真实值
L(Y,P(Y|X))=log(P(Y|X)) (7)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710298018.8A CN107423339A (zh) | 2017-04-29 | 2017-04-29 | 基于极端梯度推进和随机森林的热门微博预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710298018.8A CN107423339A (zh) | 2017-04-29 | 2017-04-29 | 基于极端梯度推进和随机森林的热门微博预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107423339A true CN107423339A (zh) | 2017-12-01 |
Family
ID=60425455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710298018.8A Pending CN107423339A (zh) | 2017-04-29 | 2017-04-29 | 基于极端梯度推进和随机森林的热门微博预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423339A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090201A (zh) * | 2017-12-20 | 2018-05-29 | 珠海市君天电子科技有限公司 | 一种文章内容分类的方法、装置及电子设备 |
CN108090046A (zh) * | 2017-12-29 | 2018-05-29 | 武汉大学 | 一种基于lda和随机森林的微博谣言识别方法 |
CN108199795A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种设备状态的监测方法和装置 |
CN108228978A (zh) * | 2017-12-15 | 2018-06-29 | 四川金网通电子科技有限公司 | 结合互补集合经验模态分解的Xgboost时间序列预测方法 |
CN108334895A (zh) * | 2017-12-29 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 目标数据的分类方法、装置、存储介质及电子装置 |
CN110334275A (zh) * | 2019-05-31 | 2019-10-15 | 北京中科闻歌科技股份有限公司 | 一种信息流行度预测方法、设备和存储介质 |
CN110378532A (zh) * | 2019-07-19 | 2019-10-25 | 中南大学 | 一种基于随机树的科研主题状态预测方法 |
WO2020029590A1 (zh) * | 2018-08-10 | 2020-02-13 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN111177084A (zh) * | 2019-12-20 | 2020-05-19 | 平安信托有限责任公司 | 一种文件分类方法、装置、计算机设备及存储介质 |
CN112181055A (zh) * | 2020-09-28 | 2021-01-05 | 广东小天才科技有限公司 | 室内外状态判断方法及可穿戴设备、计算机可读存储介质 |
CN113609843A (zh) * | 2021-10-12 | 2021-11-05 | 京华信息科技股份有限公司 | 一种基于梯度提升决策树的句词概率计算方法及*** |
CN113780618A (zh) * | 2021-06-22 | 2021-12-10 | 冶金自动化研究设计院 | 基于自然语言处理和随机森林的特钢生产锭型预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984953A (zh) * | 2014-04-23 | 2014-08-13 | 浙江工商大学 | 基于多特征融合与Boosting决策森林的街景图像的语义分割方法 |
CN104217088A (zh) * | 2013-05-30 | 2014-12-17 | 中国电信股份有限公司 | 运营商移动业务资源的优化方法与*** |
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN106408184A (zh) * | 2016-09-12 | 2017-02-15 | 中山大学 | 一种基于多源异构数据的用户信用评估模型 |
-
2017
- 2017-04-29 CN CN201710298018.8A patent/CN107423339A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217088A (zh) * | 2013-05-30 | 2014-12-17 | 中国电信股份有限公司 | 运营商移动业务资源的优化方法与*** |
CN103984953A (zh) * | 2014-04-23 | 2014-08-13 | 浙江工商大学 | 基于多特征融合与Boosting决策森林的街景图像的语义分割方法 |
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN106408184A (zh) * | 2016-09-12 | 2017-02-15 | 中山大学 | 一种基于多源异构数据的用户信用评估模型 |
Non-Patent Citations (2)
Title |
---|
马晓峰 等: "基于混合特征学习的微博转发预测方法", 《计算机应用与软件》 * |
龙怡霖 等: "基于遥感的随机森林农田水肥等级分级算法", 《计算机应用与软件》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228978A (zh) * | 2017-12-15 | 2018-06-29 | 四川金网通电子科技有限公司 | 结合互补集合经验模态分解的Xgboost时间序列预测方法 |
CN108228978B (zh) * | 2017-12-15 | 2021-09-21 | 四川金网通电子科技有限公司 | 结合互补集合经验模态分解的Xgboost时间序列预测方法 |
CN108090201A (zh) * | 2017-12-20 | 2018-05-29 | 珠海市君天电子科技有限公司 | 一种文章内容分类的方法、装置及电子设备 |
CN108334895A (zh) * | 2017-12-29 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 目标数据的分类方法、装置、存储介质及电子装置 |
CN108199795B (zh) * | 2017-12-29 | 2019-05-10 | 北京百分点信息科技有限公司 | 一种设备状态的监测方法和装置 |
CN108199795A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种设备状态的监测方法和装置 |
CN108090046B (zh) * | 2017-12-29 | 2021-05-04 | 武汉大学 | 一种基于lda和随机森林的微博谣言识别方法 |
CN108090046A (zh) * | 2017-12-29 | 2018-05-29 | 武汉大学 | 一种基于lda和随机森林的微博谣言识别方法 |
WO2020029590A1 (zh) * | 2018-08-10 | 2020-02-13 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN110334275A (zh) * | 2019-05-31 | 2019-10-15 | 北京中科闻歌科技股份有限公司 | 一种信息流行度预测方法、设备和存储介质 |
CN110378532B (zh) * | 2019-07-19 | 2021-12-14 | 中南大学 | 一种基于随机树的科研主题状态预测方法 |
CN110378532A (zh) * | 2019-07-19 | 2019-10-25 | 中南大学 | 一种基于随机树的科研主题状态预测方法 |
CN111177084A (zh) * | 2019-12-20 | 2020-05-19 | 平安信托有限责任公司 | 一种文件分类方法、装置、计算机设备及存储介质 |
CN112181055A (zh) * | 2020-09-28 | 2021-01-05 | 广东小天才科技有限公司 | 室内外状态判断方法及可穿戴设备、计算机可读存储介质 |
CN113780618A (zh) * | 2021-06-22 | 2021-12-10 | 冶金自动化研究设计院 | 基于自然语言处理和随机森林的特钢生产锭型预测方法 |
CN113780618B (zh) * | 2021-06-22 | 2024-06-21 | 冶金自动化研究设计院 | 基于自然语言处理和随机森林的特钢生产锭型预测方法 |
CN113609843A (zh) * | 2021-10-12 | 2021-11-05 | 京华信息科技股份有限公司 | 一种基于梯度提升决策树的句词概率计算方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423339A (zh) | 基于极端梯度推进和随机森林的热门微博预测方法 | |
CN107608956B (zh) | 一种基于cnn-grnn的读者情绪分布预测算法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN109446416B (zh) | 基于词向量模型的法条推荐方法 | |
CN106529503B (zh) | 一种集成卷积神经网络人脸情感识别方法 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN108491377A (zh) | 一种基于多维度信息融合的电商产品综合评分方法 | |
Maharjan et al. | A multi-task approach to predict likability of books | |
CN108763484A (zh) | 一种基于lda主题模型的法条推荐方法 | |
CN107291688A (zh) | 基于主题模型的裁判文书相似度分析方法 | |
Di Cocco et al. | How populist are parties? Measuring degrees of populism in party manifestos using supervised machine learning | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
CN104915448A (zh) | 一种基于层次卷积网络的实体与段落链接方法 | |
CN107301165A (zh) | 一种试题难度分析方法及*** | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和*** | |
CN104636325B (zh) | 一种基于极大似然估计确定文档相似度的方法 | |
CN105095183A (zh) | 文本情感倾向判断方法与*** | |
CN105740236A (zh) | 结合写作特征和序列特征的中文情感新词识别方法和*** | |
CN104679738A (zh) | 互联网热词挖掘方法及装置 | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171201 |
|
RJ01 | Rejection of invention patent application after publication |