CN104991891B

CN104991891B - 一种短文本特征提取方法

Info

Publication number: CN104991891B
Application number: CN201510449415.1A
Authority: CN
Inventors: 童云海; 叶少强; 关平胤; 李凡丁; 刘�文; 刘文一; 何晓宇
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2018-03-30
Anticipated expiration: 2035-07-28
Also published as: CN104991891A

Abstract

本发明公布一种短文本特征提取方法，基于知识库和句法分析方法对短文本进行特征提取，包括模型训练过程和特征提取过程；针对训练集数据进行训练；利用验证集数据进行验证，得到最高的准确率对应的权重组W和最高的准确率对应的训练模型M；特征提取过程针对测试集数据进行处理之后，将每一个类别赋予权重组W；通过ESA算法将短文本映射到概念空间，得到短文本的解释向量；通过LDA得到话题向量，作为短文本最终的特征向量，作为短文本的特征。本发明提供方法可解决短文本特征稀疏和短文本主题不明确的问题；降低短文本特征提取处理难度，提升短文本特征提取的结果，提高文本分类的准确度。

Description

一种短文本特征提取方法

技术领域

本发明涉及文本特征提取和文本分类方法，尤其涉及一种短文本特征提取方法。

背景技术

随着微博、社交网站和热线电话等应用的发展，越来越多的信息开始以短文本的形式呈现，并且呈***式增长。文本挖掘技术可以帮助人们快速有效的从海量数据中获取关键信息，而文本特征提取则是文本挖掘的关键步骤。

现有的文本特征提取方法大多采用基于Bag of Words(词袋)模型的方法，该方法用在长文本中通常能取得较好的效果，但是用在短文本中常常效果不佳。主要原因是，相较于长文本，短文本具有特征稀疏、主题不明确的特点。首先，由于短文本长度的限制，其特征词很少，用向量空间模型生成的特征向量将会是一个很稀疏的向量，增加了文本处理的难度。其次，在长文本中，跟主题相关的词通常会大量出现，可以由此来判断整片文章的主要内容；而在短文本中则不能根据词频来判断主要内容，比如短文本“咨询羽毛球主题的餐厅”中，“羽毛球”和“餐厅”的词频相同，但显然该文本的主题是“餐厅”，在文本分类时应被分到“餐饮”这一类而不是“运动”类别，由此可见，主题不明确的问题会影响到短文本的处理效果。由于短文本具有上述的特征稀疏和主题不明确的特点，现有基于Bag of Words模型的文本特征提取方法应用于短文本的特征提取，其处理的难度大，且难以解决短文本主题不明确的问题，从而使得特征提取的效果不佳，处理结果误差较大，精确度差。

发明内容

为了克服上述现有技术的不足，本发明提供一种短文本特征提取方法，该方法分别基于知识库和句法分析，通过基于百度百科的ESA(Explicit Semantic Analysis，显示语义分析)算法为文本引入语义信息，并通过LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)学习模型发掘语料库中的词共现信息，以解决短文本特征稀疏的问题；再利用依存句法分析方法将文本中的词划分成不同成分，根据不同成分的词，提取出能代表文本主题的词，调高这些词的权重，以解决短文本主题不明确的问题；从而降低短文本特征提取处理难度，提升短文本特征提取的结果，提高文本分类的准确度。

本发明提供的技术方案是：

一种短文本特征提取方法，该方法基于知识库和句法分析方法对短文本进行特征提取，通过计算各个话题的权值，以话题向量作为短文本最终的特征向量，以解决短文本特征稀疏和短文本主题不明确的问题；包括模型训练过程和特征提取过程。

可将短文本数据分为训练集数据、验证集数据和测试集数据。短文本特征提取方法具体包括以下步骤：

一，模型训练过程：针对训练集数据进行训练；利用验证集数据进行验证，得到最高的准确率对应的权重组W和最高的准确率对应的训练模型M；

针对训练集数据进行训练，对训练集中的每篇文档(短文本)，通过短文本特征提取方法得到该文档的话题向量；训练集中的每篇文档采用该文档的话题向量表示，作为该文档的短文本特征；利用验证集数据来获得能够使得分类准确率为最高的不同类别名词权重值的组合；具体是对验证集进行分词和赋予权重值，通过枚举权重值的方法进行分类并记下准确率，再找出分类准确率最高的那组权重值；之后用该权重值组合对测试集进行分类；

模型训练过程针对训练集数据和验证集数据，具体执行如下操作：

11)分别使用分词工具对短文本进行分词处理，得到短文本中包含词语的词性，同时还得到词与词之间的依存句法关系；

12)过滤掉短文本句子中的停用词，只保留短文本句子中的名词；

13)将短文本句子中的所有名词根据依存句法关系分为多个类别；

14)每一个类别分别赋予权重；权(重)值的约束条件是：每一个类别的权重值为不小于0且不大于1，所有类别的权重值的和为1；权重值的确定具体采用枚举的方法；

15)基于百度百科(http://baike.***.com/)构建ESA中文模型，得到每一个词到概念空间的倒排索引；通过ESA算法将短文本映射到概念空间，得到短文本的解释向量；

16)通过LDA模型得到话题向量；

权重值的确定是采用枚举的方法，具体过程如下：

A1)为了得到效果最优的权值组合，我们以设定步长遍历从权值组合{0.0,0.0,0.0,1.0}到权值组合{1.0,0.0,0.0,0.0}的所有满足约束条件的权值组合；本发明实施例中以0.05为步长；

A2)对于每一组权值组合，通过使用现有的SVM分类器LibSVM(http://www.csie.ntu.edu.tw/～cjlin/libsvm/)在训练集(训练集的每篇文档都是使用步骤16)所得到的话题向量表示的)上训练出一个分类模型；然后，使用和训练集一样的权重用训练出的分类模型对验证集进行分类，得到该分类的准确率；

A3)取每个类在验证集上分类准确率最高的权值组合作为它的最优权值组合(Optimal Weight Combination)，然后将所有类的最优权值组合取平均后得到平均权值组合(Average Weight Combination)，平均权值组合就是我们为各类名词最终确定好的权重；

17)选择获得最高的准确率对应的那组权重W和训练出的最高的分类准确率对应的分类模型M，作为模型训练过程的结果；

二，特征提取过程针对测试集数据，具体执行如下操作：

21)经过上述步骤1)～3)对测试集数据进行处理之后，将每一个类别赋予上述步骤17)获得的权重组W；

22)通过ESA算法将短文本映射到概念空间，得到短文本的解释向量；

23)通过LDA得到话题向量；以话题向量作为短文本最终的特征向量，作为短文本的特征。

此步骤利用训练好的LDA模型计算解释向量下各个话题的权值，以话题作为短文本最终的特征向量，作为短文本的特征。之后可将上述步骤5)获得的训练模型M对测试集数据进行分类，得到该次分类的准确率。

针对上述短文本特征提取方法，进一步地，

在本发明实施例中，使用的分词工具为哈工大LTP分词工具；步骤13)所述依存句法关系包括定中关系、动宾关系和核心关系；并根据这三种依存句法关系，将短文本中的名词划分成四种成分：ATT，VOB，HED，Others，分别与定中关系、动宾关系、核心关系和非上述三种关系的其他关系相对应。

步骤15)或22)中，给定一个短文本ST＝{wi}，求其解释向量V的过程具体包括如下操作：

31)将ST用向量{ti}表示，其中ti是wi的权值，可以取TF-IDF值；或者是其它类型的权值；

32)对ST中的每一个词wi，在倒排索引中找到wi的带权概念列表{kj}，其中kj代表了wi与概念cj的关联度，权值取TF-IDF值时即wi在cj的文章中的TF-IDF值；

33)ST的解释向量V＝{v1,v2,……,vn}，其中vj代表源文本在概念cj上的权重，

步骤16)或23)中，具体利用Gibbs抽样的方法在概念空间上通过LDA模型，得到话题向量；本发明利用LDA模型发掘语料库中的词共现信息，并达到降维的目的。LDA是一种生成模型，它生成一个涉及K个话题，M篇文章的文档集，本发明采用Gibbs抽样的方法训练LDA模型的过程如下：

首先为每个话题从一个参数为的Dirichlet分布(狄利克雷分布)中抽样出一个多项分布作为该话题下词的分布(可见，是每个话题下词的多项分布的Dirichlet先验参数)；

然后，对于每篇文档，先从一个Poiss(泊松)分布中采样出一个值作为文档长度，再从一个参数为的Dirichlet分布中抽样出一个多项分布作为该文档下话题的分布(可见，是每个文档下话题的多项分布的Dirichlet先验参数)；

最后，对于文档中的每个词，先从该文档下话题的多项分布中抽取出一个话题，再从该话题下词的多项分布中抽样出一个词；

不断重复这个随机生成过程，直到生成文档集中全部的文档。

LDA生成模型具体的生成过程包括如下步骤：

61)对每个话题k，采样得到它的词分布

62)对每个文档m：

621)采样得到它的长度N_m～Poiss(ξ)

622)采样得到它的话题分布

623)对m中的每个词n∈[1,N_m]：

a.采样得到话题

b.采样得到词

其中，ξ是一个恒定参数，取固定值；给定一个文档集，w_m,n是可以观察到的已知变量，和是根据经验给定的先验参数，其他变量z_m,n，和都是未知的隐含变量，需要根据观察到的文档集中的词来学习估计得到。

与现有技术相比，本发明的有益效果是：

相较于长文本，短文本具有特征稀疏、主题不明确的特点。现有的文本特征提取方法大多采用基于Bag of Words(词袋)模型的方法，该方法用在长文本中通常能取得较好的效果，但是用在短文本中常常效果不佳。本发明提供一种短文本特征提取方法，该方法通过基于百度百科的ESA(Explicit Semantic Analysis，即显示语义分析)算法为文本引入语义信息，并通过LDA(Latent Dirichlet Allocation，即潜在狄利克雷分布)学习模型发掘语料库中的词共现信息，以解决短文本特征稀疏的问题；再利用依存句法分析方法将文本中的词划分成不同成分，根据不同成分的词，提取出能代表文本主题的词，调高这些词的权重，以解决短文本主题不明确的问题。本发明提供方法一方面通过ESA算法解决短文本特征稀疏的问题；另一方面，通过句法分析解决短文本主题不明确的问题；从而降低短文本特征提取处理难度，提升短文本特征提取的结果，提高文本分类的准确度。

附图说明

图1是本发明实施例提供的基于知识库和句法分析的短文本特征提取方法的流程框图。

图2是基于百度百科的ESA算法的流程框图。

图3是实施例中针对短文本“咨询羽毛球主题的餐厅”通过依存句法分析得到的结果；

其中，v为动词；n为名词；u为结构助词；HED为核心关系；ATT为定中关系；VOB为动宾关系。

图4是LDA生成过程的概率图模型；

其中，K为主题个数；M为文档总数；N_m是第m个文档的单词总数；是每个话题下词的多项分布的Dirichlet先验参数；是每个文档下话题的多项分布的Dirichlet先验参数；w_m,n是第m个文档中第n个词；z_m,n是第m个文档中第n个词的话题；隐含变量代表第m个文档下话题的分布；代表第k个话题下词的分布。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种短文本特征提取方法，该方法分别基于知识库和句法分析方法对短文本进行特征提取，通过计算各个话题的权值，以话题向量作为短文本最终的特征向量，以解决短文本特征稀疏和短文本主题不明确的问题；包括模型训练过程和特征提取过程。

14)每一个类别分别赋予权重；每一个类别的权重值为不小于0且不大于1；所有类别的权重值的和为1；权重值的确定具体采用枚举的方法；

16)通过LDA模型得到话题向量；

权重值的确定是采用枚举的方法，具体过程如下：

A1)为了得到效果最优的权值组合，我们以设定步长遍历了从{0.0,0.0,0.0,1.0}到{1.0,0.0,0.0,0.0}的所有满足约束条件的权值组合；本发明实施例中以0.05为步长；

A2)对于每一组权值组合，通过使用现有的SVM分类器LibSVM(http://www.csie.ntu.edu.tw/～cjlin/libsvm/)在训练集(训练集的每篇文档都是使用步骤6)所得到的话题向量表示的)上训练出一个分类模型；然后，用训练出的分类模型对验证集进行分类，得到该分类的准确率；

二，特征提取过程针对测试集数据，具体执行如下操作：

21)经过上述步骤1)～3)对测试集数据进行处理之后，将每一个类别赋予上述步骤5)获得的权重组W；

23)通过LDA得到话题向量；以话题来作为短文本最终的特征向量，作为短文本的特征。

此步骤利用训练好的LDA模型计算解释向量下各个话题的权值，以话题来作为短文本最终的特征向量，作为短文本的特征。之后可将上述步骤5)获得的训练模型M对测试集数据进行分类，得到该次分类的准确率。

以下通过实施例说明本发明提供的短文本特征提取方法。本实施例使用的数据集包含了37624条新浪微博，每条微博的字数大概在15字左右。它们被分为“IT”，“人文艺术”，“传媒”，“体育”，“健康”，“动漫”，“女性”，“娱乐”，“广告公共”，“房产”，“教育”，“文学出版”，“旅游”，“时尚”，“校园”，“汽车”，“游戏”，“生活”，“美食”，“育儿”，“财经”，共21个类。本实施例将所有数据以3:1:1分为三份，第一份作为训练集(Training Set)，第二份作为验证集(Validation Set)，第三份作为测试集(Test Set)。其中训练集和验证集用于确定不同类别名词的权重，而测试集用来验证本发明提出的短文本特征提取方法的有效性。针对上述新浪微博数据集中的测试集数据，对输入的短文本进行特征提取，得到特征向量，具体过程如下：

模型训练过程具体执行如下操作：

首先，我们使用哈工大的LTP分词工具(Che W.,Li Z,Liu T.Ltp:A chineselanguage technology platform,Proceedings of the 23rd Inter nationalConference on Computational Linguistics:Demonstrations.Association forComputational Linguistics,2010:13-16)对短文本进行处理，该工具能对短文本进行分词，得到词语的词性，同时还能得到词与词之间的依存句法关系。它的输入是一个句子，返回的结果可以根据用户的设置而定。比如输入句子“我是中国人。”，当选择只查看分词结果时，返回的词包括“我”、“是”和“中国人”，其中词与词之间用空格分割；当选择查看词性标注结果时，返回的是“我_r是_v中国_ns人_n。_wp”，其中词和词的标注信息之间用下划线连接，项与项之间用空格分割；r代表代词、v代表动词、ns代表地名、n代表名词、wp代表标点符号。当选择查看句法分析结果时，返回的是：

我_0是_1SBV

是_1-1HED

中国_2人_3ATT

人_3是_1VOB

。_4是_1WP

其中句子的每个词的句法信息占一行。每一行独占三列。第一列为依存句法分析的孩子结点信息，由结点名+下划线+词id组成；第二列为依存句法分析的父亲节点信息，由结点名+下划线+词id组成，如果没有父亲结点，则由-1表示；第三列为具体的依存句法分析关系；其中，SBV为主谓关系；HED为核心关系；ATT为定中关系；VOB为动宾关系。

在对短文本进行分词和句法分析后，我们过滤掉其中的停用词，并只保留句子中的名词，最终将这些名词分为ATT、HED、VOB和Others共四类，前三类分别对应定中关系、动宾关系和核心关系。具体地，ATT、HED和VOB三类名词分别定义如下，而归不到上述三类关系的名词，为分类Others：

定中关系(Attribute)是指修饰和被修饰的关系，它是由两部分构成的：第一部分可以由形容词、名词或者动词构成，起限定或者修饰的作用，叫做“定语”；第二部分主要由名词或者动词构成，为被限定或者被修饰的成分，叫做“中心语”。由于我们在处理短文本时只取名词作为特征词，所以我们主要关注以名词为中心语的定中关系，并将短文本中的中心词都划分为ATT类。

动宾关系(Verb-Object)是一种支配与被支配、关涉与被关涉的关系，它是由动词与后面被支配的词组成的，起支配作用的词是动词，被支配的词是宾语。根据宾语的不同词性，动宾关系共分为四种情况：宾语是名词，如“踢足球”；宾语是代词，如“照顾你”；宾语是动词，如“学习开车”；宾语是形容词，如“保持安静”。本发明将涉及到宾语是名词的情况，即将名词性宾语提出来，划分为VOB类。

核心关系(Head)是指整个句子的核心，是依存句法树的树根。在一个完整句子中，核心词是指这个句子的谓语，而动词通常不能提供语义信息。但是有很多短文本的表述都不规范，所以会出现核心词是名词而不是谓语的情况。我们将这种核心名词提取出来，划分为HED类。

在特征提取时为上述四类词(Others、ATT、HED和VOB类的名词)分别赋予四个权重α₁，α₂，α₃，α₄，要求得权重α₁，α₂，α₃，α₄的值；在这里，权值越高代表该类词越重要。将能够使得分类准确率最高的权重组合记为A，用下面的数学语言描述：

A＝MAX Accuracy(α₁,α₂,α₃,α₄)

s.t.α₁+α₂+α₃+α₄＝1

α_i≥0,i＝1,2,3,4

1-α_i≥0,i＝1,2,3,4

本实施例将所有数据以3:1:1分为三份，第一份作为训练集(Training Set)，第二份作为验证集(Validation Set)，第三份作为测试集(Test Set)。其中训练集和验证集用于确定四类名词的权重值，而测试集用来验证我们提出的短文本特征提取方法的有效性。

权重值的确定是采用枚举的方法，具体过程如下：

A1)为了得到效果最优的权值组合，我们为每个类都以0.05为步长遍历了从{0.0,0.0,0.0,1.0}到{1.0,0.0,0.0,0.0}的所有满足约束条件的权值组合；

A2)对于每一组权值组合，通过使用现有的SVM分类器LibSVM(http://www.csie.ntu.edu.tw/～cjlin/libsvm/)在训练集上训练出一个分类模型。训练集的每篇文档都是根据上文提出的短文本特征提取方法使用话题向量表示的。然后，用训练出的分类模型对验证集进行分类；

A3)取每个类在验证集上分类准确率最高的权值组合作为它的最优权值组合(Optimal Weight Combination)，然后将所有类的最优权值组合取平均后得到平均权值组合(Average Weight Combination)，平均权值组合就是我们为四类名词最终确定好的权重。

以上操作中，我们通过句法分析方法解决短文本主题不明确的问题。在短文本中，由于跟主题相关的词和不相关的词在词频上不会有太大的区别，会带来主题上的模糊。而句法分析能够按一定的语法结构划分句子成分，找到词与词之间的依赖关系，帮助我们找到句子中重要的特征词。

比如，在短文本“咨询羽毛球主题的餐厅”这句话中，主题词应该是“餐厅”，它的权值应该比“羽毛球”大，因此不能根据词频来确定特征词的重要性。根据依存句法分析处理的结果，我们可以看到“羽毛球”和“主题”最终修饰的是“餐厅”，“餐厅”是被修饰的部分，在语义上是这个短语最主要的成分。我们要做的就是找到这样的主要成分，调高其在句子中的权重，从而使得短文本的主题能够被更明确的表达。

具体地，本发明使用LTP语言处理平台进行依存句法分析，LTP语言处理平台所能标注的依存关系共十四种。我们从中选择了三种对判断短文本主题可能有用的依存关系，分别为定中关系、动宾关系和核心关系，并根据这三种依存关系，将短文本中的名词划分成四种成分：ATT，VOB，HED，Others，并给予它们不同的权重。

接着，通过百度百科(http://baike.***.com/)来构建ESA的中文模型。百度百科是全球最大的中文网络百科全书，它涵盖面广，更新及时，具有一定的权威性。我们使用网页爬虫对百度百科的词条爬取，共得到5,279,603个词条，将其分词、去停用词后得到928,672个词；其中，本实施例使用的停用词表为中科院计算所中文自然语言处理开放平台发布的中文停用词表(http://www.datatang.com/data/43894)，包含1208个停用词；然后通过ESA算法构建每一个词到概念空间的倒排索引，并将倒排索引表存于MySQL数据库中。当需要查询一个词的带权概念列表时，可以在该数据库中直接查询，而不需要将整个倒排索引表读入内存中。

我们使用ESA算法解决短文本特征稀疏的问题。在ESA算法中，百科词条被称作概念，所有词条构成一个概念空间，算法的目的是将给定的文章用概念空间上的一个向量表示，该向量称为“解释向量”(Interpretation Vector)，这个向量上某一维的权值代表这一维所代表的概念与输入文本的相关度，用这种方法可以得到加入背景知识后的短文本的特征向量。

ESA算法的核心是构建一个词到概念空间的加权倒排索引，即对百科的所有文章通过分词工具(如LTP工具)进行分词，得到一个词库，对于词库中的每一个词，将文章中包含这个词的概念集合起来构建一个带权值的概念列表，每个概念的权值等于该词在该概念中的TF-IDF值。在构建好倒排索引(带权值的概念列表)后，给定一个短文本ST＝{wi}，求其解释向量V的过程如下：

31)将ST用向量{ti}表示，其中ti是wi的权值，可以取TF-IDF值，或者是其它类型的权值；

32)对ST中的每一个词wi，在倒排索引中找到wi的带权概念列表{kj}，其中kj代表了wi与概念cj的关联度，即wi在cj的文章中的TF-IDF值；

通过ESA算法，我们将短文本映射到概念空间，为短文本增加了外部知识，在一定程度上解决了短文本特征稀疏的问题。

最后，我们使用前述的新浪微博作为语料库来学习LDA模型。在之前的步骤中，所有微博已经用ESA的方法表示成解释向量了，之后我们在概念空间上利用Gibbs抽样的方法来训练LDA模型的参数。

Gibbs抽样的运行方式是每次选取概率向量的一个维度，给定其它维度的变量值抽取当前维度的值，不断迭代，直到待估计的参数收敛。

首先随机给文档中的每个词分配话题z⁽⁰⁾，然后统计每个话题z⁽⁰⁾下出现词t的数量以及每个文档m下出现话题z⁽⁰⁾中的词的数量，接着计算即排除当前词后的话题分配，根据其它所有词的话题分配来估计当前词分配各个话题的概率。得到当前词属于所有话题z⁽⁰⁾的概率分布后，根据这个概率分布为该词抽取一个新的话题z⁽¹⁾。然后用同样的方法不断更新下一个词的主题，直到和收敛，最后输出估计后的参数和

在训练过程中，设置的迭代次数是1000次，和的值分别设为0.45和0.01，由于带训练的数据集较大，为了能较好的反应数据集的话题分布，这里对话题数目设置为500。

本实施例中，在概念空间上利用Gibbs抽样的方法来训练LDA模型的参数；

本发明利用LDA模型发掘语料库中的词共现信息，并达到降维的目的。LDA是一种生成模型，它生成一个涉及K个话题，M篇文章的文档集，本发明采用Gibbs抽样的方法训练LDA模型的过程如下：

图4是LDA的生成过程的概率图模型。其中，K为主题个数，M为文档总数，N_m是第m个文档的单词总数。是每个话题下词的多项分布的Dirichlet先验参数，是每个文档下话题的多项分布的Dirichlet先验参数，w_m,n是第m个文档中第n个词，z_m,n是第m个文档中第n个词的话题，隐含变量代表第m个文档下话题的分布，代表第k个话题下词的分布。

具体的生成过程的描述如下：

61)对每个话题k，采样得到它的词分布

62)对每个文档m：

621)采样得到它的长度N_m～Poiss(ξ)

622)采样得到它的话题分布

623)对m中的每个词n∈[1,N_m]：

a.采样得到话题

b.采样得到词

其中，ξ是一个恒定参数，取固定值；给定一个文档集，w_m,n是可以观察到的已知变量，和是根据经验给定的先验参数，其他变量z_m,n，和都是未知的隐含变量，也是我们需要根据观察到的文档集中的词来学习估计的。

二，特征提取过程，具体执行如下操作：

21)针对测试集数据，经过上述步骤1)～3)的处理之后，将每一个类别赋予上述步骤获得的权重组W；

具体地，使用哈工大LTP分词工具对短文本进行分词处理，得到短文本中包含词语的词性，同时还能得到词与词之间的依存句法关系；过滤掉其中的停用词，只保留短文本句子中的名词；将短文本句子中的所有名词根据依存句法关系分为多个类别；为上述名词的多个类别分别赋予上述步骤5)获得的权重组，所有类别的权重值的和为1；每一个类别的权重值为不小于0且不大于1，权值越高代表该类词越重要；

23)通过LDA得到话题向量；

特征提取过程中，利用训练好的LDA模型计算解释向量下各个话题的权值，以话题来作为短文本最终的特征向量；

将上述训练过程获得的训练模型M对测试集数据进行分类，得到该次分类的准确率。

为了验证本发明提出的基于知识库的短文本特征提取方法的效果，我们在新浪微博数据上做了分类实验，以基于Bag of Words模型的TF-IDF(Termfrequency–Inversedocument frequency，即词频-逆文档词频)为Baseline，以分类准确率作为评测标准来做比较。

我们在具体实施例中使用的数据集包含了37624条新浪微博，每条微博的字数大概在15字左右。它们被分为“IT”，“人文艺术”，“传媒”，“体育”，“健康”，“动漫”，“女性”，“娱乐”，“广告公共”，“房产”，“教育”，“文学出版”，“旅游”，“时尚”，“校园”，“汽车”，“游戏”，“生活”，“美食”，“育儿”，“财经”，共21个类。我们对每个类别都进行二分类实验，使用的分类器为SVM(Support Vector Machine，即支持向量机)。具体地，我们使用文献(Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transacti ons onIntelligent Systems and Technology(TIST),2011,2(3):27)记载的分类器工具LIBSVM，它是一个简单、易于使用和快速有效的SVM分类器。LIBSVM提供了多种核函数，在实验中我们使用的是线性核函数，因为对SVM而言，如果数据的特征特别大(比如文本分类)，就没有必要将数据映射到更高维的空间，也就是说非线性SVM并不能提高分类的性能。

实验结果显示，以TF-IDF作为特征的方法准确率最低，为59.33％；以ESA解释向量作为特征的方法(不使用句法分析)准确率要高于TF-IDF，为67.79％；而在ESA的基础上加入LDA作为特征的方法(ESA+LDA，即不使用句法分析)在大部分情况下都是最好的，为72.09％。这说明本发明提出的基于知识库的特征提取方法能在一定程度上解决短文本特征稀疏的问题。最后加入句法分析后(句法分析+ESA+LDA，也即本发明提出的优选方法)，相比于单纯使用ESA和LDA，在这21个类上准确率平均提高了1.8％，为73.89％。这说明本发明提出的句法分析的特征提取方法能在一定程度上解决短文本主题不明确的问题。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种短文本特征提取方法，基于知识库和句法分析方法对短文本进行特征提取，通过计算各个话题的权值，用话题向量作为短文本最终的特征向量，以解决短文本特征稀疏和短文本主题不明确的问题；所述短文本特征提取方法包括模型训练过程和特征提取过程：

模型训练过程针对训练集数据和验证集短文本数据，具体执行操作11)～17)：

14)每一个类别分别赋予权重值；

15)基于百度百科构建ESA中文模型，得到每一个词到概念空间的倒排索引；通过ESA算法将短文本映射到概念空间，得到短文本的解释向量；

16)通过LDA模型得到话题向量；

17)选择获得最高的准确率对应的权重组W和训练出的最高的分类准确率对应的分类模型M，作为模型训练过程的结果；

二，特征提取过程针对测试集数据，具体执行如下操作：

21)经过上述步骤11)～13)对测试集数据进行处理之后，将每一个类别赋予上述步骤17)获得的权重组W；

2.如权利要求1所述短文本特征提取方法，其特征是，步骤14)所述权重值的约束条件是：每一个类别的权重值为不小于0且不大于1，所有类别的权重值的和为1；权重值的确定具体采用枚举的方法。

3.如权利要求2所述短文本特征提取方法，其特征是，所述采用枚举的方法确定权重值具体过程如下：

A1)以设定步长遍历从权值组合{0.0,0.0,0.0,1.0}到权值组合{1.0,0.0,0.0,0.0}的所有满足约束条件的权值组合；

A2)对于每一组权值组合，通过使用SVM分类器LibSVM在以话题向量表示的训练集上训练出一个分类模型；之后使用和训练集一样的权重用所述训练出的分类模型对验证集进行分类，得到该分类的准确率；

A3)取每个类在验证集上分类准确率最高的权值组合作为该类的最优权值组合，然后将所有类的最优权值组合取平均后得到平均权值组合，平均权值组合即为各类名词的权重。

4.如权利要求3所述短文本特征提取方法，其特征是，过程A1)所述步长设定为0.05。

5.如权利要求1所述短文本特征提取方法，其特征是，所述分词工具为哈工大LTP分词工具。

6.如权利要求1所述短文本特征提取方法，其特征是，步骤3)所述依存句法关系包括定中关系、动宾关系和核心关系；根据所述三种依存句法关系，将短文本中的名词划分成四种成分：ATT，VOB，HED，Others，分别与定中关系、动宾关系、核心关系和非上述三种关系的其他关系相对应。

7.如权利要求1所述短文本特征提取方法，其特征是，步骤15)或22)中，给定一个短文本ST＝{wi}，求其解释向量V的过程具体包括如下操作：

31)将ST用向量{ti}表示，其中ti是wi的权值；

33)ST的解释向量V＝{v1,v2,……,vn}，其中vj代表短文本在概念cj上的权重，

8.如权利要求1所述短文本特征提取方法，其特征是，步骤16)或23)中，具体利用Gibbs抽样方法在概念空间上通过LDA生成模型得到话题向量。

9.如权利要求8所述短文本特征提取方法，其特征是，所述LDA生成模型具体的生成过程包括如下步骤：

61)对每个话题k，采样得到它的词分布

62)对每个文档m：

621)采样得到它的长度N_m～Poiss(ξ)；

622)采样得到它的话题分布

623)对m中的每个词n∈[1,N_m]：

a.采样得到话题

b.采样得到词

其中，ξ是一个恒定参数，取固定值；给定一个文档集，w_m,n是可以观察到的已知变量，和是根据经验给定的先验参数，N_m是第m个文档的单词总数；变量z_m,n，和都是未知的隐含变量，根据观察到的文档集中的词来学习估计得到；z_m,n是第m个文档中第n个词的话题；隐含变量代表第m个文档下话题的分布，代表第k个话题下词的分布。