CN107748783A

CN107748783A - 一种基于句向量的多标签公司描述文本分类方法

Info

Publication number: CN107748783A
Application number: CN201711002965.4A
Authority: CN
Inventors: 李岳楠; 张桐喆; 苏育挺; 井佩光
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-03-02

Abstract

一种基于句向量的多标签公司描述文本分类方法，所述方法包括以下步骤：通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述，描述文字中只保留字母和英文字符，获取TXT格式文件；对TXT格式文件依次进行词向量训练、句向量训练和PCA降维；将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练，获取训练模型；将训练模型应用在测试数据集或未标注数据集上，实现对多标签公司的文本分类。本发明提出句向量结合朴素贝叶斯多标签文本分类的方法，利用句向量和朴素贝叶斯思想有效应用在文本上，并可应用在实际问题中。

Description

一种基于句向量的多标签公司描述文本分类方法

技术领域

本发明涉及处理文本分类的多标签领域，尤其涉及一种基于句向量的多标签公司描述文本分类方法。

背景技术

文本分类或基于文本的其他分类问题，一直是语义处理的重点问题，尤其是多分类的问题^[1][2][3]。

自动文本分类，是指计算机将一篇文章归于预先给定的某一类或某几类主题的过程，这个工作过程通过计算机可以高效地完成。文本分类是文本挖掘的一种重要内容，它是许多数据管理任务的重要组成部分^[4][5][6]。

文本分类在传统上需要先对句子或段落进行词包或者词频逆文本处理，但是对于深层语意结构并没有很好的体现，所以对深层语意结构的探究是十分有必要的，构建句向量是基础^[7][8][9]。

另外，文本属于单一类别的应用虽然简单，但是并不常见，所以基于多标签的文本分类的应用更贴近实际，但面对的挑战也更多^[10]。

发明内容

本发明提供了一种基于句向量的多标签公司描述文本分类方法，本发明收集数据库，对描述公司的文本进行处理，然后根据多标签训练，最后进行自动公司分类，详见下文描述：

一种基于句向量的多标签公司描述文本分类方法，所述方法包括以下步骤：

通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述，描述文字中只保留字母和英文字符，获取TXT格式文件；

对TXT格式文件依次进行词向量训练、句向量训练和PCA降维；

将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练，获取训练模型；

将训练模型应用在测试数据集或未标注数据集上，实现对多标签公司的文本分类。

其中，所述将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练具体为：

通过句向量转化后的向量特征的先验信息和标签，通过目标函数，计算出在朴素贝叶斯条件下相应标签的分类。

其中，所述目标函数具体为：

其中，t是样本，l∈Y，Y是所有标签的集合，P(*)是概率函数，代表该样本是否属于第l个标签，当b为1时属于该标签，当b为0时不属于该标签，b为是否属于该标签的标记，P(t)为数据t出现的概率，t_k为第k个特征出现的概率，d为特征总数。

进一步地，所述方法还包括：

采用Hamming loss的方式进行效果估计：

其中，h()表示预测出的标签向量，x_i为该样本特征，Yi表示真实的标签向量，共有Q个标签，p个样本。

本发明提供的技术方案的有益效果是：

1、本发明提出句向量结合朴素贝叶斯多标签文本分类的方法，利用句向量和朴素贝叶斯思想有效应用在文本上，并可应用在实际问题中(如公司分类)；

2、本发明收集数据(三个类公司的文本描述)并验证上述想法，并解决问题(对公司进行分类，并进行推荐)，具有理想的效果。

附图说明

图1为一种基于句向量的多标签公司描述文本分类方法的流程图；

图2为PCA(主成分分析)效果说明图；

图3为特征维度说明图；

图4为结果示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于句向量的多标签公司描述文本分类方法，参见图1，该方法包括以下步骤：

101：通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述，描述文字中只保留字母和英文字符，获取TXT格式文件；

102：对TXT格式文件依次进行词向量训练、句向量训练和PCA降维；

103：将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练，获取训练模型；

104：将训练模型应用在测试数据集或未标注数据集上，实现对多标签公司的文本分类。

其中，步骤103中的将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练具体为：

综上所述，本发明实施例通过上述步骤101-步骤104实现了收集数据库，对描述公司的文本进行处理，然后根据多标签训练，最后进行自动公司分类。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：通过爬虫技术获取公司主页上关于公司的描述文字；对描述文字进行预处理和清洗操作，获取TXT格式文件；

即，通过爬虫技术获取供应类公司、流通类公司、服务链类公司的公司官网描述(英文)。描述文字中只保留字母和英文字符，为后续预处理清除可能出现的干扰。

获取公司官网网址等信息字(一共三类公司)保存为TXT格式文件，将对应标签储存为.mat文件。

202：对TXT格式文件进行语义处理，包括：词向量训练，句向量(在词向量的基础上)训练和PCA降维等；

203：将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练，获取训练模型；

其中，该步骤203具体为：

通过样本(通过句向量转化后的向量特征)的先验信息和标签，通过目标函数，计算出在朴素贝叶斯条件下相应标签的分类。目标函数如下：

其中：t是样本，l∈Y，Y是所有标签的集合，P(*)是概率函数，代表该样本是否属于第l个标签，当b为1时属于该标签，当b为0时不属于该标签，b为是否属于该标签的标记，P(t)为数据t出现的概率，t_k为第k个特征出现的概率，d为特征总数。

本发明实施例要计算的就是样本属于l类概率和样本不属于第l类的概率，并对比它们的大小，得到结果。

另外，类条件概率可以被计算为：

其中：d为总特征数，g是第k个样本的概率密度函数，mu为平均值，sigma为标准差，lb为在l和b的情况下。

把概率密度函数替换到目标函数中：

其中：

式中，为sigma的对数形式。

最后，采用Hamming loss的方式进行效果估计：

参见图2，在提取句向量的步骤之后，采取主成分分析(PCA)对特征向量进行进一步降维处理。PCA降维后可以找到有区别性特征(△)，即非无用的冗余特征(×)，又非两类标签共有特征(+)，更非每类标签共有特征(*)。如此提取特征之后，特征向量所能代表的信息熵最大化。

204：将训练模型应用在测试数据集或未标注数据集上。

综上所述，本发明实施例通过上述步骤201-步骤204实现了收集数据库，对描述公司的文本进行处理，然后根据多标签训练，最后进行自动公司分类。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行可行性验证，详见下文描述：

数据库描述：数据集是一个Excel表格，其中包括三个表，每个表主要是某个类型的公司的描述，每个表的三列分别是名称，网址，描述，以及是否属于三个类(供应，运输，销售)。

1)数据清洗：去除网址列，把三个表的文本保存为TXT格式，把名称和描述合并成一行，标签(1代表供应链；2代表流通链；3代表服务链)储存为三个.mat文件，文本中只保留字母和英文字符，为后续预处理清除可能出现的干扰。

2)词向量训练：采取词向量表示方式，进行语义特征提取。

例如，I am in the house和I am in the restaurant，其中由于house和restaurant因为在句子中的的位置相似，且前面的词一致，所以这两个词是相近的词，他们的特征空间向量相似程度高。最后得到一个表，每个词都由一个250维的向量表示。

3)句子向量训练：在词向量的基础上，根据句子中的词，把句子转换为向量表示形式，也是250维表示一个句子，作为每个公司的特征。

4)分割数据：因为数据集不分训练集和测试集，所以需按照八二比例切割数据集，为保证随机性，实现自动随机分割程序，保证每类样本在训练集里有80％，在测试集里有20％(2344条训练集，587条测试集)

5)模型训练：选取朴素贝叶斯(Bayes)多分类模型。

6)调整参数观察结果：模型训练中的PCA降维比例，词向量训练中的维度和窗参数等参数对最终结果都有重要影响。

特征维度250维，窗参数4维，PCA降维比例为10％，参见图3。根据对比，得出最优模型，设定最优模型和参数设置：运行150次平均准确率为：0.807962784805970；最大正确率为：0.84(作为示例程序，训练集和测试集的选取已经储存)，参见图4。

参考文献

[1]Z.Barutcuoglu,R.E.Schapire,O.G.Troyanskaya,Hierarchical multi-label prediction of gene function,Bioinformatics 22(7)(2006)830–836.

[2]K.Brinker,J.Fürnkranz,E.Hüllermeier,A unified model for multilabelclassification and ranking,in:Proceedings of the 17th European Conference onArtificial Intelligence,Riva del Garda,Italy,2006,pp.489–493.

[3]L.Cai,T.Hofmann,Hierarchical document categorization with supportvector machines,in:Proceedings of the 13th ACM International Conference onInformation and Knowledge Management,Washington,DC,2004,pp.78–87.

[4]A.Clare,R.D.King,Knowledge discovery in multi-label phenotypedata,in:L.De Raedt,A.Siebes(Eds.),Lecture Notes in Computer Science,vol.2168,Springer,Berlin,2001,pp.42–53.[5]D.E.Goldberg,Genetic Algorithms in Search,Optimization,and Machine Learning,Addison-Wesley,Boston,MA,1989.

[6]S.Gunal,R.Edizkan,Subspace based feature selection for patternrecognition,Information Sciences 178(19)(2008)3716–3726.

[7]F.Sebastiani,Machine learning in automated text categorization,ACMComputing Surveys34(1)(2002)1–47.

[8]M.-L.Zhang,ML-RBF:RBF neural networks for multi-label learning,Neural Processing Letters 29(2)(2009)61–74.

[9]M.-L.Zhang,Z.-H.Zhou,Ml-knn a lazy learning approach to multi-label learning,Pattern Recognition 40(7)(2007)2038–2048.

[10]C.Vens,J.Struyf,L.Schietgat,S.Dzˇeroski,H.Blockeel,Decision treesfor hierarchical multi-label classification,Machine Learning 73(2)(2008)185–214.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于句向量的多标签公司描述文本分类方法，其特征在于，所述方法包括以下步骤：

对TXT格式文件依次进行词向量训练、句向量训练和PCA降维；

2.根据权利要求1所述的一种基于句向量的多标签公司描述文本分类方法，其特征在于，所述将处理后的特征向量和标签对应出来，得到数据集，将训练集输入，进行多标签朴素贝叶斯分类训练具体为：

3.根据权利要求1所述的一种基于句向量的多标签公司描述文本分类方法，其特征在于，所述目标函数具体为：

<mrow> <msub> <mi>y</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>max</mi> <mrow> <mi>b</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </msub> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>H</mi> <mi>b</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>|</mo> <msubsup> <mi>H</mi> <mi>b</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mi>arg</mi> <mi> </mi> <msub> <mi>max</mi> <mrow> <mi>b</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>H</mi> <mi>b</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <munderover> <mo>&Pi;</mo> <mrow> <mi>K</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>|</mo> <msubsup> <mi>H</mi> <mi>b</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的一种基于句向量的多标签公司描述文本分类方法，其特征在于，所述方法还包括：

采用Hamming loss的方式进行效果估计：

<mrow> <mi>h</mi> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>p</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <mfrac> <mn>1</mn> <mi>Q</mi> </mfrac> <mo>|</mo> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow>