CN108268560A

CN108268560A - 一种文本分类方法及装置

Info

Publication number: CN108268560A
Application number: CN201710003223.7A
Authority: CN
Inventors: 王朝民; 丛鹏宇; 王惠欣; 任智杰; 冯俊兰; 孙佳
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2017-01-03
Filing date: 2017-01-03
Publication date: 2018-07-10

Abstract

本发明公开了一种文本分类方法及装置，所述方法包括：基于主题模型确定文本对应的主题向量；根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

Description

一种文本分类方法及装置

技术领域

本发明涉及通信领域中的连接管理技术，尤其涉及一种文本分类方法及装置。

背景技术

文本表示是将无结构的原始文本转化为结构化的计算机可以识别处理的信息的过程，目前使用比较广泛的文本表示方法有热词(one-hot)、词频-逆文本频率(TFIDF)、词矢量(Word Embedding)三种。

具体的：one-hot是使用一个词典大小的向量表示一个文本，每一维对应一个词，只有一个维度的值为1，这个维度就代表了当前的词，其他维度的元素全部为0。TFIDF同样每一维对应一个词，但是该维的值为TFIDF值，不是二值1或0；TF称为词频,用于计算该词描述文本内容的能力；IDF称为反文本频率,用于计算该词区分文本的能力。Word Embedding是一种低维实数向量，最大的贡献是让相关的词在距离上更接近了。

但是，利用one-hot表示文本，每个文本都需要长向量来表示，这种表示庞大而稀疏，而且不包含文本的语义信息；利用TFIDF表示文本，每个文本同样都需要长向量来表示，而且无法体现单词的位置；利用Word Embedding表示文本，相同上下文的词具有相同的词矢量，但这些词实际上差别很大，所以在文本表示精确度方面欠佳。

发明内容

本发明的主要目的在于提出一种文本分类方法及装置，旨在解决现有技术中存在的上述问题。

为实现上述目的，本发明提供的一种文本分类方法，所述方法包括：

基于主题模型确定文本对应的主题向量；

根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；

利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

本发明提供一种文本分类装置，所述装置包括：

主题向量处理单元，用于基于主题模型确定文本对应的主题向量；

词矢量处理单元，用于根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；

分类单元，用于利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

本发明提出的一种文本分类方法及服务器，就能够对文本进行主题向量以及词矢量的分析，基于主题向量以及词矢量作为文本的表示并确定所述文本对应的类别。如此，在文本分类的关键步骤文本表示上，同时加入文本的语义信息和主题信息，从而避开了文本表示庞大而稀疏的问题，取得较好的分类效果。

附图说明

图1为本发明实施例文本分类方法流程示意图；

图2为本发明实施例场景示意图一；

图3为本发明实施例场景示意图二；

图4为本发明实施例文本分类装置组成结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

实施例一、

本发明实施例提供了一种文本分类方法，如图1所示，包括：

步骤101：基于主题模型确定文本对应的主题向量；

步骤102：根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；

步骤103：利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

本实施例提供的方案中，首先需要对文本进行预处理，然后提取特征进行文本表示，而后用有标记的文本送入分类器进行训练，最后用训练好的分类器对未标记的文本进行分类得到文本对应的类别。

主题模型假设文本中的每个词出现的概率服从指定主题的某种概率分布，如隐藏语义分布(LSA)和隐藏狄利克雷分布(LDA)。通过主题模型，可以计算出一个文本属于各个主题的概率，进而获取该文本的主题。目前来看，LDA优于LSA，是最好的主题模型。

下面结合图2进行说明，首先进行数据采集，具体如下：

数据收集及筛选。首先从***获取最新的文本语料作为通用数据，然后对其和训练样本进行分词和关键词提取。

所述方法还包括：

获取到至少一个训练样本，从每一个训练样本进行关键词提取；

基于提取到所述关键词的至少一个训练样本训练得到主题模型；其中，所述主题模型中包括有至少一个主题向量中每一个主题向量所对应的关键词分布。对于每个文本，关键词提取的数量上限为20。将分词和关键词提取后的训练样本用于训练LDA主题模型，得到各主题关于训练文本中关键词的分布。比如LDA模型输出的分布p(w|T),T是主题，w是关键词。

这次训练所设置的主题数和训练样本主题数的数量级相同，比如，可以设置为10。

训练后的LDA模型估计通用语料(也就是所要测试的文本)中主题分布，每个文本可以对应一个多维的主题向量。理论上，若一个文本对应一个主题，则主题向量中对应维度值为1，其余为0。所以可以通过对主体向量中所有元素求和，根据和是否超过阈值判断一个文本是否与这10个主题相关。本实施例中设定若向量元素和超过0.8判断为相关，否则判断为不相关。这样过滤掉领域不相关的数据，得到与训练样本领域相关的数据。其中，过滤掉数据的处理针对训练样本以及测试数据均可以采用相同的方式进行处理。

然后进行预处理，可以包括：所述根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量，包括：

对所述文本进行分词处理得到所述文本中包含的至少一个词语，分别获取到所述至少一个词语的重要性参数，基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词；

获取到所述至少一个关键词之间的相关性，将相关性高于预设门限值的至少两个关键词进行合并处理，得到合并处理后的至少一个关键词；

基于所述合并处理后的至少一个关键词，确定所述文本对应的词矢量。

具体的：所述方法还包括：

对所述至少一个训练样本中每一个训练样本进行分词处理得到所述训练样本包含的至少一个词语，分别获取到所述至少一个词语的重要性参数，基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词；

基于所述合并处理后的至少一个关键词进行词矢量训练。

得到领域相关的语料后，首先对所有语料(训练语料、测试语料、领域相关语料)进行预处理。首先进行分词，分词后计算每个词的TFIDF。分词是将连续的字序列按照一定的规范重新组合成词序列的过程，是一切自然语言处理任务的基础。TFIDF显示了一个词在文本中的重要性，与词在单个文本中出现的频率成正比，与词在整个语料库中出现的频率成反比。例如，“你”“的”在所有语料中都出现，需要把这些常用词过滤。所以将语料库的所有文本中TFIDF低于0.01的词滤除。随后，计算每句话中词语之间的点互信息(PMI)，比如参见以下公式，来判断这两个词是否为短语搭配。

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。点互信息可以衡量两个词之间的相关性，若PMI值为0，则两者不想关，PMI值小于0则两者互斥，PMI值大于0则两者相关。通过判断PMI值是否超过阈值可以判断两个词是否为短语搭配。若为短语搭配，则把两个词合为一个词。

进一步地，进行特征生成：

用领域相关的通用数据训练LDA主题模型，得到相关领域的主题与文本之间的分布。这里，主题模型的主题类别数目需手工定义，经验值从20到200维，本实施例中可以采用110作为最优效果维数。并使用GibbsLDA改进算法。随后使用训练好的主题模型，推断训练样本的主题分布，得到各个文本的主题向量。

词矢量的训练方式有SENNA、Word2vec和Glove三种，根据训练语料分为Wikipedia和Google News两种。考虑到Google News语料更接近日常用语，使用Word2vec在GoogleNews语料上进行训练。本实施例选取的参数有：维数为300，使用负采样，上下文窗口大小为15，采用Hierachical Softmax。训练好词矢量后，将文本中每个词的词矢量相加得到各个文本的词矢量。参见图3示意将文本的主题向量和词矢量串联得到每个文本的特征表示。

最后进行文本的类别确定的处理：目前常用的文本分类分类器有随机森林(RF)、最大熵(ME)、支持向量机(SVM)等。前两种分类器都是对每个维度的输入进行计算和判断，需要每一维度都有明确的词语相对应。而所使用的文本特征在维度上是连续的，单独的某一维度不具备明确的意义。因此使用SVM分类器，将矢量化的训练样本输入SVM分类器进行训练。训练完成后，使用该分类器对根据上述步骤矢量化后的测试文本进行分类。

可见，通过采用上述方案，就能够对文本进行主题向量以及词矢量的分析，基于主题向量以及词矢量作为文本的表示并确定所述文本对应的类别。如此，在文本分类的关键步骤文本表示上，同时加入文本的语义信息和主题信息，从而避开了文本表示庞大而稀疏的问题，取得较好的分类效果。

实施例二、

本发明实施例提供了一种文本分类装置，如图4所示，包括：

主题向量处理单元41，用于基于主题模型确定文本对应的主题向量；

词矢量处理单元42，用于根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；

分类单元43，用于利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

下面结合图2进行说明，首先进行数据采集，具体如下：

所述主题向量处理单元，用于获取到至少一个训练样本，从每一个训练样本进行关键词提取；

然后进行预处理。所述词矢量处理单元，用于对所述文本进行分词处理得到所述文本中包含的至少一个词语，分别获取到所述至少一个词语的重要性参数，基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词；

具体的：所述词矢量处理单元，用于对所述至少一个训练样本中每一个训练样本进行分词处理得到所述训练样本包含的至少一个词语，分别获取到所述至少一个词语的重要性参数，基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词；

基于所述合并处理后的至少一个关键词进行词矢量训练。

得到领域相关的语料后，首先对所有语料(训练语料、测试语料、领域相关语料)进行预处理。进行分词，分词后计算每个词的TFIDF。分词是将连续的字序列按照一定的规范重新组合成词序列的过程，是一切自然语言处理任务的基础。TFIDF显示了一个词在文本中的重要性，与词在单个文本中出现的频率成正比，与词在整个语料库中出现的频率成反比。例如，“你”“的”在所有语料中都出现，需要把这些常用词过滤。所以将语料库的所有文本中TFIDF低于0.01的词滤除。随后，计算每句话中词语之间的点互信息(PMI)，比如参见以下公式，来判断这两个词是否为短语搭配。

进一步地，进行特征生成：

所述主题向量处理单元，用于用领域相关的通用数据训练LDA主题模型，得到相关领域的主题与文本之间的分布。这里，主题模型的主题类别数目需手工定义，经验值从20到200维，本实施例中110为最优效果维数。并使用GibbsLDA改进算法。随后使用训练好的主题模型，推断训练样本的主题分布，得到各个文本的主题向量。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者服务器不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者服务器所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者服务器中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

基于主题模型确定文本对应的主题向量；

利用所述文本的所述主题向量以及所述词矢量，确定所述文本对应的类别。

2.根据权利要求1所述的方法，其特征在于，所述基于主题模型确定文本对应的主题向量，包括：

针对所述文本进行分词得到至少一个词语，从所述至少一个词语中获取到关键词，基于所述关键词以及所述主题模型确定所述文本对应的主题向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取到至少一个训练样本，针对每一个训练样本进行关键词提取；

基于提取到所述关键词的至少一个训练样本训练得到主题模型；其中，所述主题模型中包括有至少一个主题向量中每一个主题向量所对应的关键词。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述合并处理后的至少一个关键词进行词矢量训练。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将训练样本所对应的主题向量和词矢量进行合并，基于合并后的主题向量以及所述词矢量进行训练，得到训练后的分类器；

相应的，所述利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别，包括：

基于所述训练后的分类器，以及所述文本所对应的主题向量以及所述词矢量确定所述文本对应的类别。

7.一种文本分类装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述主题向量处理单元，用于针对所述文本进行分词得到至少一个词语，从所述至少一个词语中获取到关键词，基于所述关键词以及所述主题模型确定所述文本对应的主题向量。

9.根据权利要求7所述的装置，其特征在于，所述词矢量处理单元，用于对所述文本进行分词处理得到所述文本中包含的至少一个词语，分别获取到所述至少一个词语的重要性参数，基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词；

10.根据权利要求7-9任一项所述的装置，其特征在于，

所述主题向量处理单元，用于获取到至少一个训练样本，从每一个训练样本进行关键词提取；基于提取到所述关键词的至少一个训练样本训练得到主题模型；其中，所述主题模型中包括有至少一个主题向量中每一个主题向量所对应的关键词。

11.根据权利要求10所述的装置，其特征在于，

所述词矢量处理单元，用于对所述至少一个训练样本中每一个训练样本进行分词处理得到所述训练样本包含的至少一个词语，分别获取到所述至少一个词语的重要性参数，基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词；获取到所述至少一个关键词之间的相关性，将相关性高于预设门限值的至少两个关键词进行合并处理，得到合并处理后的至少一个关键词；基于所述合并处理后的至少一个关键词进行词矢量训练。

12.根据权利要求11所述的装置，其特征在于，所述分类单元，用于将训练样本所对应的主题向量和词矢量进行合并，基于合并后的主题向量以及所述词矢量进行训练，得到训练后的分类器；基于所述训练后的分类器，以及所述文本所对应的主题向量以及所述词矢量确定所述文本对应的类别。