CN109284377A

CN109284377A - 一种基于向量空间的文本分类方法和装置

Info

Publication number: CN109284377A
Application number: CN201811068951.7A
Authority: CN
Inventors: 孙北宁; 马志坚; 娄宇; 张羿; 段红刚; 黄世锋; 周智勋
Original assignee: Yunnan Power Grid Co Ltd; Tongfang Technology of Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd; Tongfang Technology of Yunnan Power Grid Co Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-01-29

Abstract

本申请公开一种基于向量空间的文本分类方法和装置，其中所述方法包括：获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集；获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集；计算所述第一特征向量分别与所述第二特征向量的向量距离；根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。采用前述方法或装置可以使电力信息***中产生的工单文本的分类更准确，效率更高，进一步的可以使电力相关部门准确快速的解决电力用户的业务诉求或者意见建议，有效的减少投诉。

Description

一种基于向量空间的文本分类方法和装置

技术领域

本申请涉及电力信息***技术领域，尤其涉及一种基于向量空间的文本分类方法和装置。

背景技术

在电力信息***中，用户可以通过电力客户服务呼叫热线、电力网上营业厅和电力信息呼叫中心等渠道提出业务诉求或者意见建议。用户提出业务诉求或者意见建议时，电力信息***会产生相应的文本，即工单文本，电力客服部门需要对大量的工单文本进行分类，然后派发给相关电力部门进行处理，以便对用户的业务诉求或者意见建议及时处理。例如，用户的业务诉求包括：欠费停电、违约金、停电、欠费复电、设备故障与隐患、用电设备运维、电费通知、电压质量和电费计量等，电力客服部门根据用户的业务诉求产生的工单文本进行分类，然后将分类后的工单文本派发至电力相关部门，由电力相关部门统一处理。

现有的对工单文本的分类方法主要是依赖人工分类。电力客服部门的客服人员根据工单文本的关键词进行分类，即根据工单文本上的关键词，将工单文本划分到相应的类别中。

但是，发明人在本申请的研究过程中发现，现有的对工单文本分类的方法中，由于主要依赖人工实现工单文本的分类，因此，会出现工单文本分类不准确和分类效率比较低的情况。

发明内容

本申请提供的一种基于向量空间的文本分类方法和装置，以解决现有技术对工单文本分类的方法中主要依赖人工实现文本分类，出现工单文本分类不准确和分类效率比较低的问题。

第一方面，本申请实施例提供一种基于向量空间的文本分类方法，所述方法包括：

获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集，所述第一特征向量集中包含所述训练数据的第一特征向量；

获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集，所述第二特征向量集中包含所述待分类文本的第二特征向量；

计算所述第一特征向量分别与所述第二特征向量的向量距离；

根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。

结合第一方面，在一种实现方式中，对所述训练数据进行预处理的方法包括：

对所述已知类别的训练数据进行分词；

对分词之后的训练数据进行短语识别；

计算短语识别之后的训练数据的特征向量。

结合第一方面，在一种实现方式中，对所述待分类文本进行预处理的方法包括：

对所述待分类文本进行分词；

对分词之后的待分类文本进行短语识别；

计算短语识别之后的待分类文本的特征向量。

结合第一方面，在一种实现方式中，所述第一特征向量分别与所述第二特征向量的向量距离为余弦向量距离。

结合第一方面，在一种实现方式中，通过以下公式计算所述余弦向量距离：

其中，sim(X,Y)表示余弦向量距离，表示第一特征向量集中的特征向量，表示第二特征向量集中的特征向量，||x||表示x的二范数，||y||表示y的二范数。

第二方面，本申请实施例部分提供了一种基于向量空间的文本分类装置，所述装置包括：

第一特征向量集获取模块，用于获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集，所述第一特征向量集中包含所述训练数据的第一特征向量；

第二特征向量集获取模块，用于获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集，所述第二特征向量集中包含所述待分类文本的第二特征向量；

向量距离计算模块，用于计算所述第一特征向量分别与所述第二特征向量的向量距离；

分类结果获取模块，用于根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。

结合第二方面，在一种实现方式中，所述第一特征向量集获取模块还包括：

第一分词单元，用于对所述已知类别的训练数据进行分词；

第一短语识别单元，用于对分词之后的训练数据进行短语识别；

第一计算单元，用于计算短语识别之后的训练数据的特征向量。

结合第二方面，在一种实现方式中，所述第二特征向量集获取模块还包括：

第二分词单元，用于对所述待分类文本进行分词；

第二短语识别单元，用于对分词之后的待分类文本进行短语识别；

第二计算单元，用于计算短语识别之后的待分类文本的特征向量。

结合第二方面，在一种实现方式中，所述向量距离计算模块包括：

余弦向量距离确定单元，用于确定所述第一特征向量分别与所述第二特征向量的向量距离为余弦向量距离。

结合第二方面，在一种实现方式中，所述余弦向量距离单元包括：

余弦向量距离计算子单元，用于通过以下公式计算所述余弦向量距离：

由以上技术方案可知，本申请实施例提供的一种基于向量空间的文本分类方法和装置，其中所述方法包括：获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集；获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集；计算所述第一特征向量分别与所述第二特征向量的向量距离；根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。采用前述方法或装置能够解决现有技术对工单文本分类的方法中主要依赖人工实现文本分类，出现工单文本分类不准确和分类效率比较低的问题，从而可以使电力信息***中产生的工单文本的分类更准确，效率更高，进一步的可以使电力相关部门准确快速的解决电力用户的业务诉求或者意见建议，有效的减少投诉。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于向量空间的文本分类方法的流程示意图；

图2是本申请一个实施例中对所述训练数据进行预处理的方法的流程示意图；

图3是本申请一个实施例中对所述待分类文本进行预处理的方法的流程示意图；

图4是本申请实施例提供的一种基于向量空间的文本分类装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例提供的一种基于向量空间的文本分类方法和装置，以解决现有技术对工单文本分类的方法中主要依赖人工实现文本分类，出现工单文本分类不准确和分类效率比较低的问题。

参照图1，示出了一种基于向量空间的文本分类方法，所述方法包括：

步骤101，获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集，所述第一特征向量集中包含所述训练数据的第一特征向量；

本申请保护的是一种基于向量空间的文本分类方法和装置，这里的文本指的是电力信息***中，在用户提出业务诉求或者意见建议所述产生的工单文本。其中，所述业务诉求可以包括：欠费停电与违约金、停电、欠费复电、设备故障与隐患、用电设备运维、电费通知、电压质量和电费计量等类别。

其中，已知类别的训练数据为预先分好类的文本数据，所述第一特征向量集的获取过程也就是把训练数据投射到向量空间的过程。

本步骤中，首先以已知类别的训练数据作为输入，再将所述训练数据中的特征向量按照类别投射到向量空间，得到训练数据的特征向量集，即第一特征向量集。由于第一特征向量集是包含已经分好类的特征向量，因此也可以作为一个分类标准，以便为后面的待分类文本做一个参考标准。

步骤102，获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集，所述第二特征向量集中包含所述待分类文本的第二特征向量；

其中，所述待分类文本，即为包含用户业务诉求的工单文本。

本步骤中，首先以待分类文本作为输入，再将所待分类文本中的特征向量投射到向量空间，得到待分类文本的特征向量集，即第二特征向量集。所述第二特征向量集是根据待分类文本的关键信息作为特征向量形成的特征向量集，以便根据这些关键信息形成的特征向量集与第一特征向量集中的特征向量做对比，找相似的概率。

步骤103，计算所述第一特征向量分别与所述第二特征向量的向量距离；

其中，所述向量距离本质上是计算相似度，优选为余弦向量距离，也可是其他向量距离，本申请不做具体限定。

本步骤中，通过第一特征向量集中的特征向量与第二特征向量集中的特征向量的向量距离，即相似度，作为步骤104中的输入，得到分类结果。

步骤104，根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。

其中，本步骤所使用的分类方法优选使用softmax分类器。

本步骤中，将步骤104中计算得到的向量距离输入softmax函数，进行归一化处理，输出各分类的概率，再对比所述训练数据中的类别，得到待分类文本的分类结果。

采用步骤101至步骤104的基于向量空间的文本分类方法进行分类，对待分类文本的分类结果的正确率比较高，为测试其分类结果的正确率，从测试数据中随机抽取三批数据进行测试，抽取的数据数目如下：第一批为100条，第二批为200条，第三批为1000条，测试结果如下表：

从上表可以看出，利用本发明的分类方法得到的分类结果，正确率多在90％以上，有少数已经达到100％，分类的正确率较高。

本申请实施例提供的一种基于向量空间的文本分类方法，包括：获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集；获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集；计算所述第一特征向量分别与所述第二特征向量的向量距离；根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。采用前述方法或装置能够解决现有技术对工单文本分类的方法中主要依赖人工实现文本分类，出现工单文本分类不准确和分类效率比较低的问题，从而可以使电力信息***中产生的工单文本的分类更准确，效率更高，进一步的可以使电力相关部门准确快速的解决电力用户的业务诉求或者意见建议，有效的减少投诉。

进一步地，参照图2，示出了一种对所述训练数据进行预处理的方法，所述方法包括：

步骤210，对所述已知类别的训练数据进行分词；

步骤202，对分词之后的训练数据进行短语识别；

步骤203，计算短语识别之后的训练数据的特征向量。

本实施例中，对所述训练数据进行预处理的方法分为三个步骤：

第一步是对所述已知类别的训练数据进行分词，本步骤中，优选使用jieba分词器(也可以叫结巴分词器)对训练数据进行分词，也可以使用其他的分词器进行分词，本申清不做具体限定。

第二步是对分词之后的训练数据进行短语识别，本步骤中，使用TF-IDF进行短语识别，TF-IDF是根据设置的词语的权重，对分词之后的训练数据进行词频统计。

第三步是计算短语识别之后的训练数据的特征向量，此过程可以分为两步实现：1)构建词汇表，词汇表按照步骤202中的词频进行排序，如果有超出词汇表范围的单词将其作为“UNK”处理；2)将同一个类别的所有训练数据的文本作为一个文档，并将文档数据映射到维度为词汇表大小的向量，此向量即为该类别的特征向量，然后再计算该特征向量的各个分量，有两种计算方法：①取对应词的词频，除以总词频进行归一化处理，②取该词的TF-IDF值。

进一步地，参照图3，示出了一种对所述待分类文本进行预处理的方法，所述方法包括：

步骤301，对所述待分类文本进行分词；

步骤302，对分词之后的待分类文本进行短语识别；

步骤303，计算短语识别之后的待分类文本的特征向量。

本实施例中，对所述待分类文本进行预处理的方法分为三个步骤：

第一步是对所述待分类文本进行分词，本步骤中，优选使用jieba分词器(也可以叫结巴分词器)对待分类文本进行分词，也可以使用其他的分词器进行分词，本申清不做具体限定。

第二步是对分词之后的待分类文本进行短语识别，本步骤中，使用TF-IDF进行短语识别，TF-IDF是根据设置的词语的权重，对分词之后的待分类文本进行词频统计。

第三步是计算短语识别之后的待分类文本的特征向量，此过程可以分为两步实现：1)构建词汇表，词汇表按照步骤202中的词频进行排序，如果有超出词汇表范围的单词将其作为“UNK”处理；2)将同一个类别的所有待分类文本作为一个文档，并将该文档数据映射到维度为词汇表大小的向量，此向量即为该类别的特征向量，然后再计算该特征向量的各个分量，有两种计算方法：①取对应词的词频，除以总词频进行归一化处理，②取该词的TF-IDF值。

优选地，所述第一特征向量分别与所述第二特征向量的向量距离为余弦向量距离。

进一步地，通过以下公式计算所述余弦向量距离：

x是第一特征向量集中的某一类文本，y表示第二特征向量集中的某一类文本。

本实施例中，所述余弦向量距离为利用余弦夹角计算第一特征向量集中的特征向量与第二特征向量集中的特征向量之间的距离，根据计算得到的距离，判断第一特征向量集中的特征向量与第二特征向量集中的特征向量之间的相似性，得到分类的结果。

参照图4，本申请实施例部分还提供了一种基于向量空间的文本分类装置，所述装置包括：

第一特征向量集获取模块401，用于获取已知类别的训练数据，通过对所述训练数据进行预处理，获取第一特征向量集，所述第一特征向量集中包含所述训练数据的第一特征向量；

第二特征向量集获取模块402，用于获取待分类文本，通过对所述待分类文本进行预处理，获取第二特征向量集，所述第二特征向量集中包含所述待分类文本的第二特征向量；

向量距离计算模块403，用于计算所述第一特征向量分别与所述第二特征向量的向量距离；

分类结果获取模块404，用于根据所述向量距离确定所述第二特征向量与所述第一特征向量的相似概率，并通过所述相似概率以及所述训练数据的类别，获取所述待分类文本的分类结果。

进一步地，所述第一特征向量集获取模块还包括：

第一分词单元4011，用于对所述已知类别的训练数据进行分词；

第一短语识别单元4012，用于对分词之后的训练数据进行短语识别；

第一计算单元4013，用于计算短语识别之后的训练数据的特征向量。

进一步地，所述第二特征向量集获取模块还包括：

第二分词单元4021，用于对所述待分类文本进行分词；

第二短语识别单元4022，用于对分词之后的待分类文本进行短语识别；

第二计算单元4023，用于计算短语识别之后的待分类文本的特征向量。

余弦向量距离单元，用于确定所述第一特征向量分别与所述第二特征向量的向量距离为余弦向量距离。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于向量空间的文本分类方法，其特征在于，包括：

2.根据权利要求1所述的基于向量空间的文本分类方法，其特征在于，对所述训练数据进行预处理的方法包括：

对所述已知类别的训练数据进行分词；

对分词之后的训练数据进行短语识别；

计算短语识别之后的训练数据的特征向量。

3.根据权利要求1所述的基于向量空间的文本分类方法，其特征在于，对所述待分类文本进行预处理的方法包括：

对所述待分类文本进行分词；

对分词之后的待分类文本进行短语识别；

计算短语识别之后的待分类文本的特征向量。

4.根据权利要求1所述的基于向量空间的文本分类方法，其特征在于，

所述第一特征向量分别与所述第二特征向量的向量距离为余弦向量距离。

5.根据权利要求4所述的基于向量空间的文本分类方法，其特征在于，通过以下公式计算所述余弦向量距离：

6.一种基于向量空间的文本分类装置，其特征在于，包括：

7.根据权利要求6所述的基于向量空间的文本分类装置，其特征在于，所述第一特征向量集获取模块还包括：

第一分词单元，用于对所述已知类别的训练数据进行分词；

8.根据权利要求6所述的基于向量空间的文本分类装置，其特征在于，所述第二特征向量集获取模块还包括：

第二分词单元，用于对所述待分类文本进行分词；

9.根据权利要求6所述的基于向量空间的文本分类装置，其特征在于，所述向量距离计算模块包括：

10.根据权利要求9所述的基于向量空间的文本分类装置，其特征在于，所述余弦向量距离单元包括：