CN109871443A

CN109871443A - 一种基于记账场景的短文本分类方法及装置

Info

Publication number: CN109871443A
Application number: CN201811586935.7A
Authority: CN
Inventors: 孙长会
Original assignee: Hangzhou Maocai Network Technology Co Ltd
Current assignee: Hangzhou Maocai Network Technology Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-06-11

Abstract

本发明涉及一种基于记账场景的短文本分类方法和装置。一种基于记账场景的短文本分类方法，包括：将待分类的记账网银文本进行数据预处理，包括：分词、去除分词后的文本中的停用词和/或高频词以及提取关键词；将经过数据预处理的文本输入到输入预先建立的FastText分类模型中，预测待分类文本所述的类别。一种基于记账场景的短文本分类装置，适用于如上所述的基于记账场景的短文本分类方法，包括：数据预处理单元和文本分类单元。本发明采用FastText文本分类模型，无需人工构造特征，特征的提取能够实现自动化；也无需提前训练词向量，词向量在模型训练过程中会自动完成。

Description

一种基于记账场景的短文本分类方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种基于记账场景的短文本分类方法和装置。

背景技术

用户网银文本记账场景中，网银文本的生成并非来自用户，而是来自各家银行机构以及第三方交易平台，由于行业内并没有统一标准及规范术语，于是就是出现了很多诸如：“网上支付”、“快捷支付”、“银联代收”、“跨行消费”等等交易文本信息，用户在使用软件记账过程中，想将该文本进行准确分类将会很困难，一方面这些文本简短且信息含义不明确，用户不知道该分到哪个类目；另一方面，如果软件类目较多，用户在人工选择类目时，需要进行多次对比和选择，会比较费时费神，可能会降低用户记账积极性，影响用户体验。

目前常见的文本分类算法有很多，比如基于字典的关键词匹配算法，基于人工设计特征的传统机器学***衡问题影响较严重，特别是在记账场景下，有些类目出现的频次少，而部分类目出现次数占总体的绝大部分，这种算法缺陷会受到很大影响。基于深度学习如CNN、LSTM等算法，通过构建多隐层的神经网络，可以学习到更加抽象的高层属性类别或特征，以发现数据的特征分布表示，进而进行文本分类，该类算法准确率较高，但是需要额外进行Word2Vec词向量训练，同时神经网络构建及调参过程也较复杂，模型训练异常耗时，一般长达几小时甚至更长时间才能完成训练。

申请号为201610285420.8的在先专利申请公开了一种短文本分类方法及装置，分类器模型选择上其使用了基于传统机器学习的SVM分类模型。如上所述，多个类别SVM分类模型，在针对上百类目分类场景，效果欠佳。该方案的不足之处在于，需要构建与类目相同数目的分类器，这个代价花费很大。如在记账场景下，拥有100个类目，那么就需要训练100个分类器，一方面数据是否能够支持模型的有效训练存在问题，另一方面每一条文本都要经过N 个分类器的分类才能判定所属类目，计算的代价巨大。

申请号为201710469373.7的在先专利申请公开了短文本分类方法及装置，其使用了基于深度学习的CNN及Bi-LSTM分类模型。该方案的不足之处在于，需要事先准备大规模语料库，并单独进行Word2Vec词向量训练，同时神经网络构建及调参过程也较复杂，模型训练一般长达几小时甚至更长时间才能完成训练，模型验证效率较低。过于复杂的神经网络，还容易出现过拟合问题。

因此在记账网银文本分类场景中，需要应对几个重要问题：(1)特征抽取，传统文本特征抽取依赖于文本字面意思的表达，或者依赖领域专家的经验构建。但是这两种方式都有一定的缺陷，文本字面意思的表达会因为分词的原因损失一定量上下文的信息，而领域专家的经验构建会因为个人的主观因素造成信息表达失衡；(2)网银文本是短文本，因此针对长文本设计的特征以及算法都有可能失效；(3)记账分类是上百类目的多分类任务，之前在二分类及少量类目分类上表现不错的算法可能会存在效果打折严重问题；(4)类目数据分布不均衡，一些类目(如餐饮、购物百货等)包含数据量较多，而另一些类目(办公花费、报刊书籍等)包含数据量偏少。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于记账场景的短文本分类方法和装置，该分类方法在数据预处理阶段，将资金流向信息及文本关键词补充到分词后的记账网银文本中，以扩充文本信息，使待分类文本具有足够的文本数据以保证精度；同时合理去除分词后的文本中的停用词、高频词汇，以降低数据噪声。采用FastText文本分类模型，FastText 模型无需人工构造特征，特征的提取能够实现自动化；也无需提前训练词向量，词向量在模型训练过程中会自动完成；FastText模型本质上属于浅层神经网络，虽然属于浅层神经网络，但无论性能、还是预测准确率都取得了较好的效果，非常适合大规模的文本分类问题。

为了实现上述的目的，本发明提供了一种基于记账场景的短文本分类方法，包括：

将待分类的记账网银文本进行数据预处理，包括：分词、去除分词后的文本中的停用词和/或高频词以及提取关键词；

将经过数据预处理的文本输入到输入预先建立的FastText分类模型中，预测待分类文本所述的类别。

作为优选，所述去除停用词和/或高频词包括：

构建停用词、高频词库；

对比分词结果中的词汇和停用词、高频词库，检测是否有词汇出现在词库中，如果出现，则过滤掉。

作为优选，通过TextRank算法提取关键词。

作为优选，记账网银数据除了包含交易文本信息外，还会有资金流水记录，判断资金流水金额正负，若资金流水金额为正数，映射成“支出”字段补充到分词结果中；若资金流水金额为负数，映射成“收入”字段补充到分词结果中。

作为优选，建立FastText文本分类模型包括以下步骤：

1)搭建FastText分类模型，包括：添加输入层、隐含层和输出层，指定损失函数、优化器类型和评价指标；

2)将记账网银文本训练数据输入FastText分类模型，所述记账网银文本训练数据库包括多条记账网银文本和对应每条记账网银文本的所属类别；

3)按指定的优化器类型对FastText分类模型进行优化并执行步骤2)，直至准确率达到预设的评价指标；

其中，记账网银文本来自第三方。

作为优选，在隐含层计算时，将输入FastText分类模型的文本的N-gram特征也加进去参与运算。

作为优选，所述输出层采用Hierarchical Softmax分类。

本发明还提供了一种基于记账场景的短文本分类装置，适用于如上所述的基于记账场景的短文本分类方法，包括：

数据预处理单元，用于将待分类的记账网银文本进行数据预处理；

文本分类单元，用于将经过数据预处理的文本输入到输入预先建立的FastText分类模型中，预测待分类文本所述的类别并输出。

本发明还提供了一种终端，包括一个或多个处理器，以及与所述处理器通信连接的存储装置，其中，所述存储装置存储有能被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上所述的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如上所述的方法。

本发明具有以下优点：

1.实现了自动化特征提取，提高特征的有效性。

2.解决了特征表达稀疏问题，模型在训练过程中自动将短文本的词特征映射到词向量空间，无需事先准备语料库及单独训练词向量。

3.解决了短文本存在的长度短造成的特征表达的问题。将资金流向信息及文本关键词补充到原始文本中，使得向量表征更有效，语义更丰富。

4.解决了上百类目的多分类问题，以及类目数据分布不均衡问题对分类算法造成的影响。

5.解决了模型训练耗时，模型验证效率低下问题。本发明单次训练仅需几分钟，准确率及召回率即可比肩单次训练需要几小时的深度学习算法。

附图说明

图1为本发明的方法流程图；

图2为数据预处理的方法流程图；

图3为FastText分类模型结构图。

具体实施方式

为了清楚起见，首先说明本发明使用的特定词或短语的定义。

FastText：Facebook推出的一个用于文本分类和计算词向量的工具。

TextRank:关键词提取，即从一段给定的文本中抽取出若干有意义的词或词组。

Hierarchical Softmax：用霍夫曼树层级关系替代扁平化的softmax层，计算时只需要沿着通向该词语的叶子节点的路径搜索，既可以提高计算速度，又可以解决不平衡分类问题。

下面结合附图对本专利的优选实施方案作进一步详细的说明。

如图1所示的一种基于记账场景的短文本分类方法，包括：

将待分类的记账网银文本进行数据预处理；

如图2所示，所述数据预处理包括：分词、去除分词后的文本中的停用词和/或高频词以及提取关键词，针对记账网银文本长度的不确定性，数据预处理还包括提取资金流向信息，将其补充至分词后的记账网银文本中，以扩充文本信息。

其中：

分词是通过开源的分词工具或分词算法实现，例如jieba工具。

用户记账网银数据除了包含交易文本信息外，还会有资金流水记录。行业内，流水金额为正数，表示该笔资金为支出；金额流水为负数，表示该笔资金为收入。我们提出根据资金流水金额正负，映射成相应的“支出”与“收入”字段，将其补充到分词后的记账网银文本。

通过TextRank算法提取关键词，TextRank是一种基于图结构的模型，由PageRank的思想演化而来，其主要思想是：初始化图的顶点为文档中所有的词，默认顶点的权重为1或者词总数的倒数，针对特定词w，可以给其后大小为size的窗口内的各个词投票，同时增加一条从该特定词连接窗口内其余词的边，并将该条边的权重设置为1，如果该条边已经存在，则将该边的权重加1，经过特定次迭代后，每个顶点的权重代表该词的重要程度。使用TextRank算法提取网银文本关键词，并将其补充到分词后的记账网银文本。

所述去除停用词和/或高频词包括：

构建停用词、高频词库；

通过对大量记账网银文本数据分析，我们构建了一个比较丰富的停用词、高频词库(如：“的”、“【】”等将被划分到停用词库；“支付宝”、“财付通”等将被划分到高频词库)。对分词结果中的所有词汇，检测是否有词汇出现在词库中，如果出现，则过滤掉。通过对比实验，可以看出去除停用词、高频词后，分类准确率明显提升。

由于本方案不需要额外准备语料库及单独训练词向量，至此数据预处理阶段完成，相比其他方案，本方案实施过程复杂度低，时间成本也非常低。

FastText文本分类模型的结构如图3所示，建立FastText文本分类模型包括以下步骤：

其中，记账网银文本来自第三方。

其中，输入层(embedding层)的输入是经过数据预处理后的词汇集合的索引序列，输入层包括词向量查找表wi_，输入层将每个单词映射成向量，以便后续计算，该向量的维度自定义。FastText模型无需人工构造特征，特征的提取能够实现自动化；也无需提前训练词向量，词向量在模型训练过程中会自动完成。仅仅需要将预处理后的数据集输入进模型，模型会自动构建词典。

隐含层用于将输入的所有单词的向量进行叠加平均。为了避免丢失词顺序信息，保留一定的上下文关系，在隐含层计算中，将N-gram特征引入，具体做法是把N-gram当成一个词，也用词向量来表示，在计算隐层时，把N-gram的词向量也加进去参与运算，如：某条记账网银文本包含3个词：w1，w2，w3，当N-gram的N取2时，那么w12、w23将连同w1、w2、w3 一起参加运算。

输出层，可以采用扁平化softmax分类或hierarchical softmax分类，优选hierarchical softmax分类。采用记账网银数据中，一些类目(如餐饮、购物百货等)包含数据量很大，而另一些类目(办公花费、报刊书籍等)数据量偏少，这样生成的数据集，各个类目将会有很严重的数据倾斜。我们采用hierarchical softmax替代扁平化的softmax层，对于每个目标词，都可以在构建好的霍夫曼树上确定一条从根节点到叶子节点的路径，路径上的每个非叶子节点都会进行一次逻辑回归运算，参数保存在wo_的各行上，训练时，这条路径上的逻辑回归运算各自独立进行参数更新，并反向传播至hidden_层，以更新梯度grad_值。由于仅仅沿着霍夫曼树编码路径计算，而不需要考虑其他节点，也不依赖于其他叶子节点，所以可以很好解决数据集不平衡问题。并且，采用hierarchical softmax可以提升模型训练速度，当类目数为k，词向量维度大小为n时，计算复杂度可以从O(kn)降到O(nlog(k))。通过选择该训练策略，对于百万级别数据，在普通的CPU上既可以实现分钟级别的训练，比使用专门GPU的深度学习模型训练要快几个数量级。

综上，上述方法具有以下优点：

1.在数据预处理阶段，将资金流向信息及记账网银文本关键词组合到记账文本中，同时构建停用词库及高频词库，以过滤常用的停用词、高频词，使用这些文本预处理方法提高分类准确率及召回率；

2.采用FastText库作为记账网银文本分类模型，该库适合大规模的文本分类问题。

3.模型训练过程中，采用了N-gram的特征，以保留文本上下文关系，避免丢失词顺序信息，提高分类准确率及召回率。同时我们采用hierarchical softmax代替扁平化的softmax 层，既解决了类目不均衡问题，又提升了模型训练速度。

上述短文本分类方法，不仅仅局限于记账网银文本分类问题，还可以应用于商品文本分类、情感分析分类等等场景。

本申请实施例还提供一种是用于本实施例中的基于记账场景的短文本分类方法，包括：

本发明的实施例还提供一种终端，包括一个或多个处理器，以及与所述处理器通信连接的存储装置，其中，所述存储装置存储有能被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述实施例提供的文本分类方法。

本实施例还提供一种非暂态计算机可读存储介质，该存储有计算机程序，其中，该计算机程序被处理器执行时实现上述实施例提供的文本分类方法。

本领域普通技术人员可以理解：实现上述方法的实施例全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于以计算机可读存储介质中，该程序执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或光盘等各种可以存储程序代码的介质。

Claims

1.一种基于记账场景的短文本分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于记账场景的短文本分类方法，其特征在于，所述去除停用词和/或高频词包括：

构建停用词、高频词库；

3.根据权利要求1所述的一种基于记账场景的短文本分类方法，其特征在于，通过TextRank算法提取关键词。

4.根据权利要求1所述的一种基于记账场景的短文本分类方法，其特征在于，所述数据预处理包括，提取待处理的记账网银文本的资金流向信息，补充到分词结果中。

5.根据权利要求4所述的一种基于记账场景的短文本分类方法，其特征在于，记账网银数据除了包含交易文本信息外，还会有资金流水记录，判断资金流水金额正负，若资金流水金额为正数，映射成“支出”字段补充到分词结果中；若资金流水金额为负数，映射成“收入”字段补充到分词结果中。

6.根据权利要求1所述的一种基于记账场景的短文本分类方法，其特征在于，建立FastText文本分类模型包括以下步骤：

其中，记账网银文本来自第三方。

7.根据权利要求6所述的一种基于记账场景的短文本分类方法，其特征在于，在隐含层计算时，将输入FastText分类模型的文本的N-gram特征也加进去参与运算。

8.根据权利要求6所述的一种基于记账场景的短文本分类方法，其特征在于，所述输出层采用Hierarchical Softmax分类。

9.一种基于记账场景的短文本分类装置，适用于如权利要求1-8中任一项所述的基于记账场景的短文本分类方法，其特征在于，包括：

10.一种终端，其特征在于，包括一个或多个处理器，以及与所述处理器通信连接的存储装置，其中，所述存储装置存储有能被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。