CN110913354A

CN110913354A - 短信分类方法、装置及电子设备

Info

Publication number: CN110913354A
Application number: CN201811084292.6A
Authority: CN
Inventors: 高喆; 康杨杨; 周笑添; 孙常龙; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2020-03-24

Abstract

本申请公开了短信分类方法和装置，短信类别预测模型构建方法和装置，以及电子设备。其中，短信分类方法包括：获取待处理的短信文本；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。采用这种处理方式，使得结合深度多标签学习模型以提高特征的表达能力；因此，可以有效提升短信分类的准确度。

Description

短信分类方法、装置及电子设备

技术领域

本申请涉及文本分类技术领域，具体涉及短信分类方法和装置，短信类别预测模型构建方法和装置，以及电子设备。

背景技术

一种典型的短信发送场景是，商家通过网络平台向消费者发送短信，以便于将商品促销等信息及时送至消费者处，从而确保商家销售计划的有效实施，并提升用户体验。然而，伴随着这些有益效果的同时，也出现了大量垃圾短信。垃圾短信泛滥，已经严重影响到消费者正常生活、网络平台形象乃至社会稳定。

随着互联网技术的不断发展，越来越多的网络平台利用短信内容安全***对商对客(Business-to-Customer，B2C)的短信进行内容分析，并进行智能短信拦截和通道优化。其中，短信分类是短信内容安全***的一个重要功能，通过对短信进行分类，可以有效地对短信的各个属性维度进行分析，从而合理地调度短信发送的通道，使得业务更加安全，并降低整个发送成本。

短信分类方法主要分为三类：基于二分类模型的方法、基于多分类模型的方法、基于多标签学习的方法。其中，基于二分类模型的方法要为每个属性类别构建二分类，因此无法很好的刻画类别之间的依赖关系，另外由于要针对所有的类别单独训练模型，因此需要训练的模型数量会非常大；基于多分类模型的方法没有考虑属性类别间重叠的样本，在训练时会引入大量噪声，会出现一个样本在多类别出现，导致不可区分的问题；基于多标签学习的方法，如FastXML或SLEEC等等，在一定程度上解决了传统的单标签分类模型无法适应多标签分类的问题，因此成为目前最为常用的短信分类方法。

然而，在实现本发明过程中，发明人发现现有的基于多标签学习的短信分类方案至少存在如下问题：在面对大量类别时，现有短信特征表达过于简单，因此导致整体短信分类的准确度较低。

发明内容

本申请提供短信分类方法，以解决现有技术存在的短信分类准确度较低的问题。本申请另外提供短信分类装置，短信类别预测模型构建方法和装置，以及电子设备。

本申请提供一种短信分类方法，包括：

获取待处理的短信文本；

对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；

将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；

通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。

可选的，所述短信特征抽取子网络的网络结构包括双向长短期记忆网络结构Bi-LSTM；

所述将所述短信文本包括的词向量作为短信类别预测模型的输入数据，包括：

将所述短信文本包括的词向量的正向序列作为第一LSTM的输入数据；以及，将所述短信文本包括的词向量的反向序列作为第二LSTM的输入数据。

可选的，还包括：

获取所述短信文本对应的签名信息；

对所述签名信息执行词嵌入，得到所述签名信息的词向量；

所述通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值，包括：

通过所述多类别预测子网络，根据所述特征和所述签名信息的词向量，获取所述多类别预测值。

可选的，所述对所述签名信息执行词嵌入，得到所述签名信息的词向量，包括：

获取所述签名信息中字的字向量；

根据所述字向量，确定所述签名信息的词向量。

可选的，所述对所述短信文本执行词嵌入，得到所述短信文本包括的词向量，包括：

获取所述短信文本包括的第一词向量；以及，获取所述短信文本中字的字向量；

根据所述第一词向量和所述字向量，确定所述短信文本包括的词向量。

可选的，还包括：

获取包括类别标注信息的训练用短信文本集；

从所述训练用短信文本集中学习得到所述短信类别预测模型。

可选的，还包括：

获取所述训练用短信文本对应的签名信息；

所述从所述训练用短信文本集中学习得到所述短信类别预测模型，包括：

根据所述训练用短信文本集和所述训练用短信文本对应的签名信息，学习得到所述短信类别预测模型。

可选的，所述多类别预测子网络的损失函数包括二值交叉熵函数。

本申请还提供一种短信分类装置，包括：

短信文本获取单元，用于获取待处理的短信文本；

第一词嵌入单元，用于对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；

特征抽取单元，用于将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；

多类别预测单元，用于通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。

所述特征抽取单元，具体用于将所述短信文本包括的词向量的正向序列作为第一LSTM的输入数据；以及，将所述短信文本包括的词向量的反向序列作为第二LSTM的输入数据。

可选的，还包括：

签名信息获取单元，用于获取所述短信文本对应的签名信息；

第二词嵌入单元，用于对所述签名信息执行词嵌入，得到所述签名信息的词向量；

所述多类别预测单元，具体用于通过所述多类别预测子网络，根据所述特征和所述签名信息的词向量，获取所述多类别预测值。

可选的，所述第二词嵌入单元包括：

字向量获取子单元，用于获取所述签名信息中字的字向量；

词向量确定子单元，用于根据所述字向量，确定所述签名信息的词向量。

可选的，所述第一词嵌入单元包括：

第一词向量获取子单元，用于获取所述短信文本包括的第一词向量；

字向量获取子单元，用于获取所述短信文本中字的字向量；

词向量确定子单元，用于根据所述第一词向量和所述字向量，确定所述短信文本包括的词向量。

可选的，还包括：

训练样本获取单元，用于获取包括类别标注信息的训练用短信文本集；

模型训练单元，用于从所述训练用短信文本集中学习得到所述短信类别预测模型。

可选的，还包括：

获取所述训练用短信文本对应的签名信息；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现短信分类方法的程序，该设备通电并通过所述处理器运行该短信分类方法的程序后，执行下述步骤：获取待处理的短信文本；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。

本申请还提供一种短信类别预测模型构建方法，包括：

获取包括类别标注信息的训练用短信文本集；

根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；

将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。

可选的，还包括：

获取所述短信文本对应的签名信息；

对所述签名信息执行词嵌入，得到所述签名信息的词向量；

所述多类别预测子网络，具体用于根据所述特征和所述签名信息的词向量，获取所述多类别预测值。

本申请还提供一种短信类别预测模型构建装置，包括：

深度神经网络构建单元，用于根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；

模型训练单元，用于将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。

可选的，还包括：

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现短信类别预测模型构建方法的程序，该设备通电并通过所述处理器运行该短信类别预测模型构建方法的程序后，执行下述步骤：获取包括类别标注信息的训练用短信文本集；

根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的短信分类方法，通过获取待处理的短信文本；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括基于深度模型的短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值；这种处理方式，使得结合深度多标签学习模型以提高特征的表达能力；因此，可以有效提升短信分类的准确度。此外，这种处理方式只需要训练一个深度多标签学习模型，就可以学习短信文本和上千种短信类别之间的关系，不需要针对所有的类别单独训练模型；因此，可以有效降低模型数量。

本申请实施例提供的短信类别预测模型构建方法，通过获取包括类别标注信息的训练用短信文本集；根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型；这种处理方式，使得结合深度多标签学习模型以提高特征的表达能力；因此，可以有效提升短信类别预测模型的预测准确度。同时，由于只需要训练一个深度多标签学习模型，就可以学习短信文本和上千种短信类别之间的关系，不需要针对所有的类别单独训练模型；因此，可以有效降低模型数量。

附图说明

图1是本申请提供的一种短信分类方法的实施例的流程图；

图2是本申请提供的一种短信分类方法的实施例的短信类别预测模型的示意图；

图3是本申请提供的一种短信分类方法的实施例的具体流程图；

图4是本申请提供的一种短信分类方法的实施例的又一短信类别预测模型的示意图；

图5是本申请提供的一种短信分类方法的实施例的具体流程图；

图6是本申请提供的一种短信分类装置的实施例的示意图；

图7是本申请提供的一种短信分类装置的实施例的具体示意图；

图8是本申请提供的一种短信分类装置的实施例的具体示意图；

图9是本申请提供的电子设备的实施例的示意图；

图10是本申请提供的一种短信类别预测模型构建方法的实施例的流程图；

图11是本申请提供的一种短信类别预测模型构建方法的实施例的具体流程图；

图12是本申请提供的一种短信类别预测模型构建装置的实施例的示意图；

图13是本申请提供的一种短信类别预测模型构建装置的实施例的示意图；

图14是本申请提供的电子设备的实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了短信分类方法和装置，短信类别预测模型构建方法和装置，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请提供的一种短信分类方法实施例的流程图，该方法的执行主体包括短信分类装置。本申请提供的一种短信分类方法包括：

步骤S101：获取待处理的短信文本。

所述短信文本，又称为短消息文本或短信息文本，包括但不限于手机短信，也可以是即时消息等等其它形式的短信文本。

具体实施时，所述短信分类装置可拦截短信发送方实施发送的短信文本，对其进行多类别的识别，以便于进行智能短信拦截和通道优化等处理。

步骤S103：对所述短信文本执行词嵌入，得到所述短信文本包括的词向量。

在获取到待处理的短信文本之后，就可以通过词嵌入的方式，将短信文本按照词向量来组织，获取能够表达短信文本语义的词向量，以便于根据词向量挖掘文本特征。

在一个示例中，步骤S103可包括如下子步骤：1)通过分词算法，获取所述短信文本包括的词，作为短信词；2)对所述短信词执行词嵌入，得到所述短信词的词向量。

1)通过分词算法，获取所述短信文本包括的词，作为短信词。

具体实施时，可采用现有的分词算法对短信文本进行分词处理。现有的分词算法，可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。分词算法属于较为成熟的现有技术，此处不再赘述，可根据实际需求选取任意一种现有分词算法。

例如，垃圾短信为“尊敬的客户，5月办理XX贷打标可免费抢兑2080元皇冠拉杆箱…”，分词结果包括如下词：尊敬，客户，5月，办理，XX贷，打标，免费，抢，兑，2080元，皇冠，拉杆箱等等。

2)对所述短信词执行词嵌入，得到所述短信词的词向量。

在一个示例中，所述对所述短信词执行词嵌入，得到所述短信词的词向量的步骤，可包括如下子步骤：2.1)获取所述短信词的第一词向量；以及，获取所述短信词中字的字向量；2.2)根据所述第一词向量和所述字向量，确定所述短信词的词向量。

1)获取所述短信词的第一词向量；以及，获取所述短信词中字的字向量。

所述第一词向量，包括但不限于由Skip-Gram得到的词向量。

具体实施时，可首先采用离线或在线方式，计算预设的短信集中所有短信的基于字的语言模型的embedding(词嵌入，词向量)，如N-Gram或Skip-Gram语言模型，或采用cbow、glove等方式，以此确定短信词的第一词向量。采用这种处理方式，可以有效提升词向量的准确度，例如，短信A“买卖***，加我微信”，其中“***”是常见词；短信B是“买卖发瞟，加我微信”，“发瞟”是的词频比较低，但是embedding刻画了该词经常出现的上下文，因此“发瞟”和“***”在embedding是比较相似的。

2)根据所述第一词向量和所述字向量，确定所述短信词的词向量。

在本实施例中，短信文本包括短信词“abc”，abc的第一词向量是[1,2,3,4]，a的字向量是[1,1,1,1]，b的字向量是[2,2,2,2]，c的字向量是[3,3,3,3]，abc的最终词向量是[(1+(1+2+3)/3)/2,(2+(1+2+3)/3)/2,(3+(1+2+3)/3)/2,(4+(1+2+3)/3)/2]。采用这种处理方式，可以进一步提升词向量的准确度。

在得到所述短信文本包括的词向量之后，就可以进入下一步骤，通过短信类别预测模型包括的短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征。

步骤S105：将所述短信文本包括的词向量作为短信类别预测模型的输入数据，通过所述短信类别预测模型包括的短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征。

所述短信类别预测模型，是一种深度多标签学习模型。所述短信类别预测模型，包括短信特征抽取子网络和多类别预测子网络。其中，所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值。

所述短信特征抽取子网络，可采用多种深度神经网络结构，包括但不限于：卷积神经网络(Convolutional Neural Network,CNN)，循环神经网络(recurrent neuralnetwork,RNN)等等。

请参考图2，其为本申请提供的一种短信分类方法实施例的短信类别预测模型的示意图。在一个示例中，所述短信特征抽取子网络采用双向长短期记忆网络结构Bi-LSTM；相应的，所述将所述短信文本包括的词向量作为短信类别预测模型的输入数据，可采用如下方式处理：将所述短信文本包括的词向量的正向序列作为第一LSTM的输入数据；以及，将所述短信文本包括的词向量的反向序列作为第二LSTM的输入数据；相应的，两个LSTM的隐含层的输出作为所述多类别预测子网络的输入，连接至所述多类别预测子网络。

所述短信文本包括的词向量的正向序列，是指短信文本中短信词的从左到右的顺序排列的短信词序列。所述短信文本包括的词向量的反向序列，是指短信文本中短信词的从右到左的顺序排列的短信词序列。

本申请实施例提供的方法，通过采用基于Bi-LSTM的短信特征抽取子网络，使得可以建模词与词之间远距离的依赖关系，且可以从两个方向来建模，由于词之间的远距离依赖关系可以决定短信文本的类别情况；因此，可以有效提升类别预测的准确度。

在抽取出所述短信文本的特征之后，就可以进入下一步骤，通过所述多类别预测子网络，根据所述特征对短信文本的类别进行预测。

步骤S107：通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。

所述多类别预测子网络，包括所述特征的全连接层和输出层，通过全连接层综合所述短信文本的各种特征计算每一个类别的概率，将概率大于概率阈值(如0.5)的类别作为所述短信文本的类别。

所述短信类别，可以包括行业类别、内容类别、业务类别等等。例如：行业类别，可以是金融、房地产、教育、医疗、娱乐等等；内容类别，可以是留学移民、物流取件、婚恋交友等等；业务类别，可以是验证码、通知、营销等等。

请参考图3，其为本申请提供的一种短信分类方法实施例的具体流程图。在一个示例中，所述方法还包括如下步骤：

步骤S301：获取所述短信文本对应的签名信息。

所述签名信息，可用于区分短信发送方，即短信归属方。多个短信发送方可借助同一网络平台向消费者用户发送短信。网络平台可根据短信发送方标识对不同商家进行识别，将短信发送方标识作为短信的签名信息。发送方在设定发送内容时，需要设定好签名和短信内容。

需要说明的是，所述签名信息，包括但不限于短信的发送方标识等信息，也可以是其它可以对短信进行标识的信息。

例如，短信文本为“尊敬的客户，5月办理XX贷打标可免费抢兑2080元皇冠拉杆箱…”，该短信的发送方为“XX贷”，因此可将该短信的签名设置为“XX贷”。

步骤S303：对所述签名信息执行词嵌入，得到所述签名信息的词向量。

在一个示例中，步骤S303可包括如下子步骤：1)获取所述签名信息中字的字向量；2)根据所述字向量，确定所述签名信息的词向量。

在本实施例中，签名信息的词向量为每个字的词向量的平均值。例如，签名信息为“abc”，a的字向量是[1,1,1,1]，b的字向量是[2,2,2,2]，c的字向量是[3,3,3,3]，abc的词向量是[(1+2+3)/3,(1+2+3)/3,(1+2+3)/3,(1+2+3)/3]。

请参考图4，其为本申请提供的一种短信分类方法实施例的又一短信类别预测模型的具体示意图。在图3所示的情况下，所述通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值，可采用如下方式实现：通过所述多类别预测子网络，根据所述特征和所述签名信息的词向量，获取所述多类别预测值。

本申请实施例提供的方法，通过获取所述短信文本对应的签名信息，并对所述签名信息执行词嵌入，得到所述签名信息的词向量，并通过所述多类别预测子网络，根据所述特征和所述签名信息的词向量，获取所述多类别预测值；这种处理方式，使得在根据短信文本特征对短信类别进行预测的基础上，还引入签名文本信息，根据签名特征对短信类别进行辅助判断；因此，可以有效提升类别预测的准确度。

需要说明的是，要实施本申请实施例提供的方法，首先要构建短信类别预测模型，所述短信类别预测模型可从训练数据中学习获得。

请参考图5，其为本申请提供的一种短信分类方法实施例的构建短信类别预测模型的流程图。在本实施例中，所述方法还包括如下步骤：

步骤S501：获取包括类别标注信息的训练用短信文本集。

所述训练用短信文本集，包括多个短信文本与类别标注信息之间的对应关系。

步骤S503：从所述训练用短信文本集中学习得到所述短信类别预测模型。

在获取到训练用短信文本集后，就可以通过深度学习算法，从所述训练用短信文本集中学习得到所述短信类别预测模型。由于深度学习算法属于较为成熟的现有技术，因此此处不再赘述。

在一个示例中，要构建短信类别预测模型，还包括如下步骤：获取所述训练用短信文本对应的签名信息；相应的，步骤S503可采用如下方式：根据所述训练用短信文本集和所述训练用短信文本对应的签名信息，学习得到所述短信类别预测模型。

在训练所述短信类别预测模型时，所述多类别预测子网络的损失函数可采用二值交叉熵函数，也可以采用普通的交叉熵函数。

本申请实施例提供的方案，通过在训练深度多标签学习模型时采用二值交叉熵的损失函数，一方面使得可以在面对大量类别时，在一定程度上解决某些类别的短信样本稀疏的问题，另一方面，还考虑属性类别间重叠的样本，不会在模型训练时引入大量噪声，由此可避免出现多分类时一个样本在多类别出现，导致不可区分的问题；因此，可以有效提升类别预测正确度。

从上述实施例可见，本申请实施例提供的短信分类方法，通过获取待处理的短信文本；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括基于深度模型的短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值；这种处理方式，使得结合深度多标签学习模型以提高特征的表达能力；因此，可以有效提升短信分类的准确度。此外，这种处理方式只需要训练一个深度多标签学习模型，就可以学习短信文本和上千种短信类别之间的关系，不需要针对所有的类别单独训练模型；因此，可以有效降低模型数量。

在上述的实施例中，提供了一种短信分类方法，与之相对应的，本申请还提供一种短信分类装置。该装置是与上述方法的实施例相对应。

第二实施例

请参看图6，其为本申请的短信分类装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种短信分类装置，包括：

短信文本获取单元601，用于获取待处理的短信文本；

第一词嵌入单元602，用于对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；

特征抽取单元603，用于将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；

多类别预测单元604，用于通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。

所述特征抽取单元603，具体用于将所述短信文本包括的词向量的正向序列作为第一LSTM的输入数据；以及，将所述短信文本包括的词向量的反向序列作为第二LSTM的输入数据。

请参看图7，其为本申请的短信分类装置的实施例的具体示意图。可选的，还包括：

签名信息获取单元701，用于获取所述短信文本对应的签名信息；

第二词嵌入单元702，用于对所述签名信息执行词嵌入，得到所述签名信息的词向量；

所述多类别预测单元604，具体用于通过所述多类别预测子网络，根据所述特征和所述签名信息的词向量，获取所述多类别预测值。

可选的，所述第二词嵌入单元702包括：

字向量获取子单元，用于获取所述签名信息中字的字向量；

可选的，所述第一词嵌入单元602包括：

字向量获取子单元，用于获取所述短信文本中字的字向量；

请参看图8，其为本申请的短信分类装置的实施例的具体示意图。可选的，还包括：

训练样本获取单元801，用于获取包括类别标注信息的训练用短信文本集；

模型训练单元802，用于从所述训练用短信文本集中学习得到所述短信类别预测模型。

可选的，还包括：

获取所述训练用短信文本对应的签名信息；

第三实施例

请参考图9，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器901和存储器902；所述存储器，用于存储实现短信分类方法的程序，该设备通电并通过所述处理器运行该短信分类方法的程序后，执行下述步骤：获取待处理的短信文本；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为短信类别预测模型的输入数据，所述短信类别预测模型包括短信特征抽取子网络和多类别预测子网络，通过所述短信特征抽取子网络，根据所述短信文本包括的词向量抽取所述短信文本的特征；通过所述多类别预测子网络，根据所述特征获取所述短信文本的多类别预测值。

在上述的实施例中，提供了一种短信分类方法，与之相对应的，本申请还提供一种短信类别预测模型构建方法。该方法是与上述方法的实施例相对应。

第四实施例

请参考图10，其为本申请提供的一种短信类别预测模型构建方法实施例的流程图，该方法的执行主体包括短信类别预测模型构建装置。由于该方法实施例是实施例一的方法实施例的一部分，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请提供的一种短信类别预测模型构建方法包括：

步骤S1001：获取包括类别标注信息的训练用短信文本集。

步骤S1003：根据多个待预测类别，构建深度神经网络。

所述待预测类别，是指通过短信类别预测模型可预测的短信类别。所述待预测类别，可以包括行业类别、内容类别、业务类别等等。例如：行业类别，可以是金融、房地产、教育、医疗、娱乐等等；内容类别，可以是留学移民、物流取件、婚恋交友等等；业务类别，可以是验证码、通知、营销等等。

所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值。

步骤S1005：对所述短信文本执行词嵌入，得到所述短信文本包括的词向量。

步骤S1007：将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。

所述多类别预测子网络的损失函数包括二值交叉熵函数。

请参考图11，其为本申请提供的一种短信类别预测模型构建方法实施例的具体流程图。在本实施例中，所述方法还包括如下步骤：

步骤S1101：获取所述短信文本对应的签名信息。

步骤S1103：对所述签名信息执行词嵌入，得到所述签名信息的词向量。

在这种情况下，所述多类别预测子网络，具体用于根据所述特征和所述签名信息的词向量，获取所述多类别预测值。

从上述实施例可见，本申请实施例提供的短信类别预测模型构建方法，通过获取包括类别标注信息的训练用短信文本集；根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型；这种处理方式，使得结合深度多标签学习模型以提高特征的表达能力；因此，可以有效提升短信类别预测模型的预测准确度。同时，由于只需要训练一个深度多标签学习模型，就可以学习短信文本和上千种短信类别之间的关系，不需要针对所有的类别单独训练模型；因此，可以有效降低模型数量。

在上述的实施例中，提供了一种短信类别预测模型构建方法，与之相对应的，本申请还提供一种短信类别预测模型构建装置。该装置是与上述方法的实施例相对应。

第五实施例

请参看图12，其为本申请的短信类别预测模型构建装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种短信类别预测模型构建装置，包括：

训练样本获取单元1201，用于获取包括类别标注信息的训练用短信文本集；

深度神经网络构建单元1202，用于根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；

第一词嵌入单元1203，用于对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；

模型训练单元1204，用于将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。

请参看图13，其为本申请的短信类别预测模型构建装置的实施例的具体示意图。在本实施例中，所述装置还包括：

签名信息获取单元1301，用于获取所述短信文本对应的签名信息；

第二词嵌入单元1302，用于对所述签名信息执行词嵌入，得到所述签名信息的词向量；

第六实施例

请参考图14，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器1401和存储器1402；所述存储器，用于存储实现短信类别预测模型构建方法的程序，该设备通电并通过所述处理器运行该短信类别预测模型构建方法的程序后，执行下述步骤：获取包括类别标注信息的训练用短信文本集；根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种短信分类方法，其特征在于，包括：

获取待处理的短信文本；

2.根据权利要求1所述的方法，其特征在于，

所述短信特征抽取子网络的网络结构包括双向长短期记忆网络结构B i-LSTM；

3.根据权利要求1所述的方法，其特征在于，还包括：

获取所述短信文本对应的签名信息；

对所述签名信息执行词嵌入，得到所述签名信息的词向量；

4.根据权利要求3所述的方法，其特征在于，所述对所述签名信息执行词嵌入，得到所述签名信息的词向量，包括：

获取所述签名信息中字的字向量；

根据所述字向量，确定所述签名信息的词向量。

5.根据权利要求1所述的方法，其特征在于，所述对所述短信文本执行词嵌入，得到所述短信文本包括的词向量，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

获取包括类别标注信息的训练用短信文本集；

7.根据权利要求6所述的方法，其特征在于，还包括：

获取所述训练用短信文本对应的签名信息；

8.根据权利要求6所述的方法，其特征在于，所述多类别预测子网络的损失函数包括二值交叉熵函数。

9.一种短信分类装置，其特征在于，包括：

短信文本获取单元，用于获取待处理的短信文本；

10.根据权利要求9所述的装置，其特征在于，

所述短信特征抽取子网络的网络结构包括双向长短期记忆网络结构Bi-LSTM；

11.根据权利要求9所述的装置，其特征在于，还包括：

12.根据权利要求11所述的装置，其特征在于，所述第二词嵌入单元包括：

字向量获取子单元，用于获取所述签名信息中字的字向量；

13.根据权利要求9所述的装置，其特征在于，所述第一词嵌入单元包括：

字向量获取子单元，用于获取所述短信文本中字的字向量；

14.根据权利要求9所述的装置，其特征在于，还包括：

15.根据权利要求14所述的装置，其特征在于，还包括：

获取所述训练用短信文本对应的签名信息；

16.一种电子设备，其特征在于，包括：

处理器；以及

17.一种短信类别预测模型构建方法，其特征在于，包括：

获取包括类别标注信息的训练用短信文本集；

18.根据权利要求17所述的方法，其特征在于，还包括：

获取所述短信文本对应的签名信息；

对所述签名信息执行词嵌入，得到所述签名信息的词向量；

19.根据权利要求17所述的方法，其特征在于，所述多类别预测子网络的损失函数包括二值交叉熵函数。

20.一种短信类别预测模型构建装置，其特征在于，包括：

21.根据权利要求20所述的装置，其特征在于，还包括：

22.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储实现短信类别预测模型构建方法的程序，该设备通电并通过所述处理器运行该短信类别预测模型构建方法的程序后，执行下述步骤：获取包括类别标注信息的训练用短信文本集；根据多个待预测类别，构建深度神经网络；其中，所述深度神经网络包括基于深度模型的短信特征抽取子网络和多类别预测子网络；所述短信特征抽取子网络，用于根据所述短信文本包括的词向量抽取所述短信文本的特征；所述多类别预测子网络，用于根据所述特征获取所述短信文本的多类别预测值；对所述短信文本执行词嵌入，得到所述短信文本包括的词向量；将所述短信文本包括的词向量作为所述深度神经网络的输入数据，将所述类别标注信息作为所述深度神经网络的输出数据，根据所述训练用短信文本集对所述深度神经网络进行训练，得到短信类别预测模型。