CN108595440B

CN108595440B - 短文本内容分类方法和***

Info

Publication number: CN108595440B
Application number: CN201810447731.9A
Authority: CN
Inventors: 赵建强; 申强; 江汉祥
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2022-03-18
Anticipated expiration: 2038-05-11
Also published as: CN108595440A

Abstract

本发明公开了一种短文本内容分类方法，其包括：取得社交网络平台的短文本内容；取得该短文本内容的上下文情感特征值和先验情感特征值；使用模型训练生成该短文本内容的词向量；利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；使用双向长短时记忆网络获得该短文本内容的语义表征；以及组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。本发明还公开了一种短文本内容分类***，可实现前述的短文本内容分类方法。

Description

短文本内容分类方法和***

技术领域

本发明涉及信息处理技术领域，并且特别涉及一种基于深度神经网络的短文本内容分类方法和***。

背景技术

以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介，因而成为社会公共舆论、企业品牌和产品推广和传统媒体传播的主要平台。截止2017年9月，全球性的微博服务站点Twitter的月活跃用户达到3.3亿，而中文微博平台新浪微博的月度活跃用户数达到3.76亿、日活跃用户达到1.65亿。数以亿计的活跃用户来自不同的社会文化背景且遍布全球，每时每刻都在生成大量包含用户的意见和情绪的文本信息。

***会通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法，因此针对特定应用需求来识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息，是当前互联网信息处理、数据挖掘、计算语言学等领域的一个热点研究问题，在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。

然而，由于微博的文本短小、语法结构不完整、而且其中的表述随意和充斥噪声，使得微博文本的分类面临极大的挑战。现有的分类方式主要是采用人工方式来构建分类特征，而分类特征多使用词袋模型，难以刻画词序信息，且面临了维数***和数据稀疏的问题。此外，微博的文本经常出现“明褒暗贬”或隐式的表述方式，而人工构建特征的方式难以发现和描述这类隐含的语义关系。

发明内容

本发明提出了一种短文本内容分类方法和***，避免了维数***和数据稀疏的问题，并有效地提升了短文本内容的分类性能。

在一个方面，提出了一种短文本内容分类方法，其包括：取得社交网络平台的短文本内容；取得该短文本内容的上下文情感特征值和先验情感特征值；使用模型训练生成该短文本内容的词向量和分类特征向量；利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；使用双向长短时记忆网络获得该短文本内容的语义表征；以及组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。

在一些具体实施例中，生成该短文本内容的上下文情感特征值向量t_c；以及生成该短文本内容的先验情感特征值向量SenScore(t)。

在一些具体实施例中，使用第一模型训练生成该短文本内容的分布式词向量t＝[w₁,w₂,...,w_n]，其中w_i是该短文本内容中的单词项w_i，每个单词项w_i都是一个向量；将该分布式词向量t输入到一个深度卷积神经网络的卷积层，以生成该短文本内容的上下文局部特征向量x_t＝[x₁,x₂,...x_t]；将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量，并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量，并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量h_n；使用第二模型训练生成该短文本内容的句子级特征向量t_d；以及组合该上下文局部特征向量x_t、该新向量h_n以及该句子级特征向量t_d，以生成多层次文本语义向量o_t。

在一些具体实施例中，将该多层次文本语义向量o_t输入深度卷积神经网络的池化层，以生成向量o'_t；以及将该向量o'_t再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作，直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作，使得该最后一层的该Top-K池化操作输出向量t′_i。

在一些具体实施例中，连接该上下文情感特征值向量t_c、该先验情感特征值向量SenScore(t)和该向量t′_i，以生成向量y'；将该向量y'输入深度卷积神经网络的全连接层，以取得输出向量y；以及使用第一函数对该输出向量y进行计算，以取得该短文本内容属于一或多个内容类别的概率值P(i|t，θ)，并将该概率值P(i|t，θ)为最大的该内容类别作为该短文本内容的类别。

在一些具体实施例中，该先验情感特征值

其中w_i是该短文本内容中的单词项，n是该短文本内容的长度，PMI(w_i,pos)是单词项w_i与正向情感分类的点互信息，PMI(w_i,neg)是单词项w_i与负向情感分类的点互信息。

在一些具体实施例中，该输出向量y＝Wy'+b，其中W是深度卷积神经网络的输出层的转移矩阵，b是该输出层的偏置系数。

在一些具体实施例中，该概率值

在一些具体实施例中，该向量

在另一个方面，提出了一种短文本内容分类***，其包括处理器和存储器，该存储器中存储有短文本内容分类单元。该短文本内容分类单元用于：取得社交网络平台的短文本内容；取得该短文本内容的上下文情感特征值和先验情感特征值；使用模型训练生成该短文本内容的词向量；利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；使用双向长短时记忆网络获得该短文本内容的语义表征；以及组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。

本发明通过取得社交网络平台的短文本内容，再取得短文本内容的上下文情感特征值和先验情感特征值，并使用模型训练生成短文本内容的词向量，解决了短文本内容的词向量的维数***和数据稀疏的问题。此外，还利用多窗口卷积操作来取得不同粒度的短文本内容的语义关系，并组合池化操作而从不同层次对短文本内容的语义表示进行抽象化，最后再组合不同层次的情感特征向量，从而能够更加全面和多样的描述短文本内容的情感语义特征，进而提高短文本内容的分类性能。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其他实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。

图1是根据本发明的一个实施例的短文本内容分类方法的流程图；以及

图2是根据本发明的一个实施例的短文本内容分类***的示意图。

具体实施方式

在以下详细描述中，参考附图，该附图形成详细描述的一部分，并且通过其中可实践本发明的说明性具体实施例来示出。应当理解的是，可以利用其他实施例或可以做出逻辑改变，而不背离本发明的范围。因此以下详细描述不应当在限制的意义上被采用，并且本发明的范围由所附权利要求来限定。

图1示出了根据本发明的一个实施例的短文本内容分类方法的流程图。在一实施例中，该短文本内容分类方法由图2所示的短文本内容分类***实现。如图1所示，该短文本内容分类方法包括以下步骤：

S10：取得社交网络平台P(图未示)的短文本内容C(图未示)。

社交网络平台P(例如微博)的短文本内容C(例如微博的文本内容)由于表达形式多样，可能包含大量的特殊符号、超链接、非文本字符以及不含情感特征的信息，在进一步对短文本内容C进行处理前，可先删除这些信息，以降低文本处理的词汇表空间、减少数据噪声信息。在一实施例中，步骤S10包括：通过社交网络平台P的应用程序编程接口(Application Programming Interface,API)取得短文本内容C(例如编写取得社交网络平台P的短文本内容C的程序，在程序中通过官方所提供的API来取得短文本内容C)；清洗短文本内容C(例如删除短文本内容C中的非文本字符、超链接、数字、一般标点符号和/或特殊符号)；以及对短文本内容C进行分词。

S20：取得短文本内容C的上下文情感特征值和先验情感特征值。

在一实施例中，步骤S20包括：

生成短文本内容C的上下文情感特征值向量t_c；以及

生成短文本内容C的先验情感特征值向量SenScore(t)。

社交网络平台P的短文本内容C中的表情符号是一种显式的情感表达形式，因此可利用表情符号表将表情符号转换为对应的情感值；英文的短文本内容C中的大写形式的单词是一种突出强调的表现，因此可统计大写单词的数量作为情感特征的一项；短文本内容C中标点符号的重复是一种情绪或态度的突出强调，因此可将这种重复标点符号的出现作为情感特征项。在一实施例中，步骤S20包括：根据短文本内容C中的表情符号、重复标点符号及/或英文大写单词的数量生成短文本内容C的上下文情感特征值向量t_c。

社交网络平台P的短文本内容C中的意见(例如观点倾向)的表达，会体现在显式的词语情感倾向或隐含在词语之间的语义关系中，其中可通过计算词语所具有的情感特征值来取得作为显式的词语情感倾向表达的特征值。在一实施例中，先验情感特征值

其中，w_i是短文本内容C中的单词项，n是短文本内容C的长度，PMI(w_i，pos)是单词项w_i与正向情感分类的点互信息(Pointwise Mutual Information,PMI)，PMI(w_i,neg)是单词项w_i与负向情感分类的点互信息。单词项w_i的情感值可从情感字典取得。

S30：使用模型训练生成短文本内容C的词向量和分类特征向量。

在一实施例中，步骤S30包括：

使用第一模型M1(图未示)训练生成短文本内容C的分布式词向量t＝[w₁,w₂,...,w_n]。其中w_i是短文本内容C中的单词项w_i，每个单词项w_i都是一个向量；

将分布式词向量t输入到深度卷积神经网络N(图未示)的卷积层Lc(图未示)，以生成短文本内容C的上下文局部特征向量x_t＝[x₁,x₂,...x_t]；

将分布式词向量t输入到双向长短时记忆网络中以取得短文本内容C前后向语义表示向量h_n；

使用第二模型M2(图未示)训练生成短文本内容C的句子级特征向量t_d；以及

组合该上下文局部特征向量x_t、该新向量h_n以及该句子级特征向量t_d，以生成多层次文本语义向量o_t。

在一实施例中，第一模型M1为Word2Vec模型(Word2Vec模型的定义和计算方法可参考Mikolov,Tomas等所著的“Efficient Estimation of Word Representations inVector Space”)，使用Word2Vec模型训练短文本内容C取得短文本内容C中的单词的词向量表L∈R^k×|V|(其中k是词向量的维度，V是语料库的规模)，进而计算取得短文本内容C的分布式词向量t＝[w₁,w₂,...,w_n]。

深度卷积神经网络N(Deep Convolutional Neural Network)是深度神经网络(Deep Neural Network)的一种。长短时记忆网络的网络结构的定义可参考SeppHochreiter 和Jürgen Schmidhuber(1997)所著的“Long short-term memory”。在一实施例中，新向量

在一实施例中，第二模型M2为Doc2vec模型。Doc2Vec模型的定义和计算方法可参考Quoc Le和Tomas Mikolov所著的“Distributed Representations of Sentences andDocuments”。

在一实施例中，多层次文本语义向量

在一实施例中，使用Top-K池化策略来生成向量o'_t，其中向量o'_t为固定长度的向量。通过使用固定长度的词向量，可避免维数***和数据稀疏的问题。

S40：利用多窗口卷积操作来取得不同粒度的短文本内容C的语义关系，并组合池化操作而从不同层次对短文本内容C的语义表示进行抽象化。

在一实施例中，步骤S40包括：

将向量o'_t再次进行卷积操作以取得更高一层的文本语义特征表示、并输出向量再进行Top-K池化操作，直到取得最后一层的文本语义特征表示、并输出向量再进行Top-K池化操作，使得最后一层的Top-K池化操作输出向量t′_i。

这一步骤包含多个卷积层和池化层的组合操作(组成网络层)，将池化层的输出向量向量o'_t作为特征进行卷积操作，以计算取得更高一层的文本语义特征表示并输出向量，而后再对输出的向量进行最大池化操作。直到最后一层的最大化池化操作，即输出向量t′_i。在一实施例中，向量t′_i为固定长度的向量。通过使用固定长度的词向量，可避免维数***和数据稀疏的问题。

S50：使用双向长短时记忆网络获得短文本内容C的语义表征。

S60：组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得短文本内容C属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为短文本内容C的类别。

在一实施例中，步骤S60包括：

连接上下文情感特征值向量t_c、先验情感特征值向量SenScore(t)和向量t′_i，以生成向量y'；

将向量y'输入深度卷积神经网络N的全连接层Ld(图未示)，以取得输出向量y。

在一实施例中，输出向量y＝Wy'+b，其中W是深度卷积神经网络N的输出层Lo(图未示)的转移矩阵，b是输出层Lo的偏置系数；以及

使用函数F(图未示)对输出向量y进行计算，以取得短文本内容C属于一或多个内容类别T(图未示)的概率值P(i|t，θ)，并将概率值P(i|t，θ)为最大的内容类别T作为短文本内容C的类别。

在一实施例中，向量

短文本内容C可能会对应于一或多个内容类别T(例如意见类别、情感类别)。在一实施例中，第一函数F为softmax函数，且概率值

图2示出了根据本发明的一个实施例的短文本内容分类***的示意图。如图2所示，短文本内容分类***100包括短文本内容分类单元110。

短文本内容分类装置100是一种计算设备(例如服务器、电脑和移动智能终端)，包括处理器和存储器。该处理器是一种集成电路芯片，例如微处理器(central processingunit,CPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或其他可编程逻辑器件，用来执行该存储器中所存储的计算机程序。该存储器中存储有短文本内容分类单元110，其中短文本内容分类单元110包括用来实现图1所示的短文本内容分类方法的计算机程序。

显然，本领域技术人员在不偏离本发明的精神和范围的情况下可以作出对本发明的实施例的各种修改和改变。以该方式，如果这些修改和改变处于本发明的权利要求及其等同形式的范围内，则本发明还旨在涵盖这些修改和改变。词语“包括”不排除未在权利要求中列出的其他元件或步骤的存在。某些措施记载在相互不同的从属权利要求中的简单事实不表明这些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为限制范围。

Claims

1.一种短文本内容分类方法，其特征在于，包括：

取得社交网络平台的短文本内容；

取得该短文本内容的上下文情感特征值和先验情感特征值；

使用模型训练生成该短文本内容的词向量和分类特征向量；

利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；

其中，使用模型训练生成该短文本内容的词向量的步骤包括：

使用第一模型训练生成该短文本内容的分布式词向量t＝[w₁,w₂,...,w_n]，其中w_i是该短文本内容中的单词项w_i，每个单词项w_i都是一个向量；

将该分布式词向量t输入到一个深度卷积神经网络的卷积层，以生成该短文本内容的上下文局部特征向量x_t＝[x₁,x₂,...x_t]；

将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量，并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量，并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量h_n；

使用第二模型训练生成该短文本内容的句子级特征向量t_d；以及

组合该上下文局部特征向量x_t、该新向量h_n以及该句子级特征向量t_d，以生成多层次文本语义向量o_t；

使用双向长短时记忆网络获得该短文本内容的语义表征；以及

组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。

2.根据权利要求1所述的方法，其特征在于，取得该短文本内容的上下文情感特征值和先验情感特征值的步骤包括：

生成该短文本内容的上下文情感特征值向量t_c；以及

生成该短文本内容的先验情感特征值向量SenScore(t)。

3.根据权利要求1所述的方法，其特征在于，利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化的步骤包括：

将该多层次文本语义向量o_t输入深度卷积神经网络的池化层，以生成向量o'_t；以及

将该向量o'_t再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作，直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作，使得该最后一层的该Top-K池化操作输出向量t′_i。

4.根据权利要求1所述的方法，其特征在于，组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别的步骤包括：

连接该上下文情感特征值向量t_c、该先验情感特征值向量SenScore(t)和该向量t′_i，以生成向量y'；

将该向量y'输入深度卷积神经网络的全连接层，以取得输出向量y；以及

使用第一函数对该输出向量y进行计算，以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。

5.一种短文本内容分类***，包括处理器和存储器，该存储器中存储有短文本内容分类单元，其特征在于，该短文本内容分类单元用于：

取得社交网络平台的短文本内容；

取得该短文本内容的上下文情感特征值和先验情感特征值；

使用模型训练生成该短文本内容的词向量和分类特征向量；

6.根据权利要求5所述的***，其特征在于，取得该短文本内容的上下文情感特征值和先验情感特征值包括：

生成该短文本内容的上下文情感特征值向量t_c；以及

生成该短文本内容的先验情感特征值向量SenScore(t)。

7.根据权利要求5所述的***，其特征在于，利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化包括：

8.根据权利要求5所述的***，其特征在于，组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别包括：