CN108595440B - 短文本内容分类方法和*** - Google Patents

短文本内容分类方法和*** Download PDF

Info

Publication number
CN108595440B
CN108595440B CN201810447731.9A CN201810447731A CN108595440B CN 108595440 B CN108595440 B CN 108595440B CN 201810447731 A CN201810447731 A CN 201810447731A CN 108595440 B CN108595440 B CN 108595440B
Authority
CN
China
Prior art keywords
vector
text content
short text
short
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810447731.9A
Other languages
English (en)
Other versions
CN108595440A (zh
Inventor
赵建强
申强
江汉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201810447731.9A priority Critical patent/CN108595440B/zh
Publication of CN108595440A publication Critical patent/CN108595440A/zh
Application granted granted Critical
Publication of CN108595440B publication Critical patent/CN108595440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种短文本内容分类方法,其包括:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。本发明还公开了一种短文本内容分类***,可实现前述的短文本内容分类方法。

Description

短文本内容分类方法和***
技术领域
本发明涉及信息处理技术领域,并且特别涉及一种基于深度神经网络的短文本内容分类方法和***。
背景技术
以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介,因而成为社会公共舆论、企业品牌和产品推广和传统媒体传播的主要平台。截止2017年9月,全球性的微博服务站点Twitter的月活跃用户达到3.3亿,而中文微博平台新浪微博的月度活跃用户数达到3.76亿、日活跃用户达到1.65亿。数以亿计的活跃用户来自不同的社会文化背景且遍布全球,每时每刻都在生成大量包含用户的意见和情绪的文本信息。
***会通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法,因此针对特定应用需求来识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息,是当前互联网信息处理、数据挖掘、计算语言学等领域的一个热点研究问题,在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。
然而,由于微博的文本短小、语法结构不完整、而且其中的表述随意和充斥噪声,使得微博文本的分类面临极大的挑战。现有的分类方式主要是采用人工方式来构建分类特征,而分类特征多使用词袋模型,难以刻画词序信息,且面临了维数***和数据稀疏的问题。此外,微博的文本经常出现“明褒暗贬”或隐式的表述方式,而人工构建特征的方式难以发现和描述这类隐含的语义关系。
发明内容
本发明提出了一种短文本内容分类方法和***,避免了维数***和数据稀疏的问题,并有效地提升了短文本内容的分类性能。
在一个方面,提出了一种短文本内容分类方法,其包括:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量和分类特征向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
在一些具体实施例中,生成该短文本内容的上下文情感特征值向量tc;以及生成该短文本内容的先验情感特征值向量SenScore(t)。
在一些具体实施例中,使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn;使用第二模型训练生成该短文本内容的句子级特征向量td;以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot
在一些具体实施例中,将该多层次文本语义向量ot输入深度卷积神经网络的池化层,以生成向量o't;以及将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作,使得该最后一层的该Top-K池化操作输出向量t′i
在一些具体实施例中,连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';将该向量y'输入深度卷积神经网络的全连接层,以取得输出向量y;以及使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值P(i|t,θ),并将该概率值P(i|t,θ)为最大的该内容类别作为该短文本内容的类别。
在一些具体实施例中,该先验情感特征值
Figure GDA0003468870040000021
其中wi是该短文本内容中的单词项,n是该短文本内容的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息,PMI(wi,neg)是单词项wi与负向情感分类的点互信息。
在一些具体实施例中,该输出向量y=Wy'+b,其中W是深度卷积神经网络的输出层的转移矩阵,b是该输出层的偏置系数。
在一些具体实施例中,该概率值
Figure GDA0003468870040000022
在一些具体实施例中,该向量
Figure GDA0003468870040000031
在另一个方面,提出了一种短文本内容分类***,其包括处理器和存储器,该存储器中存储有短文本内容分类单元。该短文本内容分类单元用于:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
本发明通过取得社交网络平台的短文本内容,再取得短文本内容的上下文情感特征值和先验情感特征值,并使用模型训练生成短文本内容的词向量,解决了短文本内容的词向量的维数***和数据稀疏的问题。此外,还利用多窗口卷积操作来取得不同粒度的短文本内容的语义关系,并组合池化操作而从不同层次对短文本内容的语义表示进行抽象化,最后再组合不同层次的情感特征向量,从而能够更加全面和多样的描述短文本内容的情感语义特征,进而提高短文本内容的分类性能。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其他实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是根据本发明的一个实施例的短文本内容分类方法的流程图;以及
图2是根据本发明的一个实施例的短文本内容分类***的示意图。
具体实施方式
在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本发明的说明性具体实施例来示出。应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本发明的范围。因此以下详细描述不应当在限制的意义上被采用,并且本发明的范围由所附权利要求来限定。
图1示出了根据本发明的一个实施例的短文本内容分类方法的流程图。在一实施例中,该短文本内容分类方法由图2所示的短文本内容分类***实现。如图1所示,该短文本内容分类方法包括以下步骤:
S10:取得社交网络平台P(图未示)的短文本内容C(图未示)。
社交网络平台P(例如微博)的短文本内容C(例如微博的文本内容)由于表达形式多样,可能包含大量的特殊符号、超链接、非文本字符以及不含情感特征的信息,在进一步对短文本内容C进行处理前,可先删除这些信息,以降低文本处理的词汇表空间、减少数据噪声信息。在一实施例中,步骤S10包括:通过社交网络平台P的应用程序编程接口(Application Programming Interface,API)取得短文本内容C(例如编写取得社交网络平台P的短文本内容C的程序,在程序中通过官方所提供的API来取得短文本内容C);清洗短文本内容C(例如删除短文本内容C中的非文本字符、超链接、数字、一般标点符号和/或特殊符号);以及对短文本内容C进行分词。
S20:取得短文本内容C的上下文情感特征值和先验情感特征值。
在一实施例中,步骤S20包括:
生成短文本内容C的上下文情感特征值向量tc;以及
生成短文本内容C的先验情感特征值向量SenScore(t)。
社交网络平台P的短文本内容C中的表情符号是一种显式的情感表达形式,因此可利用表情符号表将表情符号转换为对应的情感值;英文的短文本内容C中的大写形式的单词是一种突出强调的表现,因此可统计大写单词的数量作为情感特征的一项;短文本内容C中标点符号的重复是一种情绪或态度的突出强调,因此可将这种重复标点符号的出现作为情感特征项。在一实施例中,步骤S20包括:根据短文本内容C中的表情符号、重复标点符号及/或英文大写单词的数量生成短文本内容C的上下文情感特征值向量tc
社交网络平台P的短文本内容C中的意见(例如观点倾向)的表达,会体现在显式的词语情感倾向或隐含在词语之间的语义关系中,其中可通过计算词语所具有的情感特征值来取得作为显式的词语情感倾向表达的特征值。在一实施例中,先验情感特征值
Figure GDA0003468870040000041
其中,wi是短文本内容C中的单词项,n是短文本内容C的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息(Pointwise Mutual Information,PMI),PMI(wi,neg)是单词项wi与负向情感分类的点互信息。单词项wi的情感值可从情感字典取得。
S30:使用模型训练生成短文本内容C的词向量和分类特征向量。
在一实施例中,步骤S30包括:
使用第一模型M1(图未示)训练生成短文本内容C的分布式词向量t=[w1,w2,...,wn]。其中wi是短文本内容C中的单词项wi,每个单词项wi都是一个向量;
将分布式词向量t输入到深度卷积神经网络N(图未示)的卷积层Lc(图未示),以生成短文本内容C的上下文局部特征向量xt=[x1,x2,...xt];
将分布式词向量t输入到双向长短时记忆网络中以取得短文本内容C前后向语义表示向量hn
使用第二模型M2(图未示)训练生成短文本内容C的句子级特征向量td;以及
组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot
在一实施例中,第一模型M1为Word2Vec模型(Word2Vec模型的定义和计算方法可参考Mikolov,Tomas等所著的“Efficient Estimation of Word Representations inVector Space”),使用Word2Vec模型训练短文本内容C取得短文本内容C中的单词的词向量表L∈Rk×|V|(其中k是词向量的维度,V是语料库的规模),进而计算取得短文本内容C的分布式词向量t=[w1,w2,...,wn]。
深度卷积神经网络N(Deep Convolutional Neural Network)是深度神经网络(Deep Neural Network)的一种。长短时记忆网络的网络结构的定义可参考SeppHochreiter 和Jürgen Schmidhuber(1997)所著的“Long short-term memory”。在一实施例中,新向量
Figure GDA0003468870040000051
在一实施例中,第二模型M2为Doc2vec模型。Doc2Vec模型的定义和计算方法可参考Quoc Le和Tomas Mikolov所著的“Distributed Representations of Sentences andDocuments”。
在一实施例中,多层次文本语义向量
Figure GDA0003468870040000052
在一实施例中,使用Top-K池化策略来生成向量o't,其中向量o't为固定长度的向量。通过使用固定长度的词向量,可避免维数***和数据稀疏的问题。
S40:利用多窗口卷积操作来取得不同粒度的短文本内容C的语义关系,并组合池化操作而从不同层次对短文本内容C的语义表示进行抽象化。
在一实施例中,步骤S40包括:
将向量o't再次进行卷积操作以取得更高一层的文本语义特征表示、并输出向量再进行Top-K池化操作,直到取得最后一层的文本语义特征表示、并输出向量再进行Top-K池化操作,使得最后一层的Top-K池化操作输出向量t′i
这一步骤包含多个卷积层和池化层的组合操作(组成网络层),将池化层的输出向量向量o't作为特征进行卷积操作,以计算取得更高一层的文本语义特征表示并输出向量,而后再对输出的向量进行最大池化操作。直到最后一层的最大化池化操作,即输出向量t′i。在一实施例中,向量t′i为固定长度的向量。通过使用固定长度的词向量,可避免维数***和数据稀疏的问题。
S50:使用双向长短时记忆网络获得短文本内容C的语义表征。
S60:组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得短文本内容C属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为短文本内容C的类别。
在一实施例中,步骤S60包括:
连接上下文情感特征值向量tc、先验情感特征值向量SenScore(t)和向量t′i,以生成向量y';
将向量y'输入深度卷积神经网络N的全连接层Ld(图未示),以取得输出向量y。
在一实施例中,输出向量y=Wy'+b,其中W是深度卷积神经网络N的输出层Lo(图未示)的转移矩阵,b是输出层Lo的偏置系数;以及
使用函数F(图未示)对输出向量y进行计算,以取得短文本内容C属于一或多个内容类别T(图未示)的概率值P(i|t,θ),并将概率值P(i|t,θ)为最大的内容类别T作为短文本内容C的类别。
在一实施例中,向量
Figure GDA0003468870040000061
短文本内容C可能会对应于一或多个内容类别T(例如意见类别、情感类别)。在一实施例中,第一函数F为softmax函数,且概率值
Figure GDA0003468870040000062
图2示出了根据本发明的一个实施例的短文本内容分类***的示意图。如图2所示,短文本内容分类***100包括短文本内容分类单元110。
短文本内容分类装置100是一种计算设备(例如服务器、电脑和移动智能终端),包括处理器和存储器。该处理器是一种集成电路芯片,例如微处理器(central processingunit,CPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或其他可编程逻辑器件,用来执行该存储器中所存储的计算机程序。该存储器中存储有短文本内容分类单元110,其中短文本内容分类单元110包括用来实现图1所示的短文本内容分类方法的计算机程序。
本发明通过取得社交网络平台的短文本内容,再取得短文本内容的上下文情感特征值和先验情感特征值,并使用模型训练生成短文本内容的词向量,解决了短文本内容的词向量的维数***和数据稀疏的问题。此外,还利用多窗口卷积操作来取得不同粒度的短文本内容的语义关系,并组合池化操作而从不同层次对短文本内容的语义表示进行抽象化,最后再组合不同层次的情感特征向量,从而能够更加全面和多样的描述短文本内容的情感语义特征,进而提高短文本内容的分类性能。
显然,本领域技术人员在不偏离本发明的精神和范围的情况下可以作出对本发明的实施例的各种修改和改变。以该方式,如果这些修改和改变处于本发明的权利要求及其等同形式的范围内,则本发明还旨在涵盖这些修改和改变。词语“包括”不排除未在权利要求中列出的其他元件或步骤的存在。某些措施记载在相互不同的从属权利要求中的简单事实不表明这些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为限制范围。

Claims (8)

1.一种短文本内容分类方法,其特征在于,包括:
取得社交网络平台的短文本内容;
取得该短文本内容的上下文情感特征值和先验情感特征值;
使用模型训练生成该短文本内容的词向量和分类特征向量;
利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;
其中,使用模型训练生成该短文本内容的词向量的步骤包括:
使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;
将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];
将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn
使用第二模型训练生成该短文本内容的句子级特征向量td;以及
组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot
使用双向长短时记忆网络获得该短文本内容的语义表征;以及
组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
2.根据权利要求1所述的方法,其特征在于,取得该短文本内容的上下文情感特征值和先验情感特征值的步骤包括:
生成该短文本内容的上下文情感特征值向量tc;以及
生成该短文本内容的先验情感特征值向量SenScore(t)。
3.根据权利要求1所述的方法,其特征在于,利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化的步骤包括:
将该多层次文本语义向量ot输入深度卷积神经网络的池化层,以生成向量o't;以及
将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作,使得该最后一层的该Top-K池化操作输出向量t′i
4.根据权利要求1所述的方法,其特征在于,组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别的步骤包括:
连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';
将该向量y'输入深度卷积神经网络的全连接层,以取得输出向量y;以及
使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
5.一种短文本内容分类***,包括处理器和存储器,该存储器中存储有短文本内容分类单元,其特征在于,该短文本内容分类单元用于:
取得社交网络平台的短文本内容;
取得该短文本内容的上下文情感特征值和先验情感特征值;
使用模型训练生成该短文本内容的词向量和分类特征向量;
利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;
其中,使用模型训练生成该短文本内容的词向量的步骤包括:
使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;
将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];
将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn
使用第二模型训练生成该短文本内容的句子级特征向量td;以及
组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot
使用双向长短时记忆网络获得该短文本内容的语义表征;以及
组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
6.根据权利要求5所述的***,其特征在于,取得该短文本内容的上下文情感特征值和先验情感特征值包括:
生成该短文本内容的上下文情感特征值向量tc;以及
生成该短文本内容的先验情感特征值向量SenScore(t)。
7.根据权利要求5所述的***,其特征在于,利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化包括:
将该多层次文本语义向量ot输入深度卷积神经网络的池化层,以生成向量o't;以及
将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作,使得该最后一层的该Top-K池化操作输出向量t′i
8.根据权利要求5所述的***,其特征在于,组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别包括:
连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';
将该向量y'输入深度卷积神经网络的全连接层,以取得输出向量y;以及
使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
CN201810447731.9A 2018-05-11 2018-05-11 短文本内容分类方法和*** Active CN108595440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810447731.9A CN108595440B (zh) 2018-05-11 2018-05-11 短文本内容分类方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810447731.9A CN108595440B (zh) 2018-05-11 2018-05-11 短文本内容分类方法和***

Publications (2)

Publication Number Publication Date
CN108595440A CN108595440A (zh) 2018-09-28
CN108595440B true CN108595440B (zh) 2022-03-18

Family

ID=63636757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810447731.9A Active CN108595440B (zh) 2018-05-11 2018-05-11 短文本内容分类方法和***

Country Status (1)

Country Link
CN (1) CN108595440B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493931B (zh) * 2018-10-25 2024-06-04 平安科技(深圳)有限公司 一种病历文件的编码方法、服务器及计算机可读存储介质
CN109359302B (zh) * 2018-10-26 2023-04-18 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
CN109815485B (zh) * 2018-12-24 2023-01-24 厦门市美亚柏科信息股份有限公司 一种微博短文本情感极性识别的方法、装置及存储介质
CN110059188B (zh) * 2019-04-11 2022-06-21 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110717047B (zh) * 2019-10-22 2022-06-28 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN112214600B (zh) * 2020-10-21 2022-06-10 厦门市美亚柏科信息股份有限公司 一种聊天文本特征分类方法、装置及存储介质
CN112214601B (zh) * 2020-10-21 2022-06-10 厦门市美亚柏科信息股份有限公司 一种社交短文本情感分类方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法
CN106096004A (zh) * 2016-06-23 2016-11-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
CN106598952A (zh) * 2016-12-23 2017-04-26 大连理工大学 基于卷积神经网络的中文模糊限制信息范围检测***
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及***
CN107895024A (zh) * 2017-09-13 2018-04-10 同济大学 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法
CN106096004A (zh) * 2016-06-23 2016-11-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
CN106598952A (zh) * 2016-12-23 2017-04-26 大连理工大学 基于卷积神经网络的中文模糊限制信息范围检测***
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107895024A (zh) * 2017-09-13 2018-04-10 同济大学 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及***

Also Published As

Publication number Publication date
CN108595440A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108595440B (zh) 短文本内容分类方法和***
Li et al. HEMOS: A novel deep learning-based fine-grained humor detecting method for sentiment analysis of social media
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
Alwakid et al. Challenges in sentiment analysis for Arabic social networks
CN112214601B (zh) 一种社交短文本情感分类方法、装置及存储介质
Wolny Emotion analysis of twitter data that use emoticons and emoji ideograms
Li et al. A novel deep learning-based sentiment analysis method enhanced with emojis in microblog social networks
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
CN109815485B (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
US9524526B2 (en) Disambiguating authors in social media communications
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
CN113407677B (zh) 评估咨询对话质量的方法、装置、设备和存储介质
Hui et al. Few-shot relation classification by context attention-based prototypical networks with BERT
Jandail et al. A proposed novel approach for sentiment analysis and opinion mining
Wei et al. Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments
Peacock et al. Effectiveness of social media sentiment analysis tools with the support of emoticon/emoji
Modi et al. Sentiment analysis of Twitter feeds using flask environment: A superior application of data analysis
Duan et al. Sentiment classification algorithm based on the cascade of BERT model and adaptive sentiment dictionary
CN111143515B (zh) 文本匹配方法及装置
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
CN112214600B (zh) 一种聊天文本特征分类方法、装置及存储介质
Zou et al. Automatic product copywriting for e‐commerce
Li et al. Twitter sentiment analysis of the 2016 US Presidential Election using an emoji training heuristic
CN105760410B (zh) 一种基于转发评论的微博语义扩充模型和方法
Lefebvre-Brossard et al. Encoding user as more than the sum of their parts: recurrent neural networks and word embedding for people-to-people recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant