CN106202181A - 一种情感分类方法、装置及*** - Google Patents

一种情感分类方法、装置及*** Download PDF

Info

Publication number
CN106202181A
CN106202181A CN201610480926.4A CN201610480926A CN106202181A CN 106202181 A CN106202181 A CN 106202181A CN 201610480926 A CN201610480926 A CN 201610480926A CN 106202181 A CN106202181 A CN 106202181A
Authority
CN
China
Prior art keywords
tested
probability
sample
comment text
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610480926.4A
Other languages
English (en)
Inventor
李寿山
张栋
周国栋
贡正仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610480926.4A priority Critical patent/CN106202181A/zh
Publication of CN106202181A publication Critical patent/CN106202181A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种情感分类方法、装置及***,通过对待测样本(其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理,得到多个词特征;并使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式,实现了对网络平台信息中的评论文本的情感分类,可便于用户对网络平台信息的选取。

Description

一种情感分类方法、装置及***
技术领域
本发明涉及自然语言处理及模式识别技术领域,具体涉及一种情感分类方法、装置及***。
背景技术
随着科技的发展,网络平台(网络购物、社交网络、网络电视等)在人们日常生活中占用越来越重要的地位。也正是随着网络平台地位的提高,网络平台信息量越来越大,各种网络平台信息充斥的人们的生活,以至于不利于人们对网络平台信息的选取。
例如,网络购物平台中通常存在多个卖家同时存在同一款在售商品,用户不能确定在哪些卖家购买该在售商品比较合适(如物美价廉)、网络电视中通常包括多部影片,用户不能确定哪些影片适合收看(如网评比较好)等情况。
因此,本申请提供一种情感分类方法、装置及***,以便于用户对网络平台信息的选取,是亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种情感分类方法、装置及***,通过对网络平台信息中的评论文本进行情感分类,可便于用户对网络平台信息的选取。
为实现上述目的,本发明实施例提供如下技术方案:
一种情感分类方法,包括:
对待测样本进行分词处理,得到多个词特征;其中,所述待测样本为网络平台信息中的位于第一预设时间之后的评论文本;
使用预先设置的最大熵情感分类器,分别计算每个所述词特征的第一预测子概率和第二预测子概率;其中,所述第一预测子概率指示所述词特征为正面评论,所述第二预测子概率指示所述词特征为负面评论;所述最大熵情感分类器为使用所述网络平台信息中的位于第二预设时间之前的正评论文本和负评论文本作为训练样本集,利用最大熵分类算法进行训练得到的;所述第二预设时间早于所述第一预设时间;
将所有所述词特征的第一预测子概率进行乘积运算,得到第一预测概率;将所有所述词特征的第二预测子概率进行乘积运算,得到第二预测概率;
比较所述第一预测概率和第二预测概率;
根据比较结果,确定所述待测样本的情感类别;其中,当所述第一预测概率大于所述第二预测概率时,确定所述待测样本为正评论文本;当所述第一预测概率小于所述第二预测概率时,确定所述待预测样本为负评论文本。
优选的,还包括:
比较确定的所述待测样本的情感类别与预先设置的所述待测样本的情感类别是否相同;
当相同是,得到第一分类结果,所述第一分类结果指示确定的所述待测样本的情感类别准确;
当不相同时,得到第二分类结果,所述第二分类结果指示确定的所述待测样本的情感类别不准确。
优选的,当包括多个待测样本时,该方法还包括:
根据每个所述待测样本对应的第一分类结果/第二分类结果,计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量;
将所述第一分类结果总数量占所述第一分类结果总数量和第二分类结果之和的比重,确定为所述最大熵情感分类器的情感分类结果准确率。
优选的,当包括多个待测样本时,该方法还包括:
根据确定的每个所述待测样本的情感类别,计算所有待测样本中正评论文本的总数量以及负评论文本的总数量;
将正评论文本的总数量占所述正评论文本的总数量和负评论文本的总数量之和的比重,确定为所述网络平台信息的可选概率。
优选的,所述最大熵情感分类器的生成过程包括:
获取所述网络平台信息中的位于所述第二预设时间之前的评论文本作为训练样本集;所述评论文本包括正评论文本和负评论文本;
针对所述训练样本集中的每个所述评论文本,进行分词处理,得到多个词特征;
利用所述最大熵分类算法对所述训练样本集对应的各个所述词特征进行训练,得到最大熵情感分类器。
一种情感分类装置,包括:
分词处理单元,用于对待测样本进行分词处理,得到多个词特征;其中,所述待测样本为网络平台信息中的位于第一预设时间之后的评论文本;
第一概率计算单元,用于使用预先设置的最大熵情感分类器,分别计算每个所述词特征的第一预测子概率和第二预测子概率;其中,所述第一预测子概率指示所述词特征为正面评论,所述第二预测子概率指示所述词特征为负面评论;所述最大熵情感分类器为使用所述网络平台信息中的位于第二预设时间之前的所有正评论文本和负评论文本作为训练样本集,利用最大熵分类算法进行训练得到的;所述第二预设时间早于所述第一预设时间;
第二概率计算单元,用于将所有所述词特征的第一预测子概率进行乘积运算,得到第一预测概率;将所有所述词特征的第二预测子概率进行乘积运算,得到第二预测概率;
比较单元,用于比较所述第一预测概率和第二预测概率;
情感分类确定单元,用于根据比较结果,确定所述待测样本的情感类别;其中,当所述第一预测概率大于所述第二预测概率时,确定所述待测样本为正评论文本;当所述第一预测概率小于所述第二预测概率时,确定所述待预测样本为负评论文本。
优选的,还包括:
情感分类结果判断单元,用于比较确定的所述待测样本的情感类别与预先设置的所述待测样本的情感类别是否相同;以及,当相同是,得到第一分类结果,所述第一分类结果指示确定的所述待测样本的情感类别准确;以及,当不相同时,得到第二分类结果,所述第二分类结果指示确定的所述待测样本的情感类别不准确。
优选的,当包括多个待测样本时,该装置还包括:
情感分类结果准确率计算单元,用于根据每个所述待测样本对应的第一分类结果/第二分类结果,计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量;以及,将所述第一分类结果总数量占所述第一分类结果总数量和第二分类结果之和的比重,确定为所述最大熵情感分类器的情感分类结果准确率。
优选的,还包括:
最大熵情感分类器生成单元,用于获取所述网络平台信息中的位于所述第二预设时间之前的所有评论文本作为训练样本集;所述评论文本包括正评论文本和负评论文本;以及,针对所述训练样本集中的每个所述评论文本,进行分词处理,得到多个词特征;以及,利用所述最大熵分类算法对所述训练样本集对应的各个所述词特征进行训练,得到最大熵情感分类器。
一种情感分类***,其特征在于,包括:如上述所述的情感分类装置和最大熵情感分类器。
本申请实施例提供一种情感分类方法、装置及***,通过对待测样本(其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理,得到多个词特征;并使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式,实现了对网络平台信息中的评论文本的情感分类,可便于用户对网络平台信息的选取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种情感分类方法流程图;
图2为本申请实施例提供的一种最大熵情感分类器的生成方法流程图;
图3为本申请实施例提供的一种情感分类装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
图1为本申请实施例提供的一种情感分类方法流程图。
如图1所示,该方法包括:
S101、对待测样本进行分词处理,得到多个词特征;其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本;
在本申请实施例中,优选的,网络平台信息为任意一个主题,如网购平台中的电子产品、网购平台中的某个商家的某个产品;网络电视中的某个影片等,具体的,发明人可根据自己的需求任意设置,在此不做限定。
在本申请实施例中,优选的,网络平台信息中包括多个评论文本,如网购平台中的某个商家的某个产品中对应多个有关该产品的评论文本。
在本申请实施例中,优选的,待测文本为网络平台信息中的位于第一预设时间之后的一个评论文本。
S102、使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;
在本申请实施例中,优选的,第一预测子概率指示词特征为正面评论,第二预测子概率指示词特征为负面评论。
在本申请实施例中,优选的,第二预设时间早于第一预设时间。具体的,最大熵情感分类器为使用网络平台信息中的位于第二预设时间之前的正评论文本和负评论文本作为训练样本集,利用最大熵分类算法进行训练得到的。
在本申请实施例中,优选的,将第一预设时间设置为2012年,第二预设时间设置为2002年。以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置第一预设时间和第二预设时间的具体内容,在此不做限定。
S103、将所有词特征的第一预测子概率进行乘积运算,得到第一预测概率;将所有词特征的第二预测子概率进行乘积运算,得到第二预测概率;
S104、比较第一预测概率和第二预测概率;
S105、根据比较结果,确定待测样本的情感类别;
在本申请实施例中,优选的,当第一预测概率大于第二预测概率时,确定待测样本为正评论文本;当第一预测概率小于第二预测概率时,确定待预测样本为负评论文本。
进一步的,在本申请实施例提供的一种情感分类方法中,还包括:比较确定的待测样本的情感类别与预先设置的待测样本的情感类别是否相同;以及,当相同是,得到第一分类结果;以及,当不相同时,得到第二分类结果。
在本申请实施例中,优选的,第一分类结果指示确定的待测样本的情感类别准确。
在本申请实施例中,优选的,第二分类结果指示确定的待测样本的情感类别不准确。
在本申请实施例中,优选的,预先设置的待测样本的情感类别可通过获取与待测样本对应的网络平台信息评分得到。例如,网购平台中的某个商家的某个产品中包括多条评论,并且与每条评论对应的还有用户对该产品的评分,该评分即为与待测样本对应的网络平台信息评分。
具体的,根据待测样本对应的网络平台信息评分计算预先设置的待测样本的情感类别的方式为:将网络平台信息评分分成两类,当网络平台信息评分包括1-5分时,可将网络平台信息评分在1-3分内的网络平台信息评分对应的待测样本的情感类别确定为负类(说明待测样本对应的评论文本为负评论文本);将网络平台信息评分在4-5分内的网络平台信息评分对应的待测样本的情感类别确定为正类(说明待测样本对应的评论文本为正评论文本)。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置预先设置的待测样本的情感类别的获取方式,在此不做限定。
本申请通过比较确定的待测样本的情感类别与预先设置的待测样本的情感类别是否相同的方式,可实现对确定的待测样本的情感类别的准确性的检测。
进一步的,在本申请实施例提供的一种情感分类方法中,当存在多个待测样本(包括多个待测样本)时,还包括:
根据每个待测样本对应的第一分类结果/第二分类结果,计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量;以及,将第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重,确定为最大熵情感分类器的情感分类结果准确率。
在本申请实施例中,优选的,当存在多个待测样本时,首先会针对每个待测样本计算出该待测样本是对应第一分类结果还是对应第二分类结果。然后,根据所有的待测样本中每个待测样本对应的分类结果(第一分类结果或者第二分类结果),计算所有待测样本对应第一分类结果总数量(也就是,所有的待测样本中有多少个待测样本对应第一分类结果)和第二分类结果总数量(也就是,所有的待测样本中有多少个待测样本对应第二分类结果);最后计算第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重,并将该比重确定为最大熵情感分类器的情感分类结果准确率。
本申请实施例,通过计算第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重的方式,可实现对最大熵情感分类器的情感分类结果的准确性的验证,计算得到的比重即为最大熵情感分类器的情感分类结果准确率。
进一步的,在本申请实施例提供的一种情感分类方法中,当包括多个待测样本时,该方法还包括:根据确定的每个待测样本的情感类别,计算所有待测样本中正评论文本的总数量以及负评论文本的总数量;以及,将正评论文本的总数量占正评论文本的总数量和负评论文本的总数量之和的比重,确定为网络平台信息的可选概率。
在本申请实施例中,优选的,当存在多个待测样本时,可根据确定的每个待测样本的情感类别,计算所有待测样本中正评论文本的总数量以及负评论文本的总数量;进而可将正评论文本的总数量占正评论文本的总数量和负评论文本的总数量之和的比重,确定为网络平台信息的可选概率(可选概率越大,说明网络平台信息的用户评价越好,越被用户推荐)。
本申请通过确定网络平台信息的可选概率的方式,可便于用户直接通过各个网络平台信息的可选概率确定选择哪些网络平台信息,不需用户逐条阅读网络平台信息的评论文本,节约了时间。并且,通过利用位于第一预设时间之后的待测样本实现对网络平台信息的可选概率确定,可使得确定出的可选概率信息更加贴近当前网络平台信息的实际情况。
图2为本申请实施例提供的一种最大熵情感分类器的生成方法流程图。
如图2所示,在本申请实施例提供的一种情感分类方法中的最大熵情感分类器的生成过程包括:
S201、获取网络平台信息中的位于第二预设时间之前的评论文本作为训练样本集;
在本申请实施例中,优选的,评论文本包括正评论文本和负评论文本。
在本申请实施例中,优选的,正评论文本的数量和负评论文本的数量相同。以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置正评论文本的数量和负评论文本的数量,在此不做限定。
S202、针对训练样本集中的每个评论文本,进行分词处理,得到多个词特征;
S203、利用最大熵分类算法对训练样本集对应的各个词特征进行训练,得到最大熵情感分类器。
本申请通过提供一种最大熵情感分类器的生成方法,进一步完善了本申请实施例提供的一种情感分类方法,使得本申请实施例提供的一种情感分类方法更加清晰、便于理解。
本申请实施例提供一种情感分类方法,通过对待测样本(其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理,得到多个词特征;并使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式,实现了对网络平台信息中的评论文本的情感分类,可便于用户对网络平台信息的选取。
图3为本申请实施例提供的一种情感分类装置结构示意图。
如图3所示,该装置包括:
分词处理单元31,用于对待测样本进行分词处理,得到多个词特征;其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本;
第一概率计算单元32,用于使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;其中,第一预测子概率指示词特征为正面评论,第二预测子概率指示词特征为负面评论;最大熵情感分类器为使用网络平台信息中的位于第二预设时间之前的所有正评论文本和负评论文本作为训练样本集,利用最大熵分类算法进行训练得到的;第二预设时间早于第一预设时间;
第二概率计算单元33,用于将所有词特征的第一预测子概率进行乘积运算,得到第一预测概率;将所有词特征的第二预测子概率进行乘积运算,得到第二预测概率;
比较单元34,用于比较第一预测概率和第二预测概率;
情感分类确定单元35,用于根据比较结果,确定待测样本的情感类别;其中,当第一预测概率大于第二预测概率时,确定待测样本为正评论文本;当第一预测概率小于第二预测概率时,确定待预测样本为负评论文本。
进一步的,在本申请实施例提供的一种情感分类装置中,还包括:
情感分类结果判断单元36,用于比较确定的待测样本的情感类别与预先设置的待测样本的情感类别是否相同;以及,当相同是,得到第一分类结果,第一分类结果指示确定的待测样本的情感类别准确;以及,当不相同时,得到第二分类结果,第二分类结果指示确定的待测样本的情感类别不准确。
进一步的,在本申请实施例提供的一种情感分类装置中,当包括多个待测样本时,还包括:
情感分类结果准确率计算单元37,用于根据每个待测样本对应的第一分类结果/第二分类结果,计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量;以及,将第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重,确定为最大熵情感分类器的情感分类结果准确率。
进一步的,在本申请实施例提供的一种情感分类装置中,当包括多个待测样本时,还包括:
可选概率确定单元38,用于根据确定的每个待测样本的情感类别,计算所有待测样本中正评论文本的总数量以及负评论文本的总数量;以及,将正评论文本的总数量占正评论文本的总数量和负评论文本的总数量之和的比重,确定为网络平台信息的可选概率。
进一步的,在本申请实施例提供的一种情感分类装置中,还包括:
最大熵情感分类器生成单元39,用于获取网络平台信息中的位于第二预设时间之前的所有评论文本作为训练样本集;评论文本包括正评论文本和负评论文本;以及,针对训练样本集中的每个评论文本,进行分词处理,得到多个词特征;以及,利用最大熵分类算法对训练样本集对应的各个词特征进行训练,得到最大熵情感分类器。
本申请实施例还提供一种情感分类***,该情感分类***包括:如上述实施例提供的的情感分类装置和最大熵情感分类器。
本申请实施例提供一种情感分类装置及***,通过对待测样本(其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理,得到多个词特征;并使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式,实现了对网络平台信息中的评论文本的情感分类,可便于用户对网络平台信息的选取。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置或方法而言,由于其与实施例公开的方法或装置相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种情感分类方法,其特征在于,包括:
对待测样本进行分词处理,得到多个词特征;其中,所述待测样本为网络平台信息中的位于第一预设时间之后的评论文本;
使用预先设置的最大熵情感分类器,分别计算每个所述词特征的第一预测子概率和第二预测子概率;其中,所述第一预测子概率指示所述词特征为正面评论,所述第二预测子概率指示所述词特征为负面评论;所述最大熵情感分类器为使用所述网络平台信息中的位于第二预设时间之前的正评论文本和负评论文本作为训练样本集,利用最大熵分类算法进行训练得到的;所述第二预设时间早于所述第一预设时间;
将所有所述词特征的第一预测子概率进行乘积运算,得到第一预测概率;将所有所述词特征的第二预测子概率进行乘积运算,得到第二预测概率;
比较所述第一预测概率和第二预测概率;
根据比较结果,确定所述待测样本的情感类别;其中,当所述第一预测概率大于所述第二预测概率时,确定所述待测样本为正评论文本;当所述第一预测概率小于所述第二预测概率时,确定所述待预测样本为负评论文本。
2.根据权利要求1所述的方法,其特征在于,还包括:
比较确定的所述待测样本的情感类别与预先设置的所述待测样本的情感类别是否相同;
当相同是,得到第一分类结果,所述第一分类结果指示确定的所述待测样本的情感类别准确;
当不相同时,得到第二分类结果,所述第二分类结果指示确定的所述待测样本的情感类别不准确。
3.根据权利要求2所述的方法,其特征在于,当包括多个待测样本时,该方法还包括:
根据每个所述待测样本对应的第一分类结果/第二分类结果,计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量;
将所述第一分类结果总数量占所述第一分类结果总数量和第二分类结果之和的比重,确定为所述最大熵情感分类器的情感分类结果准确率。
4.根据权利要求3所述的方法,其特征在于,当包括多个待测样本时,该方法还包括:
根据确定的每个所述待测样本的情感类别,计算所有待测样本中正评论文本的总数量以及负评论文本的总数量;
将正评论文本的总数量占所述正评论文本的总数量和负评论文本的总数量之和的比重,确定为所述网络平台信息的可选概率。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述最大熵情感分类器的生成过程包括:
获取所述网络平台信息中的位于所述第二预设时间之前的评论文本作为训练样本集;所述评论文本包括正评论文本和负评论文本;
针对所述训练样本集中的每个所述评论文本,进行分词处理,得到多个词特征;
利用所述最大熵分类算法对所述训练样本集对应的各个所述词特征进行训练,得到最大熵情感分类器。
6.一种情感分类装置,其特征在于,包括:
分词处理单元,用于对待测样本进行分词处理,得到多个词特征;其中,所述待测样本为网络平台信息中的位于第一预设时间之后的评论文本;
第一概率计算单元,用于使用预先设置的最大熵情感分类器,分别计算每个所述词特征的第一预测子概率和第二预测子概率;其中,所述第一预测子概率指示所述词特征为正面评论,所述第二预测子概率指示所述词特征为负面评论;所述最大熵情感分类器为使用所述网络平台信息中的位于第二预设时间之前的所有正评论文本和负评论文本作为训练样本集,利用最大熵分类算法进行训练得到的;所述第二预设时间早于所述第一预设时间;
第二概率计算单元,用于将所有所述词特征的第一预测子概率进行乘积运算,得到第一预测概率;将所有所述词特征的第二预测子概率进行乘积运算,得到第二预测概率;
比较单元,用于比较所述第一预测概率和第二预测概率;
情感分类确定单元,用于根据比较结果,确定所述待测样本的情感类别;其中,当所述第一预测概率大于所述第二预测概率时,确定所述待测样本为正评论文本;当所述第一预测概率小于所述第二预测概率时,确定所述待预测样本为负评论文本。
7.根据权利要求6所述的装置,其特征在于,还包括:
情感分类结果判断单元,用于比较确定的所述待测样本的情感类别与预先设置的所述待测样本的情感类别是否相同;以及,当相同是,得到第一分类结果,所述第一分类结果指示确定的所述待测样本的情感类别准确;以及,当不相同时,得到第二分类结果,所述第二分类结果指示确定的所述待测样本的情感类别不准确。
8.根据权利要求7所述的装置,其特征在于,当包括多个待测样本时,该装置还包括:
情感分类结果准确率计算单元,用于根据每个所述待测样本对应的第一分类结果/第二分类结果,计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量;以及,将所述第一分类结果总数量占所述第一分类结果总数量和第二分类结果之和的比重,确定为所述最大熵情感分类器的情感分类结果准确率。
9.根据权利要求6-8任意一项所述的装置,其特征在于,还包括:
最大熵情感分类器生成单元,用于获取所述网络平台信息中的位于所述第二预设时间之前的所有评论文本作为训练样本集;所述评论文本包括正评论文本和负评论文本;以及,针对所述训练样本集中的每个所述评论文本,进行分词处理,得到多个词特征;以及,利用所述最大熵分类算法对所述训练样本集对应的各个所述词特征进行训练,得到最大熵情感分类器。
10.一种情感分类***,其特征在于,包括:如上述权利要求6-9任意一项所述的情感分类装置和最大熵情感分类器。
CN201610480926.4A 2016-06-27 2016-06-27 一种情感分类方法、装置及*** Pending CN106202181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610480926.4A CN106202181A (zh) 2016-06-27 2016-06-27 一种情感分类方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610480926.4A CN106202181A (zh) 2016-06-27 2016-06-27 一种情感分类方法、装置及***

Publications (1)

Publication Number Publication Date
CN106202181A true CN106202181A (zh) 2016-12-07

Family

ID=57462048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610480926.4A Pending CN106202181A (zh) 2016-06-27 2016-06-27 一种情感分类方法、装置及***

Country Status (1)

Country Link
CN (1) CN106202181A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536838A (zh) * 2018-04-13 2018-09-14 重庆邮电大学 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及***
CN109191167A (zh) * 2018-07-17 2019-01-11 阿里巴巴集团控股有限公司 一种目标用户的挖掘方法和装置
CN110069777A (zh) * 2019-04-03 2019-07-30 网宿科技股份有限公司 一种客服质量审计方法及装置
WO2019218517A1 (zh) * 2018-05-16 2019-11-21 平安科技(深圳)有限公司 服务器、文本数据的处理方法及存储介质
CN111666409A (zh) * 2020-05-28 2020-09-15 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514279A (zh) * 2013-09-26 2014-01-15 苏州大学 一种句子级情感分类方法及装置
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN104199845A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于主体模型的网上评论情感分类方法
CN104809232A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于句子间情绪转移概率的句子级情绪分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514279A (zh) * 2013-09-26 2014-01-15 苏州大学 一种句子级情感分类方法及装置
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN104199845A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于主体模型的网上评论情感分类方法
CN104809232A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于句子间情绪转移概率的句子级情绪分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘欢欢 等: "中文情绪识别方法研究", 《江西师范大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及***
CN108536838A (zh) * 2018-04-13 2018-09-14 重庆邮电大学 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN108536838B (zh) * 2018-04-13 2021-10-19 重庆邮电大学 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
WO2019218517A1 (zh) * 2018-05-16 2019-11-21 平安科技(深圳)有限公司 服务器、文本数据的处理方法及存储介质
CN109191167A (zh) * 2018-07-17 2019-01-11 阿里巴巴集团控股有限公司 一种目标用户的挖掘方法和装置
CN110069777A (zh) * 2019-04-03 2019-07-30 网宿科技股份有限公司 一种客服质量审计方法及装置
CN111666409A (zh) * 2020-05-28 2020-09-15 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法
CN111666409B (zh) * 2020-05-28 2022-02-08 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法

Similar Documents

Publication Publication Date Title
CN106202181A (zh) 一种情感分类方法、装置及***
CN104731797B (zh) 一种提取关键词的方法及装置
US20190026605A1 (en) Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN105068993B (zh) 一种评估文本难度的方法
CN109344257B (zh) 文本情感识别方法及装置、电子设备、存储介质
CN103970864B (zh) 基于微博文本的情绪分类和情绪成分分析方法及***
US20200234193A1 (en) Cloud computing scoring systems and methods
JP2014509021A5 (ja) 視聴ユーザに表示する広告のためのソーシャルエンドースメント情報の選択方法および装置
CN110019782A (zh) 用于输出文本类别的方法和装置
CN106897792A (zh) 一种建筑消防风险等级预测方法及***
CN105069041A (zh) 基于视频用户性别分类的广告投放方法
CN103514279B (zh) 一种句子级情感分类方法及装置
CN108256098A (zh) 一种确定用户评论情感倾向的方法及装置
CN105893432A (zh) 视频评论分类方法、视频评论显示***以及服务器
CN103020249A (zh) 分类器的构建方法及装置、中文文本情感分类方法及***
CN109145116A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN105740434B (zh) 网络信息评分方法及装置
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN111414754A (zh) 一种事件的情感分析方法、装置、服务器及存储介质
CN109446393B (zh) 一种网络社区话题分类方法及装置
CN105955957A (zh) 一种商家总体评论中方面评分的确定方法及装置
CN107402945A (zh) 词库生成方法及装置、短文本检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication