CN105893444A - 情感分类方法及装置 - Google Patents

情感分类方法及装置 Download PDF

Info

Publication number
CN105893444A
CN105893444A CN201510938180.2A CN201510938180A CN105893444A CN 105893444 A CN105893444 A CN 105893444A CN 201510938180 A CN201510938180 A CN 201510938180A CN 105893444 A CN105893444 A CN 105893444A
Authority
CN
China
Prior art keywords
word
document
key
classification
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510938180.2A
Other languages
English (en)
Inventor
康潮明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201510938180.2A priority Critical patent/CN105893444A/zh
Priority to PCT/CN2016/088671 priority patent/WO2017101342A1/zh
Priority to US15/241,994 priority patent/US20170169008A1/en
Publication of CN105893444A publication Critical patent/CN105893444A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供了一种情感分类方法及装置,包括:获取待处理文档中的多个关键词,按照预设关联方式查找与每个所述关键词关联的至少一个关联词,利用预设情感词典确定查找的每个关键词和关联词的情感类别,统计每个情感类别对应的词语的总数量,将词语总数量最多的情感类别确定为所述待处理文档的情感类别。本公开能够通过提取文档关键词,获取情感主体关键词集合,有效的利用文档情感主体信息,忽略与待处理文档情感主体无关的噪音,通过关联规则算法,挖掘文档中与关键词关联的关联词的集合,将文档中词与词的语义结构关系利用起来,有效的提高文档情感分类的准确度。

Description

情感分类方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种情感分类方法及装置。
背景技术
随着互联网技术的普遍发展,在每部电影上映后,互联网上会产生大量的带有用户各种情感色彩或情感倾向性的新闻评论,这不仅可以给商家提供了一个关于电影舆论信息的平台,也可以为消费者提供了观影依据。
目前商家和消费者一般是通过手动搜索、浏览网络上的所有关于影片的信息,在搜索过程中还要人工筛选并甄别一些无用信息,筛选效率低、速度慢,这将浪费消费者及商家的大量时间和精力。
发明内容
为克服相关技术中存在的问题,本公开提供一种情感分类方法及装置。
根据本公开实施例的第一方面,提供一种情感分类方法,包括:
获取待处理文档中的多个关键词;
按照预设关联方式查找与每个所述关键词关联的至少一个关联词;
利用预设情感词典确定查找的每个关键词和关联词的情感类别;
统计每个情感类别对应的词语的总数量;
将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
可选地,所述按照预设关联方式查找与每个所述关键词关联的至少一个关联词,包括:
获取待处理文档中所有词语的词性;
将所有词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
判断删除后的词语中是否存在满足关联规则的词语对;
当存在满足关联规则的词语对时,判断是否存在包含任意一个所述关键词的词语对;
当存在包含任意一个所述关键词的词语对时,将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。
可选地,所述方法还包括:
将获取的多个训练文档转化成目标格式;
利用目标格式的训练文档训练词向量模型;
获取属于不同情感类别的预设数量个种子词;
根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词;
选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词;
根据所有属于不同情感类别的所述候选词构建所述情感词典。
可选地,所述获取待处理文档中的多个关键词,包括:
获取待处理文档中重要程度大于预设重要程度的关键词;
或者,获取用户输入的关键词。
可选地,所述获取待处理文档中重要程度大于预设重要程度的关键词,包括:
将待处理文档中所有词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
计算每个词语的词频;
计算每个词语的逆文档频率;
根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。
根据本公开实施例的第二方面,提供一种情感分类装置,包括:
第一获取模块,用于获取待处理文档中的多个关键词;
查找模块,用于按照预设关联方式查找与每个所述关键词关联的至少一个关联词;
第一确定模块,用于利用预设情感词典确定查找的每个关键词和关联词的情感类别;
统计模块,用于统计每个情感类别对应的词语的总数量;
第二确定模块,用于将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
可选地,所述查找模块包括:
第一获取子模块,用于获取待处理文档中所有词语的词性;
删除子模块,用于将所有词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
第一判断子模块,用于判断删除后的词语中是否存在满足关联规则的词语对;
第二判断子模块,用于当存在满足关联规则的词语对时,判断是否存在包含任意一个所述关键词的词语对;
确定子模块,用于当存在包含任意一个所述关键词的词语对时,将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。
可选地,所述装置还包括:
转化模块,用于将获取的多个训练文档转化成目标格式;
训练模块,用于利用目标格式的训练文档训练词向量模型;
第二获取模块,用于获取属于不同情感类别的预设数量个种子词;
计算模块,用于根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词;
选取模块,用于选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词;
构建模块,用于根据所有属于不同情感类别的所述候选词构建所述情感词典。
可选地,所述第一获取模块包括:
第二获取子模块,用于获取待处理文档中重要程度大于预设重要程度的关键词;
或者,第三获取子模块,用于获取用户输入的关键词。
可选地,所述第二获取子模块包括:
删除单元,用于将待处理文档中所有词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
第一计算单元,用于计算每个词语的词频;
第二计算单元,用于计算每个词语的逆文档频率;
确定单元,用于根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开通过获取待处理文档中的多个关键词,按照预设关联方式查找与每个所述关键词关联的至少一个关联词,利用预设情感词典确定查找的每个关键词和关联词的情感类别,统计每个情感类别对应的词语的总数量,可以将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
本公开提供的该方法,能够通过提取文档关键词,获取情感主体关键词集合,有效的利用文档情感主体信息,忽略与待处理文档情感主体无关的噪音,通过关联规则算法,挖掘文档中与关键词关联的关联词的集合,将文档中词与词的语义结构关系利用起来,有效的提高文档情感分类的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种情感分类方法的流程图;
图2是图1中步骤S102的流程图;
图3是根据一示例性实施例示出的一种情感分类方法的另一种流程图;
图4是图1中步骤S101的流程图;
图5是根据一示例性实施例示出的一种情感分类装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了能够根据文档的情感主题对文档进行情感分类,如图1所示,在本公开的一个实施例中,提供一种情感分类方法,包括以下步骤。
在步骤S101中,获取待处理文档中的多个关键词。
在实际应用中,如果某个词语在某篇文本中出现次数越多,则这个词语可能对该文本越重要,出现次数通过词频(Term Frequency,缩写为TF)统计得到。但是对于所有文本来说,某个词出现的次越多,该词语对所有文本越没有区分性,反而越不重要,因此,需要找到一个权重系数,衡量该词的重要性。如果一个词不常见,但是它在该文本中多次出现,那么它在一定程度上体现了该文本的特性,即可以作为关键词,可以使用逆档频率(Inverse Document Frequency,缩写为IDF)作为权重系数,将词频(TF)和逆文档频率(IDF)这两个值相乘,就得到了一个词的TF-IDF值,某个词的TF-IDF值越大,则该词对文章的重要性越高,本公开实施例对一部电影下的所有新闻,计算其所有词语的TF-IDF值,通过设置一个阈值,构成一个关键词集合K。
在该步骤中,可以在待处理文档中提取多个出现频率最高得到多个关键词,也可以在待处理文档中提取最重要的多个关键词,还可以获取用户输入的多个关键词。
在步骤S102中,按照预设关联方式查找与每个所述关键词关联的至少一个关联词。
在本公开实施例中,预设关联方式可以指Apriori关联规则算法,关联词可以指与关键词关联的词语,关联是指支持度和置信度大于等于给定的最小支持度阈值和最小置信度阈值。
在该步骤中,可以利用Apriori关联规则算法在待处理文档中查找与关键词关联的至少一个关联词。
在步骤S103中,利用预设情感词典确定查找的每个关键词和关联词的情感类别。
在本公开实施例中,预设情感词典中的词语可以分为三个情感类别,正面情感类别、中性情感类别和负面情感类别,例如:喜欢、好、优秀、经典和爱不释手等可以为正面情感类别的词语,一般、不好不坏等可以为中性情感类别的词语,无聊、差、乏味等可以为负面情感类别的词语等。
在该步骤中,可以将每个关键词和关联词分别于预设情感词典中的所有词语进行对比,若当前关键词或者是关联词与预设情感词典中的任意一个词语相同,则可以将当前关键词或者关联词的情感类别确定为该预设情感词典中的词语所属的情感类别。
在步骤S104中,统计每个情感类别对应的词语的总数量。
在该步骤中,可以针对每个情感类别设置一个情感变量,例如:countP、countM和countN,在每检测到任何一个与预设情感词典中的词语相同的关键词或者关联词时,可以根据当前关键词或者关联词所属的情感类别对情感变量加1。
在步骤S105中,将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
在该步骤中,可以通过将每个情感类别对应的情感变量进行对比,将情感变量最大的情感类别确定为待处理文档的情感类别。
本公开实施例提供的该方法,能够通过提取文档关键词,获取情感主体关键词集合,有效的利用文档情感主体信息,忽略与待处理文档情感主体无关的噪音,通过关联规则算法,挖掘文档中与关键词关联的关联词的集合,将文档中词与词的语义结构关系利用起来,有效的提高文档情感分类的准确度。
如图2所示,在本公开的又一实施例中,所述步骤S102包括以下步骤。
在步骤S201中,获取待处理文档中所有词语的词性。
在本公开实施例中,词性可以指名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词等。
在该步骤中,可以将待处理文档按照标点符号进行切分,得到包含n个句子的集合S={s1,s2,...,sn},对每个句子si(1≤i≤n)进行分词,对每个词语进行词性标注,然后获取所有词语的词性。
在步骤S202中,将所有词性为预设词性的词语,以及,位于预设黑名单中的词语删除。
在本公开实施例中,预设词性可以指叹词、介词、拟声词和数量词等,预设黑名单可以指预先设定的与文档的情感分类过程无关的词语等。
在该步骤中,可以将词性为预设词性的词语,以及与黑名单中的词语相同的词语进行删除,得到包含n个词语的集合W,W={w1,w2,...,wn}。
在步骤S203中,判断删除后的词语中是否存在满足关联规则的词语对。
对W中的每个元素wi(1≤i≤n),分别计算任意两个词语wordA、wordB构成的词语对的支持度和置信度。计算支持度,即A与B的联合概率。计算公式如下:
P(A,B)=count(A∩B)/(count(A)+count(B))
其中,count(A∩B)表示A和B同时出现的频次,count(A)表示A出现的频次,count(B)表示B出现的频次,将支持度P(A,B)大于等于预先设定最小支持度阈值的(A,B)词语对作为频繁项集,计算置信度,即在A发生条件下B发生的概率,计算公式如下:
P(B|A)=P(A,B)/P(A)
其中,P(A,B)为上一步计算得到的支持度,P(A)为A发生的概率,获取关联项集,在前述得到的频繁项集中,将满足置信度P(B|A)大于预先设定最小置信度阈值的词语对(wordA,wordB)加入到关联项集合C中。
当存在满足关联规则的词语对时,在步骤S204中,判断是否存在包含任意一个所述关键词的词语对。
在该步骤中,可以对关联项集合C进行过滤,判断集合C中每个词语对里面的两个词语,是否包含前面提取的关键词集合K中的元素,如果不是,则将该词语对从集合C中去掉。集合C最后剩下元组组成的集合记作D。
当存在包含任意一个所述关键词的词语对时,在步骤S205中,将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。
本公开实施例提供的该方法,能够利用关联规则自动查找与关键词关联的关联词,方法简单且高效、计算量小。
如图3所示,在本公开的又一实施例中,所述方法还包括以下步骤。
在步骤S301中,将获取的多个训练文档转化成目标格式。
在该步骤中,可以将从网上搜集的大量文本,作为训练文档,将训练文档处理成word2vec工具要求的输入格式。word2vec是一款将词表征为实数值向量的工具,其利用深度学习的思想,将每个词映射成K维实数向量(K一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。
在步骤S302中,利用目标格式的训练文档训练词向量模型。
在步骤S303中,获取属于不同情感类别的预设数量个种子词。
在该步骤之前,可以通过人工等的方式,搜集一些情感词语作为种子词。
在步骤S304中,根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词。
在步骤S305中,选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词。
例如,可以选取相似度最大的前5个相似词作为候选词,然后以选取的5个候选词作为种子词,重复步骤S304和步骤S305,可以迭代3次,选取迭代后的每个情感类别下的一定数量的相似词,例如15个,作为不同情感类别下的候选词。
在步骤S306中,根据所有属于不同情感类别的所述候选词构建所述情感词典。
在该步骤中,可以将每个情感类别下的所有候选词分别构建成对应的子情感词典,例如:正面词典P、中性词典M和负面词典N等,这些子情感词典构成完整的情感词典。
本公开实施例提供的该方法,能够利用大量的训练文本作为训练素材,不断根据种子词生成相似词,并选取相似度最高的相似词作为候选词构建情感词典,构建的词典应用面更广,更适宜大数据条件下作为情感分类的依据。
在本公开的又一实施例中,所述步骤S101包括以下步骤。
在步骤S401中,获取待处理文档中重要程度大于预设重要程度的关键词。
在该步骤中,可以通过计算词语在待处理文档中出现的次数也就是词频,来判断词语在待处理文档中的重要程度。
或者,在步骤S402中,获取用户输入的关键词。
在该步骤中,用户可以自定义一些关键词,比如,用户想要看与关于特定关键词的文章的情感分类,如:用户输入的关键词是导演A,那么可以将导演A作为待处理文档的关键词等。
本公开实施例提供的该方法,能够提取文档的关键词,以便能够根据提取的关键词确定文档的情感分类。
如图4所示,在本公开的又一实施例中,所述步骤S401包括以下步骤。
在步骤S501中,将待处理文档中所有词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除。
在步骤S502中,计算每个词语的词频。
在该步骤中,词频(TF)=某个词语在待处理文档中出现的次数/待处理文档的总词数,词频可以取商的整数部分,并且这里由于片文本的长度不一,除以文本总词数是为了将词频进行标准化。
在步骤S503中,计算每个词语的逆文档频率。
逆文档频率(IDF)=log(文本总数/(包含该词的文本数+1)),如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。
在步骤S504中,根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。
在该步骤中,TF-IDF=词频(TF)*逆文档频率(IDF),在这里可以设置一个阈值a=0.7,当TF-IDF>a时,则将词加入关键词集合K中,集合K中每个元素可以由关键词语本身和该词语的TF-IDF值<keyword,score>组成,其中,keyword表示关键词,score表示TF-IDF值。
本公开实施例提供的该方法,可以根据逆文档频率及词频计算每个词语在待处理文档中的重要程度,计算量小,结果准确。
如图5所示,在本公开的又一实施例中,提供一种情感分类装置,包括:第一获取模块601、查找模块602、第一确定模块603、统计模块604和第二确定模块605。
第一获取模块601,用于获取待处理文档中的多个关键词。
查找模块602,用于按照预设关联方式查找与每个所述关键词关联的至少一个关联词。
第一确定模块603,用于利用预设情感词典确定查找的每个关键词和关联词的情感类别。
统计模块604,用于统计每个情感类别对应的词语的总数量。
第二确定模块605,用于将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
在本公开的又一实施例中,所述查找模块包括:第一获取子模块、删除子模块、第一判断子模块、第二判断子模块和确定子模块。
第一获取子模块,用于获取待处理文档中所有词语的词性。
删除子模块,用于将所有词性为预设词性的词语,以及,位于预设黑名单中的词语删除。
第一判断子模块,用于判断删除后的词语中是否存在满足关联规则的词语对。
第二判断子模块,用于当存在满足关联规则的词语对时,判断是否存在包含任意一个所述关键词的词语对。
确定子模块,用于当存在包含任意一个所述关键词的词语对时,将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。
在本公开的又一实施例中,所述装置还包括:转化模块、训练模块、第二获取模块、计算模块、选取模块和构建模块。
转化模块,用于将获取的多个训练文档转化成目标格式。
训练模块,用于利用目标格式的训练文档训练词向量模型。
第二获取模块,用于获取属于不同情感类别的预设数量个种子词。
计算模块,用于根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词。
选取模块,用于选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词。
构建模块,用于根据所有属于不同情感类别的所述候选词构建所述情感词典。
在本公开的又一实施例中,所述第一获取模块包括:第二获取子模块或第三获取子模块。
第二获取子模块,用于获取待处理文档中重要程度大于预设重要程度的关键词。
或者,第三获取子模块,用于获取用户输入的关键词。
在本公开的又一实施例中,所述第二获取子模块包括:删除单元、第一计算单元、第二计算单元和确定单元。
删除单元,用于将待处理文档中所有词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除。
第一计算单元,用于计算每个词语的词频。
第二计算单元,用于计算每个词语的逆文档频率。
确定单元,用于根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种情感分类方法,其特征在于,包括:
获取待处理文档中的多个关键词;
按照预设关联方式查找与每个所述关键词关联的至少一个关联词;
利用预设情感词典确定查找的每个关键词和关联词的情感类别;
统计每个情感类别对应的词语的总数量;
将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
2.根据权利要求1所述的情感分类方法,其特征在于,所述按照预设关联方式查找与每个所述关键词关联的至少一个关联词,包括:
获取待处理文档中所有词语的词性;
将所有词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
判断删除后的词语中是否存在满足关联规则的词语对;
当存在满足关联规则的词语对时,判断是否存在包含任意一个所述关键词的词语对;
当存在包含任意一个所述关键词的词语对时,将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。
3.根据权利要求1所述的情感分类方法,其特征在于,所述方法还包括:
将获取的多个训练文档转化成目标格式;
利用目标格式的训练文档训练词向量模型;
获取属于不同情感类别的预设数量个种子词;
根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词;
选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词;
根据所有属于不同情感类别的所述候选词构建所述情感词典。
4.根据权利要求1所述的情感分类方法,其特征在于,所述获取待处理文档中的多个关键词,包括:
获取待处理文档中重要程度大于预设重要程度的关键词;
或者,获取用户输入的关键词。
5.根据权利要求4所述的情感分类方法,其特征在于,所述获取待处理文档中重要程度大于预设重要程度的关键词,包括:
将待处理文档中所有词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
计算每个词语的词频;
计算每个词语的逆文档频率;
根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。
6.一种情感分类装置,其特征在于,包括:
第一获取模块,用于获取待处理文档中的多个关键词;
查找模块,用于按照预设关联方式查找与每个所述关键词关联的至少一个关联词;
第一确定模块,用于利用预设情感词典确定查找的每个关键词和关联词的情感类别;
统计模块,用于统计每个情感类别对应的词语的总数量;
第二确定模块,用于将词语总数量最多的情感类别确定为所述待处理文档的情感类别。
7.根据权利要求6所述的情感分类装置,其特征在于,所述查找模块包括:
第一获取子模块,用于获取待处理文档中所有词语的词性;
删除子模块,用于将所有词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
第一判断子模块,用于判断删除后的词语中是否存在满足关联规则的词语对;
第二判断子模块,用于当存在满足关联规则的词语对时,判断是否存在包含任意一个所述关键词的词语对;
确定子模块,用于当存在包含任意一个所述关键词的词语对时,将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。
8.根据权利要求6所述的情感分类装置,其特征在于,所述装置还包括:
转化模块,用于将获取的多个训练文档转化成目标格式;
训练模块,用于利用目标格式的训练文档训练词向量模型;
第二获取模块,用于获取属于不同情感类别的预设数量个种子词;
计算模块,用于根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词;
选取模块,用于选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词;
构建模块,用于根据所有属于不同情感类别的所述候选词构建所述情感词典。
9.根据权利要求6所述的情感分类装置,其特征在于,所述第一获取模块包括:
第二获取子模块,用于获取待处理文档中重要程度大于预设重要程度的关键词;
或者,第三获取子模块,用于获取用户输入的关键词。
10.根据权利要求9所述的情感分类装置,其特征在于,所述第二获取子模块包括:
删除单元,用于将待处理文档中所有词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
第一计算单元,用于计算每个词语的词频;
第二计算单元,用于计算每个词语的逆文档频率;
确定单元,用于根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。
CN201510938180.2A 2015-12-15 2015-12-15 情感分类方法及装置 Pending CN105893444A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510938180.2A CN105893444A (zh) 2015-12-15 2015-12-15 情感分类方法及装置
PCT/CN2016/088671 WO2017101342A1 (zh) 2015-12-15 2016-07-05 情感分类方法及装置
US15/241,994 US20170169008A1 (en) 2015-12-15 2016-08-19 Method and electronic device for sentiment classification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510938180.2A CN105893444A (zh) 2015-12-15 2015-12-15 情感分类方法及装置

Publications (1)

Publication Number Publication Date
CN105893444A true CN105893444A (zh) 2016-08-24

Family

ID=57002606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510938180.2A Pending CN105893444A (zh) 2015-12-15 2015-12-15 情感分类方法及装置

Country Status (2)

Country Link
CN (1) CN105893444A (zh)
WO (1) WO2017101342A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN106649662A (zh) * 2016-12-13 2017-05-10 成都数联铭品科技有限公司 一种领域词典的构建方法
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106802918A (zh) * 2016-12-13 2017-06-06 成都数联铭品科技有限公司 用于自然语言处理的领域词典生成***
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN107967258A (zh) * 2017-11-23 2018-04-27 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和***
CN109002473A (zh) * 2018-06-13 2018-12-14 天津大学 一种基于词向量与词性的情感分析方法
CN109325124A (zh) * 2018-09-30 2019-02-12 武汉斗鱼网络科技有限公司 一种情感分类方法、装置、服务器和存储介质
CN109508456A (zh) * 2018-10-22 2019-03-22 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109740156A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质
CN109800326A (zh) * 2019-01-24 2019-05-24 广州虎牙信息科技有限公司 一种视频处理方法、装置、设备和存储介质
CN110084563A (zh) * 2019-04-18 2019-08-02 常熟市中拓互联电子商务有限公司 基于深度学习的oa协同办公方法、装置及服务器
CN111143569A (zh) * 2019-12-31 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111427880A (zh) * 2020-03-26 2020-07-17 中国工商银行股份有限公司 数据处理的方法、装置、计算设备以及介质
CN111767403A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112328788A (zh) * 2020-11-04 2021-02-05 上海豹云网络信息服务有限公司 一种文章的分类方法、装置及计算机***
CN112580348A (zh) * 2020-12-15 2021-03-30 国家工业信息安全发展研究中心 政策文本关联性分析方法及***
CN116775874A (zh) * 2023-06-21 2023-09-19 六晟信息科技(杭州)有限公司 一种基于多重语义信息的资讯智能分类方法及***

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325119B (zh) * 2018-09-05 2024-03-15 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109145306A (zh) * 2018-09-11 2019-01-04 刘瑞军 文本驱动的三维表情生成方法
CN110941638B (zh) * 2018-09-21 2023-09-08 武汉安天信息技术有限责任公司 应用分类规则库构建方法、应用分类方法及装置
CN109614608A (zh) * 2018-10-26 2019-04-12 平安科技(深圳)有限公司 电子装置、文本信息检测方法及存储介质
CN109492105B (zh) * 2018-11-10 2022-11-15 上海五节数据科技有限公司 一种基于多特征集成学习的文本情感分类方法
CN111191445B (zh) * 2018-11-15 2024-04-19 京东科技控股股份有限公司 广告文本分类方法及装置
CN109684636B (zh) * 2018-12-20 2023-02-14 郑州轻工业学院 一种基于深度学习的用户情感分析方法
CN111723198B (zh) * 2019-03-18 2023-09-01 北京汇钧科技有限公司 一种文本情绪识别方法、装置及存储介质
CN110032736A (zh) * 2019-03-22 2019-07-19 深兰科技(上海)有限公司 一种文本分析方法、装置及存储介质
CN110083837B (zh) * 2019-04-26 2023-11-24 科大讯飞股份有限公司 一种关键词生成方法及装置
CN112052306B (zh) * 2019-06-06 2023-11-03 北京京东振世信息技术有限公司 识别数据的方法和装置
CN110263171B (zh) * 2019-06-25 2023-07-18 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN112528073A (zh) * 2019-09-03 2021-03-19 北京国双科技有限公司 视频生成方法及装置
CN112667826A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种篇章去噪方法、装置、***及存储介质
CN111209737B (zh) * 2019-12-30 2022-09-13 厦门市美亚柏科信息股份有限公司 噪声文档的筛除方法及计算机可读存储介质
CN111325037B (zh) * 2020-03-05 2022-03-29 苏宁云计算有限公司 文本意图识别方法、装置、计算机设备和存储介质
CN111666171A (zh) * 2020-06-04 2020-09-15 中国工商银行股份有限公司 故障识别方法及装置、电子设备和可读存储介质
CN111737976B (zh) * 2020-06-22 2024-06-04 黄河勘测规划设计研究院有限公司 一种旱灾风险预测方法及***
CN111694961A (zh) * 2020-06-23 2020-09-22 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词语义分类方法与***
CN112182207B (zh) * 2020-09-16 2023-07-11 神州数码信息***有限公司 基于关键词提取和快速文本分类的***虚抵风险评估方法
CN112199926B (zh) * 2020-10-16 2024-05-10 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112765348B (zh) * 2021-01-08 2023-04-07 重庆创通联智物联网有限公司 一种短文本分类模型训练方法、装置
CN112836070A (zh) * 2021-02-02 2021-05-25 山东寻声网络科技有限公司 一种nlp技术在数据分析中的应用
CN114281983B (zh) * 2021-04-05 2024-04-12 北京智慧星光信息技术有限公司 分层结构的文本分类方法、***、电子设备和存储介质
CN113743802A (zh) * 2021-09-08 2021-12-03 平安信托有限责任公司 工单智能匹配方法、装置、电子设备及可读存储介质
CN115587185B (zh) * 2022-11-25 2023-03-14 平安科技(深圳)有限公司 文本分类方法、装置、电子设备及存储介质
CN115809312B (zh) * 2023-02-02 2023-04-07 量子数科科技有限公司 一种基于多路召回的搜索召回方法
CN116756324B (zh) * 2023-08-14 2023-10-27 北京分音塔科技有限公司 基于庭审音频的关联度挖掘方法、装置、设备及存储介质
CN117575171B (zh) * 2024-01-09 2024-04-05 湖南工商大学 一种基于数据分析的粮食形势智能评估***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069589A1 (en) * 2004-09-30 2006-03-30 Nigam Kamal P Topical sentiments in electronically stored communications
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102385579A (zh) * 2010-08-30 2012-03-21 腾讯科技(深圳)有限公司 互联网信息分类方法和***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849649B2 (en) * 2009-12-24 2014-09-30 Metavana, Inc. System and method for determining sentiment expressed in documents
CN103593454A (zh) * 2013-11-21 2014-02-19 中国科学院深圳先进技术研究院 面向微博文本分类的挖掘方法及***
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069589A1 (en) * 2004-09-30 2006-03-30 Nigam Kamal P Topical sentiments in electronically stored communications
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102385579A (zh) * 2010-08-30 2012-03-21 腾讯科技(深圳)有限公司 互联网信息分类方法和***

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106649662A (zh) * 2016-12-13 2017-05-10 成都数联铭品科技有限公司 一种领域词典的构建方法
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN106802918A (zh) * 2016-12-13 2017-06-06 成都数联铭品科技有限公司 用于自然语言处理的领域词典生成***
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN107967258A (zh) * 2017-11-23 2018-04-27 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和***
CN107967258B (zh) * 2017-11-23 2021-09-17 广州艾媒数聚信息咨询股份有限公司 文本信息的情感分析方法和***
CN109002473A (zh) * 2018-06-13 2018-12-14 天津大学 一种基于词向量与词性的情感分析方法
CN109002473B (zh) * 2018-06-13 2022-02-11 天津大学 一种基于词向量与词性的情感分析方法
CN109325124A (zh) * 2018-09-30 2019-02-12 武汉斗鱼网络科技有限公司 一种情感分类方法、装置、服务器和存储介质
CN109325124B (zh) * 2018-09-30 2020-10-16 武汉斗鱼网络科技有限公司 一种情感分类方法、装置、服务器和存储介质
CN109508456B (zh) * 2018-10-22 2023-04-18 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109508456A (zh) * 2018-10-22 2019-03-22 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109740156B (zh) * 2018-12-28 2023-08-04 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质
CN109740156A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质
CN109800326B (zh) * 2019-01-24 2021-07-02 广州虎牙信息科技有限公司 一种视频处理方法、装置、设备和存储介质
CN109800326A (zh) * 2019-01-24 2019-05-24 广州虎牙信息科技有限公司 一种视频处理方法、装置、设备和存储介质
CN110084563A (zh) * 2019-04-18 2019-08-02 常熟市中拓互联电子商务有限公司 基于深度学习的oa协同办公方法、装置及服务器
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111143569A (zh) * 2019-12-31 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111427880A (zh) * 2020-03-26 2020-07-17 中国工商银行股份有限公司 数据处理的方法、装置、计算设备以及介质
CN111427880B (zh) * 2020-03-26 2023-09-05 中国工商银行股份有限公司 数据处理的方法、装置、计算设备以及介质
CN111767403A (zh) * 2020-07-07 2020-10-13 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN111767403B (zh) * 2020-07-07 2023-10-31 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112328788A (zh) * 2020-11-04 2021-02-05 上海豹云网络信息服务有限公司 一种文章的分类方法、装置及计算机***
CN112580348A (zh) * 2020-12-15 2021-03-30 国家工业信息安全发展研究中心 政策文本关联性分析方法及***
CN112580348B (zh) * 2020-12-15 2024-05-28 国家工业信息安全发展研究中心 政策文本关联性分析方法及***
CN116775874A (zh) * 2023-06-21 2023-09-19 六晟信息科技(杭州)有限公司 一种基于多重语义信息的资讯智能分类方法及***
CN116775874B (zh) * 2023-06-21 2023-12-12 六晟信息科技(杭州)有限公司 一种基于多重语义信息的资讯智能分类方法及***

Also Published As

Publication number Publication date
WO2017101342A1 (zh) 2017-06-22

Similar Documents

Publication Publication Date Title
CN105893444A (zh) 情感分类方法及装置
US8402036B2 (en) Phrase based snippet generation
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN109508414B (zh) 一种同义词挖掘方法及装置
US20170169008A1 (en) Method and electronic device for sentiment classification
CN110516067A (zh) 基于话题检测的舆情监控方法、***及存储介质
Varma et al. IIIT Hyderabad at TAC 2009.
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
CN108073571B (zh) 一种多语言文本质量评估方法及***、智能文本处理***
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎***与方法
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
Oramas et al. A semantic-based approach for artist similarity
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
Rudrapal et al. A Survey on Automatic Twitter Event Summarization.
CN104346382B (zh) 使用语言查询的文本分析***和方法
CN107168953A (zh) 海量文本中基于词向量表征的新词发现方法及***
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
CN108388556A (zh) 同类实体的挖掘方法及***
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN111858850A (zh) 一种在智能客服上实现问答的精确和快速评分的方法
CN103984731A (zh) 微博环境下自适应话题追踪方法和装置
JP5364010B2 (ja) 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160824

WD01 Invention patent application deemed withdrawn after publication