CN105608130A - 获得情感词知识库的方法、装置及终端 - Google Patents

获得情感词知识库的方法、装置及终端 Download PDF

Info

Publication number
CN105608130A
CN105608130A CN201510946064.5A CN201510946064A CN105608130A CN 105608130 A CN105608130 A CN 105608130A CN 201510946064 A CN201510946064 A CN 201510946064A CN 105608130 A CN105608130 A CN 105608130A
Authority
CN
China
Prior art keywords
word
seed
comment
emotion
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510946064.5A
Other languages
English (en)
Inventor
汪平仄
张涛
龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Technology Co Ltd
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510946064.5A priority Critical patent/CN105608130A/zh
Publication of CN105608130A publication Critical patent/CN105608130A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种获得情感词知识库的方法、装置及终端,该方法包括:确定种子词集合及种子词集合中种子词的情感属性;根据种子词集合进行评论语料筛选,获得语料集合;在语料集合中提取与种子词关联的评论词并统计评论词的词频;根据评论词的词频及与评论词关联的种子词的情感属性,确定评论词中是否存在情感词;若评论词中存在情感词,则将评论词按照其情感属性对应加入种子词集合更新种子词集合,利用更新后的种子词集合迭代执行进行评论语料筛选的步骤,直至确定评论词中不存在情感词,迭代结束;将迭代结束后获得的更新的种子词集合确定为情感词知识库。该方法无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。

Description

获得情感词知识库的方法、装置及终端
技术领域
本公开涉及信息处理技术领域,尤其涉及一种获得情感词知识库的方法、装置及终端。
背景技术
随着互联网的发展,越来越多的人选择在网上购买商品,这使得网上购物成为未来购物的一个新趋势。
为了便于新用户了解网上所销售物品的客户反馈情况,网上商城通常在商品展示页面会显示已购买用户的一些评价内容,这样当用户在网上购买物品后,会对购物过程、商品使用情况以及商家服务等作出留言评价,这些留言评价有正面的也有有负面的,五花八门,参差不齐。
这使得新用户在购买前想通过这些留言评价对商品作出一些判断时,需要翻阅大量的评价内容,需要花费较多的时间才能看完全部评论,尤其是对于一些上万留言评价的商品,常常只能简单浏览部分留言评价,这常常导致只能得到商品的片面信息。
发明内容
为克服相关技术中存在的问题,本公开提供一种获得情感词知识库的方法、装置及终端。
根据本公开实施例的第一方面,提供一种获得情感词知识库的方法,包括:
确定种子词集合及所述种子词集合中种子词的情感属性;
根据所述种子词集合进行评论语料筛选,获得语料集合;
在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
将迭代结束后获得的更新的种子词集合确定为情感词知识库。
本公开实施例提供的该方法,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
可选地,所述在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频,包括:
在所述语料集合中提取出现次数大于预设次数阈值的候选词;
当所述候选词不在所述种子词集合中时,,确定所述候选词为所述评论词;
分别统计所述种子词集合中各种子词与所述评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
本公开实施例提供的该方法,首先选择出现次数大于预设次数阈值的候选词,然后,在候选词中剔除种子词,得到评论词,这些评论词有大可能为情感词,最后,每个种子词与评论词出现在语料集合中同一条语料中的频率,作为该评论词的词频。以便后续可以利用该词频准确确定该评论词是否为情感词,以及为情感词时的情感属性。
可选地,所述根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词,包括:
根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
本公开实施例提供的该方法,可以通过统计评论词和不同种子词同时出现的词频,并且将所述不同情感属性的种子词对应的词频与预设条件进行比较,当预设条件满足时,就可以确定该评论词为敏感词。
可选地,所述当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词,包括:
当所述不同情感属性的种子词对应的词频中,最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
可选地,所述方法还包括:
将所述最大词频对应的情感属性作为所述评论词的情感属性。
可选地,所述确定种子词集合及所述种子词集合中种子词的情感属性,包括:
确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。
当将所述不同情感属性的种子词对应的词频与预设条件进行比较,且预设条件满足时,就可以确定该评论词为敏感词,所以,在本公开实施例中,可以将最大词频对应的种子词的情感属性作为该评论词的情感属性。
可选地,所述根据所述种子词集合进行评论语料筛选,获得语料集合,包括:
根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。
可选地,所述情感属性包括:
正面、负面、中性。
根据本公开实施例的第二方面,提供一种获得情感词知识库的装置,包括:
种子词确定模块,用于确定种子词集合及所述种子词集合中种子词的情感属性;
语料筛选模块,用于根据所述种子词确定模块确定的种子词集合进行评论语料筛选,获得所述语料集合;
评论词提取模块,用于在所述筛选模块筛选出的语料集合中提取与所述种子词关联的评论词;
词频统计模块,用于统计所述提取模块提取得到的评论词的词频;
情感词确定模块,用于根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
种子词更新模块,用于当所述情感词确定模块确定评论词中存在情感词时,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合;
所述语料筛选模块,还用于利用所述种子词更新模块更新后的种子词集合迭代进行评论语料筛选,且直至确定所述评论词中不存在情感词,迭代结束;
情感词知识库确定模块,用于将迭代结束后所述种子词更新模块获得的更新的种子词集合确定为情感词知识库。
可选地,所述评论词提取模块,包括:
提取子模块,用于在所述语料集合中提取出现次数大于预设次数阈值的候选评论词;
评论词判断子模块,用于判断所述候选词是否在所述种子词集合中;
评论词确定子模块,用于当所述评论词判断模块的判断结果为候选词不在所述种子词集合中时,确定所述候选评论词为所述评论词;
所述词频统计模块,包括:
第一统计子模块,用于分别统计所述种子词集合中各种子词与所述评论词确定子模块确定出的评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
可选地,所述情感词确定模块,包括:
第二统计子模块,用于根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
情感词确定子模块,用于当所述第二统计子模块统计得到的不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
可选地,所述情感词确定子模块,包括:
比例计算子模块,用于当所述不同情感属性的种子词对应的词频中,计算最大词频与第二大词频之间的比例;
比例判断子模块,用于判断将所述此批计算子模块计算得到的比例是否大于比例阈值;
第一确定子模块,用于当所述比例判断模块的判断结果为最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
可选地,所述装置还包括:
情感属性确定模块,用于将所述最大词频对应的情感属性作为所述评论词的情感属性。
可选地,所述种子词确定模块,包括:
种子词确定子模块,用于确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。
可选地,所述语料筛选模块,包括:
语料筛选子模块,用于根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。
可选地,所述情感属性包括:
正面、负面、中性。
根据本公开实施例提供的第三方面,提供了一种终端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定种子词集合及所述种子词集合中种子词的情感属性;
根据所述种子词集合进行评论语料筛选,获得语料集合;
在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
将迭代结束后获得的更新的种子词集合确定为情感词知识库。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的该方法,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
该方法在应用时,在少量已知情感属性的种子词的基础上,对评论语料中的词语和这些种子词之间的关联关系进行分析,进而找到这些评论语料中可以挖掘出情感属性的情感词,然后将查找到的情感词加入到种子词结合中,继续对评论语料中的情感词进行挖掘,最终得到一个数量较大的情感词知识库。随着评论语料的增加,该方法可以自动查找到准确的情感词,并扩大情感词知识库,因此,该方法无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种获得情感词知识库的方法的流程图;
图2为图1中步骤S103的流程示意图;
图3为图1中步骤S104的流程示意图;
图4是根据一示例性实施例示出的另一种获得情感词知识库的方法的流程图;
图5是根据一示例性实施例示出的一种获得情感词知识库的装置的结构示意图;
图6为图5中评论词提取模块13的结构示意图;
图7为图5中情感确定模块15的结构示意图;
图8为图7中情感词确定子模块152的结构示意图;
图9为本公开实施例提供的一种终端的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种获得情感词知识库的方法的流程图。该方法可以应用于服务器中,例如:购物网站的服务器中,或者,企业内部员工评价的服务器中,如图1所示,该方法可以包括以下步骤。
在步骤S101中,确定种子词集合及所述种子词集合中种子词的情感属性。
种子词集合中包含有至少一个种子词,在本公开实施例中,种子词集合可以用集合S来表示,每个种子词为集合S中的一个元素Si。
种子词是指已知情感属性的词语,例如:以三档情感属性为例:分别为正面、负面和中性,其中,“质量好”的情感属性为正面,“还可以”的情感属性为中性,“上当了”的情感属性为负面。在其它实施例中,还可以根据需要设置两档(好和坏)、四挡(A级、B级、C级和D极)或四档以上,在本公开实施例中,对此不作限定。
在具体实施方式中,种子词集合以及该集合内种子词的情感属性,可以直接从预设词库获取,例如:针对刚上线的网上商城,可以从同类网上商城服务器中查找,也可以从第三方开发公司购买。当然,技术人员还可以利用预设算法生成种子词,并确定种子词的情感属性,最终得到种子词。例如:对字典内词语的词义进行分析,确定该词的情感属性,这种利用预设算法生成的种子词通常为非常典型的词语,数量较少。
另外,根据领域不同,可以分别确定不同领域的种子词集合以及集合中种子词的情感属性。在本公开以实施例中,该步骤可以确定指定领域的种子词集合以及集合中种子词的情感属性。
在步骤S102中,根据所述种子词集合进行评论语料筛选,获得语料集合。
评论语料是指用户输入的评论内容,以购物网站为例,对于某一款商品而言,评论语料可以为购买用户输入的使用心得,对于店铺而言,评论语料可以为用户对该店铺的服务或商品的评价;以企业内部员工评价***为例,评论语料可以为公司员工对某一领导的工作进行的评价。
在本公开实施例中,在对评论语料筛选时,可以利用预设词库对一条评论语料中的文字进行分词,得到包含多个词语的词组,然后利用种子词集合内的所有种子词和该词组内的所有词语进行匹配,当该词组内包含有一个或一个以上的种子词,就将该条评论语料加入语料集合中。例如:某手机的一条评论语料为:
“很小巧,很轻薄,***使用起来相当流畅,边缘触控习惯之后的确蛮方便的”。
其中,按照通常汉字的词库,可以将上述评论语料分词后得到如下词组:
{很,小巧,很轻薄,***,使用,起来,相当,流畅,边缘,触控,习惯,之后,的确,蛮、方便,的}。
在具体应用中,可以将种子词集合中的所有种子词都加入到预设词库中,这样即使对于一些生僻词组的种子词,在分词时,也能够从评论语料中找到对应的词语。
以前述评论语料为例,如果种子词中包含“边缘触控”、“蛮方便”,那么在分词时,可以将“边缘”和“触控”划分成一个词,可以将“蛮”和“方便”划分为一个词。
参见前述关于领域的介绍,在本公开实施例中,该步骤可以根据种子词集合对所述指定领域的评论语料进行筛选。
在步骤S103中,在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频。
由于每个种子词的情感属性是已知的,所以,通常情况下,种子词所在的评论语料所表达的情感至少包括该种子词的情感属性,而且根据通常语言表述习惯,用户在表述时通常可能会利用多个词语来表达情感。
从上述描述来看,和种子词在同一评论语料中的其它词语,情感属性比较容易区分,因此,在本公开实施例中,将和种子词出现在同一评论语料中的词语确定为与所述种子词关联的评论词。
另外,在确定与所述种子词关联的评论词时,为了提高精度,还可以将和种子词出现在同一评论语料中次数作为参考标准,也即,只有和种子词出现在同一评论语料中次数较多时,才能够被作为评论词。这里,和种子词出现在同一评论语料中次数即可以为该评论词的词频。
在步骤S104中,根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词。
如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
当所述评论词中存在情感词时,执行步骤S105;否则,执行步骤S106。
在步骤S105中,将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合。
在步骤S105之后,返回步骤S102中,利用更新后的种子词集合,迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束。
通过上述迭代,可以将语料集合中所有可能的情感词全部找出来。
在步骤S106中,将更新的种子词集合确定为情感词知识库。
当迭代结束后,迭代结束后获得的更新的种子词集合,并且将最终迭代结束后的该更新的种子词集合确定为情感知识库。
由于迭代得到的所有情感词的情感属性均已知道,那么就可以直接将这些情感词加入到种子词集合中,更新后的种子词集合就可以作为情感词知识库,用于对未知用户的评论进行评价。
本公开实施例提供的该方法,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
该方法在应用时,在少量已知情感属性的种子词的基础上,对评论语料中的词语和这些种子词之间的关联关系进行分析,进而找到这些评论语料中可以挖掘出情感属性的情感词,然后将查找到的情感词加入到种子词结合中,继续对评论语料中的情感词进行挖掘,最终得到一个数量较大的情感词知识库。随着评论语料的增加,该方法可以自动查找到准确的情感词,并扩大情感词知识库,因此,该方法无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
在本发明一实施例中,如图2所示,上述图1所示实施例中的步骤S103可以包括以下步骤。
在步骤S1031中,在所述语料集合中提取出现次数大于预设次数阈值的候选词。
在语料集合中,出现词语较多的词语,通常具有一定代表作用,而出现次数较少的词语,很可能是一个特别用户的评论,不具有普遍性。另外,出现词语较多的词语,可能是大多数用户想要表达情感的词语。
因此,在本公开实施例中,可以设定一个预设次数阈值来过滤得到候选词,在设置预设次数阈值时,可以根据语料集合中的语料数量和词语数量中的一个或两个一起确定,例如:语料集合内包含有100个语料,那么预设次数阈值可以设置为60-70次,另外,如果语料集合内的词语数量有1000个,那么预设次数阈值可以为总词语数量的15%,即150次。在其它实施例中,在设置预设次数阈值时,还可以选用除语料数量和词语数量之前的其它参数,本发明对此不做限定。
在步骤S1032中,判断所述候选词是否在所述种子词集合中。
由于该方法是在种子词的基础上找出更多的情感词,那么可见,如果候选词已经是一个种子词,那么该候选词将不具有利用价值。
当所述候选词不在所述种子词集合中,执行步骤S1033;否则,结束流程。
在步骤S1033中,确定所述候选词为所述评论词。
在本公开实施例中,可以将所有评论词构成的集合称为集合M,每个评论词为所述集合M中的一个元素,即Mi。
在步骤S1034中,分别统计所述种子词集合中各种子词与所述评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
在本公开实施例中,Mi的与每个Si的词频可以分别表示为:{<Sa,Count(Mi,Sa)>,<Sb,Count(Mi,Sb)>…<Sd,Count(Mi,Sd)>}
其中:Count(Mi,St)表示St与Mi出现在同一个评论中的次数,t=a、b、c或d。
如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
因此,在该步骤中,可以统计与每个Si出现在同一条语料中的Mi的词和频率。
本公开实施例提供的该方法,首先选择出现次数大于预设次数阈值的候选词,然后,在候选词中剔除种子词,得到评论词,这些评论词有大可能为情感词,最后,每个种子词与评论词出现在语料集合中同一条语料中的频率,作为该评论词的词频。以便后续可以利用该词频准确确定该评论词是否为情感词,以及为情感词时的情感属性。
在本发明另一实施例中,如图3所示,上述图1所示实施例中的步骤S104可以包括以下步骤。
在步骤S1041中,根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频。
在本公开实施例中,某一评论词有可能和多个种子词同时出现在同一评论语料中,所以在该步骤中,需要分别统计所述评论词的词频中不同情感属性的种子词对应的词频。
在步骤S1042中,当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
虽然,某一评论词有可能和多个种子词同时出现在同一评论语料中,但这同时出现的多个种子词的情感属性可能完全不同,因此,在该步骤中,还需要设置一些预设条件,来进一步准确确定评论词是否为情感词,这些预设条件可以为多个种子词之间的权重。
例如:某一个评论词和每个种子词同时出现的词频均为50次,那么很显然,这个评论词不能和任何种子词之间产生关联,但如果该评论词和某一种子词A同时出现的词频为50,而和其它种子词同时出现的词频为5,那么很显然,该评论词的情感属性应该和种子词A是相同的。
当确定出某一个评论词Mi为情感词时,将该Mi加入到种子词集合S中,形成更新后的种子词集合S’,然后利用更新的种子词集合S’赋值给S,然后继续进行迭代,直至不再产生新的情感词后,结束流程。
本公开实施例提供的该方法,可以通过统计评论词和不同种子词同时出现的词频,并且将所述不同情感属性的种子词对应的词频与预设条件进行比较,当预设条件满足时,就可以确定该评论词为敏感词。
在本公开实施例中,在图3所示实施例的基础上,如图4所示,该方法还可以包括以下步骤。
在步骤S201中,将所述最大词频对应的情感属性作为所述评论词的情感属性。
在前述实施例中,已经描述到,当将所述不同情感属性的种子词对应的词频与预设条件进行比较,且预设条件满足时,就可以确定该评论词为敏感词,所以,在本公开实施例中,可以将最大词频对应的种子词的情感属性作为该评论词的情感属性。
图5是根据一示例性实施例示出的一种获得情感词知识库的装置的结构示意图。该装置可以应用于服务器中,例如:购物网站的服务器中,或者,企业内部员工评价的服务器中,如图5所示,该装置可以包括:
种子词确定模块11,用于确定种子词集合及所述种子词集合中种子词的情感属性;
种子词集合中包含有至少一个种子词,在本公开实施例中,种子词集合可以用集合S来表示,每个种子词为集合S中的一个元素Si。
种子词是指已知情感属性的词语,例如:以三档情感属性为例:分别为正面、负面和中性,其中,“质量好”的情感属性为正面,“还可以”的情感属性为中性,“上当了”的情感属性为负面。在其它实施例中,还可以根据需要设置两档(好和坏)、四挡(A级、B级、C级和D极)或四档以上,在本公开实施例中,对此不作限定。
在具体实施方式中,种子词集合以及该集合内种子词的情感属性,可以直接从预设词库获取,例如:针对刚上线的网上商城,可以从同类网上商城服务器中查找,也可以从第三方开发公司购买。当然,技术人员还可以利用预设算法生成种子词,并确定种子词的情感属性,最终得到种子词。例如:对字典内词语的词义进行分析,确定该词的情感属性,这种利用预设算法生成的种子词通常为非常典型的词语,数量较少。
另外,根据领域不同,可以分别确定不同领域的种子词集合以及集合中种子词的情感属性。在本公开以实施例中,该种子词确定模块还可以包括:
种子词确定子模块,用于确定指定领域的种子词集合以及集合中种子词的情感属性。
语料筛选模块12,用于根据所述种子词确定模块确定的种子词集合进行评论语料筛选,获得所述语料集合;
评论语料是指用户输入的评论内容,以购物网站为例,对于某一款商品而言,评论语料可以为购买用户输入的使用心得,对于店铺而言,评论语料可以为用户对该店铺的服务或商品的评价;以企业内部员工评价***为例,评论语料可以为公司员工对某一领导的工作进行的评价。
在本公开实施例中,在对评论语料筛选时,可以利用预设词库对一条评论语料中的文字进行分词,得到包含多个词语的词组,然后利用种子词集合内的所有种子词和该词组内的所有词语进行匹配,当该词组内包含有一个或一个以上的种子词,就将该条评论语料加入语料集合中。例如:某手机的一条评论语料为:
“很小巧,很轻薄,***使用起来相当流畅,边缘触控习惯之后的确蛮方便的”。
其中,按照通常汉字的词库,可以将上述评论语料分词后得到如下词组:
{很,小巧,很轻薄,***,使用,起来,相当,流畅,边缘,触控,习惯,之后,的确,蛮、方便,的}。
在具体应用中,可以将种子词集合中的所有种子词都加入到预设词库中,这样即使对于一些生僻词组的种子词,在分词时,也能够从评论语料中找到对应的词语。
以前述评论语料为例,如果种子词中包含“边缘触控”、“蛮方便”,那么在分词时,可以将“边缘”和“触控”划分成一个词,可以将“蛮”和“方便”划分为一个词。
参见前述关于领域的介绍,在本公开实施例中,该语料筛选模块可以包括:
语料筛选子模块,用于根据种子词集合对所述指定领域的评论语料进行筛选。
评论词提取模块13,用于在所述筛选模块筛选出的语料集合中提取与所述种子词关联的评论词;
词频统计模块14,用于统计所述提取模块提取得到的评论词的词频;
由于每个种子词的情感属性是已知的,所以,通常情况下,种子词所在的评论语料所表达的情感至少包括该种子词的情感属性,而且根据通常语言表述习惯,用户在表述时通常可能会利用多个词语来表达情感。
从上述描述来看,和种子词在同一评论语料中的其它词语,情感属性比较容易区分,因此,在本公开实施例中,将和种子词出现在同一评论语料中的词语确定为与所述种子词关联的评论词。
另外,在确定与所述种子词关联的评论词时,为了提高精度,还可以将和种子词出现在同一评论语料中次数作为参考标准,也即,只有和种子词出现在同一评论语料中次数较多时,才能够被作为评论词。这里,和种子词出现在同一评论语料中次数即可以为该评论词的词频。
情感词确定模块15,用于根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
种子词更新模块16,用于当所述情感词确定模块确定评论词中存在情感词时,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合;
所述语料筛选模块12,还用于利用所述种子词更新模块更新后的种子词集合迭代进行评论语料筛选,且直至确定所述评论词中不存在情感词,迭代结束;
通过上述迭代,可以将语料集合中所有可能的情感词全部找出来。
情感词知识库确定模块17,用于将迭代结束后所述种子词更新模块获得的更新的种子词集合确定为情感词知识库。
当迭代结束后,迭代结束后获得的更新的种子词集合,并且将最终迭代结束后的该更新的种子词集合确定为情感知识库。
由于迭代得到的所有情感词的情感属性均已知道,那么就可以直接将这些情感词加入到种子词集合中,更新后的种子词集合就可以作为情感词知识库,用于对未知用户的评论进行评价。
本公开实施例提供的该装置,首先确定出包含情感属性已知的种子词的集合,然后利用该种子词集合对评论语料进行筛选,找到包含至少一个种子词的评论语料的语料集合,然后通过比较这些种子词和评论语料中的关联程度,查找出语料集合中情感属性确定的所有情感词,并最终将确定到的情感词加入到前述种子词集合内,作为情感词知识库。
该装置在应用时,在少量已知情感属性的种子词的基础上,对评论语料中的词语和这些种子词之间的关联关系进行分析,进而找到这些评论语料中可以挖掘出情感属性的情感词,然后将查找到的情感词加入到种子词结合中,继续对评论语料中的情感词进行挖掘,最终得到一个数量较大的情感词知识库。随着评论语料的增加,该装置可以自动查找到准确的情感词,并扩大情感词知识库,因此,该装置无需人工参与,即可自动完善情感词知识库,可以有效提高情感词知识库的容量。
在本公开另一实施例中,如图6所示,图5所示实施例中的评论词提取模块13,包括:
提取子模块131,用于在所述语料集合中提取出现次数大于预设次数阈值的候选评论词;
在语料集合中,出现词语较多的词语,通常具有一定代表作用,而出现次数较少的词语,很可能是一个特别用户的评论,不具有普遍性。另外,出现词语较多的词语,可能是大多数用户想要表达情感的词语。
因此,在本公开实施例中,可以设定一个预设次数阈值来过滤得到候选词,在设置预设次数阈值时,可以根据语料集合中的语料数量和词语数量中的一个或两个一起确定,例如:语料集合内包含有100个语料,那么预设次数阈值可以设置为60-70次,另外,如果语料集合内的词语数量有1000个,那么预设次数阈值可以为总词语数量的15%,即150次。在其它实施例中,在设置预设次数阈值时,还可以选用除语料数量和词语数量之前的其它参数,本发明对此不做限定。
评论词判断子模块132,用于判断所述候选词是否在所述种子词集合中。
评论词确定子模块133,用于当所述提取子模块提取到的候选词不在所述种子词集合中时,确定所述候选评论词为所述评论词;
在本公开实施例中,可以将所有评论词构成的集合称为集合M,每个评论词为所述集合M中的一个元素,即Mi。
所述词频统计模块14,包括:
第一统计子模块,用于分别统计所述种子词集合中各种子词与所述评论词确定子模块确定出的评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
在本公开实施例中,Mi的与每个Si的词频可以分别表示为:{<Sa,Count(Mi,Sa)>,<Sb,Count(Mi,Sb)>…<Sd,Count(Mi,Sd)>}
其中:Count(Mi,St)表示St与Mi出现在同一个评论中的次数,t=a、b、c或d。
如果用户在夸奖某个商品时,如果某个词和“好”这个词一直一起出现,那么就可以认为该词的情感属性和“好”这个词的情感属性是相同的,因此可以将这个词确定你为与“好”同类的情感词,即情感词的情感属性是确定的。
因此,可以统计与每个Si出现在同一条语料中的Mi的词和频率。
本公开实施例提供的该装置,首先选择出现次数大于预设次数阈值的候选词,然后,在候选词中剔除种子词,得到评论词,这些评论词有大可能为情感词,最后,每个种子词与评论词出现在语料集合中同一条语料中的频率,作为该评论词的词频。以便后续可以利用该词频准确确定该评论词是否为情感词,以及为情感词时的情感属性。
在本发明另一实施例中,如图7所示,图5所示实施例中的情感词确定模块15,可以包括:
第二统计子模块151,用于根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
在本公开实施例中,某一评论词有可能和多个种子词同时出现在同一评论语料中,所以在该步骤中,需要分别统计所述评论词的词频中不同情感属性的种子词对应的词频。
情感词确定子模块152,用于当所述第二统计子模块统计得到的不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
虽然,某一评论词有可能和多个种子词同时出现在同一评论语料中,但这同时出现的多个种子词的情感属性可能完全不同,因此,在该步骤中,还需要设置一些预设条件,来进一步准确确定评论词是否为情感词,这些预设条件可以为多个种子词之间的权重。
例如:某一个评论词和每个种子词同时出现的词频均为50次,那么很显然,这个评论词不能和任何种子词之间产生关联,但如果该评论词和某一种子词A同时出现的词频为50,而和其它种子词同时出现的词频为5,那么很显然,该评论词的情感属性应该和种子词A是相同的。
当确定出某一个评论词Mi为情感词时,将该Mi加入到种子词集合S中,形成更新后的种子词集合S’,然后利用更新的种子词集合S’赋值给S,然后继续进行迭代,直至不再产生新的情感词后,结束流程。
本公开实施例提供的该装置,可以通过统计评论词和不同种子词同时出现的词频,并且将所述不同情感属性的种子词对应的词频与预设条件进行比较,当预设条件满足时,就可以确定该评论词为敏感词。
在本发明另一实施例中,如图8所示,图7所示实施例中的情感词确定子模块152,包括:
比例计算子模块1521,用于当所述不同情感属性的种子词对应的词频中,计算最大词频与第二大词频之间的比例。
比例判断子模块1522,用于判断将所述此批计算子模块计算得到的比例是否大于比例阈值。
第一确定子模块1523,用于当所述比例判断模块的判断结果为最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
在本公开另一实施例中,在图8所示实施例的基础上,该装置还包括:
情感属性确定模块,用于将所述最大词频对应的情感属性作为所述评论词的情感属性。
在前述实施例中,已经描述道,当将所述不同情感属性的种子词对应的词频与预设条件进行比较,且预设条件满足时,就可以确定该评论词为敏感词,所以,在本公开实施例中,可以将最大词频对应的种子词的情感属性作为该评论词的情感属性。
图9是根据一示例性实施例示出的一种终端900的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种提醒方法,所述方法包括:
确定种子词集合及所述种子词集合中种子词的情感属性;
根据所述种子词集合进行评论语料筛选,获得语料集合;
在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
将迭代结束后获得的更新的种子词集合确定为情感词知识库。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (17)

1.一种获得情感词知识库的方法,其特征在于,包括:
确定种子词集合及所述种子词集合中种子词的情感属性;
根据所述种子词集合进行评论语料筛选,获得语料集合;
在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
将迭代结束后获得的更新的种子词集合确定为情感词知识库。
2.根据权利要求1所述的方法,其特征在于,所述在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频,包括:
在所述语料集合中提取出现次数大于预设次数阈值的候选词;
当所述候选词不在所述种子词集合中时,,确定所述候选词为所述评论词;
分别统计所述种子词集合中各种子词与所述评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
3.根据权利要求1所述的方法,其特征在于,所述根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词,包括:
根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
4.根据权利要求3所述的方法,其特征在于,所述当所述不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词,包括:
当所述不同情感属性的种子词对应的词频中,最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述最大词频对应的情感属性作为所述评论词的情感属性。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述确定种子词集合及所述种子词集合中种子词的情感属性,包括:
确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。
7.根据权利要求6所述的方法,其特征在于,所述根据所述种子词集合进行评论语料筛选,获得语料集合,包括:
根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。
8.根据权利要求1至5中任意一项所述的方法,其特征在于,所述情感属性包括:
正面、负面、中性。
9.一种获得情感词知识库的装置,其特征在于,包括:
种子词确定模块,用于确定种子词集合及所述种子词集合中种子词的情感属性;
语料筛选模块,用于根据所述种子词确定模块确定的种子词集合进行评论语料筛选,获得所述语料集合;
评论词提取模块,用于在所述筛选模块筛选出的语料集合中提取与所述种子词关联的评论词;
词频统计模块,用于统计所述提取模块提取得到的评论词的词频;
情感词确定模块,用于根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
种子词更新模块,用于当所述情感词确定模块确定评论词中存在情感词时,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合;
所述语料筛选模块,还用于利用所述种子词更新模块更新后的种子词集合迭代进行评论语料筛选,且直至确定所述评论词中不存在情感词,迭代结束;
情感词知识库确定模块,用于将迭代结束后所述种子词更新模块获得的更新的种子词集合确定为情感词知识库。
10.根据权利要求9所述的装置,其特征在于,所述评论词提取模块,包括:
提取子模块,用于在所述语料集合中提取出现次数大于预设次数阈值的候选评论词;
评论词判断子模块,用于判断所述候选词是否在所述种子词集合中;
评论词确定子模块,用于当所述评论词判断模块的判断结果为候选词不在所述种子词集合中时,确定所述候选评论词为所述评论词;
所述词频统计模块,包括:
第一统计子模块,用于分别统计所述种子词集合中各种子词与所述评论词确定子模块确定出的评论词出现在所述语料集合的同一条语料中的频率,作为所述评论词的词频。
11.根据权利要求9所述的装置,其特征在于,所述情感词确定模块,包括:
第二统计子模块,用于根据与所述评论词相关联的种子词的情感属性,统计所述评论词的词频中不同情感属性的种子词对应的词频;
情感词确定子模块,用于当所述第二统计子模块统计得到的不同情感属性的种子词对应的词频满足预设条件时,确定所述评论词为情感词。
12.根据权利要求11所述的装置,其特征在于,所述情感词确定子模块,包括:
比例计算子模块,用于当所述不同情感属性的种子词对应的词频中,计算最大词频与第二大词频之间的比例;
比例判断子模块,用于判断将所述此批计算子模块计算得到的比例是否大于比例阈值;
第一确定子模块,用于当所述比例判断模块的判断结果为最大词频与第二大词频之间的比例大于比例阈值时,确定所述评论词为情感词。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
情感属性确定模块,用于将所述最大词频对应的情感属性作为所述评论词的情感属性。
14.根据权利要求9至13中任意一项所述的装置,其特征在于,所述种子词确定模块,包括:
种子词确定子模块,用于确定指定领域的种子词集合及所述种子词集合中种子词的情感属性。
15.根据权利要求14所述的装置,其特征在于,所述语料筛选模块,包括:
语料筛选子模块,用于根据所述种子词集合对所述指定领域的评论语料进行筛选,获得所述指定领域的语料集合。
16.根据权利要求9至13中任意一项所述的装置,其特征在于,所述情感属性包括:
正面、负面、中性。
17.一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定种子词集合及所述种子词集合中种子词的情感属性;
根据所述种子词集合进行评论语料筛选,获得语料集合;
在所述语料集合中提取与所述种子词关联的评论词并统计所述评论词的词频;
根据所述评论词的词频及与所述评论词关联的所述种子词的情感属性,确定所述评论词中是否存在情感词;
若所述评论词中存在情感词,则将所述评论词按照其情感属性对应加入所述种子词集合更新所述种子词集合,利用更新后的种子词集合迭代执行所述进行评论语料筛选的步骤,直至确定所述评论词中不存在情感词,迭代结束;
将迭代结束后获得的更新的种子词集合确定为情感词知识库。
CN201510946064.5A 2015-12-16 2015-12-16 获得情感词知识库的方法、装置及终端 Pending CN105608130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510946064.5A CN105608130A (zh) 2015-12-16 2015-12-16 获得情感词知识库的方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510946064.5A CN105608130A (zh) 2015-12-16 2015-12-16 获得情感词知识库的方法、装置及终端

Publications (1)

Publication Number Publication Date
CN105608130A true CN105608130A (zh) 2016-05-25

Family

ID=55988070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510946064.5A Pending CN105608130A (zh) 2015-12-16 2015-12-16 获得情感词知识库的方法、装置及终端

Country Status (1)

Country Link
CN (1) CN105608130A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291686A (zh) * 2016-04-13 2017-10-24 北京大学 情感标识的辨识方法和情感标识的辨识***
CN108491393A (zh) * 2018-03-29 2018-09-04 国信优易数据有限公司 一种情感词情感强度确定方和装置
CN108509406A (zh) * 2017-02-24 2018-09-07 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN108733695A (zh) * 2017-04-18 2018-11-02 腾讯科技(深圳)有限公司 用户搜索串的意图识别方法及装置
CN109492214A (zh) * 2017-09-11 2019-03-19 苏州大学 属性词识别及其层次构建方法、装置、设备及存储介质
CN112185351A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN115630160A (zh) * 2022-12-08 2023-01-20 四川大学 一种基于半监督共现图模型的争议焦点聚类方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及***
US20140358523A1 (en) * 2013-05-30 2014-12-04 Wright State University Topic-specific sentiment extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及***
US20140358523A1 (en) * 2013-05-30 2014-12-04 Wright State University Topic-specific sentiment extraction

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291686A (zh) * 2016-04-13 2017-10-24 北京大学 情感标识的辨识方法和情感标识的辨识***
CN107291686B (zh) * 2016-04-13 2020-10-16 北京大学 情感标识的辨识方法和情感标识的辨识***
CN108509406A (zh) * 2017-02-24 2018-09-07 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN108509406B (zh) * 2017-02-24 2023-04-18 北京搜狗科技发展有限公司 一种语料抽取方法、装置和电子设备
CN108733695A (zh) * 2017-04-18 2018-11-02 腾讯科技(深圳)有限公司 用户搜索串的意图识别方法及装置
CN109492214A (zh) * 2017-09-11 2019-03-19 苏州大学 属性词识别及其层次构建方法、装置、设备及存储介质
CN109492214B (zh) * 2017-09-11 2023-09-19 苏州大学 属性词识别及其层次构建方法、装置、设备及存储介质
CN108491393A (zh) * 2018-03-29 2018-09-04 国信优易数据有限公司 一种情感词情感强度确定方和装置
CN108491393B (zh) * 2018-03-29 2022-05-20 国信优易数据股份有限公司 一种情感词情感强度确定方和装置
CN112185351A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN112185351B (zh) * 2019-07-05 2024-05-24 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN115630160A (zh) * 2022-12-08 2023-01-20 四川大学 一种基于半监督共现图模型的争议焦点聚类方法及***

Similar Documents

Publication Publication Date Title
CN105608130A (zh) 获得情感词知识库的方法、装置及终端
CN104079962B (zh) 一种推送推荐信息的方法及装置
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN104753766A (zh) 表情发送方法及装置
CN106528709A (zh) 社交信息推荐方法及装置
CN104166689A (zh) 电子书籍的呈现方法及装置
CN104933170A (zh) 信息展示方法及装置
CN105096144A (zh) 社交关系分析方法及装置
CN105389304A (zh) 事件提取方法及装置
CN105117929A (zh) 推送内容的方法及装置
CN104636164B (zh) 启动页面生成方法及装置
CN106202150A (zh) 信息显示方法及装置
CN104965704A (zh) 信息显示方法及装置
CN105068976A (zh) 票务信息展示方法及装置
CN106126632A (zh) 推荐方法及装置
CN105608064A (zh) 字符替换方法及装置
CN105677392A (zh) 应用程序的推荐方法和装置
CN107230137A (zh) 商品信息获取方法及装置
CN108073606A (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN106126025A (zh) 复制粘贴的交互方法及装置
CN104281703A (zh) 统一资源定位符url间相似度计算的方法及装置
CN107291772A (zh) 一种搜索访问方法、装置及电子设备
CN105100193A (zh) 云名片推荐方法及装置
CN107045541A (zh) 数据显示方法和装置
CN106777016A (zh) 基于即时通信进行信息推荐的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160525

RJ01 Rejection of invention patent application after publication