CN107807920A

CN107807920A - 基于大数据的情绪词典的构建方法、装置及服务器

Info

Publication number: CN107807920A
Application number: CN201711148610.6A
Authority: CN
Inventors: 赵立永; 吴新丽; 姚笛; 李云飞; 王文文
Original assignee: XINHUA NETWORK CO Ltd
Current assignee: XINHUA NETWORK CO Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-03-16

Abstract

本发明提供了基于大数据的情绪词典的构建方法、装置及服务器。该情绪词典的构建方法包括：获取原始文本信息，并对原始文本信息进行切词处理以得到待处理词语；确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度；根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。应用本发明构建的情绪词典对文本信息识别时，不仅可以识别出该文本信息所属的情绪类别，还可以确定出该文本信息在该情绪类别下的情绪强度；应用本发明实施例可以更加细粒度地对文本信息进行分析，进而更加准确地分析出用户对文本信息的情绪倾向。

Description

基于大数据的情绪词典的构建方法、装置及服务器

技术领域

本发明涉及文本挖掘、自然语言处理领域，具体而言，本发明涉及基于大数据的情绪词典的构建方法、装置及服务器。

背景技术

随着因特网技术的不断发展，用户可以在网上针对各种事件、商品等发表个人观点(文本信息)，表达个人情绪。通过对文本信息进行情绪挖掘分析，以获得用户对事件或商品的情绪倾向性，有利于事件处置、产品改进，具有非常高的使用价值。

现有技术中对文本信息的情绪分析方法通常是：通过预置的情绪词典对文本信息中的词语进行匹配，以确定出该文本信息中包含的情绪词语；根据预置情绪词典中各个情绪词语对应的情绪类别，确定出该文本信息中匹配成功的情绪词语对应的情绪类别，例如，确定出的情绪类别为积极或消极、正面或负面、或褒义和贬义等。

由上述的现有技术可知：在对文本信息进行分析时，情绪词典的作用尤为重要，直接关系着文本信息的情绪分析的合理性和准确性。而现有的情绪词典的构建方法十分简单，只是简单地预置各个情绪词语的类别，对文本信息的情绪分析粒度较大，有时并不能准确地分析出用户所发布文本信息的情绪倾向，可复用性不高。

因此，目前需要一种基于大数据的情绪词典的构建方法，使得构建出的情绪词典可以更加细粒度地实现文本信息的情绪分析，进而更加准确地分析出用户所发布文本信息的情绪倾向。

发明内容

鉴于上述缺点，本发明提供了基于大数据的情绪词典的构建方法、装置及服务器，应用本发明构建出的情绪词典，相比于现有技术，可以更加细粒度地对文本信息进行分析，进而更加准确地分析出用户所发布文本信息的情绪倾向。

本发明实施例提供了一种基于大数据的情绪词典的构建方法，包括：

获取原始文本信息，并对原始文本信息进行切词处理以得到待处理词语；

确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度；

根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。

优选地，确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度的步骤，包括：

依据待处理词语以及基础情绪词典中的各个情绪词语在原始文本信息中的上下文信息，确定各个词语的词向量；

根据确定出的词向量，计算各个待处理词语与各个情绪词语之间的相似度。

优选地，对原始文本信息进行切词处理以得到待处理词语，还包括：

删除切词结果中的停用词。

优选地，根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典的步骤，包括：

对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语；

根据任一候选扩展词语与该情绪词语之间的相似度、该情绪词语的情绪类别及该情绪类别对应的情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度；

根据该任一候选扩展词语的情绪类别及对应情绪强度对基础情绪词典进行更新以构建情绪词典。

优选地，当任一候选扩展词语对应多个情绪词语时，在对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语之后，还包括：

确定任一候选扩展词语和与其对应的各个情绪词语之间的最大相似度；

其中，根据任一候选扩展词语与该情绪词语之间的相似度、该情绪词语的情绪类别及该情绪类别对应的情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度的步骤，包括：

根据最大相似度对应情绪词语的情绪类别及情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度。

优选地，在对基础情绪词典进行更新之后，还包括：

获取预设时间段内包含情绪词典中任一情绪词语的文本信息的第一数量，以及预设时间段内包含情绪词典中全部情绪词语的文本信息的第二数量；

根据第一数量和第二数量确定该任一情绪词语的有效利用率；

当判断该任一情绪词语的有效利用率小于利用率阈值时，将该任一情绪词语从基础情绪词典中删除。

本发明实施例提供了一种基于大数据的情绪词典的构建装置，包括：

获取单元用于获取原始文本信息，并对原始文本信息进行切词处理以得到待处理词语；

确定单元用于确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度；

更新单元用于根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。

优选地，确定单元具体用于：

优选地，获取单元还用于：

删除切词结果中的停用词。

优选地，更新单元具体用于：

优选地，当任一候选扩展词语对应多个情绪词语时，更新单元还用于：

在对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语之后，确定任一候选扩展词语和与与其对应的各个情绪词语之间的最大相似度；

优选地，还包括删除单元，删除单元用于：

在对基础情绪词典进行更新之后，获取预设时间段内包含情绪词典中任一情绪词语的文本信息的第一数量，以及预设时间段内包含情绪词典中全部情绪词语的文本信息的第二数量；

一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的任一项任一方法的步骤。

本发明实施例还提供了一种服务器，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序被处理器执行时实现本发明实施例提供的任一方法的步骤。

应用本发明实施例获得的有益效果为：

在本发明实施例中，先对原始文本信息进行切词处理，获得待处理词语；确定任一待处理词语与预建立的基础词典中的各个情绪词之间的相似度；根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。应用本发明实施例构建的情绪词典对文本信息识别时，不仅可以识别出该文本信息所属的情绪类别，还可以确定出文本信息在该情绪类别下的情绪强度；这样，对文本信息的分析结果不仅仅只包含积极或消极，或者正面或负面等简单的维度，还可以根据任一情绪类别包含的情绪词语对应的情绪强度再分成多个等级，即：应用本发明实施例构建出的情绪词典，可以更加细粒度地对文本信息进行分析，进而更加准确地分析出用户对文本信息的情绪倾向。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例1提供的一种基于大数据的情绪词典的构建方法的流程示意图；

图2为本发明实施例1提供的一种建立基础情绪词典的方法的示意图；

图3为本发明实施例1的一种基于大数据的情绪词典的构建方法的实例流程示意图；

图4为本发明实施例2的一种基于大数据的情绪词典的构建装置的结构示意图；

图5为本发明实施3例的一种服务器的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图具体介绍本发明各个实施例的技术方案。

实施例1

本发明实施例提供了一种基于大数据的情绪词典的构建方法，该方法的流程示意图如图1所示，具体包括以下步骤：

S101：获取原始文本信息，并对原始文本信息进行切词处理以得到待处理词语。

S102：确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度。

S103：根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。

应用本发明实施例构建的情绪词典对文本信息识别时，不仅可以识别出该文本信息所属的情绪类别，还可以确定出该文本信息在该情绪类别下的情绪强度；这样，对文本信息的分析结果不仅仅只包含积极或消极，或者正面或负面等简单的维度，还可以根据任一情绪类别包含的情绪词语对应的情绪强度再分成多个等级，即：应用本发明实施例构建出的情绪词典，可以更加细粒度地对文本信息进行分析，进而更加准确地分析出用户对文本信息的情绪倾向。

以下针对以上各个步骤的具体实现做进一步的说明：

在本步骤中，首先获取原始文本信息，该原始文本信息可以是用户对某事件或商品的评论信息等。具体的获取方法有很多种，例如，可以通过网络爬虫技术在新闻网站、论坛和有关应用平台上抓取的目标原始文本信息。

在一种优选的实施方式中，在获取原始文本信息后，对该原始文本信息去重，例如，针对某个话题，同一用户可能发表过多条相同的评论信息，只保留该用户发表的一条评论信息。优选地，在对原始文本信息去重后，再去掉该原始文本信息中的噪声信息，该噪声信息包括：主题标签、URL(Uniform Resource Locator，统一资源定位符)或重复的字符等等。

在获取原始文本信息后，对该原始文本信息进行切词处理，以得到待处理词语。

在一种优选的方式中，在对原始文本信息进行切词处理之后，还要删除切词结果中的停用词，从而得到待处理词语。这里的停用词包括：语气词、数字、标点符号等，例如，“的”、“吗”、“吧”。

在本步骤中，确定S101确定的任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度。具体的确定相似度的方法包括：依据待处理词语以及基础情绪词典中的各个情绪词语在原始文本信息中的上下文信息，确定各个词语的词向量；根据确定出的词向量，计算各个待处理词语与各个情绪词语之间的相似度。

具体地，上述确定各个词语的词向量的方法包括：分别从待处理词语以及基础情绪词典中的各个情绪词语在原始文本信息中的上下文信息中，提取预设数量的词语；根据提取的预设数量的词语以及词向量模型(例如，Word2ve模型)，确定出各个待处理词语和各个情绪词语的词向量。

在确定出原始文本信息中各个待处理词语、预建立的基础情绪中各个情绪词语对应的词向量后，根据确定出的词向量，计算各个待处理词语与各个情绪词语之间的相似度。计算相似度的方法可以是计算待处理词语与情绪词语对应词向量之间的夹角余弦值，例如，若待处理词语为w₁，对应的词向量为v₁，情绪词语为w₂，对应的词向量为v₂，则两词语的相似度如下：

在实际应用中，计算两词向量的方法有很多种，例如，还可以是通过计算两词向量之间的欧式距离，以确定这两词向量之间的相似度。本发明实施例对此不作具体限定。

在本步骤中，在一种实施方式中，先对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语；根据任一候选扩展词语与该情绪词语之间的相似度、该情绪词语的情绪类别及该情绪类别对应的情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度；根据该任一候选扩展词语的情绪类别及对应情绪强度对基础情绪词典进行更新以构建情绪词典。

具体地，如表1所示，假设基础情绪词典中的一个情绪词语为“快乐”，通过对各待处理词语与该情绪词语之间相似度进行排序，选取排名前5的待处理词作为情绪词语“快乐”的候选扩展词语。如表1所示，情绪词语“快乐”的候选扩展词语包括：“开心”、“愉快”、“兴奋”、“喜爱”和“欣赏”。

表1

本发明实施例中的基础情绪词典具体包含多个情绪词语及各情绪词语对应的情绪类别和情绪强度，例如，如表2所示，在基础情绪词典中，情绪词语“快乐”的情绪类别为“积极健康”，以及在该情绪类别下对应的情绪强度为“90”。表2只是示例性的说明基础情绪词典所包含的内容，在实际应用中，基础情绪词典中包含的内容可能会更加的复杂、全面，本发明实施例对此不作具体限定。

表2

情绪词语	情绪类别	情绪强度
			快乐	积极健康	90
幸福	积极健康	85
			悲伤	沉闷消极	90
烦闷	沉闷消极	85

在一种具体实施方式中，当选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语后，该情绪词语对应的情绪类别就为候选扩展词语的情绪类别。根据任一候选扩展词语与该情绪词语之间的相似度和该情绪类别对应的情绪强度；在一种优选的实施方式中，确定该情绪类别对应的情绪强度的方法可如下述公式：

score(w₁)＝cos(w₁,w₂)×score(w₂)

其中，待处理词语为w₁，情绪词语为w₂，score(w₁)为该待处理词语对应的情绪强度，score(w₂)为该情绪词语对应的情绪强度。表1中第四列均是根据上述公式计算出的各待处理词语在情绪类别“积极”对应的情绪强度。

在实际应用中，可能会出现一个候选词语对应多个情绪词语的情形；针对这种情形，本发明实施例提供一种优选的实施方式，该实施方式具体包括：在选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语之后，确定任一候选扩展词语和与其对应的各个情绪词语之间的最大相似度；根据最大相似度对应情绪词语的情绪类别及情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度。在一种优选的实施方式中，确定情绪类别对应的情绪强度的方法可如下述公式：

score(w₁)＝max{cos(w₁,w₂)}×score(w₂)

如表3所示，假设候选扩展词语为“开心”，且“开心”同时被多个情绪词语选取为候选扩展词语。具体地，“开心”分别对应的情绪词语为“高兴”、“幸福”和“兴奋”等，通过计算“开心”与这些情绪词语之间的相似度，结果发现“高兴”与“开心”之间的相似度最大，这时，“开心”对应的情绪类别就为“高兴”对应的情绪类别，即：积极健康；根据该最大相似度与“高兴”对应的情绪强度，确定出“开心”的情绪强度。例如，“开心”的情绪强度为“90％×90＝81”

表3

当确定出各个情绪词语对应候选扩展词语的情绪类别，以及情绪词语在情绪类别下的情绪强度后，对预建立的基础情绪词典进行更新以构建情绪词典。

对于本发明实施例，在对预建立的基础情绪词典进行更新之后，获取预设时间段内包含情绪词典中任一情绪词语的文本信息的第一数量，以及预设时间段内包含情绪词典中全部情绪词语的文本信息的第二数量；根据第一数量和第二数量确定该任一情绪词语的有效利用率；当判断该任一情绪词语的有效利用率小于利用率阈值时，将该任一情绪词语从基础情绪词典中删除。

一种优选的实施方式中，更新后的情绪词典中各个情绪词的有效利用率的计算公式可以为：

其中，I_t(w)表示在预设时间段t内，情绪词语w的有效利用率；n_t表示在预设时间段t内，匹配到w的文本信息的条数(第一数量)；N_t表示匹配到情绪词典中全部情绪词的文本信息的条数(第二数量)。

例如，假设在最近一周7天内获取的语料库中，匹配到情绪词典中情绪词语“快乐”的文本信息的条数为100条，该语料库中共有500条文本信息匹配到该情绪词典中全部的情绪词语，则“快乐”对应的有效利用率为

应用上述实施方式，计算情绪词典中各个情绪词语的有效利用率，将有效利用率小于利用率阈值的情绪词语，从基础情绪词典中删除。这样，提高了整个基础词典的利用率，而且节约了在利用基础词典分析目标文本信息的资源。

在实际应用中，由于信息在不断发生变化，因此本发明实施例建立的情绪词典也在不断更新的。用户可以根据需要，自行设置更新周期，即：重复上述S101～S103不断对情绪词典进行更新，以满足用户的需求。

前述内容重点说明基于预建立的基础情绪词典进行更新的方法，本发明实施例还提供一种建立基础情绪词典的方法，该基础情绪词典的建立方法的流程示意图如图2所示，具体包括以下步骤：

S201：确定情绪词典中的情绪类别；

S202：确定各个情绪类别下的情绪词语。

对于S201，可以通过分析新闻网站、论坛和有关应用平台上的文本信息(例如，评论信息)，通过分析、总结各个文本信息所属的情绪类别，最终确定出情绪词典包含的情绪类别。下述表4为本发明实施例提供的一种情绪词典中的各情绪类别的实例。

表4

编号	一级情绪类别	二级情绪类别
			1	积极健康	快乐、安心、尊敬、赞扬、相信、喜爱、祝愿
2	沉闷消极	悲伤、疚、思、慌、恐惧、羞、烦闷
			3	反对怒骂	失望、愤怒
4	攻击谩骂	憎恶、贬责、怀疑、嫉妒
			5	出乎意料	惊奇

如表4所示，情绪词典中的情绪类别共包括5个“一级情绪类别”，各个一级情绪类别中包含有二级情绪类别。下面详细说明本发明实施例提供的一种确定二级情绪类别中的各个子类别所属一级情绪类别的方法，具体步骤如下。

S2011：确定打分区间；

S2012：就一级情绪类别和二级情绪类别中的各个子类别之间的语义关联度进行打分；

S2013：统计各个一级情绪类别和二级情绪类别中的各个子类别之间的语义关联得分，以确定各个子类别所属的一级类别。

具体地，对于S2011，例如，设定的打分区间为{1,2,3,4,5}，其中，“1”表示一级情绪类别与二级情绪类别中的子类别之间的关联度最小，“5”表示一级情绪类别与二级情绪类别中的子类别之间的关联度最大。

对于S2012，让多人对就一级情绪类别和二级情绪类别中的各个子类别之间的关联度进行打分。例如，统计子类别“快乐”的打分结果为{积极健康5，沉闷消极1，反对愤怒1，攻击谩骂1，出乎意料1}，该打分结果表示“快乐”和“积极健康”的语义关联度最大，和其他一级情绪类别的子项的语义关联度最小。

对于S2013，统计各个二级情绪类别的各个子类别和各个一级情绪类别的子项的语义关联得分，取得分最高的一级情绪类别作为二级情绪类别的子类别的情绪类别，比如“快乐”总体打分结果为{积极健康90，沉闷消极0，反对愤怒0，攻击谩骂0，出乎意料0}，则确定子类别““快乐”属于一级情绪类别“积极健康”。

对于S202，本发明实施例提供一种优选的确定各个情绪类别下的情绪词语的方法，该方法中可以提前选取预设数量的情绪词典作为参考情绪词典。该方法具体如下：

首先，确定构建指标，在一种实施方式中，本发明实施例规定了四个构建指标，这四个构建指标具体包括：

1、待选择情绪词在各个参考情绪词典中所属情绪类别的一致性(SIM)，例如，待选择情绪词“高兴”在参考情绪词典1中属于“快乐”情绪，在参考情绪词典2属于“褒义词”，在参考情绪词典3中属于“正面”评价词，即：待选择情绪词在各个参考情绪词典具有语义一致性，并且满足与一级情绪类别具有较紧密的语义关联。

2、待选择情绪词是否包含在各个参考情绪词典中(FREQ)，具体判断待选择情绪词是否同时包含在各个参考情绪词典中，且具有一致的情绪语义。

3、待选择情绪词的情绪强弱(HIGH)，主要与参考情绪词典中的情绪强度进行比较，比如“幸福”在参考情绪词典中的情绪强度为7，则待选择情绪词“无比幸福”的情绪强度可设定为9，优选地，选择情绪强度比较大的待选择情绪词。

4、当通过SIM、FREQ、HIGH无法做出决策时，将待选择情绪词全部加入基础情绪词典中(OHER)。例如，当SIM中同一待选择情绪词在各个参考情绪词典中所属情绪类别较为平均，例如，经过统计发现：待选择情绪词“失望”分别在三个参考情绪词典中所属的情绪类别分别为：“沉闷消极”、“反对怒骂”、“攻击谩骂”；而且“失望”在这三个参考情绪词典中对应的情绪强度都为8，这时，可能无法直观地判断出“失望”属于的情绪类别，这种情形就属于通过SIM、FREQ、HIGH无法做出决策的情形，针对这种情形，本发明实施例的方法是将“失望”均加在这三个情绪类别中。

当确定出待选择情绪词对应的四个构建指标后，确定该待选择情绪词能否被列入基础情绪词。例如，可以先从参考情绪词典中选取情绪强度大于7的词语作为待候选情绪词；然后，多人对该待候选情绪词所属的情绪类别进行标注，对于同一级情绪类别标注的一致性达到85％以上，则确定该待候选情绪词为基础情绪词语。

以上也仅仅是本发明实施例列举的一种基础情绪词典的构建方法，在实际应用中，还会有多种构建基础词典的方法，本发明对此不再赘述。

为了清楚的说明本发明的整个实施过程，下面通过一个完整的实例说明本发明实施例。该实例的流程示意图如图3所示，具体包括以下步骤：

S301：确定情绪词典中的情绪类别；

S302：确定各个情绪类别下的情绪词语，以完成基础情绪词典的构建(预建立的基础情绪词典)；

S303：从语料库中获取原始文本信息，并对该原始文本信息进行切词处理，得到切词结果；

S304：删除切词结果中的停用词以得到待处理词语；

S305：确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度；

S306：根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、以及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典；

S307：计算更新后的基础情绪词典中各个情绪词语的有效利用率，将有效利用率较小的情绪词语从基础情绪词典中删除。

按照预设的更新周期重复S303～S307，以实现对情绪词典的不断更新。

实施例2

基于相同的发明构思，本发明实施例提供一种基于大数据的情绪词典的构建装置，该装置的结构示意图如图4所示，该装置具体包括以下单元：

获取单元401、确定单元402和更新单元403，其中；

获取单元401用于获取原始文本信息，并对原始文本信息进行切词处理以得到待处理词语；

确定单元402用于确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度；

更新单元403用于根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。

本装置实施例的具体工作流程为：首先，获取单元401获取原始文本信息，并对原始文本信息进行切词处理以得到待处理词语，其次，确定单元402确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度，然后，更新单元403根据确定的相似度，以及基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对基础情绪词典进行更新以构建情绪词典。

应用本装置实施例构建的情绪词典对文本信息识别时，不仅可以识别出该文本信息所属的情绪类别，还可以确定出该文本信息在该情绪类别下的情绪强度；这样，对文本信息的分析结果不仅仅只包含积极或消极，或者正面或负面等简单的维度，还可以根据任一情绪类别包含的情绪词语对应的情绪强度再分成多个等级，即：应用本发明实施例构建出的情绪词典，可以更加细粒度地对文本信息进行分析，进而更加准确地分析出用户对文本信息的情绪倾向。

本装置实施例实现构建情绪词典的实施方式有很多种。例如，在第一种实施方式中，确定单元402具体用于：

在第二种实施方式中，获取单元401还用于：

删除切词结果中的停用词。

在第三种实施方式中，更新单元403具体用于：

在第四种实施方式中，当任一候选扩展词语对应多个情绪词语时，更新单元403还用于：

在第五种实施方式中，本发明实施例提供的情绪词典的构建装置还包括删除单元，删除单元用于：

实施例3

基于相同的发明构思，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，至少一个程序被处理器执行时实现以下步骤：

优选地，至少一个程序用于实现：

删除切词结果中的停用词。

优选地，至少一个程序用于实现：

当任一候选扩展词语对应多个情绪词语时，在对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语之后，确定任一候选扩展词语和与其对应的各个情绪词语之间的最大相似度；

优选地，至少一个程序用于实现：

本发明实施例还提供一种服务器，该服务器的结构示意图如图5所示，包括存储器501和处理器502，存储器501用于存储包括程序指令的信息，处理器502用于控制程序指令的执行，程序被处理器502执行时实现本发明实施例提供的任一种情绪词典的构建方法的步骤。

具体地，存储器501中存储的至少一个程序用于被处理器502执行时实现下述步骤：

优选地，至少一个程序用于实现：

删除切词结果中的停用词。

优选地，至少一个程序用于实现：

在对基础情绪词典进行更新之后，还包括：

应用本发明实施例提供的计算机可读存储介质和服务器所获得的有益效果，与前述的方法实施例或装置实施例所获得的有益效果相同或类似，对此不再赘述。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各个种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各个种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各个种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于大数据的情绪词典的构建方法，其特征在于，包括：

获取原始文本信息，并对所述原始文本信息进行切词处理以得到待处理词语；

根据确定的相似度，以及所述基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对所述基础情绪词典进行更新以构建情绪词典。

2.根据权利要求1所述的构建方法，其特征在于，所述确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度的步骤，包括：

依据所述待处理词语以及基础情绪词典中的各个情绪词语在所述原始文本信息中的上下文信息，确定各个词语的词向量；

根据确定出的词向量，计算所述各个待处理词语与各个情绪词语之间的相似度。

3.根据权利要求1或2所述的构建方法，其特征在于，所述对所述原始文本信息进行切词处理以得到待处理词语，还包括：

删除切词结果中的停用词。

4.根据权利要求1所述的构建方法，其特征在于，所述根据确定的相似度，以及所述基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对所述基础情绪词典进行更新以构建情绪词典的步骤，包括：

根据该任一候选扩展词语的情绪类别及对应情绪强度对所述基础情绪词典进行更新以构建情绪词典。

5.根据权利要求4所述的构建方法，其特征在于，当任一候选扩展词语对应多个情绪词语时，在所述对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语之后，还包括：

其中，所述根据任一候选扩展词语与该情绪词语之间的相似度、该情绪词语的情绪类别及该情绪类别对应的情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度的步骤，包括：

根据所述最大相似度对应情绪词语的情绪类别及情绪强度，确定该任一候选扩展词语的情绪类别及对应情绪强度。

6.根据权利要求1所述的构建方法，其特征在于，在对所述基础情绪词典进行更新之后，还包括：

获取预设时间段内包含所述情绪词典中任一情绪词语的文本信息的第一数量，以及所述预设时间段内包含所述情绪词典中全部情绪词语的文本信息的第二数量；

根据所述第一数量和所述第二数量确定该任一情绪词语的有效利用率；

当判断该任一情绪词语的有效利用率小于利用率阈值时，将该任一情绪词语从所述基础情绪词典中删除。

7.一种基于大数据的情绪词典的构建装置，其特征在于，包括：

获取单元、确定单元和更新单元，其中；

所述获取单元用于获取原始文本信息，并对所述原始文本信息进行切词处理以得到待处理词语；

所述确定单元用于确定任一待处理词语与预建立的基础情绪词典中各个情绪词语之间的相似度；

所述更新单元用于根据确定的相似度，以及所述基础情绪词典中各个情绪词语对应的情绪类别、及与情绪类别对应的情绪强度，对所述基础情绪词典进行更新以构建情绪词典。

8.根据权利要求7所述的构建装置，其特征在于，所述确定单元具体用于：

依据所述待处理词语以及基础情绪词典中的各个情绪词语在所述原始文本信息中的上下文信息，确定所述各个词语的词向量；

9.根据权利要求7或8所述的构建装置，其特征在于，所述获取单元还用于：

删除切词结果中的停用词。

10.根据权利要求7所述的构建装置，其特征在于，所述更新单元具体用于：

11.根据权利要求10所述的构建装置，其特征在于，当任一候选扩展词语对应多个情绪词语时，所述更新单元还用于：

在所述对各个待处理词语与任一情绪词语之间的相似度进行排序，选取排序前预设值的待处理词语作为该情绪词语的候选扩展词语之后，确定任一候选扩展词语和与与其对应的各个情绪词语之间的最大相似度；

12.根据权利要求7所述的构建装置，其特征在于，还包括删除单元，所述删除单元用于：

在对所述基础情绪词典进行更新之后，获取预设时间段内包含所述情绪词典中任一情绪词语的文本信息的第一数量，以及所述预设时间段内包含所述情绪词典中全部情绪词语的文本信息的第二数量；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-6中任一项所述的方法。

14.一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，程序被所述处理器执行时实现如权利要求1-6任一所述方法的步骤。