具体实施方式
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
机器学习是通过从数据里提取规则或模式来把数据转换成信息的一种方法,主要的机器学习方法有归纳学习法和分析学习法。在机器学习过程中,数据首先被预处理,形成特征,然后根据特征创建某种模型;机器学习算法分析收集到的数据,分配权重、阈值和其他参数达到学习目的。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种事件情感类型的分析方法。
图1是根据本发明实施例的事件情感类型的分析方法的流程图。如图1所示,该分析方法可以包括步骤如下:
步骤S102,对文本样本进行分词处理,得到词语集合。
步骤S104,对词语集合中的第一词语的情感倾向性进行标注,得到各个第一词语的情感倾向性的标注值。
步骤S106,计算文本样本中的事件与词语集合中的第一词语的关联度数据。
步骤S108,按照关联度数据倒序排序,得到第一词语的排序表。
步骤S110,从排序表中提取第一预设数量的第二词语。
步骤S112,使用第二词语的情感倾向性的标注值和第二词语的关联度数据进行加权计算,得到加权值。
步骤S114,获取加权值所属的预设加权范围的情感类型。
采用本发明实施例,在对文本样本进行分词处理得到词语集合之后,计算文本样本中的事件与词语集合中的各个词语之间的关联度数据并排序,得到词语的排序表,从排序表中提取第一预设数量的第二词语,并使用第二词语的情感倾向性的标注值和关联度数据进行加权计算,确定计算得到的加权值所属的预设加权范围,将该预设加权范围对应的情感类型作为事件的情感类型。在本发明实施例中,根据词语的情感倾向性的标注值与关联度数据计算加权值,并根据加权值确定事件的情感类型,提高了分析事件的情感类型的准确度,无需手动遍历情感倾向性词汇的语料库以确定事件的情感倾向性(即情感类型),提高了分析事件的情感类型的效率。通过本发明实施例,解决了现有技术中手动分析事件的情感类型的效率低、准确度差的问题,实现了提高分析事件的情感类型的效率和准确度的效果。
在上述实施例中,文本信息可以为从互联网中获取的文本(如,一条新闻或者一篇文博评论),也可以是通过扫描或输入纸质文件的内容得到的电子文本,还可以是用户通过终端输入的电子文本等;第一词语是将文本样本进行分词处理后得到的词语。
进一步地,对文本信息进行分词处理,得到词语集合可以通过如下方法实现:按照预设词汇组合将文本信息拆分为多个词语,保存多个词语得到词语集合。
具体地,可以从词语数据库中获取预设词汇组合,并将文本信息中的词语与词语数据库中的预设词汇组合进行匹配,若文本信息中的词语与预设词汇组合相同,则将该词语从文本信息中划分出来,得到多个词语。
可选地,可以使用分词工具对文本信息进行分词处理。
例如,若文本信息为“今天天气很好”,在使用分词工具对该文本信息进行分词处理之后,得到的词语可以为“今天”、“天气”、“很”以及“好”。
在本发明上述实施例中,在对文本样本进行分词处理,得到词语集合之后,分析方法还可以包括:通过机器学习方法获取文本样本中各个词语的多维数组,其中,多维数组中的一维数据用于描述该词语的一个属性信息。
具体地,通过机器学习方法获取文本样本中各个词语的多维数组可以通过机器学习的方法(如,机器学习程序)来实现。可选地,该实施例中的多维数组可以为500维的向量,在该实施例中采用500维的向量可以保证终端的运行效率和运行结果准确性。
其中,可以使用工具word2vec将词语表征为多维数组。word2vec是一个将单词转换成向量形式的工具。
在一个可选的实施例中,在通过机器学习得到文本样本中各个词语对应的多维数组之后,基于每个词语的多维数组对词语进行聚类,得到多个类,其中,每个类中包括多个词语;获取事件中的各个词语,并查找事件中的各个词语所在的类,计算事件中的各个词语的多维数组与类中其他词语的多维数组之间的欧式距离(即上述实施例中的关联度数据);将得到的欧式距离进行倒序排序,得到该事件的各个词语的词语排序表(即上述实施例中的第一词语的排序表),其中,词语排序表中包括该事件的各个词语的多个关联性词语(即上述实施例中的第一词语)及对应的欧式距离。
在该实施例中,在得到词语排序表之后,从词语排序表中读取前N(即上述实施例中的第一预设数量)位的词语,得到第二词语,其中,N为自然数。
通过本发明上述实施例,使用向量标识词语,并通过机器学习得到文本样本中各个词语的多维数组,在计算事件的词语与文本样本中的其他词语的关联度数据时,无需逐一匹配文本样本中的所有词语,只需进行简单的数学计算即可获得词语排序表,并可从表中读取第一预设数量的第二词语,加快了计算关联度数据的速度,进而提高了分析事件的情感类型的效率;并且由于使用向量客观标识词语,使得计算得到的结果更加客观准确。
根据本发明上述实施例,在使用第二词语的情感倾向性的标注值和第二词语的关联度数据进行加权计算,得到加权值之前,分析方法还可以包括:从词语集合中抽取预设数量的第三词语得到第一词语样本;获取第一词语样本中的属于第一情感类型的第三词语的情感属性的第一标注值,以及第一词语样本中的属于第二情感类型的第三词语的情感属性的第二标注值,其中,标注值包括第一标注值和第二标注值;基于第一词语样本中的第三词语的第一多维数组和第三词语的情感属性计算第一情感类型的第一高斯分布参数和第二情感类型的第二高斯分布参数;使用第一高斯分布参数和第二高斯分布参数计算第二词语的对应第一情感类型的第一概率和对应第二情感类型的第二概率;基于第一概率和第二概率确定第二词语的情感类型;使用第二词语的情感类型的标注值设置第二词语的情感倾向性的标注值。
具体地,从词语集合中抽取预设数量的第三词语的第一词语样本,并使用各个情感类型的标注值标注第一词语样本中各个词语的情感属性,基于第一词语样本中各个词语的多维数组和文本样本的词语集合中第一词语的情感属性计算各个情感类型的高斯分布参数,然后使用各个情感类型的高斯分布参数计算从第一词语排序表中提取的第二词语对应各个情感类型的概率,基于各个情感类型的概率确定第二词语的情感类型,并使用该情感类型的标注值设置第二词语的情感倾向性的标注值。
在本发明上述实施例中,第一情感类型可以为正面情感类型,第二情感类型可以为负面情感类型。
进一步地,使用第一标注值设置第一词语样本中的属于第一情感类型的第三词语的情感属性,并使用第二标注值设置第一词语样本中的属于第二情感类型的第三词语的情感属性可以包括:在数据表中读取第三词语的情感倾向词;确定情感倾向词所属的情感类型,其中,情感类型包括第一情感类型和第二情感类型;使用第一标注值设置属于第一情感类型的第三词语的情感属性,并使用第二标注值设置属于第二情感类型的第三词语的情感属性。
具体地,在数据表中读取第一词语的情感倾向词之后,确定情感倾向词所属的情感类型,并使用各个标注值分别标注第一词语样本中属于各个情感类型的词语的情感属性。
上述的情感类型中还可以包括第三情感类型,第三情感类型可以为中立情感类型,其标注值可以为第三标注值。
在本发明的上述实施例中,数据表中的情感倾向词可以包括预设的多种词义的词语,如,表示正面情感类型的词语,如表示赞扬的词语或者积极词等;情感倾向词也可以包括表示负面情感类型的词语,如贬义词或者消极词等;情感倾向词还可以包括表示中立情感类型的词语。
可选地,第一标识值可以为1,表示正面情感类型(即第一情感类型);第二标识值可以为-1,表示负面情感类型(即第二情感类型);第三标识值可以为0,表示中立情感类型(即第三情感类型)。
根据本发明上述实施例,基于第一概率和第二概率确定第二词语的情感类型可以包括:计算第一概率与第二概率的差值;判断差值是否大于第一预设阈值;若差值大于第一预设阈值,则判断出第二词语的情感类型为第一情感类型;若差值不大于第一预设阈值,则判断差值是否小于第二预设阈值;若差值小于第二预设阈值,则判断出第二词语的情感类型为第二情感类型;若差值不小于第二预设阈值,则判断出第二词语的情感类型为第三情感类型。
具体地,计算第一概率与第二概率的差值并判断差值是否大于第一预设阈值,在差值大于第一预设阈值时,判断出第二词语的情感类型为第一情感类型;在差值不大于第一预设阈值时,判断差值是否小于第二预设阈值;在差值小于第二预设阈值时,判断出第二词语的情感类型为第二情感类型;在差值不小于第二预设阈值时,则判断出第二词语的情感类型为第三情感类型。
在一个可选的实施例中,第一预设阈值与第二预设阈值的绝对值(可以记为预设概率值)可以相等,并且可以取第一预设阈值为正值,第二预设阈值为负值。在该实施例中,当第一概率与第二概率的差值的绝对值大于预设概率值时,判断出第一概率和第二概率对应的词语具有明显的情感倾向性(即情感类型),并且较大的概率所对应的情感类型即为该词语的情感类型;当第一概率和第二概率的差值不大于预设概率值时,判断出该词语的情感类型不明显,为第三情感类型(即中立情感类型)。
通过本发明上述实施例,根据预先设定的阈值来确定第一概率与第二概率对应的词语的情感类型,提高了确定的词语的情感类型的准确度。
根据本发明上述实施例,计算文本样本中的事件与词语集合中的第一词语的关联度数据包括:获取文本样本中事件中各个第四词语的第二多维数组;对各个第二多维数组进行合并得到事件的事件向量;计算事件的事件向量与各个第一词语的第三多维数组之间的欧式距离,得到关联度数据;按照关联度数据倒序排序,得到第一词语的排序表包括:使用欧式距离对第一词语进行倒序排序,得到排序表。
具体地,在获取文本样本中事件的各个词语的多维数组之后,将各个词语的多维数组合并得到事件的事件向量,计算事件向量与词语集合中各个第一词语的多维数组之间的欧式距离,并按照欧式距离对第一词语进行倒序排序,得到排序表。
在本发明一个可选的上述实施例中,从排序表中提取第一预设数量的第二词语可以包括:对计算得到的欧式距离进行倒序排序,得到排序表;将排序表中排序前N位的欧式距离的第一词语提取为第二词语,其中,N为自然数。
在本发明的另一个可选的实施例中,从排序表中提取第一预设数量的第二词语可以包括:计算事件向量与第一词语的多维数组之间的欧式距离;将不大于预设阈值的欧式距离的第一词语作为第二词语。
具体地,在计算事件向量与第一词语的多维数组之间的欧式距离之后,可以将计算得到的欧式距离进行倒序排序得到排序表,并将排序表中排序前N位的欧式距离的第一词语提取为第二词语;还可以将不大于预设阈值的欧式距离的第一词语作为第二词语。
其中,N和预设阈值可以根据获取请求而确定。
通过本发明上述实施例,使用向量标识词语,在计算关联度数据时,通过向量之间的欧式距离来客观地计算关联度数据,增加了获取到的关联度数据的精确度。在上述实施例中,通过简单的数据处理即可获取关联度数据,提升了获取事件的关联度数据的速度,进而提高了分析事件的情感类型的效率。
图2是根据本发明实施例的一种可选的事件情感类型的分析方法的流程图,下面结合图2详细介绍本发明上述实施例。
如图2所示,该分析方法可以包括如下步骤:
步骤S202,对文本训练样本进行分词处理,用数组表示每个词语,通过机器学习方法得到每个词语唯一对应的数组。
其中,文本训练样本即本发明上述实施例中的文本样本;数组即本发明上述实施例中的多维数组,数组可以为500维的数组。
步骤S204,采用随机抽样法对预设数量的词语子样本进行词语的情感倾向性标注。
具体地,将正面情感类型的词语的情感因子标为1,负面情感类型的词语的情感因子标为-1,否则标注为0。
其中,子样本数组即本发明上述实施例中的第一词语样本;情感因子即上述实施例中的情感倾向性的标注值。
步骤S206,分别对正面情感类型的词语和正面情感类型的词语用最大似然法计算各自的高维高斯分布参数。
步骤S208,获取文本训练样本中的事件。
步骤S210,查找事件中包含的所有词语对应的数组,并按词语关联分析方法得到情感词得分的排序表。
其中,情感词得分即本发明上述实施例中的关联度数据;情感词即本发明上述实施例中的第二词语。
步骤S212,以情感词得分为权重,以该情感词的情感因子为权重因子,计算事件的情感倾向期望值。
具体地,将各个情感词的权重和权重因子的乘积之和作为事件的情感倾向期望值。
步骤S214,判断情感倾向期望值是否在情感倾向性得分范围内。
其中,若情感倾向期望值在情感倾向性得分范围内,则执行步骤S216;若情感倾向期望值不在情感倾向性得分范围内,则执行步骤S218。
步骤S216,确定事件的情感倾向性为中立。
步骤S218,判断情感倾向期望值是否不小于情感倾向性得分范围的上限值。
其中,在情感倾向期望值不小于情感倾向性得分范围的上限值时,执行步骤S220;在情感倾向期望值小于情感倾向性得分范围的上限值(即概率阈值设置)时,执行步骤S222。
步骤S220,确定事件的情感倾向性为正面。
步骤S222,确定事件的情感倾向性为负面。
通过本发明上述实施例,采用数组方式表示词语,并用机器学习方法到词语的唯一数组标识,计算速度快;基于情感倾向性标注,并通过最大似然法计算高维高斯分布参数,使得情感词分类更加准确;采用概率阈值设置,使得判断事件的情感类型的准确性可以根据分析者的要求进行调整,增加了结果的可用性;通过情感词得分权重与情感因子计算事件的情感倾向性期望值,得到事件的情感倾向性,识别效率高。
本发明实施例还提供了一种事件情感类型的分析装置。该装置可以通过本发明上述实施例中的事件情感类型的分析方法实现其功能。
图3是根据本发明实施例的事件情感类型的分析装置的示意图。如图3所示,该分析装置可以包括:分词模块10,用于对文本样本进行分词处理,得到词语集合;标注模块30,用于对词语集合中的第一词语的情感倾向性进行标注,得到各个第一词语的情感倾向性的标注值;第一计算模块50,用于计算文本样本中的事件与词语集合中的第一词语的关联度数据;排序模块70,用于按照关联度数据倒序排序,得到第一词语的排序表;提取模块90,用于从排序表中提取第一预设数量的第二词语;第二计算模块110,用于使用第二词语的情感倾向性的标注值和第二词语的关联度数据进行加权计算,得到加权值;第一获取模块130,用于获取加权值所属的预设加权范围的情感类型。
采用本发明实施例,在对文本样本进行分词处理得到词语集合之后,计算文本样本中的事件与词语集合中的各个词语之间的关联度数据并排序,得到词语的排序表,从排序表中提取第一预设数量的第二词语,并使用第二词语的情感倾向性的标注值和关联度数据进行加权计算,确定计算得到的加权值所属的预设加权范围,将该预设加权范围对应的情感类型作为事件的情感类型。在本发明实施例中,根据词语的情感倾向性的标注值与关联度数据计算加权值,并根据加权值确定事件的情感类型,提高了分析事件的情感类型的准确度,无需手动遍历情感倾向性词汇的语料库以确定事件的情感倾向性(即情感类型),提高了分析事件的情感类型的效率。通过本发明实施例,解决了现有技术中手动分析事件的情感类型的效率低、准确度差的问题,实现了提高分析事件的情感类型的效率和准确度的效果。
在上述实施例中,文本信息可以为从互联网中获取的文本(如,一条新闻或者一篇文博评论),也可以是通过扫描或输入纸质文件的内容得到的电子文本,还可以是用户通过终端输入的电子文本等;第一词语是对文本样本进行分词处理得到的词语。
进一步地,对文本信息进行分词处理,得到词语集合可以通过如下方法实现:按照预设词汇组合将文本信息拆分为多个词语,保存多个词语得到词语集合。
具体地,可以从词语数据库中获取预设词汇组合,并将文本信息中的词语与词语数据库中的预设词汇组合进行匹配,若文本信息中的词语与预设词汇组合相同,则将该词语从文本信息中划分出来,得到多个词语。
可选地,可以使用分词工具对文本信息进行分词处理。
在本发明上述实施例中,分析装置还可以包括:第二获取模块,用于在对文本样本进行分词处理,得到词语集合之后,通过机器学习方法获取文本样本中各个词语的多维数组,其中,多维数组中的一维数据用于描述该词语的一个属性信息。
具体地,通过机器学习方法获取文本样本中各个词语的多维数组可以通过机器学习的方法(如,机器学习程序)来实现。可选地,该实施例中的多维数组可以为500维的向量,在该实施例中采用500维的向量可以保证终端的运行效率和运行结果准确性。
其中,可以使用工具word2vec将词语表征为多维数组。word2vec是一个将单词转换成向量形式的工具。
在一个可选的实施例中,在通过机器学习得到文本样本中各个词语对应的多维数组之后,基于每个词语的多维数组对词语进行聚类,得到多个类,其中,每个类中包括多个词语;获取事件中的各个词语,并查找事件中的各个词语所在的类,计算事件中的各个词语的多维数组与类中其他词语的多维数组之间的欧式距离(即上述实施例中的关联度数据);将得到的欧式距离进行倒序排序,得到该事件的各个词语的词语排序表(即上述实施例中的第一词语的排序表),其中,词语排序表中包括该事件的各个词语的多个关联性词语(即上述实施例中的第一词语)及对应的欧式距离。
在该实施例中,在得到词语排序表之后,从词语排序表中读取前N(即上述实施例中的第一预设数量)位的词语,得到第二词语,其中,N为自然数。
通过本发明上述实施例,使用向量标识词语,并通过机器学习得到文本样本中各个词语的多维数组,在计算事件的词语与文本样本中的其他词语的关联度数据时,无需逐一匹配文本样本中的所有词语,只需进行简单的数学计算即可获得词语排序表,并可从表中读取第一预设数量的第二词语,加快了计算关联度数据的速度,进而提高了分析事件的情感类型的效率;并且由于使用向量客观标识词语,使得计算得到的结果更加客观准确。
根据本发明上述实施例,分析装置还可以包括:抽取模块,用于在使用第二词语的情感倾向性的标注值和第二词语的关联度数据进行加权计算,得到加权值之前,从词语集合中抽取预设数量的第三词语得到第一词语样本;第二获取模块,用于获取第一词语样本中的属于第一情感类型的第三词语的情感属性的第一标注值,以及第一词语样本中的属于第二情感类型的第三词语的情感属性的第二标注值,其中,标注值包括第一标注值和第二标注值;第三计算模块,用于基于第一词语样本中的第三词语的第一多维数组和第三词语的情感属性计算第一情感类型的第一高斯分布参数和第二情感类型的第二高斯分布参数;第四计算模块,用于使用第一高斯分布参数和第二高斯分布参数计算第二词语的对应第一情感类型的第一概率和对应第二情感类型的第二概率;确定模块,用于基于第一概率和第二概率确定第二词语的情感类型;设置模块,用于使用第二词语的情感类型的标注值设置第二词语的情感倾向性的标注值。
具体地,从词语集合中抽取预设数量的第三词语的第一词语样本,并使用各个情感类型的标注值标注第一词语样本中各个词语的情感属性,基于第一词语样本中各个词语的多维数组和文本样本的词语集合中第一词语的情感属性计算各个情感类型的高斯分布参数,然后使用各个情感类型的高斯分布参数计算从第一词语排序表中提取的第二词语对应各个情感类型的概率,基于各个情感类型的概率确定第二词语的情感类型,并使用该情感类型的标注值设置第二词语的情感倾向性的标注值。
在本发明上述实施例中,第一情感类型可以为正面情感类型,第二情感类型可以为负面情感类型。
进一步地,使用第一标注值设置第一词语样本中的属于第一情感类型的第三词语的情感属性,并使用第二标注值设置第一词语样本中的属于第二情感类型的第三词语的情感属性可以包括:在数据表中读取第三词语的情感倾向词;确定情感倾向词所属的情感类型,其中,情感类型包括第一情感类型和第二情感类型;使用第一标注值设置属于第一情感类型的第三词语的情感属性,并使用第二标注值设置属于第二情感类型的第三词语的情感属性。
具体地,在数据表中读取第一词语的情感倾向词之后,确定情感倾向词所属的情感类型,并使用各个标注值分别标注第一词语样本中属于各个情感类型的词语的情感属性。
上述的情感类型中还可以包括第三情感类型,第三情感类型可以为中立情感类型,其标注值可以为第三标注值。
在本发明的上述实施例中,数据表中的情感倾向词可以包括预设的多种词义的词语,如,表示正面情感类型的词语,如表示赞扬的词语或者积极词等;情感倾向词也可以包括表示负面情感类型的词语,如贬义词或者消极词等;情感倾向词还可以包括表示中立情感类型的词语。
可选地,第一标识值可以为1,表示正面情感类型(即第一情感类型);第二标识值可以为-1,表示负面情感类型(即第二情感类型);第三标识值可以为0,表示中立情感类型(即第三情感类型)。
根据本发明上述实施例,确定模块可以包括:计算子模块,用于计算第一概率与第二概率的差值;第一判断模块,用于判断差值是否大于第一预设阈值;第一确定子模块,用于在差值大于第一预设阈值的情况下,确定第二词语的情感类型为第一情感类型;第二判断模块,用于在差值不大于第一预设阈值的情况下,判断差值是否小于第二预设阈值;第二确定子模块,用于在差值小于第二预设阈值的情况下,确定第二词语的情感类型为第二情感类型;第三确定子模块,用于差值不小于第二预设阈值的情况下,确定第二词语的情感类型为第三情感类型。
具体地,计算第一概率与第二概率的差值并判断差值是否大于第一预设阈值,在差值大于第一预设阈值时,判断出第二词语的情感类型为第一情感类型;在差值不大于第一预设阈值时,判断差值是否小于第二预设阈值;在差值小于第二预设阈值时,判断出第二词语的情感类型为第二情感类型;在差值不小于第二预设阈值时,则判断出第二词语的情感类型为第三情感类型。
在一个可选的实施例中,第一预设阈值与第二预设阈值的绝对值(可以记为预设概率值)可以相等,并且可以取第一预设阈值为正值,第二预设阈值为负值。在该实施例中,当第一概率与第二概率的差值的绝对值大于预设概率值时,判断出第一概率和第二概率对应的词语具有明显的情感倾向性(即情感类型),并且较大的概率所对应的情感类型即为该词语的情感类型;当第一概率和第二概率的差值不大于预设概率值时,判断出该词语的情感类型不明显,为第三情感类型(即中立情感类型)。
通过本发明上述实施例,根据预先设定的阈值来确定第一概率与第二概率对应的词语的情感类型,提高了确定的词语的情感类型的准确度。
根据本发明上述实施例,第一计算模块可以包括:获取子模块,用于获取文本样本中事件中各个第四词语的第二多维数组;合并模块,用于对各个第二多维数组进行合并得到事件的事件向量;计算子模块,用于计算事件的事件向量与各个第一词语的第三多维数组之间的欧式距离,得到关联度数据;排序模块包括:排序子模块,用于使用欧式距离对第一词语进行倒序排序,得到排序表。
具体地,在获取文本样本中事件的各个词语的多维数组之后,将各个词语的多维数组合并得到事件的事件向量,计算事件向量与词语集合中各个第一词语的多维数组之间的欧式距离,并按照欧式距离对第一词语进行倒序排序,得到排序表。
在本发明一个可选的上述实施例中,从排序表中提取第一预设数量的第二词语可以包括:对计算得到的欧式距离进行倒序排序,得到排序表;将排序表中排序前N位的欧式距离的第一词语提取为第二词语,其中,N为自然数。
在本发明的另一个可选的实施例中,从排序表中提取第一预设数量的第二词语可以包括:计算事件向量与第一词语的多维数组之间的欧式距离;将不大于预设阈值的欧式距离的第一词语作为第二词语。
具体地,在计算事件向量与第一词语的多维数组之间的欧式距离之后,可以将计算得到的欧式距离进行倒序排序得到排序表,并将排序表中排序前N位的欧式距离的第一词语提取为第二词语;还可以将不大于预设阈值的欧式距离的第一词语作为第二词语。
其中,N和预设阈值可以根据获取请求而确定。
通过本发明上述实施例,使用向量标识词语,在计算关联度数据时,通过向量之间的欧式距离来客观地计算关联度数据,增加了获取到的关联度数据的精确度。在上述实施例中,通过简单的数据处理即可获取关联度数据,提升了获取事件的关联度数据的速度,进而提高了分析事件的情感类型的效率。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明实施例,在对文本样本进行分词处理得到词语集合之后,计算文本样本中的事件与词语集合中的各个词语之间的关联度数据并排序,得到词语的排序表,从排序表中提取第一预设数量的第二词语,并使用第二词语的情感倾向性的标注值和关联度数据进行加权计算,确定计算得到的加权值所属的预设加权范围,将该预设加权范围对应的情感类型作为事件的情感类型。在本发明实施例中,根据词语的情感倾向性的标注值与关联度数据计算加权值,并根据加权值确定事件的情感类型,提高了分析事件的情感类型的准确度,无需手动遍历情感倾向性词汇的语料库以确定事件的情感倾向性(即情感类型),提高了分析事件的情感类型的效率。通过本发明实施例,解决了现有技术中手动分析事件的情感类型的效率低、准确度差的问题,实现了提高分析事件的情感类型的效率和准确度的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。