发明内容
本发明的主要目的在于提供一种事件的识别方法和装置,以解决现有技术中识别关键词的关联事件的速度慢、准确性差的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种事件的识别方法。
根据本发明的识别方法包括:对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
进一步地,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据包括:计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据包括:计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
进一步地,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合包括:对计算得到的第一欧式距离进行倒序排序,得到第一序列;提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
进一步地,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语包括:对计算得到的第二欧式距离进行倒序排序,得到第二序列;提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
进一步地,在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,识别方法还包括:计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列,其中,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据包括:将第一欧式距离和第二欧式距离之和作为第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列包括:按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
为了实现上述目的,根据本发明的另一方面,提供了一种事件的识别装置。
根据本发明的识别装置包括:分词模块,用于对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;获取模块,用于通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;第一计算模块,用于使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取模块,用于提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;第二计算模块,用于计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;第一确定模块,用于确定将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;第一保存模块,用于保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
进一步地,第一计算模块包括:第一计算子模块,用于计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;第二计算模块包括:第二计算子模块,用于计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
进一步地,提取模块包括:第一排序模块,用于对计算得到的第一欧式距离进行倒序排序,得到第一序列;第一提取子模块,用于提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或第二保存模块,用于将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
进一步地,第一确定模块包括:第二排序模块,用于对计算得到的第二欧式距离进行倒序排序,得到第二序列;第二提取子模块,用于提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或第三保存模块,用于将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
进一步地,识别装置还包括:第三计算模块,用于在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;第三排序模块,用于使用第三关联度数据对事件词组进行排序得到事件序列,其中,第三计算模块包括:第二确定模块,用于将第一欧式距离和第二欧式距离之和作为第三关联度数据;第三排序模块包括:排序子模块,用于按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
具体实施方式
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
机器学习是通过从数据里提取规则或模式来把数据转换成信息的一种方法,主要的机器学习方法有归纳学习法和分析学习法。在机器学习过程中,数据首先被预处理,形成特征,然后根据特征创建某种模型;机器学习算法分析收集到的数据,分配权重、阈值和其他参数达到学习目的。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是根据本发明实施例的事件的识别方法的流程图,如图1所示,该识别方法包括如下的步骤:
步骤S102,对预先获取的文本信息进行分词处理得到第一词语和多个第二词语。
步骤S104,通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组。
步骤S106,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据。
步骤S108,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合。
其中,第二词语的集合包括第三词语和第四词语。
步骤S110,计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据。
其中,第二词语的集合包括第三词语和第四词语。
步骤S112,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语。
步骤S114,保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
在上述实施例中,文本信息可以为从互联网中获取的文本(如,一条新闻或者一篇文博评论),也可以是通过扫描或输入纸质文件的内容得到的电子文本,还可以是用户通过终端输入的电子文本等。可选地,文本信息可以段落的形式存在于文本信息中,如,一条新闻或一个评论为一个段落。
需要进一步说明的是,对文本信息进行分词处理,得到多个词语可以通过如下方法实现:按照预设词汇组合将文本信息拆分为多个词语。
具体地,可以从词语数据库中获取预设词汇组合,并将文本信息中的词语与词语数据库中的预设词汇组合进行匹配,若文本信息中的词语与预设词汇组合相同,则将该词语从文本信息中划分出来,得到多个词语。
可选地,可以使用分词工具对文本信息进行分词处理。
例如,若文本信息为“今天天气很好”,在使用分词工具对该文本信息进行分词处理之后,得到的词语可以为“今天”、“天气”、“很”以及“好”。
根据本发明上述实施例,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据可以包括:计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据可以包括:计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
具体地,获取第一词语对应文本信息的第一多维数组和第二词语对应文本信息的第二多维数组,并将计算得到的第一多维数组和各个第二多维数组之间的第一欧式距离作为第一关联度数据,将计算得到的第三多维数组与第四多维数组之间的第二欧式距离作为第二关联度数据。
进一步地,可以按照下述公式计算欧式距离d:d=||X-Y||2,其中,在计算第一欧式距离时,X为第一词语的第一属性数组,Y为第二词语的第二属性数组;在计算第二欧式距离时,X为第三词语的第三属性数组,Y为第四词语的第四属性数组。
在上述的实施例中,可以使用工具word2vec将词语表征为属性数组。word2vec是一个将单词转换成向量形式的工具。
进一步地,获取各个词语对应文本信息的属性数组可以通过机器学习的方法(如,机器学习程序)来实现。可选地,该实施例中的属性数组可以为500维的数组,在该实施例中采用500维的数组可以保证终端运行效率和运行结果准确性。
通过本发明上述的实施例,使用属性数组表示词语对应文本信息的属性,在获取第一关联度数据时,只需计算第一词语和第二词语之间的距离;在获取第二关联度数据时,只需计算第一关联词集合中的第三词语和第二词语的集合中的其他词语的距离,无需逐一遍历文本信息中的所有词语,节省了存储词语和文本信息所需的空间,在文本信息的数据量较大时,能够快速准确地获取第一词语的第一关联度数据和第二关联度数据。
根据本发明上述实施例,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合可以包括:对计算得到的第一欧式距离进行倒序排序,得到第一序列;提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
具体地,在计算第一词语的第一属性数组与第二词语的第二属性数组之间的第一欧式距离之后,可以将计算得到的第一欧式距离进行倒序排序得到第一序列,并将第一序列中排序为前N位的第一欧式距离对应的各个第二词语保存入第一关联词集合;或者将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
其中,N和第一预设阈值可以根据获取请求而确定。
通过本发明上述实施例,使用属性数组标识词语,并通过属性数组之间的距离来客观地表示文本信息中词语的相似度,提高了得到的第一关联词集合的精确度。在上述实施例中,通过简单的数据处理即可获取第一关联词集合,提升了获取第一词语的第一关联词集合的速度。
在本发明的上述实施例中,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语可以包括:对计算得到的第二欧式距离进行倒序排序,得到第二序列;提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
具体地,在计算第三词语的第三属性数组与第四词语的第四属性数组之间的第二欧式距离之后,可以将计算得到的第二欧式距离进行倒序排序得到第二序列,并将第一序列中排序为前M位的第二欧式距离对应的各个第四词语作为第五词语;或者将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
其中,M和第二预设阈值可以根据获取请求而确定。
根据本发明上述的实施例,在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,识别方法还可以包括:计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列,其中,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据可以包括:将第一欧式距离和第二欧式距离之和作为第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列可以包括:按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
具体地,在得到第一词语的事件词组之后,将第一词语和第三词语之间的第一欧式距离与第三词语和第五词语之间的第二欧式距离之和作为第三关联度数据,并使用第三关联度数据对各个事件词组进行排序,得到事件序列,其中,事件序列中的事件的关注度可用第三关联度数据的数值大小表示。
图2是根据本发明实施例的一种可选的词语之间关系的示意图。
如图2所示,文本信息进行分词处理后得到词语集合包括第一词语集合(该集合中包括上述实施例中的第一词语)和第二词语集合(该集合中包括上述实施例中的第二词语),第二词语集合(图中未示出)包括图2所示的第三词语集合(机上述实施例中的第一关联词集合,该集合中包括上述实施例中的第三词语)和第四词语集合(该集合中包括上述实施例中的第四词语),第四词语集合包括图2所示的第五词语集合(该集合中包括上述实施例中的第五词语)。
根据本发明上述实施例,计算第一词语与各个第二词语的第一关联度数据可以得到第一词语与第二词语之间的第一关联度数据,将该第一关联度数据中符合第一预设条件的词语作为第三词语构成第一关联词集合,然后计算第一关联词集合中的词语与第四词语集合之间的第二关联度数据,并将该第二关联度数据中符合第二预设条件的词语作为第五词语,然后保存具有关联关系的第一词语、第三词语以及第五词语得到第一词语的事件词组;将各个事件词组中的第三词语和第一词语的第一欧式距离与第五词语和第三词语的第二欧式距离之和作为第三关联度数据,并按照第三关联度数据的数值大小对事件词组进行排序,得到事件序列。
通过本发明上述实施例,在得到事件序列之和,可以根据各个事件序列对应的第三关联度数据的数值大小,确定事件序列中各个事件的关注度,即第三关联度数据的数值越小,对应的事件的关注度越高。
在本发明的一个可选的实施例中,可以基于词语关联性分析技术对关键词(即上述实施例中的第一词语)的关联事件及其关注度进行识别,通过构造事件的词性规则模型以及词语关联性分析,得到关键词的相关事件词组,并按照关注度对事件词组排序。具体地,可以通过如下步骤实现:
1、对文本训练样本(即上述实施例中的文本信息)进行分词处理,得到多个事件词语;
2、用500维数组表示每个事件词语,通过机器学习得到每个事件词语对应的属性数组;
3、输入一个或多个关键词,对关键词和多个事件词语进行关联性分析(即计算该关键词的属性数组与所有事件词语的属性数组之间的欧式距离,即上述实施例中的第一关联度数据),得到该关键词的关联性词语列表(即上述实施例中的第一关联词集合);
4、通过对关联性词语列表进行二次和三次关联性分析训练,得到关键词的关联性词组(即上述实施例中的第三词语和第五词语的集合),将多次迭代的结果(即上述实施例中的第一关联度数据和第二关联度数据)按关联性得分(即上述实施例中的第三关联度数据)排序,得到事件序列,关键词与关联性词组构成事件(即上述实施例中的事件词组),由此得到事件及其关注度排序(即事件序列)。
通过本发明上述实施例,使用数组标识关键词,提高了计算速度和精确度,同时降低了数据处理机器的运行损耗;使用机器学习方法得到属性数组以及用欧式距离计算词语关联性,使得关联性分析更准确;运用机器学习进行二次、三次关联性分析训练,能识别自然语言中语义相关关系,避免漏掉关键事件。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明的事件的识别装置的示意图,如图3所示,该识别装置可以包括:分词模块10,用于对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;获取模块30,用于通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;第一计算模块50,用于使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取模块70,用于提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;第二计算模块90,用于计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;第一确定模块110,用于确定将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;第一保存模块130,用于保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
在上述实施例中,文本信息可以为从互联网中获取的文本(如,一条新闻或者一篇文博评论),也可以是通过扫描或输入纸质文件的内容得到的电子文本,还可以是用户通过终端输入的电子文本等。可选地,文本信息可以段落的形式存在于文本信息中,如,一条新闻或一个评论为一个段落。
需要进一步说明的是,对文本信息进行分词处理,得到多个词语可以通过如下方法实现:按照预设词汇组合将文本信息拆分为多个词语。
具体地,可以从词语数据库中获取预设词汇组合,并将文本信息中的词语与词语数据库中的预设词汇组合进行匹配,若文本信息中的词语与预设词汇组合相同,则将该词语从文本信息中划分出来,得到多个词语。
可选地,可以使用分词工具对文本信息进行分词处理。
根据本发明上述实施例,第一计算模块包括:第一计算子模块,用于计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;第二计算模块包括:第二计算子模块,用于计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
具体地,获取第一词语对应文本信息的第一多维数组和第二词语对应文本信息的第二多维数组,并将计算得到的第一多维数组和各个第二多维数组之间的第一欧式距离作为第一关联度数据,将计算得到的第三多维数组与第四多维数组之间的第二欧式距离作为第二关联度数据。
进一步地,可以按照下述公式计算欧式距离d:d=||X-Y||2,其中,在计算第一欧式距离时,X为第一词语的第一属性数组,Y为第二词语的第二属性数组;在计算第二欧式距离时,X为第三词语的第三属性数组,Y为第四词语的第四属性数组。
在上述的实施例中,可以使用工具word2vec将词语表征为属性数组。word2vec是一个将单词转换成向量形式的工具。
进一步地,获取各个词语对应文本信息的属性数组可以通过机器学习的方法(如,机器学习程序)来实现。可选地,该实施例中的属性数组可以为500维的数组,在该实施例中采用500维的数组可以保证终端运行效率和运行结果准确性。
通过本发明上述的实施例,使用属性数组表示词语对应文本信息的属性,在获取第一关联度数据时,只需计算第一词语和第二词语之间的距离;在获取第二关联度数据时,只需计算第一关联词集合中的第三词语和第二词语的集合中的其他词语的距离,无需逐一遍历文本信息中的所有词语,节省了存储词语和文本信息所需的空间,在文本信息的数据量较大时,能够快速准确地获取第一词语的第一关联度数据和第二关联度数据。
根据本发明上述实施例,提取模块可以包括:第一排序模块,用于对计算得到的第一欧式距离进行倒序排序,得到第一序列;第一提取子模块,用于提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或第二保存模块,用于将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
具体地,在计算第一词语的第一属性数组与第二词语的第二属性数组之间的第一欧式距离之后,可以将计算得到的第一欧式距离进行倒序排序得到第一序列,并将第一序列中排序为前N位的第一欧式距离对应的各个第二词语保存入第一关联词集合;或者将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
其中,N和第一预设阈值可以根据获取请求而确定。
通过本发明上述实施例,使用属性数组标识词语,并通过属性数组之间的距离来客观地表示文本信息中词语的相似度,提高了得到的第一关联词集合的精确度。在上述实施例中,通过简单的数据处理即可获取第一关联词集合,提升了获取第一词语的第一关联词集合的速度。
在本发明的上述实施例中,第一确定模块可以包括:第二排序模块,用于对计算得到的第二欧式距离进行倒序排序,得到第二序列;第二提取子模块,用于提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或第三保存模块,用于将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
具体地,在计算第三词语的第三属性数组与第四词语的第四属性数组之间的第二欧式距离之后,可以将计算得到的第二欧式距离进行倒序排序得到第二序列,并将第一序列中排序为前M位的第二欧式距离对应的各个第四词语作为第五词语;或者将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
其中,M和第二预设阈值可以根据获取请求而确定。
根据本发明上述的实施例,识别装置还可以包括:第三计算模块,用于在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;第三排序模块,用于使用第三关联度数据对事件词组进行排序得到事件序列,其中,第三计算模块包括:第二确定模块,用于将第一欧式距离和第二欧式距离之和作为第三关联度数据;第三排序模块包括:排序子模块,用于按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
具体地,在得到第一词语的事件词组之后,将第一词语和第三词语之间的第一欧式距离与第三词语和第五词语之间的第二欧式距离之和作为第三关联度数据,并使用第三关联度数据对各个事件词组进行排序,得到事件序列,其中,事件序列中的事件的关注度可用第三关联度数据的数值大小表示。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。