CN104462439A - 事件的识别方法和装置 - Google Patents

事件的识别方法和装置 Download PDF

Info

Publication number
CN104462439A
CN104462439A CN201410779142.2A CN201410779142A CN104462439A CN 104462439 A CN104462439 A CN 104462439A CN 201410779142 A CN201410779142 A CN 201410779142A CN 104462439 A CN104462439 A CN 104462439A
Authority
CN
China
Prior art keywords
word
degree
association data
euclidean distance
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410779142.2A
Other languages
English (en)
Other versions
CN104462439B (zh
Inventor
刘粉香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410779142.2A priority Critical patent/CN104462439B/zh
Publication of CN104462439A publication Critical patent/CN104462439A/zh
Application granted granted Critical
Publication of CN104462439B publication Critical patent/CN104462439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种事件的识别方法和装置。其中,该方法包括:对文本信息进行分词处理得到第一词语和多个第二词语;获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;按照第一关联度数据提取第二词语,得到第一关联词集合;计算该集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据;将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语,得到第一词语的事件词组。通过本发明,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。

Description

事件的识别方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种事件的识别方法和装置。
背景技术
对于人们关注的主题,如果给定一个关键词,需要解决的问题是如何快速有效的找到与给定关键词的关联性事件并按照关联度对关联性事件排序。现有的解决方案是基于文本匹配度或者给定关键词在语句中的共现概率确定关联词组,通过词频统计得到事件的关注度排序。
具体地,通过文本匹配度确定关联词组,即在文本中查找与给定关键词所包含的文字相似的关联词,如,若给定关键词为“天安门”,那么通过文本匹配度的方法查找关联词,将认为“地安门”与“天安门”极为相似,即认为“地安门”为给定关键词“天安门”的一个关联词,但是实际上,通常与“天安门”同时出现的词语是“天安门城楼”、“故宫”或者“天安门广场”等,而不是“地安门”。
进一步地,通过共现概率确定关联词组,即将文本的所有语句划分为最小关键词(即切分为最小词组或单字),计算任意两个最小关键词在每个语句中共同出现的概率,得到这两个最小关键词的共现概率。根据预先设定的概率阈值,共现概率大于概率阈值的两个词语即为关联性词语,共现概率越高的两个词语的关联性越高。
由于现有的解决方案运用遍历法查找关联词以确定关联词组,在计算和存储数据时耗费的计算机资源都比较大,处理速度慢,而且词频统计的方法没有基于自然语言处理,导致了会漏掉很多的关联性事件。
针对现有技术中识别关键词的关联事件的速度慢、准确性差的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种事件的识别方法和装置,以解决现有技术中识别关键词的关联事件的速度慢、准确性差的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种事件的识别方法。
根据本发明的识别方法包括:对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
进一步地,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据包括:计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据包括:计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
进一步地,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合包括:对计算得到的第一欧式距离进行倒序排序,得到第一序列;提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
进一步地,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语包括:对计算得到的第二欧式距离进行倒序排序,得到第二序列;提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
进一步地,在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,识别方法还包括:计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列,其中,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据包括:将第一欧式距离和第二欧式距离之和作为第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列包括:按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
为了实现上述目的,根据本发明的另一方面,提供了一种事件的识别装置。
根据本发明的识别装置包括:分词模块,用于对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;获取模块,用于通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;第一计算模块,用于使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取模块,用于提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;第二计算模块,用于计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;第一确定模块,用于确定将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;第一保存模块,用于保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
进一步地,第一计算模块包括:第一计算子模块,用于计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;第二计算模块包括:第二计算子模块,用于计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
进一步地,提取模块包括:第一排序模块,用于对计算得到的第一欧式距离进行倒序排序,得到第一序列;第一提取子模块,用于提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或第二保存模块,用于将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
进一步地,第一确定模块包括:第二排序模块,用于对计算得到的第二欧式距离进行倒序排序,得到第二序列;第二提取子模块,用于提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或第三保存模块,用于将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
进一步地,识别装置还包括:第三计算模块,用于在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;第三排序模块,用于使用第三关联度数据对事件词组进行排序得到事件序列,其中,第三计算模块包括:第二确定模块,用于将第一欧式距离和第二欧式距离之和作为第三关联度数据;第三排序模块包括:排序子模块,用于按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的事件的识别方法的流程图;
图2是根据本发明实施例的一种可选的词语之间关系的示意图;以及
图3是根据本发明实施例的事件的识别装置的示意图。
具体实施方式
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
机器学习是通过从数据里提取规则或模式来把数据转换成信息的一种方法,主要的机器学习方法有归纳学习法和分析学习法。在机器学习过程中,数据首先被预处理,形成特征,然后根据特征创建某种模型;机器学习算法分析收集到的数据,分配权重、阈值和其他参数达到学习目的。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是根据本发明实施例的事件的识别方法的流程图,如图1所示,该识别方法包括如下的步骤:
步骤S102,对预先获取的文本信息进行分词处理得到第一词语和多个第二词语。
步骤S104,通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组。
步骤S106,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据。
步骤S108,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合。
其中,第二词语的集合包括第三词语和第四词语。
步骤S110,计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据。
其中,第二词语的集合包括第三词语和第四词语。
步骤S112,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语。
步骤S114,保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
在上述实施例中,文本信息可以为从互联网中获取的文本(如,一条新闻或者一篇文博评论),也可以是通过扫描或输入纸质文件的内容得到的电子文本,还可以是用户通过终端输入的电子文本等。可选地,文本信息可以段落的形式存在于文本信息中,如,一条新闻或一个评论为一个段落。
需要进一步说明的是,对文本信息进行分词处理,得到多个词语可以通过如下方法实现:按照预设词汇组合将文本信息拆分为多个词语。
具体地,可以从词语数据库中获取预设词汇组合,并将文本信息中的词语与词语数据库中的预设词汇组合进行匹配,若文本信息中的词语与预设词汇组合相同,则将该词语从文本信息中划分出来,得到多个词语。
可选地,可以使用分词工具对文本信息进行分词处理。
例如,若文本信息为“今天天气很好”,在使用分词工具对该文本信息进行分词处理之后,得到的词语可以为“今天”、“天气”、“很”以及“好”。
根据本发明上述实施例,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据可以包括:计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据可以包括:计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
具体地,获取第一词语对应文本信息的第一多维数组和第二词语对应文本信息的第二多维数组,并将计算得到的第一多维数组和各个第二多维数组之间的第一欧式距离作为第一关联度数据,将计算得到的第三多维数组与第四多维数组之间的第二欧式距离作为第二关联度数据。
进一步地,可以按照下述公式计算欧式距离d:d=||X-Y||2,其中,在计算第一欧式距离时,X为第一词语的第一属性数组,Y为第二词语的第二属性数组;在计算第二欧式距离时,X为第三词语的第三属性数组,Y为第四词语的第四属性数组。
在上述的实施例中,可以使用工具word2vec将词语表征为属性数组。word2vec是一个将单词转换成向量形式的工具。
进一步地,获取各个词语对应文本信息的属性数组可以通过机器学习的方法(如,机器学习程序)来实现。可选地,该实施例中的属性数组可以为500维的数组,在该实施例中采用500维的数组可以保证终端运行效率和运行结果准确性。
通过本发明上述的实施例,使用属性数组表示词语对应文本信息的属性,在获取第一关联度数据时,只需计算第一词语和第二词语之间的距离;在获取第二关联度数据时,只需计算第一关联词集合中的第三词语和第二词语的集合中的其他词语的距离,无需逐一遍历文本信息中的所有词语,节省了存储词语和文本信息所需的空间,在文本信息的数据量较大时,能够快速准确地获取第一词语的第一关联度数据和第二关联度数据。
根据本发明上述实施例,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合可以包括:对计算得到的第一欧式距离进行倒序排序,得到第一序列;提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
具体地,在计算第一词语的第一属性数组与第二词语的第二属性数组之间的第一欧式距离之后,可以将计算得到的第一欧式距离进行倒序排序得到第一序列,并将第一序列中排序为前N位的第一欧式距离对应的各个第二词语保存入第一关联词集合;或者将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
其中,N和第一预设阈值可以根据获取请求而确定。
通过本发明上述实施例,使用属性数组标识词语,并通过属性数组之间的距离来客观地表示文本信息中词语的相似度,提高了得到的第一关联词集合的精确度。在上述实施例中,通过简单的数据处理即可获取第一关联词集合,提升了获取第一词语的第一关联词集合的速度。
在本发明的上述实施例中,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语可以包括:对计算得到的第二欧式距离进行倒序排序,得到第二序列;提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
具体地,在计算第三词语的第三属性数组与第四词语的第四属性数组之间的第二欧式距离之后,可以将计算得到的第二欧式距离进行倒序排序得到第二序列,并将第一序列中排序为前M位的第二欧式距离对应的各个第四词语作为第五词语;或者将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
其中,M和第二预设阈值可以根据获取请求而确定。
根据本发明上述的实施例,在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,识别方法还可以包括:计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列,其中,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据可以包括:将第一欧式距离和第二欧式距离之和作为第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列可以包括:按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
具体地,在得到第一词语的事件词组之后,将第一词语和第三词语之间的第一欧式距离与第三词语和第五词语之间的第二欧式距离之和作为第三关联度数据,并使用第三关联度数据对各个事件词组进行排序,得到事件序列,其中,事件序列中的事件的关注度可用第三关联度数据的数值大小表示。
图2是根据本发明实施例的一种可选的词语之间关系的示意图。
如图2所示,文本信息进行分词处理后得到词语集合包括第一词语集合(该集合中包括上述实施例中的第一词语)和第二词语集合(该集合中包括上述实施例中的第二词语),第二词语集合(图中未示出)包括图2所示的第三词语集合(机上述实施例中的第一关联词集合,该集合中包括上述实施例中的第三词语)和第四词语集合(该集合中包括上述实施例中的第四词语),第四词语集合包括图2所示的第五词语集合(该集合中包括上述实施例中的第五词语)。
根据本发明上述实施例,计算第一词语与各个第二词语的第一关联度数据可以得到第一词语与第二词语之间的第一关联度数据,将该第一关联度数据中符合第一预设条件的词语作为第三词语构成第一关联词集合,然后计算第一关联词集合中的词语与第四词语集合之间的第二关联度数据,并将该第二关联度数据中符合第二预设条件的词语作为第五词语,然后保存具有关联关系的第一词语、第三词语以及第五词语得到第一词语的事件词组;将各个事件词组中的第三词语和第一词语的第一欧式距离与第五词语和第三词语的第二欧式距离之和作为第三关联度数据,并按照第三关联度数据的数值大小对事件词组进行排序,得到事件序列。
通过本发明上述实施例,在得到事件序列之和,可以根据各个事件序列对应的第三关联度数据的数值大小,确定事件序列中各个事件的关注度,即第三关联度数据的数值越小,对应的事件的关注度越高。
在本发明的一个可选的实施例中,可以基于词语关联性分析技术对关键词(即上述实施例中的第一词语)的关联事件及其关注度进行识别,通过构造事件的词性规则模型以及词语关联性分析,得到关键词的相关事件词组,并按照关注度对事件词组排序。具体地,可以通过如下步骤实现:
1、对文本训练样本(即上述实施例中的文本信息)进行分词处理,得到多个事件词语;
2、用500维数组表示每个事件词语,通过机器学习得到每个事件词语对应的属性数组;
3、输入一个或多个关键词,对关键词和多个事件词语进行关联性分析(即计算该关键词的属性数组与所有事件词语的属性数组之间的欧式距离,即上述实施例中的第一关联度数据),得到该关键词的关联性词语列表(即上述实施例中的第一关联词集合);
4、通过对关联性词语列表进行二次和三次关联性分析训练,得到关键词的关联性词组(即上述实施例中的第三词语和第五词语的集合),将多次迭代的结果(即上述实施例中的第一关联度数据和第二关联度数据)按关联性得分(即上述实施例中的第三关联度数据)排序,得到事件序列,关键词与关联性词组构成事件(即上述实施例中的事件词组),由此得到事件及其关注度排序(即事件序列)。
通过本发明上述实施例,使用数组标识关键词,提高了计算速度和精确度,同时降低了数据处理机器的运行损耗;使用机器学习方法得到属性数组以及用欧式距离计算词语关联性,使得关联性分析更准确;运用机器学习进行二次、三次关联性分析训练,能识别自然语言中语义相关关系,避免漏掉关键事件。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明的事件的识别装置的示意图,如图3所示,该识别装置可以包括:分词模块10,用于对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;获取模块30,用于通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;第一计算模块50,用于使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取模块70,用于提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;第二计算模块90,用于计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;第一确定模块110,用于确定将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;第一保存模块130,用于保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
在上述实施例中,文本信息可以为从互联网中获取的文本(如,一条新闻或者一篇文博评论),也可以是通过扫描或输入纸质文件的内容得到的电子文本,还可以是用户通过终端输入的电子文本等。可选地,文本信息可以段落的形式存在于文本信息中,如,一条新闻或一个评论为一个段落。
需要进一步说明的是,对文本信息进行分词处理,得到多个词语可以通过如下方法实现:按照预设词汇组合将文本信息拆分为多个词语。
具体地,可以从词语数据库中获取预设词汇组合,并将文本信息中的词语与词语数据库中的预设词汇组合进行匹配,若文本信息中的词语与预设词汇组合相同,则将该词语从文本信息中划分出来,得到多个词语。
可选地,可以使用分词工具对文本信息进行分词处理。
根据本发明上述实施例,第一计算模块包括:第一计算子模块,用于计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;第二计算模块包括:第二计算子模块,用于计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。
具体地,获取第一词语对应文本信息的第一多维数组和第二词语对应文本信息的第二多维数组,并将计算得到的第一多维数组和各个第二多维数组之间的第一欧式距离作为第一关联度数据,将计算得到的第三多维数组与第四多维数组之间的第二欧式距离作为第二关联度数据。
进一步地,可以按照下述公式计算欧式距离d:d=||X-Y||2,其中,在计算第一欧式距离时,X为第一词语的第一属性数组,Y为第二词语的第二属性数组;在计算第二欧式距离时,X为第三词语的第三属性数组,Y为第四词语的第四属性数组。
在上述的实施例中,可以使用工具word2vec将词语表征为属性数组。word2vec是一个将单词转换成向量形式的工具。
进一步地,获取各个词语对应文本信息的属性数组可以通过机器学习的方法(如,机器学习程序)来实现。可选地,该实施例中的属性数组可以为500维的数组,在该实施例中采用500维的数组可以保证终端运行效率和运行结果准确性。
通过本发明上述的实施例,使用属性数组表示词语对应文本信息的属性,在获取第一关联度数据时,只需计算第一词语和第二词语之间的距离;在获取第二关联度数据时,只需计算第一关联词集合中的第三词语和第二词语的集合中的其他词语的距离,无需逐一遍历文本信息中的所有词语,节省了存储词语和文本信息所需的空间,在文本信息的数据量较大时,能够快速准确地获取第一词语的第一关联度数据和第二关联度数据。
根据本发明上述实施例,提取模块可以包括:第一排序模块,用于对计算得到的第一欧式距离进行倒序排序,得到第一序列;第一提取子模块,用于提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或第二保存模块,用于将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
具体地,在计算第一词语的第一属性数组与第二词语的第二属性数组之间的第一欧式距离之后,可以将计算得到的第一欧式距离进行倒序排序得到第一序列,并将第一序列中排序为前N位的第一欧式距离对应的各个第二词语保存入第一关联词集合;或者将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。
其中,N和第一预设阈值可以根据获取请求而确定。
通过本发明上述实施例,使用属性数组标识词语,并通过属性数组之间的距离来客观地表示文本信息中词语的相似度,提高了得到的第一关联词集合的精确度。在上述实施例中,通过简单的数据处理即可获取第一关联词集合,提升了获取第一词语的第一关联词集合的速度。
在本发明的上述实施例中,第一确定模块可以包括:第二排序模块,用于对计算得到的第二欧式距离进行倒序排序,得到第二序列;第二提取子模块,用于提取第二序列中前M位的第二欧式距离对应的第四词语,得到第五词语,其中,M为自然数;或第三保存模块,用于将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
具体地,在计算第三词语的第三属性数组与第四词语的第四属性数组之间的第二欧式距离之后,可以将计算得到的第二欧式距离进行倒序排序得到第二序列,并将第一序列中排序为前M位的第二欧式距离对应的各个第四词语作为第五词语;或者将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。
其中,M和第二预设阈值可以根据获取请求而确定。
根据本发明上述的实施例,识别装置还可以包括:第三计算模块,用于在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;第三排序模块,用于使用第三关联度数据对事件词组进行排序得到事件序列,其中,第三计算模块包括:第二确定模块,用于将第一欧式距离和第二欧式距离之和作为第三关联度数据;第三排序模块包括:排序子模块,用于按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。
具体地,在得到第一词语的事件词组之后,将第一词语和第三词语之间的第一欧式距离与第三词语和第五词语之间的第二欧式距离之和作为第三关联度数据,并使用第三关联度数据对各个事件词组进行排序,得到事件序列,其中,事件序列中的事件的关注度可用第三关联度数据的数值大小表示。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本发明上述实施例,在确定第一词语的第一关联词集合之后,确定第一关联词集合中的各个词语的关联词语,然后根据第一词语、第一关联词集合中的词语和第一关联词集合中的词语的关联词语生成第一词语的事件词组,无需遍历整个文本信息以获取事件词组(如关键词的关联事件),提高了获取事件词组的速度。通过本发明实施例,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种事件的识别方法,其特征在于,包括:
对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;
通过机器学习方法获取所述第一词语对应所述文本信息的第一多维数组和各个所述第二词语对应所述文本信息的第二多维数组;
使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据;
提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合;
计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据,其中,所述第二词语的集合包括所述第三词语和所述第四词语;
将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语;
保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组。
2.根据权利要求1所述的识别方法,其特征在于,
使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据包括:计算所述第一词语的第一多维数组与各个所述第二词语的第二多维数组之间的第一欧式距离,得到所述第一关联度数据;
计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据包括:计算所述第三词语的第三多维数组与所述第四词语的第四多维数组之间的第二欧式距离,得到所述第二关联度数据。
3.根据权利要求2所述的识别方法,其特征在于,提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合包括:
对计算得到的所述第一欧式距离进行倒序排序,得到第一序列;提取所述第一序列中前N位的所述第一欧式距离对应的所述第二词语,得到所述第一关联词集合,其中,N为自然数;或
将不大于第一预设阈值的所述第一欧式距离的所述第二词语保存入所述第一关联词集合。
4.根据权利要求2所述的识别方法,其特征在于,将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语包括:
对计算得到的所述第二欧式距离进行倒序排序,得到第二序列;提取所述第二序列中前M位的所述第二欧式距离对应的所述第四词语,得到所述第五词语,其中,M为自然数;或
将不大于第二预设阈值的所述第二欧式距离的所述第四词语作为所述第五词语。
5.根据权利要求2所述的识别方法,其特征在于,在保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组之后,所述识别方法还包括:
计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据;
使用所述第三关联度数据对所述事件词组进行排序得到事件序列,
其中,计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据包括:将所述第一欧式距离和所述第二欧式距离之和作为所述第三关联度数据;
使用所述第三关联度数据对所述事件词组进行排序得到事件序列包括:按照所述第三关联度数据的数值大小对所述事件词组进行排序得到所述事件序列。
6.一种事件的识别装置,其特征在于,包括:
分词模块,用于对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;
获取模块,用于通过机器学习方法获取所述第一词语对应所述文本信息的第一多维数组和各个所述第二词语对应所述文本信息的第二多维数组;
第一计算模块,用于使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据;
提取模块,用于提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合;
第二计算模块,用于计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据,其中,所述第二词语的集合包括所述第三词语和所述第四词语;
第一确定模块,用于确定将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语;
第一保存模块,用于保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组。
7.根据权利要求6所述的识别装置,其特征在于,
所述第一计算模块包括:第一计算子模块,用于计算所述第一词语的第一多维数组与各个所述第二词语的第二多维数组之间的第一欧式距离,得到所述第一关联度数据;
所述第二计算模块包括:第二计算子模块,用于计算所述第三词语的第三多维数组与所述第四词语的第四多维数组之间的第二欧式距离,得到所述第二关联度数据。
8.根据权利要求7所述的识别装置,其特征在于,所述提取模块包括:
第一排序模块,用于对计算得到的所述第一欧式距离进行倒序排序,得到第一序列;第一提取子模块,用于提取所述第一序列中前N位的所述第一欧式距离对应的所述第二词语,得到所述第一关联词集合,其中,N为自然数;或
第二保存模块,用于将不大于第一预设阈值的所述第一欧式距离的所述第二词语保存入所述第一关联词集合。
9.根据权利要求7所述的识别装置,其特征在于,所述第一确定模块包括:
第二排序模块,用于对计算得到的所述第二欧式距离进行倒序排序,得到第二序列;第二提取子模块,用于提取所述第二序列中前M位的所述第二欧式距离对应的所述第四词语,得到所述第五词语,其中,M为自然数;或
第三保存模块,用于将不大于第二预设阈值的所述第二欧式距离的所述第四词语作为所述第五词语。
10.根据权利要求7所述的识别装置,其特征在于,所述识别装置还包括:
第三计算模块,用于在保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组之后,计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据;
第三排序模块,用于使用所述第三关联度数据对所述事件词组进行排序得到事件序列,
其中,所述第三计算模块包括:第二确定模块,用于将所述第一欧式距离和所述第二欧式距离之和作为所述第三关联度数据;
所述第三排序模块包括:排序子模块,用于按照所述第三关联度数据的数值大小对所述事件词组进行排序得到所述事件序列。
CN201410779142.2A 2014-12-15 2014-12-15 事件的识别方法和装置 Active CN104462439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410779142.2A CN104462439B (zh) 2014-12-15 2014-12-15 事件的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410779142.2A CN104462439B (zh) 2014-12-15 2014-12-15 事件的识别方法和装置

Publications (2)

Publication Number Publication Date
CN104462439A true CN104462439A (zh) 2015-03-25
CN104462439B CN104462439B (zh) 2017-12-19

Family

ID=52908474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410779142.2A Active CN104462439B (zh) 2014-12-15 2014-12-15 事件的识别方法和装置

Country Status (1)

Country Link
CN (1) CN104462439B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN106649334A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 关联词语集合的处理方法及装置
CN109471926A (zh) * 2018-10-30 2019-03-15 广东原昇信息科技有限公司 基于nlp和企业信息的智能造词方法
CN109885696A (zh) * 2019-02-01 2019-06-14 杭州晶一智能科技有限公司 一种基于自学习的外语联想词库构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104121907A (zh) * 2014-07-30 2014-10-29 杭州电子科技大学 一种基于平方根容积卡尔曼滤波器的飞行器姿态估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104121907A (zh) * 2014-07-30 2014-10-29 杭州电子科技大学 一种基于平方根容积卡尔曼滤波器的飞行器姿态估计方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649334A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 关联词语集合的处理方法及装置
CN106156299A (zh) * 2016-06-29 2016-11-23 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN106156299B (zh) * 2016-06-29 2019-09-20 北京小米移动软件有限公司 文本信息的主题内容识别方法及装置
CN109471926A (zh) * 2018-10-30 2019-03-15 广东原昇信息科技有限公司 基于nlp和企业信息的智能造词方法
CN109885696A (zh) * 2019-02-01 2019-06-14 杭州晶一智能科技有限公司 一种基于自学习的外语联想词库构建方法

Also Published As

Publication number Publication date
CN104462439B (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN104408191B (zh) 关键词的关联关键词的获取方法和装置
CN107515877B (zh) 敏感主题词集的生成方法和装置
CN105824959B (zh) 舆情监控方法及***
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN112395867B (zh) 同义词挖掘方法、装置、存储介质及计算机设备
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN109272440B (zh) 一种联合文本和图像内容的缩略图生成方法及***
CN104537341A (zh) 人脸图片信息获取方法和装置
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN105354186A (zh) 一种新闻事件抽取方法及***
CN108388556B (zh) 同类实体的挖掘方法及***
CN104462439A (zh) 事件的识别方法和装置
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN111400448A (zh) 对象的关联关系分析方法及装置
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN104462065A (zh) 事件情感类型的分析方法和装置
CN112307314A (zh) 搜索引擎精选摘要的生成方法和装置
CN113537206B (zh) 推送数据检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Event recognizing method and device

Effective date of registration: 20190531

Granted publication date: 20171219

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20171219

PP01 Preservation of patent right