CN109710710A - 兴趣点的事件挖掘方法及其装置 - Google Patents
兴趣点的事件挖掘方法及其装置 Download PDFInfo
- Publication number
- CN109710710A CN109710710A CN201811522521.8A CN201811522521A CN109710710A CN 109710710 A CN109710710 A CN 109710710A CN 201811522521 A CN201811522521 A CN 201811522521A CN 109710710 A CN109710710 A CN 109710710A
- Authority
- CN
- China
- Prior art keywords
- interest
- point
- event
- sentence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种兴趣点的事件挖掘方法及其装置。其中,方法包括:获取多个资讯信息,根据预设事件动词集合对多个资讯信息进行筛选,其中,预设事件动词集合中包括多个事件动词。从筛选之后的资讯信息中提取兴趣点事件句,从兴趣点事件句中提取兴趣点及兴趣点对应的事件。由此,实现了从资讯信息中抓取兴趣点及兴趣点对应的事件,提高了事件挖掘的效率和准确率,解决了现有技术中事件挖掘准确率低,无法在海量资讯信息中挖掘事件的技术问题。
Description
技术领域
本发明涉及地理信息技术领域,尤其涉及一种兴趣点的事件挖掘方法及其装置。
背景技术
随着移动互联网时代的到来,电子地图成为了人们出行必备的工具之一。和纸质地图相比,电子地图的提供者能够在电子地图中标注兴趣点的相关信息,方便电子地图的使用者更加详细地了解该兴趣点。比如:在电子地图中标注大型商场由于内部装修而暂停营业的信息。相关信息需要根据与该兴趣点有关的事件及时更新,才能满足用户的使用需求。
相关技术中,利用从资讯信息中识别出的关键词在电子地图中检索已有兴趣点。从资讯信息中筛选出与已有兴趣点相似度较高的兴趣点,进而确定该兴趣点对应的事件,事件挖掘的准确率低。而且,由于需要不断地识别资讯信息中的关键词,检索已有兴趣点,无法在海量资讯信息中挖掘事件。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种兴趣点的事件挖掘方法,以实现从资讯信息中抓取兴趣点及兴趣点对应的事件,提高了事件挖掘的效率和准确率
本发明的第二个目的在于提出一种兴趣点的事件挖掘装置。
本发明的第三个目的在于提出一种计算机程序产品。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种兴趣点的事件挖掘方法,包括:获取多个资讯信息;根据预设事件动词集合对所述多个资讯信息进行筛选,其中,所述预设事件动词集合中包括多个事件动词;从筛选之后的资讯信息中提取兴趣点事件句;以及从所述兴趣点事件句中提取兴趣点及所述兴趣点对应的事件。
和现有技术相比,本发明实施例根据预设动词对资讯信息进行筛选,从筛选后的资讯信息中抓取兴趣点及兴趣点对应的事件,提高了事件挖掘的效率和准确率。
另外,本发明实施例的兴趣点的事件挖掘方法,还具有如下附加的技术特征:
可选地,所述根据预设事件动词集合对所述多个资讯信息进行筛选,包括:判断所述资讯信息中是否包括预设城市名称;如果包括所述预设城市名称,则进一步判断所述资讯信息中是否包括所述预设事件动词集合中的至少一个事件动词;如果未包括所述预设城市名称,或未包括所述预设事件动词集合中的至少一个事件动词,则将所述资讯信息筛除。
可选地,所述预设事件动词集合中的事件动词通过临近词扩展获得。
可选地,所述从筛选之后的资讯信息中提取兴趣点事件句,包括:将所述筛选之后的资讯信息切分成多个句子;对所述多个句子分别进行识别以判断所述句子是否为兴趣点事件变迁句;以及如果判断为所述兴趣点事件变迁句,则将所述句子作为所述兴趣点事件句。
可选地,如果同时满足以下条件,则判断所述句子为所述兴趣点事件变迁句:所述句子包括组织机构类别的专名数据;所述句子包括兴趣点事件预设动词;且所述句子包括依存句式。
可选地,所述从所述兴趣点事件句中提取兴趣点及所述兴趣点对应的事件,包括:通过兴趣点专名抽取模型从所述兴趣点事件句中提取所述兴趣点;从所述兴趣点事件句中提取所述兴趣点对应的事件,以及所述事件对应的相关时间;根据所述事件对应的相关时间生成所述事件的生效时间;根据所述生效时间修改地图中所述兴趣点的事件。
可选地,所述兴趣点专名抽取模型通过以下步骤训练获得:获取检索词历史数据,其中,所述检索词历史数据包括多个检索词;获取所述检索词历史数据中每个检索词对应的关联兴趣点;获取兴趣点-新闻句子对历史集合,其中,所述兴趣点-新闻句子对历史集合中包括多个兴趣点-新闻句子对;使用长短期记忆网络对所述兴趣点-新闻句子对中的新闻句子进行序列标注,以获取所述新闻句子的序列标注结果;使用条件随机场对所述新闻句子的序列标注结果进行修正;对所述兴趣点-新闻句子对中的兴趣点进行序列标注,并根据所述兴趣点和所述新闻句子的序列标注结果,训练所述长短期记忆网络和所述条件随机场。
本发明第二方面实施例提出了一种兴趣点的事件挖掘装置,包括:获取模块,用于获取多个资讯信息;筛选模块,用于根据预设事件动词集合对所述多个资讯信息进行筛选,其中,所述预设事件动词集合中包括多个事件动词;第一提取模块,用于从筛选之后的资讯信息中提取兴趣点事件句;以及第二提取模块,用于从所述兴趣点事件句中提取兴趣点及所述兴趣点对应的事件。
另外,本发明实施例的兴趣点的事件挖掘装置,还具有如下附加的技术特征:
可选地,所述筛选模块,包括:第一判断单元,用于判断所述资讯信息中是否包括预设城市名称;第二判断单元,用于当所述第一判断单元确定包括所述预设城市名称时,进一步判断所述资讯信息中是否包括所述预设事件动词集合中的至少一个事件动词;筛除单元,用于当所述第一判断单元确定未包括所述预设城市名称,或所述第二判断单元确定未包括所述预设事件动词集合中的至少一个事件动词时,将所述资讯信息筛除。
可选地,所述预设事件动词集合中的事件动词通过临近词扩展获得。
可选地,所述第一提取模块,包括:切分单元,用于将所述筛选之后的资讯信息切分成多个句子;第三判断单元,用于对所述多个句子分别进行识别以判断所述句子是否为兴趣点事件变迁句;以及设置单元,用于当所述第三判断单元确定为所述兴趣点事件变迁句,则将所述句子作为所述兴趣点事件句。
可选地,如果同时满足以下条件,则所述第三判断单元确定所述句子为所述兴趣点事件变迁句:所述句子包括组织机构类别的专名数据;所述句子包括兴趣点事件预设动词;且所述句子包括依存句式。
可选地,所述第二提取模块,包括:第一提取单元,用于通过兴趣点专名抽取模型从所述兴趣点事件句中提取所述兴趣点;第二提取单元,用于从所述兴趣点事件句中提取所述兴趣点对应的事件,以及所述事件对应的相关时间;生成单元,用于根据所述事件对应的相关时间生成所述事件的生效时间;修改单元,用于根据所述生效时间修改地图中所述兴趣点的事件。
可选地,所述兴趣点专名抽取模型通过以下步骤训练获得:获取检索词历史数据,其中,所述检索词历史数据包括多个检索词;获取所述检索词历史数据中每个检索词对应的关联兴趣点;获取兴趣点-新闻句子对历史集合,其中,所述兴趣点-新闻句子对历史集合中包括多个兴趣点-新闻句子对;使用长短期记忆网络对所述兴趣点-新闻句子对中的新闻句子进行序列标注,以获取所述新闻句子的序列标注结果;使用条件随机场对所述新闻句子的序列标注结果进行修正;对所述兴趣点-新闻句子对中的兴趣点进行序列标注,并根据所述兴趣点和所述新闻句子的序列标注结果,训练所述长短期记忆网络和所述条件随机场。
本发明第三方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的兴趣点的事件挖掘方法。
本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的兴趣点的事件挖掘方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的在电子地图中标注兴趣点的相关信息的效果示意图;
图2为本发明实施例所提供的一种兴趣点的事件挖掘方法的流程示意图;
图3为本发明实施例所提供的另一种兴趣点的事件挖掘方法的流程示意图;
图4为本发明实施例所提供的又一种兴趣点的事件挖掘方法的流程示意图;
图5为本发明实施例所提供的检索词历史数据的展示图;
图6为本发明实施例所提供的高质量的兴趣点专名的展示图;
图7为本发明实施例所提供的兴趣点-新闻句子对历史集合的展示图;
图8为本发明实施例所提供的序列标注结果的效果示意图;
图9为本发明实施例所提供的兴趣点的事件挖掘方法的一个示例的流程图;
图10为本发明实施例所提供的一种兴趣点的事件挖掘装置的结构示意图;
图11为本发明实施例所提供的另一种兴趣点的事件挖掘装置的结构示意图;以及
图12为本发明实施例所提供的又一种兴趣点的事件挖掘装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的兴趣点的事件挖掘方法及其装置。
如图1所示,电子地图提供者可以在电子地图中标注兴趣点的相关信息,比如:具***置信息、暂停营业的信息、兴趣点的图片信息、同类兴趣点的位置、达到兴趣点的导航信息。相关信息需要与该兴趣点有关的事件及时更新,才能满足用户的使用需求。
基于上述现有技术的描述可以知道,相关技术中,利用从资讯信息中识别出的关键词在电子地图中检索已有兴趣点。从资讯信息中筛选出与已有兴趣点相似度较高的兴趣点,进而确定该兴趣点对应的事件,事件挖掘的准确率低。而且,由于需要不断地识别资讯信息中的关键词,检索已有兴趣点,无法在海量资讯信息中挖掘事件。
针对这一问题,本发明实施例提供了一种兴趣点的事件挖掘方法。获取多个资讯信息,根据预设事件动词集合对多个资讯信息进行筛选,其中,预设事件动词集合中包括多个事件动词。从筛选之后的资讯信息中提取兴趣点事件句,从兴趣点事件句中提取兴趣点及兴趣点对应的事件。实现了从资讯信息中抓取兴趣点及兴趣点对应的事件,提高了事件挖掘的效率和准确率。
图2为本发明实施例所提供的一种兴趣点的事件挖掘方法的流程示意图。如图2所示,该方法包括以下步骤:
S101,获取多个资讯信息。
其中,资讯信息可以是各种来源的实时信息,获取资讯信息可以从贴吧、论坛、微博、新闻网站抓取实时信息。
S102,根据预设事件动词集合对多个资讯信息进行筛选。
其中,预设事件动词集合中包括多个事件动词。事件动词是指会引起兴趣点的相关信息变化的动词,比如:开业、暂停营业、倒闭等动词。
可以理解,事件动词是事件信息的标识,可以通过判断资讯信息中是否包含事件动词,进而确定资讯信息中是否包含事件信息。
考虑到自然语言中存在同义词和近义词的现象,为了扩展预设事件动词集合中的事件动词,可以通过邻近词扩展获得更多的事件动词。比如:已经确定“开业”属于预设事件动词集合,可以使用word2vec模型和用户点击共现数据对“开业”进行处理,获得“开店”、“开园”、“揭牌”等同义词或者近义词,将“开店”、“开园”、“揭牌”加入预设事件动词集合,实现对预设事件动词集合的扩展。
需要特别强调的是,兴趣点是具有较强的地域属性的地理信息,与兴趣点所在城市有关的事件信息才会对兴趣点的相关信息造成影响,因此对资讯信息进行筛选时还应当考虑资讯信息是否包含城市名称。
一种可能的实现方式是,判断资讯信息中是否包括预设城市名称,如果包括预设城市名称,则进一步判断资讯信息中是否包括预设事件动词集合中的至少一个事件动词。如果未包括预设城市名称,或未包括预设事件动词集合中的至少一个事件动词,则将资讯信息筛除。
换句话说,首先判断资讯信息中是否包括预设城市名称,进而判断资讯信息中是否包括预设事件动词集合中的至少一个事件动词,只有当资讯信息中既包括预设城市名称,又包括预设事件动词集合中的至少一个事件动词时,该资讯信息才会被整个保留,除此之外的资讯信息都将被整个筛除。
S103,从筛选之后的资讯信息中提取兴趣点事件句。
可以理解,筛选之后的资讯信息中包含事件信息,而资讯信息是由句子组成的。为了减少下一步处理的工作量,需要对资讯信息中句子进行筛选,提取包含兴趣点和事件信息的兴趣点事件句。
S104,从兴趣点事件句中提取兴趣点及兴趣点对应的事件。
需要说明的是,由于本发明实施例所提出兴趣点的事件挖掘方法是为了通过挖掘出的事件更新兴趣点的相关信息,因此既需要提取兴趣点,又需要提取兴趣点对应的事件。
需要特别强调的是,多个资讯信息对同一兴趣点的同一事件都会有记载,为了减少后续工作量,可以对多个资讯信息中提取的兴趣点及兴趣点对应的事件进行整理归纳。
综上所述,本发明实施例的一种兴趣点的事件挖掘方法,获取多个资讯信息,根据预设事件动词集合对多个资讯信息进行筛选,其中,预设事件动词集合中包括多个事件动词。从筛选之后的资讯信息中提取兴趣点事件句,从兴趣点事件句中提取兴趣点及兴趣点对应的事件。由此,实现了从资讯信息中抓取与兴趣点及兴趣点对应的事件,提高了事件挖掘的效率和准确率。
为了更加清楚地说明本发明实施例所提供的兴趣点的事件挖掘方法是如何从资讯信息中提取兴趣点事件句的,本发明实施例还提出了另一种兴趣点的事件挖掘方法。图3为本发明实施例所提供的另一种兴趣点的事件挖掘方法的流程示意图。基于图2所示的方法流程,如图3所示,S103,从筛选之后的资讯信息中提取兴趣点事件句,包括:
S201,将筛选之后的资讯信息切分成多个句子。
需要理解的是,S102中对多个资讯信息进行的筛选,是将不符合条件的资讯信息整个筛除,而将符合条件的资讯信息整个保留。因此,筛选之后的资讯信息还是完整的资讯信息,内部的句子没有经过处理。
将资讯信息切分为多个句子进行进一步处理,可以减小数据信息的粒度,提高数据处理的效率和准确率。
具体地,对筛选之后的资讯信息按照标点符号进行切分,得到多个句子。进一步地,对多个句子进行整理归纳,形成对应的句子列表。
S202,对多个句子分别进行识别以判断句子是否为兴趣点事件变迁句。
S203,如果判断为兴趣点事件变迁句,则将句子作为兴趣点事件句。
可以理解,兴趣点事件变迁句既需要包含兴趣点,又需要包含兴趣点对应的事件信息。而且,在形式上一般属于特定类别的依存句式,比如:XX店开业(主谓形式的描述句),XX店被查封(被动形式的描述句)。
一种可能的实现方式是,如果同时满足以下条件,则判断句子为兴趣点事件变迁句:句子包括组织机构类别的专名数据,句子包括兴趣点事件预设动词,且句子包括依存句式。
进一步地,为了防止上述判断规则运行过程中出现误判,可以对未被判断为兴趣点事件变迁句的句子进行第二轮判断,以提高兴趣点事件变迁句判断的准确率。
满足兴趣点事件变迁句判断要求的句子,既包含包含兴趣点,又包含兴趣点对应的事件信息,可以作为兴趣点事件句,用来提取兴趣点及兴趣点对应的事件。
从而,实现了从筛选之后的资讯信息中提取兴趣点事件句。
为了更加清楚地说明本发明实施例所提供的兴趣点的事件挖掘方法是如何从兴趣点事件句中提取兴趣点及兴趣点对应的事件的,本发明实施例还提出了又一种兴趣点的事件挖掘方法。图4为本发明实施例所提供的又一种兴趣点的事件挖掘方法的流程示意图。基于图2所示的方法流程,如图4所示,S104,从兴趣点事件句中提取兴趣点及兴趣点对应的事件,包括:
S301,通过兴趣点专名抽取模型从兴趣点事件句中提取兴趣点。
其中,兴趣点专名抽取模型可以从兴趣点事件句中识别出正确的兴趣点,并进行提取。
需要强调的是,兴趣点专名抽取模型需要满足抽取特殊专名的需求,举例来说,兴趣点事件句是“广发银行珠海口岸支行迎来了乔迁开业庆典”,正确的兴趣点应该是“广发银行珠海口岸支行”,由于“广发银行”也符合兴趣点的形式特征,而且由于“广发银行”包含在“广发银行珠海口岸支行”中,从统计上判断,“广发银行”在兴趣点事件句出现的频率要高于“广发银行珠海口岸支行”,极易被兴趣点专名抽取模型误认为是该句的兴趣点,从而导致提取出的兴趣点不准确。
为了提高兴趣点专名抽取模型提取兴趣点的准确率,特别是提高特殊专名抽取的准确率,一种可能的实现方式是,兴趣点专名抽取模型通过以下步骤训练获得:
S11,获取检索词历史数据,其中,检索词历史数据包括多个检索词。
需要说明的是,需要对检索词历史数据进行预处理,以提高检索词的质量,比如将检索词的编码格式由gbk转换为utf-u,以统一编码格式。筛选出用户搜索次数多的检索词,优化热门需求。将一些单字、无意义的停用词去除,以优化检索词的内容。经过S11可以获得如图5所示的检索词历史数据。
S12,获取检索词历史数据中每个检索词对应的关联兴趣点。
具体地,预先收录兴趣点数据,建立兴趣点数据库,兴趣点数据库中不仅包含了兴趣点专名,还包含了兴趣点的相关信息。
将S11中获得的检索词在兴趣点数据库中兴趣点的相关信息中进行全文检索,匹配检索词对应的关联兴趣点,如图6所示,可以在检索词中去除掉不是兴趣点专名的数据,得到高质量的兴趣点专名。
S13,获取兴趣点-新闻句子对历史集合,其中,兴趣点-新闻句子对历史集合中包括多个兴趣点-新闻句子对。
具体地,根据S12中获得的兴趣点专名,检索新闻事件库,从新闻事件库中获取兴趣点专名对应的新闻句子,建立如图7所示的兴趣点-新闻句子对历史集合。
S14,使用长短期记忆网络对兴趣点-新闻句子对中的新闻句子进行序列标注,以获取新闻句子的序列标注结果。
应当理解,序列标注是对句子中的元素进行标注,如图8所示,B-POI标注名词短语的开头,I-POI标注名词短语的中间,E-POI标注名词短语的结尾,O标注不是名词短语的元素。
长短期记忆网络可以对新闻句子中的元素进行初步识别,得到该元素属于上述标注类型的概率,选取概率最大的标注类型作为该元素的标注类型,得到新闻句子的序列标注结果。
S15,使用条件随机场对新闻句子的序列标注结果进行修正。
应当理解的是,由于长短期记忆网络对元素的标注类型的识别可能不准确,使用条件随机场对序列标注结果进行修正,比如:I-POI一定出现在B-POI和E-POI之间,若出现I-POI出现在B-POI之前或者E-POI之后,则需要将该I-POI修正为O。
S16,对兴趣点-新闻句子对中的兴趣点进行序列标注,并根据兴趣点和新闻句子的序列标注结果,训练长短期记忆网络和条件随机场。
可以理解,兴趣点-新闻句子对中的兴趣点是S12中获得的高质量兴趣点专名,对其进行序列标注几乎不会出错,可以作为兴趣点专名抽取模型的正确样本。而S15中获得的新闻句子的序列标注结果则是长短期记忆网络和条件随机场对新闻句子进行兴趣点专名抽取后的结果,将其与正确样本进行比对,进而训练长短期记忆网络和条件随机场中的参数,实现对兴趣点专名抽取模型的优化。
进一步地,为了让检验兴趣点专名抽取模型的训练效果,可以将兴趣点-新闻句子对历史集合按照7:2:1的比例分为训练集合、验证集合、测试集合。训练集合用来对兴趣点专名抽取模型进行训练。验证集合用来验证兴趣点专名抽取模型的训练效果,不符合验证要求时进行再次训练。在满足验证要求后,使用测试集合对兴趣点专名抽取模型进行最终的测试,以保证兴趣点专名抽取模型的准确率。
S302,从兴趣点事件句中提取兴趣点对应的事件,以及事件对应的相关时间。
S303,根据事件对应的相关时间生成事件的生效时间。
S304,根据生效时间修改地图中兴趣点的事件。
应当理解的是,有些兴趣点对应的事件存在时间上的约束,比如:事件信息是“2017年5月1日,XX商场开业三周年”,那么可以推断出XX商场是于2014年5月1日开业的。进一步地,可以推测2018年5月1日,XX商场开业四周年。再比如:事件信息是“三天后,XX体育馆休息”,那么需要获取该事件信息的发布时间,在发布时间的基础上计算三天后对应的日期,才能确定XX体育馆休息的准确日期。
需要特别强调的是,地图中兴趣点的事件需要及时修改,但是不能提早修改,需要与事件的生效时间同步。
从而,实现了从兴趣点事件句中提取事件的生效时间,并根据生效时间修改地图中兴趣点的事件。
为了更加清楚地说明本发明实施例所提供的兴趣点的事件挖掘方法,下面进行举例说明。
如图9所示,整个兴趣点的事件挖掘方法可以分为四个部分。
一、兴趣点事件资讯信息的召回,通过事件动词和城市从多个资讯信息中筛选出包含兴趣点事件的资讯信息。其中,事件动词可以通过邻近词扩展获得。
二、从资讯信息中提取兴趣点事件句,主要通过标点符号对资讯信息进行分割,对获得的多个句子进行识别,判断是否属于兴趣点事件句,为了减少错误判断,进行二次判断。
三、在兴趣点事件句中提取兴趣点专名,通过历史检索数据获取高质量的兴趣点专名,通过兴趣点专名获取对应的新闻句子,通过新闻句子和兴趣点专名对兴趣点专名抽取模型进行训练,得到高准确率的兴趣点专名抽取模型。使用该兴趣点专名抽取模型对兴趣点事件句进行兴趣点专名抽取。
四、兴趣点事件挖掘后的处理,将不同资讯信息中提取的的兴趣点事件进行整理归纳,根据兴趣点事件对应的时间确定兴趣点事件的生效时间,根据生效时间修改地图中兴趣点的事件。
为了实现上述实施例,本发明实施例还提出一种兴趣点的事件挖掘装置,图10为本发明实施例所提供的一种兴趣点的事件挖掘装置的结构示意图,如图10所示,该装置包括:获取模块410,筛选模块420,第一提取模块430,第二提取模块440。
获取模块410,用于获取多个资讯信息;
筛选模块420,用于根据预设事件动词集合对多个资讯信息进行筛选,其中,预设事件动词集合中包括多个事件动词;
第一提取模块430,用于从筛选之后的资讯信息中提取兴趣点事件句;以及
第二提取模块440,用于从兴趣点事件句中提取兴趣点及兴趣点对应的事件。
进一步地,为了扩展预设事件动词集合中的事件动词,一种可能的实现方式是,预设事件动词集合中的事件动词通过临近词扩展获得。
进一步地,为了对资讯信息进行筛选时考虑资讯信息是否包含城市名称,一种可能的实现方式是,筛选模块420,包括:第一判断单元421,用于判断资讯信息中是否包括预设城市名称。第二判断单元422,用于当第一判断单元421确定包括预设城市名称时,进一步判断资讯信息中是否包括预设事件动词集合中的至少一个事件动词。筛除单元423,用于当第一判断单元421确定未包括预设城市名称,或第二判断单元422确定未包括预设事件动词集合中的至少一个事件动词时,将资讯信息筛除。
需要说明的是,前述对兴趣点的事件挖掘方法实施例的解释说明也适用于该实施例的兴趣点的事件挖掘装置,此处不再赘述。
综上所述,本发明实施例的一种兴趣点的事件挖掘装置,获取多个资讯信息,根据预设事件动词集合对多个资讯信息进行筛选,其中,预设事件动词集合中包括多个事件动词。从筛选之后的资讯信息中提取兴趣点事件句,从兴趣点事件句中提取兴趣点及兴趣点对应的事件。由此,实现了从资讯信息中抓取与兴趣点及兴趣点对应的事件,提高了事件挖掘的效率和准确率。
为了实现上述实施例,本发明实施例还提出另一种兴趣点的事件挖掘装置,图11为本发明实施例所提供的另一种兴趣点的事件挖掘装置的结构示意图,基于图10所示的装置结构,如图11所示,第一提取模块430,包括:切分单元431,第三判断单元432,设置单元433。
切分单元431,用于将筛选之后的资讯信息切分成多个句子。
第三判断单元432,用于对多个句子分别进行识别以判断句子是否为兴趣点事件变迁句。
设置单元433,用于当第三判断单元432确定为兴趣点事件变迁句,则将句子作为兴趣点事件句。
进一步地,为了规范对兴趣点事件变迁句进行判断的标准,一种可能的实现方式是,如果同时满足以下条件,则第三判断单元432确定句子为兴趣点事件变迁句:句子包括组织机构类别的专名数据;句子包括兴趣点事件预设动词;且句子包括依存句式。
需要说明的是,前述对兴趣点的事件挖掘方法实施例的解释说明也适用于该实施例的兴趣点的事件挖掘装置,此处不再赘述。
从而,实现了从筛选之后的资讯信息中提取兴趣点事件句。
为了实现上述实施例,本发明实施例还提出又一种兴趣点的事件挖掘装置,图12为本发明实施例所提供的又一种兴趣点的事件挖掘装置的结构示意图,基于图10所示的装置结构,如图12所示,第二提取模块440,包括:第一提取单元441,第二提取单元442,生成单元443,修改单元444。
第一提取单元441,用于通过兴趣点专名抽取模型从兴趣点事件句中提取兴趣点。
第二提取单元442,用于从兴趣点事件句中提取兴趣点对应的事件,以及事件对应的相关时间。
生成单元443,用于根据事件对应的相关时间生成事件的生效时间。
修改单元444,用于根据生效时间修改地图中兴趣点的事件。
进一步地,为了提高兴趣点专名抽取模型提取兴趣点的准确率,特别是提高特殊专名抽取的准确率,一种可能的实现方式是,兴趣点专名抽取模型通过以下步骤训练获得:获取检索词历史数据,其中,检索词历史数据包括多个检索词。获取检索词历史数据中每个检索词对应的关联兴趣点。获取兴趣点-新闻句子对历史集合,其中,兴趣点-新闻句子对历史集合中包括多个兴趣点-新闻句子对。使用长短期记忆网络对兴趣点-新闻句子对中的新闻句子进行序列标注,以获取新闻句子的序列标注结果。使用条件随机场对新闻句子的序列标注结果进行修正。对兴趣点-新闻句子对中的兴趣点进行序列标注,并根据兴趣点和新闻句子的序列标注结果,训练长短期记忆网络和条件随机场。
需要说明的是,前述对兴趣点的事件挖掘方法实施例的解释说明也适用于该实施例的兴趣点的事件挖掘装置,此处不再赘述。
从而,实现了从兴趣点事件句中提取事件的生效时间,并根据生效时间修改地图中兴趣点的事件。
为了实现上述实施例,本发明实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的兴趣点的事件挖掘方法。
为了实现上述实施例,实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的兴趣点的事件挖掘方法。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (16)
1.一种兴趣点的事件挖掘方法,其特征在于,包括:
获取多个资讯信息;
根据预设事件动词集合对所述多个资讯信息进行筛选,其中,所述预设事件动词集合中包括多个事件动词;
从筛选之后的资讯信息中提取兴趣点事件句;以及
从所述兴趣点事件句中提取兴趣点及所述兴趣点对应的事件。
2.如权利要求1所述的兴趣点的事件挖掘方法,其特征在于,所述根据预设事件动词集合对所述多个资讯信息进行筛选,包括:
判断所述资讯信息中是否包括预设城市名称;
如果包括所述预设城市名称,则进一步判断所述资讯信息中是否包括所述预设事件动词集合中的至少一个事件动词;
如果未包括所述预设城市名称,或未包括所述预设事件动词集合中的至少一个事件动词,则将所述资讯信息筛除。
3.如权利要求1或2所述的兴趣点的事件挖掘方法,其特征在于,所述预设事件动词集合中的事件动词通过临近词扩展获得。
4.如权利要求1所述的兴趣点的事件挖掘方法,其特征在于,所述从筛选之后的资讯信息中提取兴趣点事件句,包括:
将所述筛选之后的资讯信息切分成多个句子;
对所述多个句子分别进行识别以判断所述句子是否为兴趣点事件变迁句;以及
如果判断为所述兴趣点事件变迁句,则将所述句子作为所述兴趣点事件句。
5.如权利要求4所述的兴趣点的事件挖掘方法,其特征在于,如果同时满足以下条件,则判断所述句子为所述兴趣点事件变迁句:
所述句子包括组织机构类别的专名数据;
所述句子包括兴趣点事件预设动词;且
所述句子包括依存句式。
6.如权利要求1所述的兴趣点的事件挖掘方法,其特征在于,所述从所述兴趣点事件句中提取兴趣点及所述兴趣点对应的事件,包括:
通过兴趣点专名抽取模型从所述兴趣点事件句中提取所述兴趣点;
从所述兴趣点事件句中提取所述兴趣点对应的事件,以及所述事件对应的相关时间;
根据所述事件对应的相关时间生成所述事件的生效时间;
根据所述生效时间修改地图中所述兴趣点的事件。
7.如权利要求6所述的兴趣点的事件挖掘方法,其特征在于,所述兴趣点专名抽取模型通过以下步骤训练获得:
获取检索词历史数据,其中,所述检索词历史数据包括多个检索词;
获取所述检索词历史数据中每个检索词对应的关联兴趣点;
获取兴趣点-新闻句子对历史集合,其中,所述兴趣点-新闻句子对历史集合中包括多个兴趣点-新闻句子对;
使用长短期记忆网络对所述兴趣点-新闻句子对中的新闻句子进行序列标注,以获取所述新闻句子的序列标注结果;
使用条件随机场对所述新闻句子的序列标注结果进行修正;
对所述兴趣点-新闻句子对中的兴趣点进行序列标注,并根据所述兴趣点和所述新闻句子的序列标注结果,训练所述长短期记忆网络和所述条件随机场。
8.一种兴趣点的事件挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取多个资讯信息;
筛选模块,用于根据预设事件动词集合对所述多个资讯信息进行筛选,其中,所述预设事件动词集合中包括多个事件动词;
第一提取模块,用于从筛选之后的资讯信息中提取兴趣点事件句;以及
第二提取模块,用于从所述兴趣点事件句中提取兴趣点及所述兴趣点对应的事件。
9.如权利要求8所述的兴趣点的事件挖掘装置,其特征在于,所述筛选模块,包括:
第一判断单元,用于判断所述资讯信息中是否包括预设城市名称;
第二判断单元,用于当所述第一判断单元确定包括所述预设城市名称时,进一步判断所述资讯信息中是否包括所述预设事件动词集合中的至少一个事件动词;
筛除单元,用于当所述第一判断单元确定未包括所述预设城市名称,或所述第二判断单元确定未包括所述预设事件动词集合中的至少一个事件动词时,将所述资讯信息筛除。
10.如权利要求8或9所述的兴趣点的事件挖掘装置,其特征在于,所述预设事件动词集合中的事件动词通过临近词扩展获得。
11.如权利要求8所述的兴趣点的事件挖掘装置,其特征在于,所述第一提取模块,包括:
切分单元,用于将所述筛选之后的资讯信息切分成多个句子;
第三判断单元,用于对所述多个句子分别进行识别以判断所述句子是否为兴趣点事件变迁句;以及
设置单元,用于当所述第三判断单元确定为所述兴趣点事件变迁句,则将所述句子作为所述兴趣点事件句。
12.如权利要求11所述的兴趣点的事件挖掘装置,其特征在于,如果同时满足以下条件,则所述第三判断单元确定所述句子为所述兴趣点事件变迁句:
所述句子包括组织机构类别的专名数据;
所述句子包括兴趣点事件预设动词;且
所述句子包括依存句式。
13.如权利要求8所述的兴趣点的事件挖掘装置,其特征在于,所述第二提取模块,包括:
第一提取单元,用于通过兴趣点专名抽取模型从所述兴趣点事件句中提取所述兴趣点;
第二提取单元,用于从所述兴趣点事件句中提取所述兴趣点对应的事件,以及所述事件对应的相关时间;
生成单元,用于根据所述事件对应的相关时间生成所述事件的生效时间;
修改单元,用于根据所述生效时间修改地图中所述兴趣点的事件。
14.如权利要求13所述的兴趣点的事件挖掘装置,其特征在于,所述兴趣点专名抽取模型通过以下步骤训练获得:
获取检索词历史数据,其中,所述检索词历史数据包括多个检索词;
获取所述检索词历史数据中每个检索词对应的关联兴趣点;
获取兴趣点-新闻句子对历史集合,其中,所述兴趣点-新闻句子对历史集合中包括多个兴趣点-新闻句子对;
使用长短期记忆网络对所述兴趣点-新闻句子对中的新闻句子进行序列标注,以获取所述新闻句子的序列标注结果;
使用条件随机场对所述新闻句子的序列标注结果进行修正;
对所述兴趣点-新闻句子对中的兴趣点进行序列标注,并根据所述兴趣点和所述新闻句子的序列标注结果,训练所述长短期记忆网络和所述条件随机场。
15.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令处理器执行时实现如权利要求1-7中任一所述的兴趣点的事件挖掘方法。
16.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的兴趣点的事件挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811522521.8A CN109710710A (zh) | 2018-12-13 | 2018-12-13 | 兴趣点的事件挖掘方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811522521.8A CN109710710A (zh) | 2018-12-13 | 2018-12-13 | 兴趣点的事件挖掘方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710710A true CN109710710A (zh) | 2019-05-03 |
Family
ID=66256265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811522521.8A Pending CN109710710A (zh) | 2018-12-13 | 2018-12-13 | 兴趣点的事件挖掘方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710710A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232160A (zh) * | 2019-06-20 | 2019-09-13 | 北京百度网讯科技有限公司 | 兴趣点变迁事件检测方法、装置及存储介质 |
CN110287491A (zh) * | 2019-06-25 | 2019-09-27 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN112052410A (zh) * | 2020-09-30 | 2020-12-08 | 北京百度网讯科技有限公司 | 地图兴趣点更新方法和装置 |
CN113094600A (zh) * | 2020-01-08 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 电子地图的搜索方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104080054A (zh) * | 2014-07-18 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 一种异常兴趣点的获取方法及装置 |
CN106021620A (zh) * | 2016-07-14 | 2016-10-12 | 北京邮电大学 | 一种利用社交媒体实现停电事件自动检测的方法 |
CN108197177A (zh) * | 2017-12-21 | 2018-06-22 | 北京三快在线科技有限公司 | 业务对象的监测方法、装置、存储介质和计算机设备 |
-
2018
- 2018-12-13 CN CN201811522521.8A patent/CN109710710A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104080054A (zh) * | 2014-07-18 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 一种异常兴趣点的获取方法及装置 |
CN106021620A (zh) * | 2016-07-14 | 2016-10-12 | 北京邮电大学 | 一种利用社交媒体实现停电事件自动检测的方法 |
CN108197177A (zh) * | 2017-12-21 | 2018-06-22 | 北京三快在线科技有限公司 | 业务对象的监测方法、装置、存储介质和计算机设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232160A (zh) * | 2019-06-20 | 2019-09-13 | 北京百度网讯科技有限公司 | 兴趣点变迁事件检测方法、装置及存储介质 |
CN110232160B (zh) * | 2019-06-20 | 2021-12-07 | 北京百度网讯科技有限公司 | 兴趣点变迁事件检测方法、装置及存储介质 |
CN110287491A (zh) * | 2019-06-25 | 2019-09-27 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN110287491B (zh) * | 2019-06-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
CN113094600A (zh) * | 2020-01-08 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 电子地图的搜索方法、装置、设备和介质 |
US11609961B2 (en) | 2020-01-08 | 2023-03-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search method and apparatus for an electronic map, device and medium |
CN112052410A (zh) * | 2020-09-30 | 2020-12-08 | 北京百度网讯科技有限公司 | 地图兴趣点更新方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710710A (zh) | 兴趣点的事件挖掘方法及其装置 | |
US11714839B2 (en) | Apparatus and method for automated and assisted patent claim mapping and expense planning | |
CN103853738B (zh) | 一种网页信息相关地域的识别方法 | |
CN100595762C (zh) | 文本集合可视化*** | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN102890702A (zh) | 一种面向网络论坛的意见领袖挖掘方法 | |
CN106021572B (zh) | 二元特征词典的构建方法和装置 | |
CN106934069A (zh) | 数据检索方法及*** | |
CN104820686A (zh) | 一种网络搜索方法及网络搜索*** | |
CN101192234A (zh) | 一种基于网页抽取的搜索***及搜索方法 | |
CN103064956A (zh) | 用于搜索电子内容的方法、计算***和计算机可读介质 | |
CN105069560A (zh) | 一种基于知识库和规则库的履历信息抽取与特征标识分析***及方法 | |
US20130060560A1 (en) | Server-based spell checking | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN110110156A (zh) | 行业舆情监控方法、装置、计算机设备及存储介质 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
Kumar et al. | Analysis of various machine learning algorithms for enhanced opinion mining using twitter data streams | |
CN103778122B (zh) | 搜索方法和*** | |
CN104133916A (zh) | 搜索结果信息组织方法和装置 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
CN102722562B (zh) | 基于互联网的组织机构信息整合与更新方法 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
US20200012722A1 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
CN100562872C (zh) | 针对结构化网页的自动模板信息定位方法 | |
CN111369294A (zh) | 软件造价估算方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |