CN108563655B - 基于文本的事件识别方法和装置 - Google Patents
基于文本的事件识别方法和装置 Download PDFInfo
- Publication number
- CN108563655B CN108563655B CN201711461418.2A CN201711461418A CN108563655B CN 108563655 B CN108563655 B CN 108563655B CN 201711461418 A CN201711461418 A CN 201711461418A CN 108563655 B CN108563655 B CN 108563655B
- Authority
- CN
- China
- Prior art keywords
- event
- text
- recognized
- probability
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013145 classification model Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000036651 mood Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于文本的事件识别方法和装置,其中,方法包括:获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。该方法能够实现利用预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,提升事件识别的实时性及准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于文本的事件识别方法和装置。
背景技术
随着互联网技术的不断发展,互联网的信息呈现爆发式的增长,可能发生信息过载的问题。例如,当用户想要关注某个人物或者公司时,用户可以通过搜索引擎,输入该人物或公司的名称,而后,可以在搜索引擎的显示页面获取搜索结果。
实际应用时,可以发现,用户通过互联网获取的是大量未经整理的新闻文本。如果能够将互联网中大量的新闻文本以“事件”为粒度进行组织,并呈现给用户,就能够大大减少用户获取新闻文本的时间成本,使用户以最少的时间了解到相关人物的最新进展。
现有技术中,采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于文本的事件识别方法,以实现利用预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,用于解决现有采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。
本发明的第二个目的在于提出一种基于文本的事件识别装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于文本的事件识别方法,包括:
获取待识别文本;
根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;
根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;
将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。
本发明实施例的基于文本的事件识别方法,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,解决现有技术中采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。
为达上述目的,本发明第二方面实施例提出了一种基于文本的事件识别装置,包括:
获取模块,用于获取待识别文本;
查询模块,用于根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;
生成模块,用于根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;
识别模块,用于将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别。
本发明实施例的基于文本的事件识别装置,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,解决现有技术中采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本发明第一方面实施例所述的基于文本的事件识别方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本发明第一方面实施例所述的基于文本的事件识别方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如本发明第一方面实施例所述的基于文本的事件识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于文本的事件识别方法的流程示意图;
图2为本发明实施例所提供的另一种基于文本的事件识别方法的流程示意图;
图3为本发明实施例所提供的一种基于文本的事件识别装置的结构示意图;
图4为本发明实施例所提供的另一种基于文本的事件识别装置的结构示意图;以及
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
针对现有采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此将导致针对待识别文本的事件识别的时效性较低的技术问题,本发明实施例通过预先建立事件概率模型,以及预先训练事件分类模型,当获取待识别文本后,根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率,根据待识别文本中所含各词的事件概率,生成待识别文本的特征,而后将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别,能够提升时间识别的准确性和实时性。
下面参考附图描述本发明实施例的基于文本的事件识别方法和装置。
图1为本发明实施例所提供的一种基于文本的事件识别方法的流程示意图。该基于文本的事件识别方法可以应用于电子设备的搜索引擎中,其中,搜索引擎是指从互联网搜集信息提供给用户进行查询的***,电子设备例如为个人电脑(Personal Computer,PC),云端设备或者移动设备,移动设备例如智能手机,或者平板电脑等。
如图1所示,该基于文本的事件识别方法包括以下步骤:
步骤101,获取待识别文本。
本发明实施例中,可以提供用户手动输入检索词的文本框,以供用户在文本框中输入或者检索词,或者,提供用户语音输入检索词的语音输入按钮,用户可以通过文本框或者语音输入按钮输入检索词。而后,可以根据用户输入的检索词,生成待识别文本。
具体地,可以统计所有用户在预设时间内输入的检索词的搜索次数,而后,过滤出所有检索词中搜索次数较高的检索词,接着从搜索次数较高的检索词中过滤出涉及实体(例如,人物)的检索词,最后,可以对上述涉及实体的检索词进行突发检测,例如,可以采用现有技术中的突发检测算法对检索词进行突发检测,将突发量较大的检索词作为待识别文本。
步骤102,根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率。
本发明实施例中,可以预先建立事件概率模型,其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率。
可以理解的是,绝大部分事件的关键词均为名词或动词,因此,可以将待识别文本进行分词处理,例如,可以使用词性标注工具对待识别文本进行分词,得到待识别文本中所含的各个动词和名词。而后可以根据待识别文本中的每个分词,查询预先建立的事件概率模型,从而得到待识别文本中所含各词的事件概率,操作简单且易于实现。
步骤103,根据待识别文本中所含各词的事件概率,生成待识别文本的特征。
本发明实施例中,为了提升事件识别的准确性,可以确定将待识别文本中所含各词的事件概率的最大值,而后,将最大值作为待识别文本的一个特征,或者,可以计算待识别文本中所含各词的事件概率的均值,而后,将均值作为待识别文本的一个特征,或者,可以将待识别文本中任一分词的事件概率作为待识别文本的一个特征,本发明实施例对此不作限制。
步骤104,将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。
本实施例中,待识别文本的特征还可以包括其他特征,例如为待识别文本的长度和/或待识别文本是否具有疑问语气等。
本发明实施例中,可以预先训练事件分类模型,具体地,可以利用分类模型训练样本的特征训练事件分类模型,该分类模型训练样本可以根据搜索引擎所接收到的检索词生成,作为一种可能的实现方式,可以采用人工方式对分类模型训练样本进行事件标注,以指示分类模型训练样本是否用于描述事件。利用经过标注的分类模型训练样本对事件分类模型进行训练。在训练完成后,可以在确定待识别文本的特征后,可以将其输入至该事件分类模型,从而获取待识别文本的事件概率,有效提升事件识别的准确性。其中,待识别文本的事件概率用于指示待识别文本用于描述事件的概率。
具体地,可以将步骤103中生成的待识别文本的特征,与待识别文本的其他特征一起输入至预先训练的事件分类模型,获取事件分类模型的输出值,这里的输出值即前面所提及的事件概率,进而可以根据事件分类模型的输出值对待识别文本进行事件识别,即识别该待识别文本是否涉及事件,有效提升事件识别的实时性。
本实施例的基于文本的事件识别方法,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,解决现有技术中采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。
为了清楚说明上一实施例,本实施例提供了另一种基于文本的事件识别方法,图2为本发明实施例所提供的另一种基于文本的事件识别方法的流程示意图。
如图2所示,该基于文本的事件识别方法可以包括以下步骤:
步骤201,获取待识别文本。
具体地,步骤201的执行过程可以参见上述实施例中步骤101的相关描述,在此不做赘述。
步骤202,根据新闻文本生成事件概率模型的训练样本。
本实施例中,可以根据新闻文本的标题(title),生成事件概率模型的训练样本。
步骤203,对事件概率模型的每一个训练样本进行分词,根据分词得到的各词生成事件词典。
可以理解的是,绝大部分事件的关键词均为名词或动词,因此,本实施例中,可以将每一个训练样本进行分词处理,例如,可以使用词性标注工具对训练样本进行分词,得到训练样本中所含的各个动词和名词,而后,可以将分词得到的各个动词和名词作为事件词典。
步骤204,针对事件词典中每一个词进行统计,以确定包含该词的事件概率模型训练样本数。
具体实现时,针对事件词典中每一个词,可以遍历所有的事件概率模型训练样本,统计包含该词的事件概率模型训练样本数,例如,可以标记包含词w的事件概率模型训练样本数为Nw。
步骤205,根据每一个词对应的事件概率模型训练样本数,生成每一个词的事件概率。
具体地,针对事件词典中的词w,将事件概率模型的训练样本总数Nt,以及该词对应的事件概率模型的训练样本数Nw,代入如下公式:
f(w)=Nw/Nt;(1)
得到该词的事件概率f(w)。
下面,将对f(w)近似等于该词的事件概率进行说明:当事件概率模型的训练样本包含事件词典中的词w时,该事件概率模型的训练样本用于描述事件的概率近似为该词w用于描述事件概率:
f(w)=P(E|W);(2)
其中,W表示事件概率模型的训练样本包含词w的条件,E表示事件概率模型的训练样本描述一个事件,P(E|W)表示事件概率模型的训练样本包含词w的条件下,该事件概率模型的训练样本描述一个事件的概率,可以称P(E|W)为该词w的事件概率。
由贝叶斯定理可知:
P(E|W)=P(W)*P(EW);(3)
其中,P(W)为事件概率模型的训练样本包含词w的概率,P(EW)为事件概率模型的训练样本既包含E且用于描述事件的概率。
由于新闻文本通常都是在描述一个事件的,因此,本实施例中,可以将所有事件概率模型的训练样本均判定为描述一个事件,则可以得到:
P(E|W)=Nw/Nt;(4)
其中,Nw为包含词w的训练样本数,Nt为训练样本总数。
将公式(4)带入公式(2)可以得到前述公式(1)。
步骤206,根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率。
步骤207,根据待识别文本中所含各词的事件概率,生成待识别文本的特征。
具体地,步骤206~207的执行过程可以参见上述实施例中步骤102和103的相关描述,在此不做赘述。
步骤208,获取对多个待识别文本进行聚类所得到的聚簇;聚簇中各待识别文本涉及同一实体。
本实施例中,可以采用现有技术中的相关聚类算法对对多个待识别文本进行聚类,例如,可以采用基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)对多个待识别文本进行聚类,得到聚簇,其中,聚簇中各待识别文本涉及同一实体。
步骤209,将聚簇中每一个待识别文本的特征,输入事件分类模型,得到待识别文本的事件概率。
其中,待识别文本的事件概率用于指示待识别文本用于描述事件的概率。
本发明实施例中,每一个待识别文本的特征至少包括:根据待识别文本中所含各词的事件概率,生成待识别文本的特征、待识别文本的长度和/或待识别文本是否具有疑问语气等。
可选地,将聚簇中每一个待识别文本的特征,输入至预先训练的事件分类模型,可以得到待识别文本的事件概率。
步骤210,判断聚簇中待识别文本的最高事件概率是否大于阈值概率,若是,执行步211,否则,执行步骤213。
步骤211,确定聚簇涉及事件。
本发明实施例中,可以预先设置一个阈值概率,当待识别文本的事件概率大于阈值概率时,表明该待识别文本涉及事件,而当待识别文本的事件概率小于等于阈值概率时,表明该待识别文本未涉及事件。因此,在聚簇中待识别文本的最高事件概率大于阈值概率时,确定该聚簇涉及事件。
步骤212,将聚簇中事件概率最高的待识别文本,作为聚簇所涉及事件的标题。
本发明实施例中,标题为事件的短文本描述。
可选地,为了提高事件识别的准确性,可以将聚簇中事件概率最高的待识别文本,作为聚簇所涉及事件的标题。
作为一种示例,当检测到用户输入热门检索词之后,可以对用户输入的检索词按照其所涉及的实体进行聚类,得到聚簇,进而,可以识别聚簇中的每一个检索词是否涉及事件。当聚簇中的至少一个检索词涉及了事件,将最高事件概率的检索词作为聚簇的标题,该标题即为当前热门事件的短文本描述。如果存在多个聚簇,则生成多个标题。
步骤213,过滤该聚簇。
可选地,在聚簇中待识别文本的最高事件概率小于等于阈值概率时,表明该聚簇未涉及事件,此时,可以确定该聚簇为其他搜索类型,例如论文等。因此,本实施例中,当在聚簇中待识别文本的最高事件概率小于等于阈值概率时,可以过滤该聚簇。
本实施例的基于文本的事件识别方法,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性。
为了实现上述实施例,本发明还提出一种基于文本的事件识别装置。
图3为本发明实施例所提供的一种基于文本的事件识别装置的结构示意图。
如图3所示,该基于文本的事件识别装置300包括:获取模块310、查询模块320、生成模块330,以及识别模块340。其中,
获取模块310,用于获取待识别文本。
本发明实施例中,获取模块310,具体用于根据用户输入的检索词,生成待识别文本。
查询模块320,用于根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率。
生成模块330,用于根据待识别文本中所含各词的事件概率,生成待识别文本的特征。
本发明实施例中,生成模块330,具体用于确定待识别文本中所含各词的事件概率的最大值;将最大值作为待识别文本的一个特征。
本实施例中,待识别文本的特征还包括:待识别文本的长度和/或待识别文本是否具有疑问语气。
识别模块340,用于将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。
本发明实施例中,识别模块340,具体用于获取对多个待识别文本进行聚类所得到的聚簇;聚簇中各待识别文本涉及同一实体;将聚簇中每一个待识别文本的特征,输入事件分类模型,得到待识别文本的事件概率,其中,待识别文本的事件概率用于指示待识别文本用于描述事件的概率;若聚簇中待识别文本的最高事件概率大于阈值概率,确定聚簇涉及事件。
进一步地,在本发明实施例的一种可能的实现方式中,参见图4,在图3所示实施例的基础上,该基于文本的事件识别装置300还可以包括:
训练样本生成模块350,用于根据新闻文本生成训练样本。
本发明实施例中,训练样本生成模块350,具体用于根据新闻文本的标题,生成训练样本。
事件词典生成模块360,用于对每一个训练样本进行分词,根据分词得到的各词生成事件词典。
统计确定模块370,用于针对事件词典中每一个词进行统计,以确定包含词的训练样本数。
事件概率生成模块380,用于根据每一个词对应的训练样本数,生成每一个词的事件概率。
本发明实施例中,事件概率生成模块380,具体用于将包含词w的训练样本数Nw代入到公式f(w)=Nw/Nt,得到词w的事件概率f(w);其中,Nt为训练样本总数。
处理模块390,用于将聚簇中事件概率最高的待识别文本,作为聚簇所涉及事件的标题。
需要说明的是,前述对基于文本的事件识别方法实施例的解释说明也适用于该实施例的基于文本的事件识别装置300,此处不再赘述。
本实施例的基于文本的事件识别装置,通过获取待识别文本;根据待识别文本,查询预先建立的事件概率模型,得到待识别文本中所含各词的事件概率;其中,事件概率模型,用于指示事件词典中各词的事件概率,词的事件概率用于指示词用于描述事件的概率;根据待识别文本中所含各词的事件概率,生成待识别文本的特征;将待识别文本的特征输入预先训练的事件分类模型,以根据事件分类模型的输出值对待识别文本进行事件识别。本实施例中,通过预先建立事件概率模型,以及预先训练的事件分类模型对待识别文本进行事件识别,能够提升事件识别的实时性及准确性,解决现有技术中采用聚类或波峰检测的方式,通过积累大量短文本之后,才能够识别出待识别文本是否涉及事件,由此,导致针对待识别文本的事件识别的时效性较低的技术问题。
为了实现上述实施例,本发明还提出一种计算机设备。
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的基于文本的事件识别方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如前述实施例所述的基于文本的事件识别方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如前述实施例所述的基于文本的事件识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (13)
1.一种基于文本的事件识别方法,其特征在于,包括以下步骤:
获取检索词,根据所述检索词生成待识别文本;
根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;
根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;
将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别,其中,所述将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别,包括:获取对多个待识别文本进行聚类所得到的聚簇,将所述聚簇中每一个待识别文本的特征输入所述事件分类模型以得到所述待识别文本的事件概率,并判断所述聚簇中待识别文本的最高事件概率是否大于阈值概率:若所述聚簇中待识别文本的最高事件概率大于阈值概率,则确定所述聚簇涉及事件;若所述聚簇中待识别文本的最高事件概率小于等于所述阈值概率,则过滤所述聚簇。
2.根据权利要求1所述的事件识别方法,其特征在于,所述根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率之前,还包括:
根据新闻文本生成训练样本;
对每一个训练样本进行分词,根据分词得到的各词生成所述事件词典;
针对所述事件词典中每一个词进行统计,以确定包含所述词的训练样本数;
根据每一个词对应的训练样本数,生成每一个词的事件概率。
3.根据权利要求2所述的事件识别方法,其特征在于,所述根据每一个词对应的训练样本数,生成每一个词的事件概率,包括:
将包含词w的训练样本数Nw代入到公式f(w)=Nw/Nt,得到词w的事件概率f(w);其中,Nt为训练样本总数。
4.根据权利要求2所述的事件识别方法,其特征在于,所述根据新闻文本生成训练样本,包括:
根据所述新闻文本的标题,生成所述训练样本。
5.根据权利要求1-4任一项所述的事件识别方法,其特征在于,所述根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征,包括:
确定所述待识别文本中所含各词的事件概率的最大值;
将所述最大值作为所述待识别文本的一个特征。
6.根据权利要求5所述的事件识别方法,其特征在于,所述待识别文本的特征还包括:所述待识别文本的长度和/或所述待识别文本是否具有疑问语气。
7.根据权利要求1-4任一项所述的事件识别方法,其特征在于,所述将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别,包括:
所述聚簇中各待识别文本涉及同一实体,所述待识别文本的事件概率用于指示所述待识别文本用于描述事件的概率。
8.根据权利要求7所述的事件识别方法,其特征在于,所述确定所述聚簇涉及事件之后,还包括:
将所述聚簇中事件概率最高的待识别文本,作为所述聚簇所涉及事件的标题。
9.根据权利要求1-4任一项所述的事件识别方法,其特征在于,获取所述 待识别文本,包括:
根据用户输入的检索词,生成待识别文本。
10.一种基于文本的事件识别装置,其特征在于,包括:
获取模块,用于获取检索词,根据所述检索词生成待识别文本;
查询模块,用于根据所述待识别文本,查询预先建立的事件概率模型,得到所述待识别文本中所含各词的事件概率;其中,所述事件概率模型,用于指示事件词典中各词的事件概率,所述词的事件概率用于指示所述词用于描述事件的概率;
生成模块,用于根据所述待识别文本中所含各词的事件概率,生成所述待识别文本的特征;
识别模块,用于将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别,其中,所述将所述待识别文本的特征输入预先训练的事件分类模型,以根据所述事件分类模型的输出值对所述待识别文本进行事件识别,包括:获取对多个待识别文本进行聚类所得到的聚簇,将所述聚簇中每一个待识别文本的特征输入所述事件分类模型以得到所述待识别文本的事件概率,并判断所述聚簇中待识别文本的最高事件概率是否大于阈值概率:若所述聚簇中待识别文本的最高事件概率大于阈值概率,则确定所述聚簇涉及事件;若所述聚簇中待识别文本的最高事件概率小于等于所述阈值概率,则过滤所述聚簇。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-9中任一所述的基于文本的事件识别方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的基于文本的事件识别方法。
13.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-9中任一所述的基于文本的事件识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711461418.2A CN108563655B (zh) | 2017-12-28 | 2017-12-28 | 基于文本的事件识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711461418.2A CN108563655B (zh) | 2017-12-28 | 2017-12-28 | 基于文本的事件识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108563655A CN108563655A (zh) | 2018-09-21 |
CN108563655B true CN108563655B (zh) | 2022-05-17 |
Family
ID=63530508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711461418.2A Active CN108563655B (zh) | 2017-12-28 | 2017-12-28 | 基于文本的事件识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108563655B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670174B (zh) * | 2018-12-14 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种事件识别模型的训练方法和装置 |
CN111786802B (zh) * | 2019-04-03 | 2023-07-04 | 北京嘀嘀无限科技发展有限公司 | 一种事件检测的方法及装置 |
CN110298039B (zh) * | 2019-06-20 | 2023-05-30 | 北京百度网讯科技有限公司 | 事件地的识别方法、***、设备及计算机可读存储介质 |
CN110458296B (zh) * | 2019-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 目标事件的标记方法和装置、存储介质及电子装置 |
CN111177390A (zh) * | 2019-12-30 | 2020-05-19 | 南京三百云信息科技有限公司 | 基于混合模型的事故车辆识别方法和装置 |
CN111459959B (zh) * | 2020-03-31 | 2023-06-30 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN113255355A (zh) * | 2021-06-08 | 2021-08-13 | 北京明略软件***有限公司 | 文本信息中的实体识别方法、装置、电子设备和存储介质 |
CN113609391B (zh) * | 2021-08-06 | 2024-04-19 | 北京金堤征信服务有限公司 | 事件识别方法及装置、电子设备、介质和程序 |
CN113723091A (zh) * | 2021-08-17 | 2021-11-30 | 中国光大银行股份有限公司 | 一种企业名称识别方法及装置 |
CN113722481B (zh) * | 2021-08-23 | 2023-09-22 | 国家计算机网络与信息安全管理中心 | 一种基于类别和实例增强的文本多事件检测方法与装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101243425A (zh) * | 2005-08-10 | 2008-08-13 | 微软公司 | 概率回顾性事件检测 |
CN102157061A (zh) * | 2011-04-01 | 2011-08-17 | 上海市交通信息中心 | 一种基于关键字统计的交通事件识别方法 |
CN104881399A (zh) * | 2015-05-15 | 2015-09-02 | 中国科学院自动化研究所 | 基于概率软逻辑psl的事件识别方法和*** |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132433A1 (en) * | 2011-11-22 | 2013-05-23 | Yahoo! Inc. | Method and system for categorizing web-search queries in semantically coherent topics |
-
2017
- 2017-12-28 CN CN201711461418.2A patent/CN108563655B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101243425A (zh) * | 2005-08-10 | 2008-08-13 | 微软公司 | 概率回顾性事件检测 |
CN102157061A (zh) * | 2011-04-01 | 2011-08-17 | 上海市交通信息中心 | 一种基于关键字统计的交通事件识别方法 |
CN104881399A (zh) * | 2015-05-15 | 2015-09-02 | 中国科学院自动化研究所 | 基于概率软逻辑psl的事件识别方法和*** |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108563655A (zh) | 2018-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108563655B (zh) | 基于文本的事件识别方法和装置 | |
CN109657213B (zh) | 文本相似度检测方法、装置和电子设备 | |
CN108460396B (zh) | 负采样方法和装置 | |
CN111460153B (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN109087670B (zh) | 情绪分析方法、***、服务器及存储介质 | |
CN111814770B (zh) | 一种新闻视频的内容关键词提取方法、终端设备及介质 | |
WO2017045443A1 (zh) | 一种图像检索方法及*** | |
CN108460098B (zh) | 信息推荐方法、装置和计算机设备 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN108090211B (zh) | 热点新闻推送方法和装置 | |
JP2020525856A (ja) | 音声検索・認識方法及び装置 | |
JP2018206361A (ja) | ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス | |
CN109859747B (zh) | 语音交互方法、设备以及存储介质 | |
CN111125658A (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN103942328A (zh) | 一种视频检索方法及视频装置 | |
CN111241813A (zh) | 语料扩展方法、装置、设备及介质 | |
CN110020163B (zh) | 基于人机交互的搜索方法、装置、计算机设备和存储介质 | |
CN108170845B (zh) | 多媒体数据处理方法、装置及存储介质 | |
CN108235126B (zh) | 在视频中***推荐信息的方法和装置 | |
CN109740156B (zh) | 反馈信息处理方法、装置、电子设备及存储介质 | |
CN108446359B (zh) | 信息推荐方法和装置 | |
CN109325135B (zh) | 基于文本的视频生成方法、装置、计算机设备及存储介质 | |
CN110019763B (zh) | 文本过滤方法、***、设备及计算机可读存储介质 | |
CN111738009A (zh) | 实体词标签生成方法、装置、计算机设备和可读存储介质 | |
CN110598199A (zh) | 数据流式处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |