CN106156299A - 文本信息的主题内容识别方法及装置 - Google Patents

文本信息的主题内容识别方法及装置 Download PDF

Info

Publication number
CN106156299A
CN106156299A CN201610500842.2A CN201610500842A CN106156299A CN 106156299 A CN106156299 A CN 106156299A CN 201610500842 A CN201610500842 A CN 201610500842A CN 106156299 A CN106156299 A CN 106156299A
Authority
CN
China
Prior art keywords
event
logic
order serie
chain
basis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610500842.2A
Other languages
English (en)
Other versions
CN106156299B (zh
Inventor
汪平仄
陈志军
李明浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610500842.2A priority Critical patent/CN106156299B/zh
Publication of CN106156299A publication Critical patent/CN106156299A/zh
Application granted granted Critical
Publication of CN106156299B publication Critical patent/CN106156299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种文本信息的主题内容识别方法及装置。方法包括:获取文本信息;提取文本信息中的事件,并构建事件集合;根据事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,事件时序逻辑链由事件集合中逻辑关联的事件、按照时序逻辑串联而成;确定每个事件时序逻辑链的受关注度;从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据第一预定数量的事件识别出文本信息的主题内容。由此,可实现文本主题的智能化识别,并且所识别出的主题内容具有较高的准确性和可靠性,能够代表该文本信息的核心内容,从而能够为相关的文本信息处理提供准确依据。

Description

文本信息的主题内容识别方法及装置
技术领域
本公开涉及自然语言处理领域,尤其涉及一种文本信息的主题内容识别方法及装置。
背景技术
实际生活中,用户时常利用短信应用或其他社交软件来传输文本消息,以进行对话沟通。而在用户的对话场景中,对话往往会围绕一个核心的主题。如何从用户的对话中识别出该主题成为当前自然语言处理领域的一个研究方向。
发明内容
为克服相关技术中存在的问题,本公开提供一种文本信息的主题内容识别方法及装置。
根据本公开实施例的第一方面,提供一种文本信息的主题内容识别方法,包括:
获取文本信息;
提取所述文本信息中的事件,并构建事件集合;
根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
确定每个所述事件时序逻辑链的受关注度;
从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
可选地,所述事件时序逻辑图是通过以下方式构建的:
获取文本语料库;
提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;
针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率,以及所述基础事件的关联事件;
对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;
针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。
可选地,所述确定所述基础事件作为事件时序逻辑链的首事件的发生概率,包括:
P(Vb/start)=Count(Vb,start)/N1
其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。
可选地,所述确定所述基础事件的关联事件,包括:
确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;
按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。
可选地,所述确定所述指向标记的起始事件与目标事件之间的转移概率,包括:
获取所述起始事件所指向的全部事件;
按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。
可选地,所述按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率,包括:
P(Vk/Vi)=Count(Vk,Vi)/N2
其中,Vi表示所述指向标记的起始事件;Vk表示所述指向标记的目标事件;P(Vk/Vi)表示所述起始事件Vi与所述目标事件Vk之间的转移概率;Count(Vk,Vi)表示在所述文本语料库中,所述起始事件Vi与所述目标事件Vk之间的共现频率;N2表示在所述文本语料库中,所述起始事件Vi与所述起始事件Vi所指向的各个事件之间的共现频率的总和。
可选地,所述确定每个所述事件时序逻辑链的受关注度,包括:
针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;
根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。
可选地,所述事件时序逻辑链的受关注度通过以下方式来确定:
D(A1→A2…→An)=-n/logt(P(A1→A2…→An))
其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率之间的乘积;t>1。
可选地,所述从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容,包括:
从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。
根据本公开实施例的第二方面,提供一种文本信息的主题内容识别装置,包括:
文本信息获取模块,被配置为获取文本信息;
事件提取模块,被配置为提取所述文本信息中的事件,并构建事件集合;
事件时序逻辑链获取模块,被配置为根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
受关注度确定模块,被配置为确定每个所述事件时序逻辑链的受关注度;
主题内容识别模块,被配置为从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
可选地,所述事件时序逻辑图是通过事件时序逻辑图构建模块构建的,并且所述事件时序逻辑图构建模块包括:
文本语料库获取子模块,被配置为获取文本语料库;
第一事件获取子模块,被配置为提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;
首事件发生概率确定子模块,被配置为针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率;
第一关联事件确定子模块,被配置为针对每个所述基础事件,确定所述基础事件的关联事件;
时序逻辑关系标记子模块,被配置为对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;
第一转移概率确定子模块,被配置为针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。
可选地,所述首事件发生概率确定子模块被配置为通过以下方式确定所述基础事件作为事件时序逻辑链的首事件的发生概率:
P(Vb/start)=Count(Vb,start)/N1
其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。
可选地,所述第一关联事件确定子模块包括:
共现频率确定子模块,被配置为确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;
第二关联事件确定子模块,被配置为按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。
可选地,所述第一转移概率确定子模块包括:
第二事件获取子模块,被配置为获取所述起始事件所指向的全部事件;
第二转移概率确定子模块,被配置为按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。
可选地,所述第二转移概率确定子模块被配置为通过以下方式确定所述指向标记的起始事件与目标事件之间的转移概率:
P(Vk/Vi)=Count(Vk,Vi)/N2
其中,Vi表示所述指向标记的起始事件;Vk表示所述指向标记的目标事件;P(Vk/Vi)表示所述起始事件Vi与所述目标事件Vk之间的转移概率;Count(Vk,Vi)表示在所述文本语料库中,所述起始事件Vi与所述目标事件Vk之间的共现频率;N2表示在所述文本语料库中,所述起始事件Vi与所述起始事件Vi所指向的各个事件之间的共现频率的总和。
可选地,所述受关注度确定模块包括:
事件时序逻辑链发生概率确定子模块,被配置为针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;
受关注度确定子模块,被配置为根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。
可选地,所述受关注度确定子模块被配置为通过以下方式确定所述事件时序逻辑链的受关注度:
D(A1→A2…→An)=-n/logt(P(A1→A2…→An))
其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率之间的乘积;t>1。
可选地,所述主题内容识别模块,被配置为从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。
根据本公开实施例的第三方面,提供一种文本信息的主题内容识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本信息;
提取所述文本信息中的事件,并构建事件集合;
根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
确定每个所述事件时序逻辑链的受关注度;
从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由用户终端的处理器执行时,使得用户终端能够执行一种文本信息的主题内容识别方法,所述方法包括:
获取文本信息;
提取所述文本信息中的事件,并构建事件集合;
根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
确定每个所述事件时序逻辑链的受关注度;
从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
本公开的实施例提供的技术方案可以包括以下有益效果:通过以上技术方案,可以从文本信息中推理分析出主题内容,从而实现文本主题的智能化识别,并且所识别出的主题内容具有较高的准确性和可靠性,能够代表该文本信息的核心内容,从而能够为相关的文本信息处理(例如,文本信息的推送、文本信息的存储、文本信息的分类等)提供准确依据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1示出了一示例事件时序逻辑图的部分的示意图。
图2是根据一示例性实施例示出的一种构建事件时序逻辑图的方法的流程图。
图3是根据一示例性实施例示出的一种文本信息的主题内容识别方法的流程图。
图4A和图4B是根据一示例性实施例示出的一种文本信息的主题内容识别装置的框图。
图5A至图5B是根据一示例性实施例示出的一种事件时序逻辑图构建模块的框图。
图6是根据一示例性实施例示出的一种文本信息的主题内容识别装置的框图。
图7是根据一示例性实施例示出的一种文本信息的主题内容识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在详细描述本公开的文本信息的主题内容识别方法及装置之前,先介绍一下本公开技术方案中所使用的事件时序逻辑图及其构建方法。
通常情况下,事件主题可以采用动词来表示。所有事件主题之间构成一个复杂的网络,定义为事件时序逻辑图。事件时序逻辑图是一个有向图,例如,图1示出了一示例事件时序逻辑图的部分的示意图。如图1所示,事件时序逻辑图中的每个节点表示一个事件,例如,一个动作,图中的指向标记(即,箭头)可以表示事件之间是否存在时序逻辑关系,并且该指向标记可以从时序逻辑在前的事件指向时序逻辑在后的事件,指向标记的权重表明事件之间的转移概率。例如,事件“碰面”与事件“去”之间存在时序逻辑关系,并且,“去”的时序逻辑在“碰面”之前。另外,事件“碰面”与事件“聚餐”之间存在时序逻辑关系,并且,“碰面”的时序逻辑在“聚餐”之前。
在事件时序逻辑图中,可以将各个事件按照时序逻辑关系串联形成多条事件时序逻辑链,例如,如图1所示,存在如下事件时序逻辑链:{去→碰面→聚餐},{去→碰面→踢球},{去→碰面→阅读},{去→阅读}。由于事件可以对应于一个动作,因此,可以将事件时序逻辑链视为由若干个动词形成的有序动词集合。并且,由于同一事件时序逻辑链遵循一套时序逻辑关系,因此,同一事件时序逻辑链中所包括的事件在逻辑上是关联的。
下面描述在本公开中如何构建事件时序逻辑图的方法。图2是根据一示例性实施例示出的一种构建事件时序逻辑图的方法的流程图。如图2所示,该方法可以包括:
在步骤S201中,获取文本语料库。其中,文本语料库中可以包括大量的文本语料。
在步骤S202中,提取文本语料库中的事件,并将文本语料库中的每个事件作为基础事件,其中,每个基础事件作为事件时序逻辑图的节点。
在该步骤中,可以首先对文本语料库中的每个文本语料进行分词处理,并对各个分词进行词性标注。之后,从这些分词中提取出标注为是动词的分词,这些动词各自表示一个事件,并且该事件作为基础事件。之后,可以建立事件时序逻辑图,其中,该事件时序逻辑图中的各个节点分为表示一个基础事件。
在步骤S203中,针对每个基础事件,确定该基础事件作为事件时序逻辑链的首事件的发生概率,以及该基础事件的关联事件。
首先,可以通过以下方式来确定一基础事件作为事件时序逻辑链的首事件的发生概率:
P(Vb/start)=Count(Vb,start)/N1
其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。
此外,可以通过以下方式来确定关联事件。首先,选取一个基础事件。之后,确定该基础事件与候选事件之间的共现频率,其中,候选事件可以包括文本语料库中除基础事件之外的其他事件。在本公开中,事件与事件之间的共现频率就是指事件与事件之间的共现次数。最后,按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的预定数量的候选事件确定为是该基础事件的关联事件。其中,可以根据实际需求来设定该预定数量,例如,该预定数量可以被设定为1,或者为其他数值。为了确保关联事件与基础事件之间具有逻辑紧密关联的关系,可选地,在确定共现频率时,可以设置一固定的上下文窗口,这样,在确定基础事件与候选事件之间的共现频率时,可以基于该上下文窗口。例如,当基础事件与一个候选事件位于同一上文本窗口中时,可以算作基础事件与该候选事件共同出现一次。
可以按照上述方式,确定出每个基础事件的关联事件。
在步骤S204中,对基础事件与基础事件的各个关联事件标记时序逻辑关系,并按照该时序逻辑关系,在基础事件所对应的节点与基础事件的各个关联事件所对应的节点之间添加指向标记,其中,该指向标记的起始事件为时序逻辑在前的事件,该指向标记的目标事件为时序逻辑在后的事件。
例如,如图1所示,假设针对“碰面”这一基础事件,通过步骤S203,确定出其关联事件包括:“聚餐”、“踢球”、“阅读”。之后,在步骤S204中,可以分别对“碰面”与“聚餐”标记时序逻辑关系,对“碰面”与“踢球”标记时序逻辑关系,以及对“碰面”与“阅读”标记时序逻辑关系。在本公开的一个可选的实施方式中,可以采用人工方式来标记时序逻辑关系。例如,经由人工标记出的时序逻辑关系如下:“碰面”分别是“聚餐”、“踢球”、“阅读”的前提。之后,在“碰面”与“聚餐”之间添加指向标记,并且该指向标记从“碰面”指向“聚餐”;在“碰面”与“踢球”之间添加指向标记,并且该指向标记从“碰面”指向“踢球”;以及在“碰面”与“阅读”之间添加指向标记,并且该指向标记从“碰面”指向“阅读”。在本公开的一个示例实施方式中,指示标记可以例如为箭头。此外,在本公开中,可以将同一指标标记对应的时序逻辑在前的事件称作起始事件,将时序逻辑在后的事件称作目标事件。
在步骤S205中,针对每个指向标记,确定该指向标记的起始事件与目标事件之间的转移概率,并将该转移概率作为该指向标记的权重。
在本公开中,可以通过以下方式来计算某个指向标记的起始事件与目标事件之间的转移概率。首先,可以从事件时序逻辑图中,获取该起始事件所指向的全部事件。例如,假设目前要计算“碰面”与“聚餐”之间的转移概率,那么可以将“碰面”作为起始事件,“聚餐”作为目标事件。之后,可以从事件时序逻辑图中,获取“碰面”这一起始事件所指向的全部事件,即,“聚餐”、“踢球”、“阅读”。
在获取到起始事件所指向的全部事件之后,可以按照在文本语料库中,起始事件与起始事件所指向的各个事件之间的共现频率,确定起始事件与目标事件之间的转移概率。例如,可以按照在文本语料库中,“碰面”与“聚餐”之间的共现频率、“碰面”与“踢球”之间的共现频率、以及“碰面”与“阅读”之间的共现频率来确定“碰面”与“聚餐”之间的转移概率,该转移概率即作为“碰面”到“聚餐”的指向标记的权重。
示例地,可以按照如下等式来确定起始事件与目标事件之间的转移概率:
P(Vk/Vi)=Count(Vk,Vi)/N2
其中,Vi表示指向标记的起始事件;Vk表示指向标记的目标事件,其中,该目标事件为起始事件Vi所指向的全部事件中的一者;P(Vk/Vi)表示起始事件Vi与目标事件Vk之间的转移概率;Count(Vk,Vi)表示在文本语料库中,起始事件Vi与目标事件Vk之间的共现频率;N2表示在文本语料库中,起始事件Vi与起始事件Vi所指向的各个事件之间的共现频率的总和。
例如,如图1所示,按照上述方式,确定出“碰面”与“聚餐”之间的转移概率为0.02。
可以按照上述方式,计算出事件时序逻辑图中的每个指向标记的权重。
由此,就完成了事件时序逻辑图的构建。
图3是根据一示例性实施例示出的一种文本信息的主题内容识别方法的流程图,该方法可以应用于移动终端,或者服务器。如图3所示,该方法可以包括以下步骤。
在步骤S301中,获取文本信息。
在本公开中,该文本信息可以包括以下中的至少一者:用户终端接收和/或发送的短信信息,用户终端在社交平台中接收和/或发送的文本消息,用户终端从网络下载的文章,用户在用户终端本地所编辑的文章,等等。
在步骤S302中,提取该文本信息中的事件,并构建事件集合。例如,可以首先对文本信息进行分词处理,并对各个分词进行词性标注。之后,从这些分词中提取出标注为是动词的分词,这些动词各自表示一个事件,并且这些事件构成事件集合。
例如,假设所获取到的文本信息如下:
A:周末聚餐不?
B:好啊 去哪?
A:中关村的眉州东坡,怎么样?
B:不错 晚上6点半左右在那碰面?
A:好的,我记录一下。
通过步骤S302,可以提取出其中包括的事件有:“聚餐”、“去”、“碰面”、“记录”,由此,可以构建出事件集合为{聚餐、去、碰面、记录}。
在步骤S303中,根据事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,该事件时序逻辑链由事件集合中逻辑关联的事件、按照时序逻辑串联而成。
其中,可以按照图2所示出的方法预先建立好事件时序逻辑图,或者,事件时序逻辑图的构建可以作为本公开提供的文本信息的主题内容识别方法中的一个步骤,对此,本公开不做限制。
例如,假设事件集合为{聚餐、去、碰面、记录},通过查询例如图1所示的事件时序逻辑图,可以得到以下两个事件时序逻辑链:
第一事件时序逻辑链:去→碰面→聚餐
第二事件时序逻辑链:记录。
在步骤S304中,确定每个事件时序逻辑链的受关注度。其中,事件时序逻辑链的受关注度与该事件时序逻辑链中的事件总数和该事件时序逻辑链的发生概率有关,而事件时序逻辑链的发生概率与该事件时序逻辑链中的首事件的发生概率、以及事件之间的转移概率有关,因此,可以根据事件时序逻辑链中的首事件的发生概率、以及时序逻辑相邻的两个事件之间的转移概率、和该事件时序逻辑链中的事件总数来确定事件时序逻辑链的受关注度。
示例地,可以通过以下等式来确定事件时序逻辑链的受关注度:
D(A1→A2…→An)=-n/logt(P(A1→A2…→An))
P(A1→A2…→An)=P(A1)×P(A2/A1)×P(A3/A2)…×P(An/An-1)
其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率P(A1/start)、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率(例如,P(A2/A1),P(A3/A2),…,P(An/An-1))之间的乘积;t>1。
在步骤S305中,从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取预定数量的事件,并根据所获取到的预定数量的事件识别出文本信息的主题内容。其中,该预定数量可以为1,或者可以为其他数值。为了便于区分,可以将此处的预定数量称为“第一预定数量”,将前面在描述如何确定关联事件的部分中提到的预定数量称为“第二预定数量”。
例如,在一个实施方式中,可以将第一预定数量的事件按照时序逻辑进行拼接,作为文本信息的主题内容。
由于事件时序逻辑链中的各个事件是按照时序逻辑进行排序的,因此,该事件时序逻辑链中时序逻辑排名最后的事件所表示的是该事件时序逻辑链的最终事件,而往往该最终事件通常可以表示该事件时序逻辑链的核心事件,因此,在一些可选的实施方式中,可以从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将该时序逻辑排名最后的事件识别为是文本信息的主题内容。由此,在后续反馈主题内容时,不仅能够反馈可以表示文本信息的核心的主题内容,还可以减小该主题内容的数据传输量,并且可以提高主题内容识别速率。
例如,仍以上述两个事件时序逻辑链为例,假设通过步骤S305,确定两个事件时序逻辑链中受关注度最高的事件时序逻辑链为第一事件时序逻辑链,那么,可以确定出该文本信息的主题内容是“聚餐”。
综上所述,通过上述技术方案,可以从文本信息中推理分析出主题内容,从而实现文本主题的智能化识别,并且所识别出的主题内容具有较高的准确性和可靠性,能够代表该文本信息的核心内容。
在利用本公开提供的主题内容识别方法所识别出的文本信息的主题内容后,可以基于该主题内容对该文本信息进行多种相关的处理。
例如,在一种应用场景中,用户终端在接收到来自其他用户终端发送的文本消息后,在向用户推送该文本消息之前,首先按照上述方法识别出该文本信息的主题内容。这样,在向用户推送时,可以向用户推送所识别出的文本信息的主题内容。由此,一方面,用户通过该主题内容能够快速、直观地了解接收到的文本信息的核心内容,另一方面,相较于推送整个文本信息,推送该文本信息的主题内容可以减小数据传输量,提高数据传输速率。
或者,再例如,在另一种应用场景中,在用户终端存储文本信息时,可以按照上述方法识别出该文本信息的主题内容,然后将该主题内容作为该文本信息的标签一并存储。这样,在后续从存储的文本信息中进行搜索时,用户可以输入搜索关键词,用户终端可以根据用户输入的搜索关键词与之前存储的各个文本信息的主题内容进行相似性匹配,之后,将与搜索关键词相似性最高的主题内容所表示的文本信息提供给用户,而不需要将搜索关键词与存储的各个文本信息进行相似性匹配。由此,可以提高文本信息的搜索速率,提高搜索效率。
或者,又例如,在又一种应用场景中,在按照上述方法识别出文本信息的主题内容后,可以根据该主题内容,对相对应的文本信息进行分类,由此,可以减小数据处理量,提高文本分类速率。
除上面给出的三种应用场景的示例之外,基于主题内容对文本信息进行处理还可以涉及到其他应用场景中,对此,本公开不再一一举例说明。
图4A和图4B是根据一示例性实施例示出的一种文本信息的主题内容识别装置的框图,该装置可以配置于移动终端,或者服务器。如图4A所示,该装置400可以包括:
文本信息获取模块401,被配置为获取文本信息;
事件提取模块402,被配置为提取所述文本信息中的事件,并构建事件集合;
事件时序逻辑链获取模块403,被配置为根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
受关注度确定模块404,被配置为确定每个所述事件时序逻辑链的受关注度;
主题内容识别模块405,被配置为从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
通过上述技术方案,可以从文本信息中推理分析出主题内容,从而实现文本主题的智能化识别,并且所识别出的主题内容具有较高的准确性和可靠性,能够代表该文本信息的核心内容。
在本公开中,事件时序逻辑图是通过事件时序逻辑图构建模块构建的,其中,该事件时序逻辑图构建模块可以配置于上述的主题内容识别装置400中,或者与该主题内容识别装置400相分离。图5A至图5B是根据一示例性实施例示出的一种事件时序逻辑图构建模块的框图。如图5A所示,该事件时序逻辑图构建模块500可以包括:
文本语料库获取子模块501,被配置为获取文本语料库;
第一事件获取子模块502,被配置为提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;
首事件发生概率确定子模块503,被配置为针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率;
第一关联事件确定子模块504,被配置为针对每个所述基础事件,确定所述基础事件的关联事件;
时序逻辑关系标记子模块505,被配置为对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;
第一转移概率确定子模块506,被配置为针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。
可选地,首事件发生概率确定子模块503可以被配置为通过以下方式确定所述基础事件作为事件时序逻辑链的首事件的发生概率:
P(Vb/start)=Count(Vb,start)/N1
可选地,如图5B所示,第一关联事件确定子模块504可以包括:
共现频率确定子模块507,被配置为确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;
第二关联事件确定子模块508,被配置为按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。
可选地,如图5B所示,第一转移概率确定子模块506可以包括:
第二事件获取子模块509,被配置为获取所述起始事件所指向的全部事件;
第二转移概率确定子模块510,被配置为按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。
可选地,第二转移概率确定子模块510可以被配置为通过以下方式确定所述指向标记的起始事件与目标事件之间的转移概率:
P(Vk/Vi)=Count(Vk,Vi)/N2
可选地,如图4B所示,所述受关注度确定模块404可以包括:
事件时序逻辑链发生概率确定子模块406,被配置为针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;
受关注度确定子模块407,被配置为根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。
可选地,所述受关注度确定子模块407可以被配置为通过以下方式确定所述事件时序逻辑链的受关注度:
D(A1→A2…→An)=-n/logt(P(A1→A2…→An))
可选地,所述主题内容识别模块405可以被配置为从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种文本信息的主题内容识别装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述文本信息的主题内容识别方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理***,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述文本信息的主题内容识别方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述文本信息的主题内容识别方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种文本信息的主题内容识别装置700的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述文本信息的主题内容识别方法。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (19)

1.一种文本信息的主题内容识别方法,其特征在于,包括:
获取文本信息;
提取所述文本信息中的事件,并构建事件集合;
根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
确定每个所述事件时序逻辑链的受关注度;
从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
2.根据权利要求1所述的方法,其特征在于,所述事件时序逻辑图是通过以下方式构建的:
获取文本语料库;
提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;
针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率,以及所述基础事件的关联事件;
对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;
针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。
3.根据权利要求2所述的方法,其特征在于,所述确定所述基础事件作为事件时序逻辑链的首事件的发生概率,包括:
P(Vb/start)=Count(Vb,start)/N1
其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。
4.根据权利要求2所述的方法,其特征在于,所述确定所述基础事件的关联事件,包括:
确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;
按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。
5.根据权利要求2所述的方法,其特征在于,所述确定所述指向标记的起始事件与目标事件之间的转移概率,包括:
获取所述起始事件所指向的全部事件;
按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。
6.根据权利要求5所述的方法,其特征在于,所述按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率,包括:
P(Vk/Vi)=Count(Vk,Vi)/N2
其中,Vi表示所述指向标记的起始事件;Vk表示所述指向标记的目标事件;P(Vk/Vi)表示所述起始事件Vi与所述目标事件Vk之间的转移概率;Count(Vk,Vi)表示在所述文本语料库中,所述起始事件Vi与所述目标事件Vk之间的共现频率;N2表示在所述文本语料库中,所述起始事件Vi与所述起始事件Vi所指向的各个事件之间的共现频率的总和。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定每个所述事件时序逻辑链的受关注度,包括:
针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;
根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。
8.根据权利要求7所述的方法,其特征在于,所述事件时序逻辑链的受关注度通过以下方式来确定:
D(A1→A2…→An)=-n/logt(P(A1→A2…→An))
其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率之间的乘积;t>1。
9.根据权利要求1-6中任一项所述的方法,其特征在于,所述从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容,包括:
从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。
10.一种文本信息的主题内容识别装置,其特征在于,包括:
文本信息获取模块,被配置为获取文本信息;
事件提取模块,被配置为提取所述文本信息中的事件,并构建事件集合;
事件时序逻辑链获取模块,被配置为根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
受关注度确定模块,被配置为确定每个所述事件时序逻辑链的受关注度;
主题内容识别模块,被配置为从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
11.根据权利要求10所述的装置,其特征在于,所述事件时序逻辑图是通过事件时序逻辑图构建模块构建的,并且所述事件时序逻辑图构建模块包括:
文本语料库获取子模块,被配置为获取文本语料库;
第一事件获取子模块,被配置为提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;
首事件发生概率确定子模块,被配置为针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率;
第一关联事件确定子模块,被配置为针对每个所述基础事件,确定所述基础事件的关联事件;
时序逻辑关系标记子模块,被配置为对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;
第一转移概率确定子模块,被配置为针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。
12.根据权利要求11所述的装置,其特征在于,所述首事件发生概率确定子模块被配置为通过以下方式确定所述基础事件作为事件时序逻辑链的首事件的发生概率:
P(Vb/start)=Count(Vb,start)/N1
其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。
13.根据权利要求11所述的装置,其特征在于,所述第一关联事件确定子模块包括:
共现频率确定子模块,被配置为确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;
第二关联事件确定子模块,被配置为按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。
14.根据权利要求11所述的装置,其特征在于,所述第一转移概率确定子模块包括:
第二事件获取子模块,被配置为获取所述起始事件所指向的全部事件;
第二转移概率确定子模块,被配置为按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。
15.根据权利要求14所述的装置,其特征在于,所述第二转移概率确定子模块被配置为通过以下方式确定所述指向标记的起始事件与目标事件之间的转移概率:
P(Vk/Vi)=Count(Vk,Vi)/N2
其中,Vi表示所述指向标记的起始事件;Vk表示所述指向标记的目标事件;P(Vk/Vi)表示所述起始事件Vi与所述目标事件Vk之间的转移概率;Count(Vk,Vi)表示在所述文本语料库中,所述起始事件Vi与所述目标事件Vk之间的共现频率;N2表示在所述文本语料库中,所述起始事件Vi与所述起始事件Vi所指向的各个事件之间的共现频率的总和。
16.根据权利要求10-15中任一项所述的装置,其特征在于,所述受关注度确定模块包括:
事件时序逻辑链发生概率确定子模块,被配置为针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;
受关注度确定子模块,被配置为根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。
17.根据权利要求16所述的装置,其特征在于,所述受关注度确定子模块被配置为通过以下方式确定所述事件时序逻辑链的受关注度:
D(A1→A2…→An)=-n/logt(P(A1→A2…→An))
其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率之间的乘积;t>1。
18.根据权利要求10-15中任一项所述的装置,其特征在于,所述主题内容识别模块,被配置为从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。
19.一种文本信息的主题内容识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本信息;
提取所述文本信息中的事件,并构建事件集合;
根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;
确定每个所述事件时序逻辑链的受关注度;
从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。
CN201610500842.2A 2016-06-29 2016-06-29 文本信息的主题内容识别方法及装置 Active CN106156299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610500842.2A CN106156299B (zh) 2016-06-29 2016-06-29 文本信息的主题内容识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610500842.2A CN106156299B (zh) 2016-06-29 2016-06-29 文本信息的主题内容识别方法及装置

Publications (2)

Publication Number Publication Date
CN106156299A true CN106156299A (zh) 2016-11-23
CN106156299B CN106156299B (zh) 2019-09-20

Family

ID=57350298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610500842.2A Active CN106156299B (zh) 2016-06-29 2016-06-29 文本信息的主题内容识别方法及装置

Country Status (1)

Country Link
CN (1) CN106156299B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309273A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 问答方法和装置
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN117676187A (zh) * 2023-04-18 2024-03-08 德联易控科技(北京)有限公司 一种视频数据的处理方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372102A1 (en) * 2013-06-18 2014-12-18 Xerox Corporation Combining temporal processing and textual entailment to detect temporally anchored events
CN104462439A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 事件的识别方法和装置
CN104598539A (zh) * 2014-12-30 2015-05-06 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
CN105389304A (zh) * 2015-10-27 2016-03-09 小米科技有限责任公司 事件提取方法及装置
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372102A1 (en) * 2013-06-18 2014-12-18 Xerox Corporation Combining temporal processing and textual entailment to detect temporally anchored events
CN104462439A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 事件的识别方法和装置
CN104598539A (zh) * 2014-12-30 2015-05-06 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及***
CN105389304A (zh) * 2015-10-27 2016-03-09 小米科技有限责任公司 事件提取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309273A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 问答方法和装置
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110737819B (zh) * 2019-10-16 2022-09-16 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN117676187A (zh) * 2023-04-18 2024-03-08 德联易控科技(北京)有限公司 一种视频数据的处理方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN106156299B (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN105117384A (zh) 分类器训练方法、类型识别方法及装置
CN105094814A (zh) 通知消息展示方法和装置
CN108227950B (zh) 一种输入方法和装置
CN105488112A (zh) 信息推送方法及装置
CN105426152A (zh) 弹幕的显示方法和装置
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN105389296A (zh) 信息分割方法及装置
CN106355429A (zh) 图像素材的推荐方法及装置
CN105094760A (zh) 一种图片标记方法及装置
CN104754267A (zh) 视频片段标注方法、装置及终端
CN105446957A (zh) 相似性确定方法、装置及终端
CN104035995A (zh) 群标签生成方法及装置
CN104239566A (zh) 视频搜索的方法及装置
CN104112119A (zh) 基于人脸识别的通信方法及装置
CN104268129A (zh) 消息回复的方法及装置
CN104951443A (zh) 壁纸下载方法、壁纸上传方法及服务器、终端
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN106227816A (zh) 推送歌单的方法及装置
CN106126632A (zh) 推荐方法及装置
CN106598269A (zh) 输入法切换方法及装置
CN106128440A (zh) 一种歌词显示处理方法、装置、终端设备及***
CN105550235A (zh) 信息获取方法及装置
CN104281703A (zh) 统一资源定位符url间相似度计算的方法及装置
CN105550643A (zh) 医学术语识别方法及装置
CN104615663A (zh) 文件排序方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant