CN104091054A

CN104091054A - 面向短文本的件预警方法和

Info

Publication number: CN104091054A
Application number: CN201410299114.0A
Authority: CN
Inventors: 孙正雅; 王桂香; 梁倩; 郝红卫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-06-26
Filing date: 2014-06-26
Publication date: 2014-10-08
Anticipated expiration: 2034-06-26
Also published as: CN104091054B

Abstract

本发明公开了一种面向短文本的***件预警方法，该方法包括以下步骤：自动构建面向群体性安全事件的领域知识库；结合领域知识库，对短文本进行局部结构化抽取和在线分类，从海量短文本中筛选出涉及潜在安全隐患的***件文本；结合领域知识库，对识别出的短文本进行全局结构化处理和在线聚类，并根据每个“聚类簇”内包含的短文本数目是否超过给定阈值来决定是否进行及时预警。本发明具有以下优点：充分融合领域背景知识和上下文语境、浅层语义表达和深层语义计算，实现群体性安全事件的协同分析和预测，有助于提高***件的信息甄别、跟踪和预警的及时性、准确率和召回率。

Description

面向短文本的***件预警方法和***

技术领域

本发明涉及信息安全领域，更具体而言，涉及一种面向短文本的***件的预警方法和***。

背景技术

我国社会正走向***件多发阶段，如相继发生在西藏拉萨、新疆乌鲁木齐、新疆巴楚、云南昆明等地的***件，不仅造成惨痛的人员伤亡，而且带来巨大的经济损失和恶劣的社会影响。为了避免或最大限度地化解***件的发生，建立合理有效的预警监测机制开始受到关注和重视，这就需要收集反映舆情动向的相关信息和数据，及时识别出潜在的群体性矛盾并排除警情，而获取信息是危机预警的前提和源头。

伴随互联网和通信网的日益普及，网络通信和短消息已经成为人们进行信息发布和交流的重要工具，也成为了解舆情的直接渠道。此状况下，利用网络交流平台自身的特点(即信息长度短、结构复杂以及变形词多等特点)，建立起完善的短文本信息反馈网络，提前发现潜在的危险因素，为群体性安全事件的应急管理提供及时、准确、全面的信息就显得迫在眉睫，有着非常重要的现实意义。这其中的关键技术就是如何从海量数据中自动甄别有用信息并进行实时跟踪和预警。

目前有些研究工作根据数据是否包含所关心的敏感词进行预警，敏感词库的制备往往需要人工参与和定时更新，而且这种方法忽视了上下文语境的影响，事实上特定词汇在不同语境下的语义不尽相同，例如“散步”可以是召集***件的敏感词，但是在很多语境下，“散步”仅代表人们休闲或锻炼的一种形式而已。也有研究工作提出自动从数据中提取上下文特征并训练“词袋模型”进行描述和预测，该模型假设特征词之间相互独立，并不考虑词序和句法特征，于是严重影响预警结果的准确性，例如“民众闹事影响社会稳定”，尽管该句中包含敏感词“民众”和“闹事”，但并非蓄意召集非法集会；而且由于一词多义和多词一义现象的存在，使得单纯将词匹配得到的类别信息作为判定敏感事件或者同一事件的做法可能导致信息不一致、冗余等问题。从实际的测试效果也容易看出，其信息甄别、跟踪和预警的准确性、全面性等方面尚存在进一步提升的空间。

发明内容

鉴于以上提出的问题，本发明提出一种面向短文本的结合知识库的***件预警方法和***，旨在克服现有技术中存在的上述问题。

具体地，根据本发明的一个方面，提供一种面向短文本的***件预警方法，包括以下步骤：

步骤S3：对短文本进行全局结构化处理和在线聚类，并根据每个“聚类簇”内所包含的短文本数目是否超过给定阈值来决定是否进行及时预警。

优选地，在所述步骤S3之前还包括以下步骤：

步骤S1：基于互联网和通信网获取的领域相关语料资源，自动构建面向群体性安全事件的领域知识库，包括领域本体库、事实库、事件库和规则库，并实现其半自动化的知识维护和更新；以及

基于步骤S1构建的领域知识库执行步骤S3。

优选地，所述步骤S1包括以下步骤：

步骤S11：构建领域本体库，库中存放了领域概念的层次化组织形式，而且概念之间具有等价关系以及可能的领域关系约束；

步骤S12：构建领域事实库，库中存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集合；

步骤S13：构建领域事件库，包括领域相关词汇，这些词汇由行为、施事、受事、修饰、结果、时间和地点等类型组成；

步骤S14：构建领域规则库，存放了概念元组之间的等价关系及其成立的概率。

进一步优选地，所述步骤S13包括以下步骤：

步骤S131：根据领域特定关键词，依据“共现关系”自动收集领域相关词汇，并进行手工归类；

步骤S132：构建时间库，库中存放了各类时间词及其数值编码，通过识别时间词并在短文本的发布时间基础上识别出确切的时间；另外，该库还包括时区表，表中存放了世界上各个国家的时区；

步骤S133：构建地点库，库中按照洲、国家、省、市、县的上下位层次关系存放了世界各国的著名地区名称，另外库中还包括地点结尾词表，表中存放了常用的地点结尾词及它们的上下位关系。

优选地，在所述步骤S1和S3之间还包括以下步骤：

步骤S2：结合领域知识库，对短文本进行局部结构化抽取和在线分类，实现从海量短文本中识别出具有潜在安全隐患的***件相关文本；以及

在步骤S2识别出来的短文本的范围内执行步骤S3。

优选地，所述步骤S2进一步包括以下步骤：

步骤S21：对待分析的短文本逐句进行预处理，即将汉语进行分词和词性标注，并对特殊的词语序列进行合并与修正；

步骤S22：基于步骤S21得到的词语序列，将实体基于领域本体库中的层次化概念空间进行概念映射，并同时对多义实体进行概念消歧；

步骤S23：基于步骤S22得到的消歧后的词语序列，根据汉语基本句式将消歧后的词语序列进行信息抽取，将短文本句子转化为结构化元组表达形式；

步骤S24：基于步骤S23得到的元组集合，结合领域知识库获取当前句子的深层语义表示，并用于在线分类，如分类结果与***件无关且未扫描至该短文本的末句，则返回步骤S21，否则分析下一条短文本。

进一步优选地，所述步骤S24还包括以下步骤：

步骤S241：根据步骤S23信息抽取得到的结果，针对***件文本的特点，结合***件领域知识库，对短文本进行知识泛化、特征提取和特征值计算；

步骤S242：根据步骤S241获取的深层语义特征表示，离线阶段利用有标注训练集训练二分类模型，在线阶段根据分类模型进行实时分类，最终输出识别结果。

优选地，所述步骤S3进一步包括以下步骤：

步骤S31：载入识别出的***件短文本集合，利用信息抽取技术对其进行结构化解析，此时不考虑时间和地点信息，得到描述每条短文本话题的结构化元组集合；

步骤S32：结合领域事件库中的时间和地点词，识别并抽取每条短文本的时间和地点信息，并且得到描述每条短文本的时间向量和地点向量；

步骤S33：将结构化元组向知识库投影，滤除***件无关的结构化特征，得到每条短文本的候选结构化特征集；

步骤S34：通过计算结构化特征在不同短文本中的区分度或信息熵选取其中的有效特征子集；

步骤S35：增量式地动态构建已观测短文本的所有结构化特征，通过计算结构化特征之间的相似度，同时获得描述每条短文本话题的特征向量；

步骤S36：基于步骤S35中获得的特征向量，进行话题聚类并获得的类别集合C1；

步骤S37：结合领域事件库，增量式地动态构建已观测短文本的所有时间和地点特征，分别进行时间和地点推理，为每条短文本构造时间特征向量和地点特征向量；

步骤S38：基于步骤S37中获得的特征向量，进行时间-地点聚类并获得类别集合C2；

步骤S39：将话题类别集合C1与时间-地点类别集合C2进行融合，并得到最终***件的类别集合C；

步骤S3A：根据每个“聚类簇”内所包含的短文本数目排序预警度，并将超过给定阈值的***件进行及时预警。

优选地，其中所述步骤S36和步骤S38中所用的聚类算法为Stream聚类算法或其框架下的其他算法；

进一步优选地，所述步骤S32中时间和地点信息的抽取进一步包括以下步骤：

步骤S321：短文本信息的发布时间抽取，即该短文本出现的时间；

步骤S322：基于分词算法的标识和领域事件库中的时间类型词，对每个短文本进行时间词抽取，其中对复杂时间词的识别采用模式匹配的方式；

步骤S323：基于时间库，对每个识别出来的时间词进行数值解码操作，即确定时间词所关联的时间区段、时间粒度、时间上下位等信息；

步骤S324：对于分词算法标记为地点的词语，查询领域事件库中的地点类型词，标识该地点的上下位以及所在层级；当遇到分词算法无法识别的新地点词时，通过匹配地点标志词来识别地点词边界，如果地点上下位关系已知，则可根据地点由大到小的表述顺序来确认当前地点词识别的正确性；

步骤S325：地点词的层级归类，如果从一个短文本中抽取出多个地点，则根据地点间的上下位关系，对它们进行正确的归类，具有上下位关系的多个地点看作一个地点；

其中，所述地点标志词一般位于地点词的结尾处，且在建立领域库时已经标明它们之间的层级关系。

进一步优选地，所述步骤S35包括以下步骤：

步骤S351：初始化结构化特征集合为空；

步骤S352：输入当前短文本的候选结构化特征；

步骤S353：当特征集合为空时，将一个结构化特征放入其中，并将特征向量在相应位置设为1，否则将其结构化特征与特征集合中元素逐一比较，保留最为相似的特征和相似度；

步骤S354：若相似度大于特定阈值，则认为该结构化特征匹配成功，将特征向量在相应位置设为1，否则设为0；若匹配失败，则认为是新的特征，将该结构化特征加入当前特征集合中，增加当前特征向量维数，并将特征向量在该位置设为1，其余位置为0；

步骤S355：如果未到短文本结尾，则重复步骤S352～S354，否则结束；

其中，结构化特征包括5种成分：行为、施事、受事、主语修饰、宾语修饰，每一成分具有相应的权重w1～w5，两个结构化特征的相似度是这5种成分比较结果的加权求和。

进一步优选地，所述步骤S37进一步包括以下步骤：

步骤S371：初始化当前时间和地点特征集合，令其分别为空；

步骤S372：针对每条短文本，根据其时间和地点信息分别构造时间特征和地点特征，特征的个数取决于不同时间和地点的数量；

步骤S373：若时间和地点特征集合为空，则将第一个时间和地点特征加入其中，特征向量在该位置设为1，否则若时间特征集合不为空则执行步骤S374，否则执行步骤S375；

步骤S374：进行时间相似度推理，即在一定的时间窗口下，比较两个时间是否相同、区段内包含、相交或者无交集的过程，当两个时间相差不超过一定阈值或两个时间具有交集则认为匹配成功，将特征值向量在相应位置设为1，否则将该特征加入当前时间特征集合中，特征向量在该位置设为1，其余位置为0；并且，若地点特征集合不为空则执行步骤S375，否则结束；

步骤S375：进行地点相似度推理，查询领域本体库以及地点库，确定两个地点是否相同、等价、具有父子包含关系，或是否在结尾处添加或丢弃地点标志词后具有上述关系则认为匹配成功，将特征值向量在相应位置设为1，否则将该特征加入当前地点特征向量中，特征向量在该位置设为1，其余位置为0。

进一步优选地，所述步骤S39进一步包括以下步骤：

步骤S391：使用C2对C1中每个类别进行拆分，使得拆分后每个簇中的短文本在C2中也属于同一个簇；

步骤S392：基于C2的结果，对上一步中得到的类别集合C0进行合并，使得合并后每个簇的短文本在C2中也属于同一个簇，且其中短文本基于“词袋”特征的相似度大于给定阈值。

优选地，所述步骤S353进一步包括以下步骤：

步骤S3531：匹配前，初始化待匹配元组的每一种成分的相似度为0；

步骤S3532：针对每一种成分，首先进行词形比较，若匹配成功，累加该相似度分值，并执行步骤S3535；否则执行步骤S3533；

步骤S3533：基于领域本体库和规则库，分别判断两个对应的实体或者关系之间是否具有等价关系，若等价则累加该相似度分值，并执行步骤S3535，否则执行步骤S3534；

步骤S3534：查询每种成分的概念层次，并进行上下位匹配，若匹配成功，累加该相似度分值；

步骤S3535：如果未完成比较所有成分，则重复执行步骤S3532～S3534，否则根据每种成分的权重，计算该成分对应的相似度，并对所有成分的相似度加权求和。

根据本发明的另一个方面，本发明还提供了一种面向短文本的***件预警***，包括：

筛选模块，用于结合领域知识库，对短文本进行局部结构化抽取和在线分类，实现从海量短文本中识别出具有潜在安全隐患的***件相关文本；

预警处理模块，用于结合领域知识库，对识别出的短文本进行全局结构化处理和在线聚类，并根据每个“聚类簇”内所包含的短文本数目是否超过给定阈值来决定是否进行及时预警；以及

领域知识库，包括领域本体库、事实库、事件库和规则库，其中

领域本体库，存放了领域概念的层次化组织形式，而且概念之间具有等价关系以及可能的领域关系约束；

领域事实库，存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集合；

领域事件库，包括领域相关词汇，这些词汇由行为、施事、受事、修饰、结果、时间和地点等类型组成；

领域规则库，存放了概念元组之间的等价关系及其成立的概率。

优选地，所述筛选模块工作时执行如下流程：

进一步优选地，所述步骤S24还包括以下步骤：

优选地，所述预警处理模块工作时执行以下流程：

进一步优选地，所述步骤S35包括以下步骤：

步骤S351：初始化结构化特征集合为空；

步骤S352：输入当前短文本的候选结构化特征；

进一步优选地，所述步骤S37进一步包括以下步骤：

步骤S371：初始化当前时间和地点特征集合，令其分别为空；

进一步优选地，所述步骤S39进一步包括以下步骤：

优选地，所述步骤S353进一步包括以下步骤：

本发明为***件预测提供了一种有效的方法和***。与现有技术相比，本发明具有如下优势：

本发明充分融合领域背景知识和上下文语境、浅层语义表达和深层语义计算，实现群体性安全事件的协同分析和预测。一方面，领域知识由本体、事实、事件和规则四部分组成，其中，本体库具有层次化的领域概念组织形式，而且概念之间具有等价关系以及可能的领域关系约束；事实库是经过语义消歧以及实体关系的唯一性标识而得到的结构化元组集合；事件库则根据领域中可能的相关词汇集成，这些词汇由行为、施事、受事、修饰、结果、时间和地点等类型组成；规则库中存放的是概念元组之间的等价关系。这些背景知识是采取“机器学习+模式匹配”的方式从语料中自动获取的，尔后借助人工干预对其进行过滤和筛选。另一方面，在对短文本进行语义分析(即在线分类和聚类)的过程中，利用信息抽取技术，得到短文本上下文信息的浅层语义表达，然后结合领域知识库进行语义投影、知识泛化、特征提取和特征值计算，最终得到短文本数据的深层语义表达并用于建立预测模型。有力地保证了***件的信息甄别、跟踪和预警的及时性、准确率和召回率，将有助于提高***件初始发生时的快速反应能力，从真正意义上做到“为之于未有，治之于未乱”。

附图说明

为了描述本发明的上述优点和特征，将通过引用附图中的具体实施例来辅助说明本发明的详细内容。可以理解，这些附图仅为本发明的典型实施例的描述，而非对本发明的限制。任何以其他形式表达本发明步骤或内容的附图都应属于本发明范围内。

图1为本发明的面向短文本、结合领域知识库的***件预警方法的流程示意图；

图2为本发明的***件识别方法的流程图；

图3为本发明的***件跟踪和预警方法的流程图；

图4为本发明为每条短文本构造话题特征向量的流程图；

图5为本发明为每条短文本构造时间和地点特征向量的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的结合知识库的***件预警方法，包括以下步骤：

步骤S1：基于互联网和通信网获取的领域相关语料资源，自动构建面向群体性安全事件的领域知识库，包括领域本体库、事实库、事件库和规则库，并实现其半自动化的知识维护和更新。

领域知识库是专门针对***件预警问题而构建的知识库，其构建过程进一步包括以下步骤：

步骤S11：构建领域本体库，库中存放了领域概念的层次化组织形式，而且概念之间具有等价关系以及可能的领域关系约束。

在领域本体库的层次结构的构建过程中，一方面结合已知的上下位关系、开放分类、多义词和同义词信息进行概念层级的水平和垂直融合；另一方面结合具有属性信息的实例，利用归纳决策树模型进行实体层次化概念的自动识别，于是形成了领域概念的层次化组织结构和实例-概念的映射关系。值得注意的是，本体库中概念之间的等价关系主要依赖于***、互动百科和哈尔滨工业大学公开发布的各种同义词表，领域关系约束则取决于下面事实库抽取中获得的结构化元组知识，并且这些知识在入库之前需要进行质量评估和人工修正，以保证其实际应用的有效性。

例如，多义词“大众”在层次化概念上的映射关系为：

大众|群体|人物|生物、大众|标识|文化|抽象事物、大众|公司|机构

其中，竖杠“|”右侧的实体是左侧实体的上位概念，并且该词在概念“群体”意义下与概念“公众”是等价的。

步骤S12：构建领域事实库，库中存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集合。

该库的构建主要依赖于从互联网和通信网中获取的***件相关语料，并且充分利用了各种信息抽取技术，包括中文分词、词性标注、依存关系分析和特殊句式识别等操作，在得到大量的结构化元组之后，将其中的实体向本体库中的层次化概念进行映射，如果该实体具有不止一个概念，那么根据其所在元组的关系和其他实体信息进行语义消歧，从而得到具有唯一性概念标识的大量事实元组集合。

步骤S13：构建领域事件库，包括领域相关词汇，这些词汇由行为、施事、受事、修饰、结果、时间和地点等类型组成。

所述步骤S13进一步包括以下步骤：

步骤S131：根据领域特定关键词，依据“共现关系”自动收集领域相关词汇，并进行手工归类。

步骤S132：构建时间库，其特征在于，库中存放了各类时间词及其数值编码，编码的目的是通过识别时间词并在短文本的发布时间基础上识别出确切的时间；另外，该库还包括时区表，表中存放了世界上各个国家的时区。

如“北京时间”与“伦敦时间”不同，它们相差数个时区；再如，“今天凌晨”与“今天晚上”所指不是一个时间，而“今天午夜”和“明天凌晨”则有可能是一个时间，这些知识需要知识库提供。对这些时间进行相似程度计算需要知识库告诉计算机“凌晨”、“午夜”是哪个时间段，以及一天有多少小时等常识。

所述时间模式库中存放了普通时间词(如：昨天、上午、今早)，节日(如中秋节)，复杂时间词(如：下个月末、下个星期一)，时间上下位(包括年、月、日、时、分、秒、季度、星期)等。复杂时间词无法被分词算法识别，因此本发明中采用模板匹配的方式识别这类词语。时间模式库中同时也存放了每个时间词的数值编码，现举例说明时间词的数值编码形式：

傍晚黄昏{18：00，20：00时}，明日明天{r：1日}

其中的“时”、“日”表示时间度量或粒度，“r”表示相对时间，“18：00，20：00”表示时间区间。

步骤S133：构建地点库，其特征在于，库中按照洲、国家、省、市、县的上下位层次关系存放了世界各国的著名地区名称，另外库中还包括地点结尾词表，表中存放了常用的地点结尾词及它们的上下位关系，如洲、国、省、市、镇等。

地点结尾词的作用是帮助识别分词算法无法识别的地点词以及确定地点的上下位层级。地点一般按照从大到小的顺序进行描述，此种现象在本发明中称为层级约束，如北京市海淀区。因此，由于分词错误而无法正确识别的地点词，在本发明中将根据层级约束性质进行识别，该过程将涉及多个词语的归并。

如，对于某一多层级地点，“广西省平南县大鹏镇”，其分词结果为“广西省/ns平南县/ns大/a鹏/n镇/n”，分词算法无法正确识别“大鹏镇”，此时根据层级约束，可以识别出该地点以“镇”结尾，“镇”的表述顺序应该在“县”之后，因此可知“大/a鹏/n镇/n”应为一个地点，因此，将分词结果更新为“广西省/ns平南县/ns大鹏镇/ns”。

需要说明的是，由于不同短文本在地点表述上的差异，地点之间的匹配除了包括等价关系外，还有包含关系，如短文本“北京市海淀区发生一起聚集事件”和“中关村广场发生一起聚集事件”，其中的“北京市海淀区”和“中关村”在很大程度上指的是同一个地点，只是区域大小不同。当然，它们也可能不是同一事件，这时可以根据时间等特征加以区别。因此，“省”级以下的地点之间的包含关系在本发明中将被看作同一地点。

步骤S14：构建领域规则库，其特征在于，存放了概念元组之间的等价关系及其成立的概率。

基于前述领域事实库和本体库，利用一阶逻辑和概率图模型技术(即马尔可夫逻辑网络)实现不确定规则的自动学习，并得到形如“权重+规则”的逻辑表示，然后手工筛选出满足实际应用需求的高质量逻辑表示，

例如，0.80 散步<s：群体><＝>集会<s：群体>

0.95 静坐<s：群体>^统一<o：着装><＝>集会<s：群体>

其中，s表示概念“群体”在元组中充当主语，o表示实体在元组中充当宾语，^表示逻辑与，<＝>表示等价关系。

步骤S2：结合领域知识库，对短文本进行局部结构化抽取和在线分类，实现从海量短文本中识别出具有潜在安全隐患的***件相关文本。

为使***件识别方法更加清晰明白，下面结合具体实施例进行详细的解释与阐述。

text：{明天下午两点半，大家在雍和宫附近散步，带好旗帜、标语}

步骤S21：对待分析的短文本逐句进行预处理，即将汉语进行分词和词性标注，并对特殊的词语序列进行合并与修正。

对例句text，分词与词性标注的结果如下：

<明天/t，下午/t，两点半/t，，/w，大家/n，在/p，雍和宫/ns，附近/f，散步/v，，/w，带好/v，旗帜/n、/wn，标语/n>

步骤S22：基于步骤S21得到的词语序列，将实体基于领域本体库中的层次化概念空间进行概念映射，并同时对多义实体进行概念消歧。

其中概念消歧是自动完成的，在离线阶段首先制备训练数据，然后基于朴素贝叶斯原理学习多分类模型，其中类别标签对应层次化概念，特征向量由给定窗口下的邻近无歧义实体及其所属概念构成；在线阶段则基于多义实体所处特定语境，利用训练产生的分类模型自动进行概念识别。

对于例句text中，实体概念化并消歧得到的结果如下：

实体概念化结果	实体概念消歧结果
		大家：群体	大家：群体
雍和宫：景点	雍和宫：景点
		旗帜：影视、物品、歌舞	旗帜：物品
标语：文化、物品	标语：物品

步骤S23：基于步骤S22得到的消歧后的词语序列，根据汉语基本句式将消歧后的词语序列进行信息抽取，将短文本句子转化为结构化元组表达形式。

元组：散步(s：大家，p：雍和宫，t：明天下午两点半)

带好(s：大家，o：旗帜+标语)

共现：共现(旗帜，标语)

其中，“p”表示地点成分，t表示时间信息，“+”表示并列的关系，即“旗帜”和“标语”均充当谓语“带好”的宾语成分。

步骤S24：基于步骤S23得到的结构化元组集合，结合领域知识库获取当前句子的深层语义表示，并用于在线分类，如分类结果与***件无关且未扫描至该短文本的末句，则返回步骤S21，否则分析下一条短文本。

具体地，所述步骤S24还包括以下步骤：

步骤S241：根据步骤S23信息抽取得到的结果，针对***件文本的特点，结合***件领域知识库，对短文本进行知识泛化、特征提取和特征值计算。

具体地，所述步骤S241中的知识泛化还包括实体泛化、关系泛化。

实体泛化：利用领域本体库获取当前待分析的实体的等价实体集合，将等价实体集合中的元素逐个代替待分析的实体，参与后续计算。例如例句中的实体“大家”，利用领域本体库获取到的等价实体集合为{大伙，人们，众人}，可将“大伙”、“人们”，“众人”分别代替“大家”，参与后续计算；

关系泛化：将待分析的关系利用领域规则库获取该关系的等价关系集合，将等价关系集合中的元素逐个代替待分析的实体，参与后续计算，例如例句中的关系“散步”，利用领域规则库获取到的等价关系集合为{集会，溜达，转悠}，可将“集会”，“溜达”，“转悠”分别代替“散步”，参与后续计算；

具体地，针对***件的特点，该发明主要提取以下几类特征：

元组谓语：信息抽取得到的元组中的谓语成分。***件文本中，元组谓语动词一般具有很强的代表性，如“集体去抗议吧！”，“这次活动务必参加！”，这里的“抗议”与“参加”都有较强的群体性。若元组谓语为主观动词，如“认为”，“觉得”等，则标记文本为普通文本，直接返回；否则基于事件库的敏感动词库检查该关系是否敏感，若敏感则形成元组谓语特征，否则将该关系进行关系泛化，再结合事件库检查其是否敏感，若敏感则形成元组谓语特征，否则舍弃该元组；

群体性主语：信息抽取得到的元组中的主语成分。***件文本中，元组主语一般为群体性词汇，如“集体去抗议吧！”，“群众聚集在街头”，这里的“集体”、“群众”都是群体性词汇，因此基于事件库的群体性名词库检查主语是否为群体性词，若敏感形成主语特征，否则将该主语进行实体泛化，再次利用事件库进行检查，若敏感则形成主语特征，否则舍弃该元组；

实体修饰：信息抽取得到的元组中主语成分的修饰词和宾语成分的修饰词。元组的主语成分和宾语成分的修饰有时具有很强的信息，如“参加示威活动”，“发生恐怖***”，这里的“示威”和“恐怖”都是***件文本中较敏感的词汇。因此，基于事件库的敏感实体词，检查主语修饰词与宾语修饰词是否敏感，若敏感形成修饰特征，否则对该修饰词进行实体泛化，若敏感则形成修饰特征，否则舍弃该修饰词；

概念元组：信息抽取得到的元组映射至概念空间后得到的概念化元组。***件的概念元组具有一定的概括性，如“游行(s：群体)”，“包围(s：群体，o：机关)”等。因此，基于领域本体库检查概念化元组是否敏感，若敏感形成概念元组特征，否则舍弃该元组；

实体共现：信息抽取得到的实体共现，即在一个句子中共同出现的实体对。有些实体共同出现在一个短句中，代表较强的信息，如“共现(***式，恐怖)”或“共现(上访户，市政府)”等。因此，基于领域事实库检查实体共现是否敏感，若敏感则形成实体共现特征，否则舍弃该共现关系；

关系共现：信息抽取得到的关系共现，即在一个句子中共同出现的关系对。如“共现(袭击，***)”或“共现(聚众，打砸)”等。因此，基于领域事实库检查关系共现是否敏感，若敏感，则形成关系共现特征，否则舍弃该共现关系；

地点词：信息抽取得到的地点信息。非法集会事件文本一般含有具体地点，有时为敏感地点，如“天安门”、“雍和宫”等，基于事件库的地点词库判断该词是否敏感。

时间词：信息抽取得到的时间信息。非法集会事件文本一般含有具体时间，如“明天下午两点半”。

因此，对例句text，特征抽取结果如下：

元组谓语：散步、集会

群体性主语：大家、群体

实体修饰：无

概念元组：散步(s：群众)

实体共现：共现(旗帜，标语)

关系共现：无

地点词：雍和宫

时间词：明天下午两点半

步骤S242：根据步骤S241获取深层语义特征表示，离线阶段利用有标注训练集训练二分类模型，在线阶段根据分类模型进行实时分类，最终输出识别结果。

具体地，分类标签指的是有无涉及***件，在实时分类过程中，通过计算分类模型取值是否超过给定阈值来判断目标短文本与***件是否相关。

需要说明的是，这里的二分类模型可以是机器学习技术中任何有监督分类模型，任何基于上述机制实现的***件识别方法，均应包含在本发明的范围内。

为了使***件跟踪和预警方法更加容易理解，下面列出了该方法所处理的几个短文本信息，包括每个短文本的发布时间，列表如下：

text₁：{江苏南通启东市的市民，本周六我们要进行大规模抗议，抗议日资造纸厂排污计划，让工厂停它丫的！地点在市政府门口}----time₁：{2012-07-2519：55}

text₂：{启东市的父老乡亲，准备举行示威抗议，大家一定要积极参加，抗议日资造纸厂排污，地点在市政府门前}----time₂：{2013-07-2508：36}

text₃：{明天举行集体抗议，南通启东市的市民，别忘了日资造纸厂的排污劣行，我们强烈抗议他们的行为，一定要让它停工，地点在市政府}----time₃：{2012-07-2709：54}

text₄：{队长再次声明：明天下午两点半，大家在雍和宫附近散步，带好旗帜、标语}----ttme₄：{2012-10-2511：25}

text₅：{大家可能有所耳闻，2012年10月26日下午的散步活动已有大批北京市民参加，大家可领取旗帜和标语，地点在雍和宫}----ttme₅：{2012-10-2520：20}

其中，text₁和text₃为同一类别，text₂为一个类别，text₄～text₅为同一类别。

图1示出了***件跟踪和预警方法的流程示意图。如图1所示，该方法包括：

步骤S31：载入识别出的***件短文本集合，利用信息抽取技术对其进行结构化解析，此时不考虑时间和地点信息，得到描述每条短文本话题的结构化元组集合。

结构化解析包括对短文本进行分词和结构化元组抽取操作，最终解析好的特征将保存在统一的数据结构中。

步骤S32：结合领域事件库中的时间和地点词，识别并抽取每条短文本的时间和地点信息，并且得到描述每条短文本的时间向量和地点向量。

多数时间和地点信息在分词算法的作用下被识别出来，但是，复杂时间词和分词算法无法识别的地点需要根据知识库进一步识别，如“启东市”在分词算法中被分成“启/v东/f市/n”，因此需要根据地点层级关系进行进一步识别和归并。

该步骤进一步包括以下步骤：

步骤S321：短文本信息的发布时间抽取，即该短文本出现的时间。

如，{2012-07-2508：36}。

步骤S322：基于分词算法的标识和时间库，对每个短文本进行时间词抽取，其中对复杂时间词的识别采用模式匹配的方式。

如，“下个星期一”在分词算法中被分成“下个/rz星期一/t”，需要根据时间词模板进行归并。

步骤S323：基于时间库，对每个识别出来的时间词进行数值解码操作，即确定时间词所关联的时间区段、时间粒度、时间上下位等信息。

如“下个星期一”，因为是相对短文本的发布时间来说的，因此是相对时间，并且其所处的时间区段是1日，时间粒度是“日”，其没有“小时”的详细信息；再如“今晨”也是相对时间，其所处的时间区段是“0-8时”，时间粒度是“时”，没有“分”的详细信息。

再如，短文本text₁中，发布时间为ttme₁：{2012-07-2519：55}，文本中识别的时间为time<周六>，根据“周六”的解码信息，可知它是目前所在周的周六，根据绝对时间2012-07-25可以求得这一天是周三，因此相对时间“周六”映射为绝对时间是2012-07-28。

另外，当时间粒度只到“天”时，则令“时”的数值为“12：00”。如text₁中的解码后的最终时间为“2012-07-2812：00”。

当短文本中没有给出明确的时间时，则采用短文本的发布时间作为实际时间。如text₂中，“准备”是一个模糊的时间词，该短文最终解码的时间为“2013-07-2508：36”

步骤S324：对于分词算法标记为地点的词语，查询地点库，标识该地点的上下位以及所在层级；当遇到分词算法无法识别的新地点词时，通过匹配地点标志词来识别地点词边界，并且，如果地点上下位关系已知，则可根据地点由大到小的表述顺序来确认当前地点词识别的正确性。

如，“江苏南通启东市”在分词算法中得到“江苏/ns南通/ns启/v东/f市/n”，因为“江苏”的级别是“省”，“南通”的级别是“市”，而后不远又出现“市”这一词语，根据地点表述顺序可知，“启东市”很可能是一个地点，因此将“启东市”合并为一个词。

步骤S325：地点词的层级归类，如果从一个短文本中抽取出多个地点，则根据地点间的上下位关系，对它们进行正确的归类，具有上下位关系的多个地点看作一个地点。

如，“北京市海淀区举行游行示威，河北省石家庄也将举行类似事件”，其中“北京市/海淀区”为一个地点，而“河北省/石家庄”为另一个不同地点。

其中，所述地点标志词一般位于地点词的结尾处，且在建立领域知识库时已经标明它们之间的层级关系。如“省”、“市”、“乡”、“州”等地点结尾词标识了地点词，同时也标识了地点的层级。

例如，text₁～text₅经过结构化解析并抽取时间和地点特征后得到结构化表示如下：

text₁：{进行<s：江苏/南通/启东市+市民，o：抗议>，抗议<o：造纸厂/排污+计划>，让<o：工厂+停工>，time<2012-07-2812：00>，place<中国/江苏省/南通/启东市+市政府门口>}

text₂：{举行<s：启东市+父老乡亲，o：示威+抗议>，参加<s：大家>，抗议<o：日资/造纸厂+排污>，time<2013-07-2508：36>，place<启东市/市政府门前>}

text₃：{举行<o：集体+抗议>，抗议<s：启东市+市民，o：日资/造纸厂/排污+劣行>，让<s：日资/造纸厂/停工>，time<2012-07-2812：00>，place<南通/启东市+市政府>}

text₄：{声明<s：队长>，散步<s：大家>，带好<s：大家，o：旗帜+标语>，time<2012-10-2614：30>，place<雍和宫>}

text₅：{有所耳闻<s：大家>，参加<s：北京+市民，o：散步+活动>，领取<s：大家，o：旗帜+标语>，time<2012-10-26下午>，place<北京+雍和宫>}

其中，s表示实体在元组中充当主语，o表示实体在元组中充当宾语，+前面的词语为相应成分的修饰部分，多个修饰之间使用“/”隔开。

步骤S33：将结构化元组向知识库投影，滤除***件无关的结构化特征，得到每条短文本的结构化特征集。

步骤S331：针对每条短文本，进行结构化元组歧义消解以及实体唯一性标识。

如text₄中结构化特征“带好<s：大家，o：旗帜>”经过语义投影后得到结构化元组为“带好<s：大家，o：旗帜_16>”，其中“_16”表示“旗帜”为“物品”。

步骤S332：针对每条短文本，根据领域事件库，滤除***件无关的结构化特征。

例如，text₅中的短句“大家可能有所耳闻”将被过滤，text₃中的“一定要让它停工”和text₁中的“让工厂停它丫的”都将被过滤。

步骤S34：对每条短文本，进行特征选择，即通过计算结构化特征在不同短文本中的区分度或信息熵来选择有效特征。

此处的特征选择主要目的是在不影响预警效果的情况下，大幅降低特征的维数，以减少计算复杂度。

步骤S35：增量式地动态构建已观测短文本的所有结构化特征，通过计算结构化特征之间的相似度，同时获得描述每条短文本话题的特征向量。该步骤进一步包括以下步骤：

步骤S351：初始化结构化特征集合为空；

步骤S352：输入当前短文本的候选结构化特征；

步骤S353：当特征向量为空时，将一个结构化特征放入其中，并将特征向量在相应位置设为1，否则将其结构化特征与特征集合中元素逐一比较，保留最为相似的特征和相似度。

例如，取text₁中的一个结构化元组作为第一个特征：举行<s：江苏/南通/启东市+市民，o：抗议>。text₁中所有元组逐一与它进行比较，当与特征向量中的所有元组都无法实现匹配时，将新特征添加到特征向量中，继续进行比较。

该步骤进一步包括三种操作，即词形判断、等价性判断及上下位判断，此三种操作在相似度分值的贡献上呈递减趋势。

其中，结构化特征包括5种成分：行为，施事，受事，主语修饰，宾语修饰，每一成分具有相应的权重w1～w5，两个结构化特征的相似度是这5种成分比较结果的加权求和，步骤S353进一步包括以下步骤：

例如，令text₁中“进行<s：江苏/南通/启东市+市民，o：抗议>”为特征元组，令text₂中“进行<s：启东市+父老乡亲，o：示威+抗议>”为待匹配元组，并且置待匹配元组中各个成分的相似度为0。

例如，步骤S3531的例子中，受事都为“抗议”，因此，受事的词形匹配成功。再如，行为“进行”与“举行”、施事“市民”与“父老乡亲”在词形比较时失败，需要依靠其他操作来确定它们的相似度。

例如，行为“进行”和“举行”在概念搭配“<s：群体，o：行为>”的约束下是等价的，可以实现匹配。

不过，等价匹配的权重要低于词形匹配的权重。

例如，施事“市民”与“父老乡亲”的概念层次上均为民众|群体|生物，可以实现匹配。

需要说明的是，修饰部分进行比较时，在上述3种操作下，当其中一组修饰匹配成功时，则修饰匹配成功。如步骤S3531的例子中，主语修饰“江苏/南通/启东市”与“启东市”比较，虽然“江苏”与“启东市”无法匹配，但两组修饰都含有“启东市”，因此词形匹配成功。

步骤S355：如果未到短文本结尾，则重复步骤S352～S354，否则结束。

步骤S36：基于步骤S35中获得的特征向量，进行话题聚类并获得类别集合C1。

上述text₁～text₅短文本，最终被聚成3类，即text₁～text₃为一类，text₄一类，text₅一类。其中，text₃由于时间上的不同本应自成一类，但在话题上的确与text₁和text₂很相近，需要在时间和地点匹配中进一步区分，另外，在text₄和text₅比较过程中，在结构化特征上无法实现匹配，因此，text₄和text₅的相似性较低，而没有被聚类过程聚为一个类别。不过，下面的时间和地点推理可以有效解决这个问题。

步骤S37：结合领域事件库，增量式地动态构建已观测短文本的所有时间和地点特征，分别进行时间和地点推理，为每条短文本构造时间特征向量和地点特征向量。

该步骤进一步包括以下步骤：

步骤S371：初始化当前时间和地点特征集合，令其分别为空；

如text₄中的时间特征为一个，<2012-10-2614：30>，地点特征为一个，<雍和宫>，text₅中的时间特征为一个，<2012-10-26下午>，地点特征为一个，<北京+雍和宫>。

步骤S374：进行时间相似度推理，即在一定的时间窗口下，比较两个时间是否相同、区段内包含、相交或者无交集的过程，当两个时间相差不超过一定阈值或两个时间具有交集则认为匹配成功，将特征向量在相应位置设为1，否则将该特征加入当前时间特征集合中，特征向量在该位置设为1，其余位置为0；并且，若地点特征集合不为空则执行步骤S375，否则结束；

时间有点、阶段，也有模糊的表示如“近日”。人们在表示时间上也难以做到万分精确，因此，此处的时间比较采用区段内包含的方式，即两个时间相差不超过一定阈值或两个时间具有交集则认为匹配成功。

例如，text₄和text₅中的时间特征，<2012-10-2614：30>与<2012-10-26下午>进行相似度比较时，前者是精确时间，而后者的“下午”是一个时间阶段，依据时间模式库中对于时间词所处时间阶段的划分，“下午”所处的时间包含“14：30”，因此，上述两个时间是匹配的。

再如，text₂与text₁、text₃的时间比较时，由于“2013-07-28”与“2012-07-25”相差1年，远超过阈值，因此，时间匹配失败。

步骤S375：进行地点相似度匹配，查询领域本体库以及地点库，确定两个地点是否相同、等价、具有父子包含关系，或是否在结尾处添加或丢弃地点标志词后具有上述关系则认为匹配成功，将特征向量在相应位置设为1，否则将该特征加入当前地点特征向量中，特征向量在该位置设为1，其余位置为0。

当进行地点匹配时，层级地点仅匹配上其中一部分即可，例如，text₄和text₅中的地点特征<雍和宫>与<北京+雍和宫>比较相似度时，“北京”包含“雍和宫”，因此<北京+雍和宫>也即<雍和宫>，地点实现匹配。

另外，本发明中，地点的包含关系在“省”级以下可以看作等价关系。例如，“江苏南通发生事件”与“启东市发生事件”在地点层面很可能是一件事，因此地点虽然是包含关系，但其范围相对较小，这时，将认为“江苏南通”与“启东市”等价，表示同一地点。

步骤S38：基于步骤S37中获得的特征向量，进行时间-地点聚类并获得类别集合C2。

上述text₁～text₅短文本，根据时间和地点特征最终被聚成3类，即text₁和text₃为一类，text₂为一类，text₄和text₅为一类。text₂被独立出来是因为时间匹配失败导致的。

步骤S39：将话题类别集合C1与时间-地点类别集合C2进行融合，得到最终***件的类别集合C。该步骤进一步包括以下步骤：

步骤S391：使用C2对C1中每个类别进行拆分，使得拆分后每个簇中的短文本在C2中也属于同一个簇。

例如，C1中含有3个簇，分别是text₁～text₃，text₄和text₅，C2中也有3个簇，分别是text₁、text₃，text₂和text₄～text₅，使用C2对C1进行拆分后，C1形成4个簇C0，分别是，text₁、text₃，text₂，text₄和text₅。

值得注意的是，这里结合“词袋”特征信息可以在一定程度上克服由于信息抽取技术不足而导致的聚类误差。

例如，对于类别集合C0的4个类别，由于text₄和text₅在C2属于同一个簇，且它们在词袋上的相似度大于给定阈值，因此，text₄和text₅将被合并为一类。

经过上述融合操作后，得到最终的聚类集合C，共有3类，分别是，text₁、text₃，text₂和text₄～text₅。

例如，上述被聚为两类的text₁～text₅短文本，在取预警阈值为2时，text₁、text₃与text₄～text₅所代表的***件将被预警。

其中，所述步骤S36和步骤S38中所用的聚类算法为Stream聚类算法或其框架下的其他算法。

需要强调的是，上述方法技术方案的描述属于本发明的一个最佳实施例，本领域技术人员可以明了的是，删减上述方法技术方案的部分特征，仍然可能解决本发明的技术问题，只是技术效果弱于最佳实施例的技术效果。

本发明还提供一种面向短文本的***件预警***，包括：

其中，本发明的***件预警***可以在通信网络的计费服务器、基站服务器或通信终端中以软件的形式运行，实现相应预警功能。

运行环境要求例如包括：

·CPU：2GHz或更高；

·内存：最小要求2048MB；

·硬盘：至少需要2G自由空间；

·显示卡及显示器：分辨率要求1024×768或更高；

·网络：要求宽带连接；

·操作***：Microsoft Windows或Linux。

当然，本领域技术人员也可以根据本发明公开的技术原理，将其迁移到不同的平台和操作***上，解决相同的技术问题。

本发明充分融合领域背景知识和上下文语境、浅层语义表达和深层语义计算，实现了群体性安全事件的协同分析和预测，经过实际检验，本发明的技术方案可以有力地保证***件的信息甄别、跟踪和预警的及时性、准确率和召回率，有助于提高***件初始发生时的快速反应能力。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向短文本的***件预警方法，包括以下步骤：

2.根据权利要求1所述的面向短文本的***件预警方法，其中在所述步骤S3之前还包括以下步骤：

基于步骤S1构建的领域知识库执行步骤S3。

3.根据权利要求2所述的面向短文本的***件预警方法，其中所述步骤S1进一步包括以下步骤：

步骤S14：构建领域规则库，存放了概念元组之间的等价关系及其成立的概率；

其中，所述步骤S13进一步包括以下步骤：

4.根据权利要求2所述的面向短文本的***件预警方法，其中在所述步骤S1和S3之间还包括以下步骤：

在步骤S2识别出来的短文本的范围内执行步骤S3。

5.根据权利要求4所述的面向短文本的***件预警方法，其中所述步骤S2进一步包括以下步骤：

步骤S24：基于步骤S23得到的元组集合，结合领域知识库获取当前句子的深层语义表示，并用于在线分类，如分类结果与***件无关且未扫描至该短文本的末句，则返回步骤S21，否则分析下一条短文本；

其中所述步骤S24进一步包括以下步骤：

6.根据权利要求4所述的面向短文本的***件预警方法，其中所述步骤S3进一步包括以下步骤：

7.根据权利要求6所述的面向短文本的***件预警方法，其中所述步骤S36和步骤S38中所用的聚类算法为Stream聚类算法或其框架下的其他算法。

8.根据权利要求6所述的面向短文本的***件预警方法，其中，所述步骤S32中时间和地点信息的抽取进一步包括以下步骤：

其中，所述地点标志词一般位于地点词的结尾处，且在建立领域库时已经标明它们之间的层级关系；

所述步骤S35进一步包括以下步骤：

步骤S351：初始化结构化特征集合为空；

步骤S352：输入当前短文本的候选结构化特征；

其中，结构化特征包括5种成分：行为、施事、受事、主语修饰、宾语修饰，每一成分具有相应的权重w1～w5，两个结构化特征的相似度是这5种成分比较结果的加权求和；

所述步骤S37进一步包括以下步骤：

步骤S371：初始化当前时间和地点特征集合，令其分别为空；

步骤S375：进行地点相似度推理，查询领域本体库以及地点库，确定两个地点是否相同、等价、具有父子包含关系，或是否在结尾处添加或丢弃地点标志词后具有上述关系则认为匹配成功，将特征向量在相应位置设为1，否则将该特征加入当前地点特征向量中，特征向量在该位置设为1，其余位置为0；

所述步骤S39进一步包括以下步骤：

9.根据权利要求8所述的面向短文本的***件预警方法，其中所述步骤S353进一步包括以下步骤：

10.一种面向短文本的***件预警***，包括：