CN103854063B - 一种基于互联网开放信息的事件发生风险预测并预警方法 - Google Patents

一种基于互联网开放信息的事件发生风险预测并预警方法 Download PDF

Info

Publication number
CN103854063B
CN103854063B CN201210501872.7A CN201210501872A CN103854063B CN 103854063 B CN103854063 B CN 103854063B CN 201210501872 A CN201210501872 A CN 201210501872A CN 103854063 B CN103854063 B CN 103854063B
Authority
CN
China
Prior art keywords
information
sample
event
pronoun
info web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210501872.7A
Other languages
English (en)
Other versions
CN103854063A (zh
Inventor
杨风雷
黎建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201210501872.7A priority Critical patent/CN103854063B/zh
Publication of CN103854063A publication Critical patent/CN103854063A/zh
Application granted granted Critical
Publication of CN103854063B publication Critical patent/CN103854063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互联网开放信息的事件发生风险预测并预警方法。本发明为:1)对网页信息进行垃圾过滤;2)对过滤后的网页信息中表示处所的词语进行解析,得到地名词语;基于所建信息本体对解析后的网页信息进行处理,将网页信息归入匹配区域;3)对网页信息进行过滤,得到与食品安全相关的网页信息;然后利用回归分析模型对过滤后的网页信息进行处理,判断每一网页信息相关的对象类别;4)确定设定区域、对象事件的网页信息集合,建立事件特征参数并定期计算参数值,如果某事件的特征参数值超过设定阈值则对该事件进行预警;5)基于矩阵分析和回归预测模型对目标区域发生设定事件的风险进行不同预警。本发明提高了风险预警的效率。

Description

一种基于互联网开放信息的事件发生风险预测并预警方法
技术领域
本发明属于信息技术领域,尤其涉及一种对爬取得到的互联网信息进行特定处理,之后对特定区域发生特定事件的风险进行预测并进行预警的方法,主要应用于食品安全信息监控、风险预警等非常规突发事件的应急处理工作中。
背景技术
近年来,食品安全事件诸如毒胶囊、回锅油、瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了极大关注。为进行基于事件的风险预警,这就需要提前发现这些事件的信息。
随着Internet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交互形成了一个和现实社会有一定的对应、关联关系的虚拟社会。它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
从现实的角度看,注意到多数食品安全事件发生前,在互联网上总是已经存在一些零星的线索,为此,可以采取采集、分析互联网上的相关信息后以预警的方式为这些食品安全事件的应急管理提供直接的信息来源。为及时、准确、全面获取、掌握所需要的特定互联网目标信息,就需要用到互联网信息分析和预警等相关技术。
比如有研究工作利用互联网信息进行风险预警,但该研究中对收集的信息如何处理,采取何种措施,都需要人工的参与和决定。也有研究工作可以自动的基于互联网信息针对添加剂和补充剂等进行食品安全风险预警,但其存在一些不足:过程中没有考虑信息的质量问题,没有对采集的垃圾信息进行过滤-这会影响预警的准确性;事件信息发现过程中直接将经过关键词匹配后得到的类别信息作为同一种事件信息的做法中可能存在信息对应的主体不一致等。从实际的测试结果看,其信息分类、预警的准确性、全面性等方面尚存在需要进一步提高的地方。
同时,在通过事件信息发现方法提取出相关区域所发生的事件信息后,如果能对特定区域(当前未发生)发生特定事件的风险进行预测,即对其是否会发生此种事件,以及多长时间后可能会发生等进行预测并预警,将对特定区域的风险监测和预警有着非常重要的意义。通过查阅文献,尚未发现此类研究。
发明内容
为解决上述的问题,本发明的目的在于提供一种采取特定步骤对网页信息的内容进行分析,之后对特定区域发生特定事件的风险进行预测并预警的方法。方法中借鉴智能***思路,形成的步骤如下所述。
1.网页信息爬取
选用互联网信息爬虫软件(比如Heritrix、Nutch等)对信息源中的网页信息进行爬取,爬取过程中基于有限范围爬取、垂直爬取等技术尽可能得到所需要的互联网网页信息并进行保存。
2.垃圾信息过滤
为提高进入后续处理过程中的信息质量,对爬取得到的网页信息进行垃圾过滤。过滤过程中主要是对通过内容、链接作弊的垃圾信息、以及用户生成内容中的无关意见、低质量意见和欺骗性垃圾意见通过建立的检测模型进行过滤。从而保证进入后续过程的信息的质量。
3.区域信息发现
在上述垃圾信息过滤基础上,对爬取的网页信息的标题、内容等进行地名代词等解析后,采取模式匹配、基于机器学习判断模型的判断识别方法进行信息相关区域的发现确定。
4.区域事件预警
对信息进行食品安全信息过滤、对象信息发现后,在建立表示区域事件的特征参数诸如页面数、页面浏览数、综合指数等的基础上,通过定期计算事件特征参数值的方法对事件的发展趋势进行追踪;并对事件当前的各特征参数值和其之前一定时期内的均值进行比较,如果差值为正且绝对值持续大于一定的阈值,则进行区域事件预警。
5.目标区域事件发生风险预测和预警
基于已经发生特定事件的区域分布,采用矩阵分解和logistic回归分析的方法,对目标区域是否会发生特定事件以及可能的发生时间等进行分析和预测,并根据预测结果进行不同的风险预警。
6.结果展示和服务
在对目标区域特定事件是否发生、何时发生进行预测、预警分析的基础上,将分析得到的结果通过表格、图等的方式展示给用户。并提供短信息、邮件等即时送发的服务方式
本发明为提高事件信息发现的准确度,在对爬取得到的互联网信息进行后续处理前,首先对其进行了垃圾信息过滤处理。
本发明为了保证建立欺骗性垃圾意见检测模型时样本的代表性,首先建立了意见信息基于内容分布的用于分区的特征向量,并采用聚类的方法对意见信息进行分区,之后在每个分区中采用随机抽样的方法得到了用于建立模型的样本,保证了样本的代表性。
本发明为建立欺骗性垃圾意见检测模型,在抽取样本特征过程中,采用的方法是:首先对每个样本建立基于内容、链接的初始特征向量;之后寻找和某一样本最相似的P个样本,基于这P个样本的类别标识以及和该样本的相似度值得到该样本的最终特征向量;依此循环得到每个样本的最终特征向量。特征向量综合了内容、链接以及相似样本的类别等,保证了样本特征提取的全面、完整。
本发明在采用模型对意见信息进行欺骗性垃圾意见检测过程中,以意见信息和各分区的距离为基础建立加权系数,综合各分区检测模型对意见信息的检测结果,综合加权得到最终的检测结果。保证了检测结果的准确度。
本发明为了提高网页信息相关区域识别判断的准确度,首先对网页信息进行预处理后对可能是地名的相关词语进行相关解析以得到明确的词语,之后通过模式匹配和判断模型判断等方式判断信息是否可归入目标区域,由此确定网页信息相关区域。
本发明在网页信息相关区域判断确定过程中,依次采用了针对标题信息的模式匹配方法、针对正文信息的模式匹配方法、基于机器学习的判断模型进行判断的方法进行信息相关区域的判断。其中,在基于机器学习的判断模型进行判断的方法中,通过集成的区域判断模型进行信息相关区域判断,避免了同名、同词异义(比如通常词作为地名)等所带来的区域判断不准确问题。
本发明在对象信息发现过程中,基于事先建立的回归分析模型,对信息的标题、内容等进行分词、降维等步骤后针对各对象类别进行回归分析,以此确定网页信息分别与哪些对象种类有关系。
本发明定期计算事件各特征参数值和其之前一定时间范围内的均值之间的关系,当差值为正且绝对值持续达到一定程度时(比如3倍的标准差)进行及时的事件预警。
本发明对预警的事件定期计算其各特征参数值,并将事件当前的各特征参数值和其之前一定时期内(自预警日开始)的均值进行比较,如果差值为负且绝对值大于一定的阈值,则结束针对此事件的预警。
本发明基于已经发生特定事件的区域分布,采用矩阵分解和logistic回归分析的方法,对目标区域是否会发生特定事件以及可能的发生时间等进行分析和预测,并根据预测结果进行不同的风险预警。
与现有技术相比,本发明的优点:
本发明通过对爬取得到的互联网信息采取垃圾信息过滤、区域信息发现、对象信息发现、区域事件的趋势追踪和预警、风险预测并预警等技术进行处理,保证了食品安全事件信息发现和预警、目标区域事件发生风险预测和预警的准确性和全面性,保证了食品安全风险预警的效率。
附图说明
图1一种基于互联网开放信息的事件发生风险预测并预警的方法流程图;
图2欺骗性垃圾意见检测方法示意图;
图3网页信息相关地域的识别方法流程图;
图4区域事件预警方法示意图;
图5目标区域事件风险预测、预警方法示意图。
具体实施方式
本发明的具体实施方式如图1所示,具体步骤叙述如下。
1.网页信息爬取
选用互联网信息爬虫软件(比如Heritrix、Nutch等)对信息源中的网页信息进行爬取,爬取过程中基于有限范围爬取、垂直爬取等技术尽可能得到所需要的互联网网页信息并进行保存。
2.垃圾信息过滤
随着互联网的发展,互联网的网页数量和内容量越来越多。但同时,网页中的垃圾信息也越来越多,为保证后续信息处理的准确,就需要进行垃圾信息过滤。垃圾信息过滤环节中具体的可分为Web垃圾页面过滤和用户生成内容中的垃圾意见过滤两个方面。其中,Web垃圾页面可分为内容作弊页面、链接作弊页面;垃圾意见按照其负面影响大小不同,可将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或者和话题无关的内容。
对一网站中的Web垃圾页面、用户生成内容中的低质量意见、无关意见等,考虑到其垃圾特征相对比较明显,可以基于事先建立的经过标注的样本集合,提取样本的内容、内容分布、链接等纬度的特征(抽取特征前需对网页信息进行元数据提取、正文提取、分词、句子统计、段落统计、锚文本统计、链接统计等处理)后建立检测模型进行检测。关于内容纬度的特征,本方法中采用了对抽取出来的信息进行分词、去掉停用词并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量-权数为词语频率;关于内容分布特征,本方法中采用了信息的标题长度(字符数)、段落数、句子数、段落长度(均值)、句子长度(均值)、信息长度(字符数)、锚文本数、锚文本长度(字符数-均值)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);关于链接纬度的特征,本方法中采用了信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接垃圾页面集合(事先构建)内的信息数占总出链数比例、垃圾页面集合(事先构建)内链接此信息的数量占总页面数比例等。针对上述三个维度的特征,基于事先建立的垃圾信息集合和非垃圾信息集合,分别形成特征向量并采取机器学习的方法(比如支持向量机等)建立垃圾信息检测模型(三个,基于更新的样本集合定期更新模型),之后即可对新采集的信息进行过滤(信息被判断为垃圾信息的规则是至少其中两个模型的检测结果为正例)。
同时,为解决欺骗性垃圾意见的识别问题,借鉴智能***思路,形成的识别步骤如图2所示,具体如下所述。
(1)意见集合产生
对某一特定用户生成内容信息源中由互联网信息爬虫软件爬取的信息,对其进行预处理(包括网页信息作者等元数据提取、正文提取、分词、词性标注、命名实体抽取、句子统计、段落统计、标点符号统计等)步骤后形成用户意见信息集合。
(2)欺骗性垃圾意见标注
考虑到欺骗性垃圾意见的目的是为了不切实际的抬高或降低特定对象比如网站、网页、产品、人物等的形象,具体的表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。由此出发,考虑到实际中欺骗性垃圾意见所具有的一些分布特征,采取启发式方法对可能是欺骗性垃圾意见的用户生成内容进行收集。具体的,此过程中主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的top-N1个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早的top-N4个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的意见。
依据上述规则,对用户意见信息集合中符合以上条件的意见信息进行整理,形成候选欺骗性垃圾意见集合。之后,遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性)并结合审核、排查等方式对候选的欺骗性垃圾意见进行审核确认。具体的采取了两种方法进行确认,一种是正向确认,一种是反向确认。所谓正向确认,即如果意见信息内容和欺骗性垃圾意见知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目增加规则为:对于一条意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见,加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致。由此即可确认此意见信息是欺骗性垃圾信息,加入知识库中(知识库事先构建并定期更新)。所谓反向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在设定时间中(比如1分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一论坛中某一用户id在不到1分钟的时间中对3种不同产品发布了15条评价信息,从一个正常人的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性。
将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,总结归纳意见作者的反常行为(比如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则,以备后用。
注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见进行标注。
(3)意见信息分区
对步骤(1)、(2)形成、标注的用户意见信息集合中的每一个信息,提取其用于分区的特征向量,进行聚类,得到若干个信息区域,并计算得到每个区域的标志向量。计算过程如下所述。
对意见信息集合中每一信息提取用于分区的特征向量的具体过程如下所述:提取意见信息的字数、词数、意见段落数、段落长度(均值)、句子数、句子长度(均值)、第一人称代词数、第二人称代词数、第三人称代词数、形容词数、副词数、动词数、人名数、地名数、机构名数、时间数、感叹号数、问号数、标题字数等(过程中对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对用户意见信息集合内信息统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1)形成归一化的分区特征向量。
之后即可对意见信息进行聚类处理,聚类过程中可采用谱系聚类、非谱系聚类等方法完成具体过程。
通过此过程,基于用户意见信息用于分区的特征向量,将原始的用户意见信息集合分为若干个子区域(分区)。分别计算每一个分区的标志向量Marki(i为分区编号)-通过计算该分区中所有信息的特征向量均值得到。
(4)意见信息抽样
对步骤(3)形成的各个用户意见信息分区,进行样本抽样(样本量事先确定)。采取随机抽样的方法,具体过程如下:
设要抽取的样本数为S(事先确定),各分区的信息数为Ii,则各分区应抽取的样本数为Si=S*Ii/∑Ii(此数值为大概的数字,在保证每个分区的样本数都大于事先设定的阈值以及满足S=∑Si的基础上,各分区的样本数可以适度调整)。
对每一分区中的信息进行编号,编号方法是从1开始,依次增长直到所有信息都有一个编号,设最大编号值为MAXi,之后利用随机函数产生Si个1-MAXi之间的随机数,则这Si个随机数对应的意见信息即为相应分区抽中的样本。
抽样过程中,对每一分区按照上述规则进行10次抽取,并选择所抽取样本中欺骗性垃圾意见数最多的一次抽取为最终样本,以保证尽可能多的欺骗性垃圾意见信息能抽取为样本。
从而得到每个意见信息分区的抽样样本集合。
(5)意见信息样本二次标注
对每个分区抽取得到的样本,进行二次整理、标注,区分为欺骗性垃圾意见、其他意见,从而将每个分区抽取的样本形成欺骗性垃圾意见、无标注意见信息样本集合。
(6)样本特征抽取
对每个分区中经过二次标注的样本进行样本特征提取、算法选择等是建立检测模型的必须步骤。其中样本特征抽取是一个非常关键的步骤,本方法中的具体步骤如下所述:
A)首先对抽取出来的样本意见信息内容进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量(权数为词语频率)Qj(j为样本编号)。
B)之后计算样本意见信息的链接特征包括信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接准确欺骗性垃圾意见集合内的信息数占总出链数比例、准确欺骗性垃圾意见集合内链接信息的数量占总页面数比例等,并将各项参数加权(权数事先通过统计分析法确定,但须保证权数之和为1)计算得到总的数值,设为Lj
C)最后计算Mj=Lj*Qj,得到基于内容、链接的表征样本意见信息的初始特征向量Mj
D)对分区中的某一个样本Sample,基于该样本的初始特征向量,计算其和各分区中各样本信息的相似值(采用余弦函数),并将各样本信息按照相似值从大到小排序,得到其相似样本序列。
E)将序列中前P(事先通过分析确定)个样本信息的二次标注的类别标识(1表示是欺骗性垃圾意见样本,-1表示无标注样本)和相似值(和该样本之间)分别相乘,并形成一个纬数为P的向量N,作为样本Sample的最终特征向量。
依此循环步骤D)-E),直到计算得到所有样本的特征向量。
(7)建立欺骗性垃圾意见检测模型
对每个样本意见信息建立了特征向量后,从判断识别欺骗性垃圾意见的角度看,目前需要选择机器学习方法建立检测模型。注意到上述过程(步骤(5))中得到的样本集合中包括经过标注的欺骗性垃圾意见,以及未经标注的意见信息,但没有经过标注的非欺骗性垃圾意见。这就意味着不能简单地采用一般的有监督机器学习方法,因为它建立模型需要同时具备正例、反例集合。所以我们这里采用了一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiersusing positive andunlabeled examples.Proceedings of IEEE InternationalConference on Data Mining,2003.)。
对每个分区,基于上述计算得到的样本的特征向量和所选择的“从正例和无标注数据中学习”的机器学习方法,即可建立识别检测欺骗性垃圾意见的检测模型(每个分区一个模型)。
(8)欺骗性垃圾意见检测识别
每个分区的欺骗性垃圾意见检测模型建立完毕后,即可对互联网信息爬虫新爬取的用户生成内容进行欺骗性垃圾意见的判断识别。整体上,欺骗性垃圾意见的判断识别按照三个步骤进行:黑名单识别、反向识别、模型检测识别。首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,依据步骤(2)归纳的规则按照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余的意见按照步骤(7)建立的模型进行识别,识别过程为:
首先计算意见信息的分区用特征向量(按照步骤(3)所述方法计算),并计算意见信息和各个分区的距离(通过计算意见信息的特征向量和各分区标志向量的距离得到)di(i表示分区编号)。由此,计算得到对此意见信息而言各分区检测模型的权数ei=di/∑di
对意见信息分别采用各分区的检测模型进行检测识别,得到检测结果Oi(过程为首先建立意见信息的初始特征向量,之后寻找和意见信息相似的样本,得到最终特征向量-过程同步骤(6),之后采用步骤(7)建立的模型得到检测结果),从而得到最终的检测结果O=∑ei*Oi,如果最终的检测结果O大于事先确定的阈值,则对此意见信息识别为欺骗性垃圾意见。
将经过上述步骤识别为欺骗性垃圾意见的用户意见信息,按照标准统一标注为欺骗性垃圾意见。
(9)欺骗性垃圾意见检测模型更新
考虑到欺骗性垃圾意见、非欺骗性垃圾意见动态变化所带来的影响,在执行欺骗性垃圾意见的检测过程中定期执行检测模型和意见信息集合更新工作(含更新max参数)。过程如下所述:
将经过步骤(8)识别、标注的欺骗性垃圾意见按照和步骤(2)相同的方式进行审核确认,将通过上述方法确认的信息进行标注,并形成新的准确欺骗性垃圾意见集合(对于经常发布欺骗性垃圾意见的用户,将其加到黑名单以备后期识别使用;同时对新的准确欺骗性垃圾意见集合中意见作者的行为规律进行总结形成规则,以备后用);同时也形成新的无标注的用户意见信息集合。
对于新的用户意见信息集合,以和原来各分区中标志向量(为区别,此处的Marki用Markoldi标识)距离最近的向量作为初始中心,采用非谱系聚类方法执行聚类过程,得到新的用户意见信息分区,计算各新分区的标志向量Marknewi,并计算新、老分区标志向量之间的距离之和Dis=∑Distance(Marknewi,Markoldi),如果Dis大于事先设定的阈值,则执行模型更新过程(同步骤(3)-(7)),完成模型的更新。
经过以上过滤步骤后的,参与到后续信息处理过程中的信息(非垃圾信息)相对质量较高,这为后续信息处理的准确提供了基础。
3.区域信息发现
为利用互联网上的信息进行食品安全事件的风险预警,需要经过一定的过程得到事件相关的信息。其中,获取互联网信息中事件的相关区域是一个非常重要的工作-以此为基础可以确定事件的发生区域-这是食品安全事件预警的基础,这就需要对互联网网页信息中的内容等进行提取、分析以确定食品安全事件信息相关联的区域。相关步骤如下所述(如图3所述):
(1)网页信息预处理
对爬取得到并经过滤后的网页信息,提取其标题、来源、作者、发布时间、发布网站所在地等元数据信息并保存,同时提取网页信息的正文内容进行保存。
对提取的网页信息标题、正文内容,采用分词器对其进行基于统计和词典(包括依据步骤4(1)建立的本体形成地名词典)的分词(并记录词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置等特征参数),之后采用基于词表(词表事先整理形成并定期更新,其中包括同时可作为人名和地名的词语、有其他特定含义但同时也可能是地名的词语等;比如吴忠-宁夏回族自治区的一个市,同时可为人名;方正-黑龙江省的一个县,同时可为方正公司;但注意包含了特定后缀的词语比如吴忠市则不予排除)的匹配方法对可能不是地名的词语予以排除。
(2)地名代词解析
经过分词的网页标题信息、正文信息中可能存在一些表示处所的代词,比如本省、本市、该省等。由于这些代词字面本身无法直接表明确切地理位置,因此需要对其进行解析。
1)为进行地名代词的解析,首先建立代词解析的滑动窗口,滑动窗口长度L事先确定(比如通过分析地名代词和其先行词之间的词数分布状况后确定)。
2)之后选择地名代词前L个词语内是否存在合理的地理名词(比如本省对应的辽宁等,基于事先建立的规则判断),如果存在,则采用下述建立的地理名词和地名代词之间是否存在指代关系的判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束(如果存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词),否则进行步骤3)。
3)如果L个词语内不存在合理的地理名词或者模型判断指代关系不存在,则选择地名代词前2L个词语内(不超出整个句子,比如用句号标识)是否存在合理的地理名词,如果存在,则采用下述建立的地理名词和地名代词之间是否存在指代关系的判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束(如果存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词),否则进行步骤4)。
4)如果2L个词语内不存在合理的地理名词或者模型判断指代关系不存在,则根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
判断模型的建立方法:收集整理包含地名代词等的网页信息形成样本集合,并对样本集合信息中每一地名代词和其之前2L(L长度同步骤1))个词语内的地理名词(不超出句子范围)之间的指代关系进行标注,作为类别变量;对样本集合信息中每一地名代词和其之前2L(L长度同步骤1))个词语内的地理名词(不超出句子范围)之间的关系提取相关数据,建立信息样本关于此对地名代词和地理名词之间关系的特征向量:包括地理名词后缀(后缀即代表地名或者具有地名特征,比如“新疆维吾尔自治区”中的“自治区”)长度(后缀字数除以文本长度)、地理名词和地名代词之间的距离(词数除以文本长度)、地理名词距离文本开始的相对距离(词数除以文本长度)、地名代词距离文本开始的相对距离(词数除以文本长度)、地理名词距离句子开始的相对距离(词数除以文本长度)、地名代词距离句子开始的相对距离(词数除以文本长度)、地理名词距离句子结束的相对距离(词数除以文本长度)、地名代词距离句子结束的相对距离(词数除以文本长度)等;之后选择机器学习方法(比如svm)基于上述的样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型。
基于判断模型对地名代词和地理名词之间是否存在指代关系进行判断的方法是:首先提取地理名词和地名代词之间关系的相关数据形成特征向量,提取的数据具体包括地理名词后缀长度(后缀字数除以文本长度)、地理名词和地名代词之间的距离(词数除以文本长度)、地理名词距离文本开始的相对距离(词数除以文本长度)、地名代词距离文本开始的相对距离(词数除以文本长度)、地理名词距离句子开始的相对距离(词数除以文本长度)、地名代词距离句子开始的相对距离(词数除以文本长度)、地理名词距离句子结束的相对距离(词数除以文本长度)、地名代词距离句子结束的相对距离(词数除以文本长度)等。之后基于上述建立的判断模型进行识别判断,并根据判断结果确定地名代词和地理名词之间的指代关系是否存在。
(3)非标准词解析
经过分词的网页标题信息、正文信息中可能存在一些表示处所的词语使用了一些非标准的语言形式,如中文文本中出现beijing、bj等。对此,基于建立的标准词语和非标准词语对照表(事先建立并定期更新),通过查询后进行替换的方式对非标准的地名词语形式进行解析。
(4)相对位置解析
经过分词的网页标题信息、正文信息中可能存在一些表示处所的词语使用了相对位置的表达方式,比如中国西南部省份等。同样的,这些语言表达方式也没有明确的地名名称。为解决此问题,基于步骤4(1)中建立的区域信息本体实例及其附加表,对这些相对位置区域信息进行查询和解析,得到准确的地名词语(比如对中国西南部省份,结合建立的区域信息本体,首先查找到中国所属的省份名称,并对每个所属的省份查询其所在方位纬度的附加表,将所有所在方位为西南的省份提取出来,据此替代中国西南部省份,完成解析)。
(5)地域确定
对网页信息进行了预处理和相关解析后即可进行信息相关联区域的确定工作,此过程中主要包括两个步骤:分别采用模式匹配、机器学习判断模型进行信息相关区域的判断。
区域确定的目标在于识别信息相关区域,为食品安全事件信息的发现提供区域基础。综合考虑准确性、计算量和可操作性等问题,此过程中首先采取了模式匹配的方法进行。这里面需要考虑两个问题:信息范围、匹配规则。关于匹配规则,基于步骤4(1)建立的区域信息本体(即本体中区域维度维度),过程中主要考虑部分本体实例名称、属性等,具体的通过组合这些本体实例的名称、属性等采取模式匹配的方法进行判断;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果对信息的标题采用上述的模式匹配方法处理后,信息可以被归入当前所选的区域(比如北京),则针对此区域的模式匹配处理完毕;否则对该信息的内容采用上述的模式匹配方法针对此区域进行二次模式匹配处理。此过程中遵循宁缺勿滥的原则,尽可能保证识别判断结果的准确度。
如果经过上述的模式匹配过程,此信息无法归入某一区域,则采用基于机器学习方法建立的区域判断模型进行第三次判断确定。事先建立区域判断模型的过程为:基于整理(同步骤(1)-(4))、标注(是否和某区域相关联)过的网页信息样本集合(事先建立并定期更新),将信息样本的标题、内容词语(选择和本体实例名称、属性匹配的词语)综合在一起-将这些词语按照行政地名(指省、市等)、电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑等)五个类别进行归类组成五个特征向量(其中向量中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数)。之后,采用机器学习方法(支持向量机等)对每一目标区域建立基于上述五个特征向量的区域判断模型(5个,基于更新的样本集合定期更新模型)。对信息进行第三次判断确定的过程为:将经过步骤(1)-(4)处理、解析后但无法归入到某一区域的信息的标题、内容词语(选择和本体实例名称、属性匹配的词语)综合在一起:按照行政地名(指省、市等)、电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑等)五个类别进行归类组成五个向量(其中向量中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数),并分别对这五个向量采用前述建立的五个区域判断模型进行检测判断,并对检测判断的结果进行加权计算(权数按照网页信息中每个类别中词语频数之和除以五个类别中词语频数之和的方法确定),如果加权计算结果大于事先设定的阈值,则此信息即可归入此区域;否则,则此信息不能归入此区域。
4.区域事件预警
结合智能***思路,设计食品安全区域事件信息发现并预警的步骤如图4所示,具体叙述如下。
(1)建立本体
考虑到食品安全事件的特点以及事件信息提取、追踪等分析的需要,在食品安全事件信息本体的构建过程中,主要从对象、区域、时间、结果、关联者五个纬度考虑建立。比如对象即食品,可分为初产品、加工产品等类别,初产品又可以分为蔬菜、水果等类别,以此类推;比如结果可分为污染、中毒等类别,污染又可以分为过期、超标等类别,以此类推;比如区域总体上可分为五个类别,分别是亚细亚洲、欧罗巴洲、阿非利加洲、亚美利加洲、大洋洲;对每个类别可以再次进行细分,比如亚细亚洲可分为东亚、西亚、南亚、北亚、中亚、东南亚六个类别,以此类推;直至分类到不能再分为止,即为一个最底层的元素(即实例)。其他类别的构建过程类似。同时,针对本体中的每个实例,分别建立了对应的同义词、反义词、别名词等附加表;此外,针对区域信息本体中的实例,分别建立了电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑)、邻近域(东、南、西、北等方向的相邻同级域)、所在方位(相对上一级而言,比如中部、南部等)六个纬度的附加表,以备信息处理过程中使用。
(2)信息过滤
考虑到一个网站上可能存在和预定主题不相关的内容的情况,为了提高事件信息发现、预警的准确度,在对信息进行后续处理之前,首先对信息进行过滤-食品安全信息过滤。
食品安全信息过滤,即判断所采集的信息是否属于食品安全相关的信息。这里面需要考虑两个问题:信息范围、过滤规则。关于过滤规则,基于建立的食品安全事件信息本体,过程中主要考虑对象和结果两个纬度,具体的通过组合这两个纬度的本体实例的名称、属性等采取模式匹配的方法进行过滤;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配、实例名称同义反义匹配、实例名称别名匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果经过对标题信息过滤后,信息可以被归入食品安全信息类别,则对此信息的处理完毕;否则对信息的内容进行二次判断处理。
经过以上过滤步骤后的,参与到后续信息处理过程中的信息(即食品安全相关的非垃圾信息)相对质量较高,这为后续信息处理的准确提供了基础。
(3)对象信息发现
网页信息的对象信息发现即对象种类识别,即确定网页信息所描述的内容和何种对象有关(以及和何种事件因素有关、造成何种后果)等。其目的是结合网页信息中发现的区域信息、对象信息等尽可能唯一的确定事件。
为此,综合考虑识别的准确性、计算量和可操作性等问题,过程中采取了回归分析的方法进行。方法中采用的信息范围,是将每一网页的信息标题和内容综合在一起,并进行分词、去停用词、降维后形成该网页的特征向量(作为自变量)-其中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数;同样的,对和本体中对象、结果、关联者实例名称、属性匹配的词语权重乘以事先确定的倍数。针对每一对象种类,将上述网页的特征向量数据代入相应的logistic回归模型(事先以需要区分的种类和建立的样本集合为基础建立模型)中,据回归分析结果进行判断,此网页信息是否和此对象种类有关系。
其中,回归分析模型的建立方法为:基于整理、标注过的网页信息样本集合(事先建立并定期更新),将信息样本的标题、内容词语综合在一起并进行分词、去停用词、降维后形成特征向量(作为自变量)-其中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数;同样的,对和本体中对象、结果、关联者实例名称、属性匹配的词语权重乘以事先确定的倍数;同时对网页信息所属的对象类别进行标注(1表示属于此对象类别、0表示不属于此对象类别,作为因变量),以此为基础采用logistic方法建立针对各对象类别的回归分析模型。
(4)趋势追踪、事件预警
从实践的角度看,结合前述步骤中发现的区域信息、对象种类信息等,即可相对准确的确定发生的事件(即用属于上述两个纬度的信息的交集表示事件相关的信息)。
在网页信息的区域和对象种类要素识别的基础上,建立表示事件的特征参数-具体的采用和事件相关的信息页面数、页面浏览数、页面转发数、特定网站页面浏览数、特定域名下网站页面浏览数以及综合指数(通过加权的方法综合上述参数得到,权数通过德尔菲方法确定,但需保证权数之和为1)等表示事件的特征,并定期(比如每隔1小时)对特征参数进行计算处理。并根据时间的变化,综合分析这些事件特征参数的变化情况。
在上述事件趋势追踪的基础上,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择了一个月作为计算周期,也可据情况进行调整)进行比较,如果差值为正且绝对值大于一定的阈值(比如3倍的标准差,阈值事先设定),则对此事件进行预警初始化。
之后对此进行了预警初始化的事件进行追踪,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择预警初始化之前的一个月作为计算周期,也可据情况进行调整)进行比较,如果差值持续(比如24小时,事先确定)大于一定的阈值(比如3倍的标准差,阈值事先设定),则对此事件进行正式的预警。否则取消对此事件的预警初始化设置。
其中阈值的确定方法为:在收集事件各特征参数的历史(比如一年内)变化数据基础上,并结合经过确认的历史食品安全事件的发生时间、区域、规模等资料(可以从食品安全相关管理部门获得),计算事件各特征参数值和其之前一定时期内(比如一个月)的均值之间的差值形成变量-作为自变量,将表示特定性质食品安全事件是否发生(1表示发生、0表示未发生)的变量作为因变量,采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型。基于此模型,结合事件特征参数的历史变化趋势特点,选择可以使得因变量值为1的合适的自变量值作为阈值。
(6)事件结束判断
对正式预警的事件,在上述事件趋势追踪的基础上,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择了从预警开始日开始到计算日前一天为止作为计算周期,也可据情况进行调整)进行比较,如果差值为负且绝对值大于一定的阈值(比如3倍的标准差,阈值事先设定),则认为此事件结束。结束对此事件的预警。
(7)本体补充和修正
在事件信息发现、预警的整个过程中,构建的食品安全事件信息本体对信息过滤、信息发现等步骤的性能有着重要的影响。因此,考虑到互联网信息的分布变化特点,从持续提高方法效率的角度出发,需要定期对信息过滤、信息发现等过程的结果进行评估。并对本体中的不足诸如遗漏、错误等加以补充、修正,以提高方法后续的效率。
5.目标区域事件风险预测和预警
在特定事件出现在某些区域的情况下,定期计算目标区域(当前未发生)发生此事件的可能性以及可能的发生时间,并根据分析计算的结果进行不同级别的预警(如图5所示)。计算目标区域发生特定事件的可能性及可能的发生时间之前的模型(定期更新)建立过程为:
选择和目标区域(比如北京)同行政级别的区域(比如省级区域河北、河南等),在收集这些区域(含目标区域,设总数为R)经过确认的历史食品安全事件的发生时间、区域、规模等资料(可以从食品安全相关管理部门获得)基础上,形成特定食品安全事件在何地、何时发生的数据集合。以此为基础,按照一个区域是否发生特定事件的不同建立网络图,图的顶点是上述的各个区域、食品安全事件,如果一个区域发生了特定事件,则上述区域、事件标识的顶点之间产生一个边,并且边的权重为此种情况发生的次数。进一步,将网络图转换为一个R*S(R为区域数,S为食品安全事件数)的矩阵A(事先形成并定期更新)。
同时,按照目标区域发生特定事件的时间和最早发生相应事件的区域之间的发生时间之差的不同,设定N个时间范围(可以设定5个时间段,比如目标区域发生特定事件的时间距离最早发生该事件的时间为1天内、3天内、1周内、2周内、1月内5个时间段),分别对原始的数据集合进行标注(即分别标明在上述时间段中特定事件在各区域是否发生),分别形成N个(设定5个时间段的情况下,形成5个数据集合)数据集合(事先形成并定期更新)。在此基础上,将数据集合中目标区域在上述的时间范围内是否发生特定事件作为因变量(1表示发生,0表示未发生),其余区域是否发生相应事件作为自变量(1表示发生,0表示未发生),采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型(5个,用C1、C2、C3、C4、C5表示,事先形成并定期更新)。
在此基础上,计算目标区域发生特定事件的可能性及可能的发生时间的过程为:
根据当前发生特定事件的区域不同,更新矩阵A中的相应元素,之后对矩阵A采用矩阵分解的方法进行处理,形成新的矩阵B(比如采用svd方法,其处理过程为首先将矩阵A进行奇异值分解:A=TySyDy,其中Ty为R*F阵,Sy为F*F对角阵,Dy为F*S阵,F为矩阵A的秩;设定正整数K,0<K<F,仅考虑Sy中值最大的K个奇异值,据此取Sy中相应的K阶对角矩阵-设为SmTy中相应的K列-设为Tm、Dy中相应的K行-设为Dm;之后进行奇异值分解的反运算,B=TmSmDm,完成处理过程)。之后寻找矩阵B中标识目标区域和特定事件相关性的矩阵元素值,如果其大于事先设定的阈值,则即可确定目标区域可能会发生特定事件;否则,可确定目标区域可能不会发生特定事件。
如果根据上述的判断过程后确定目标区域会发生特定事件,那么根据目前发生特定事件的区域形成各自变量的值(1表示发生,0表示未发生),并代入上述的回归预测模型进行分析判断,判断顺序为按照C5、C4、C3、C2、C1的顺序依次进行。具体做法是如果按照C5判断的结果为真(会发生),则进行C4的判断;如果结果为假(不会发生,即1个月后可能发生),则停止判断。依此类推,直到判断结果为假或者全部判断完毕,从而得到目标区域可能发生此事件的时间(即最后一个判断结果为真的回归预测模型所代表的时间范围,比如如果C2模型是最后一个判断结果为真的模型,则可预测目标区域特定事件的发生时间可能在1天后3天内)。从而,可对目标区域发生特定事件的风险进行不同时间级别的预警。
6.结果展示和服务
在对目标区域特定事件是否发生、何时发生进行预测、预警分析的基础上,将分析得到的结果通过表格、图等的方式展示给用户。并提供短信息、邮件等即时送发的服务方式。
由此,完整地实现了从爬取得到的互联网信息中提取食品安全事件信息,并根据事件发展过程、目标区域的事件风险及时进行预警和为用户服务的全过程。过程中,通过采取垃圾信息过滤、区域信息发现、对象种类信息发现、趋势追踪及预警、风险预测及预警等技术保证了事件信息发现和预警、风险预测和预警的准确。这将为食品安全事件的风险预警、快速应急处理等提供重要的信息基础。
值得说明的是,本发明不仅可用于食品安全事件的应急管理,稍加改造,即可应用到其他的、能从互联网上获取事件信息的非常规突发事件的风险预警等应急处理工作中。

Claims (10)

1.一种基于互联网开放信息的事件发生风险预测并预警方法,其步骤为:
1)建立一食品安全事件信息本体,并对本体中的每个实例分别建立一附加表;
2)对爬取的网页信息进行垃圾过滤,得到非垃圾网页信息;
3)对过滤后的网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所述食品安全事件信息本体中区域维度的本体实例名称、属性采用模式匹配方法对解析后的网页信息进行处理,将网页信息归入匹配成功的区域;
4)对网页信息进行过滤,得到与食品安全相关的网页信息;然后针对每一设定的对象类别,利用回归分析模型对过滤后的网页信息进行处理,判断每一网页信息相关的对象类别;
5)根据步骤3)、4)确定出的网页信息所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续设定时间超过设定阈值则对该事件进行预警;
6)如果某区域出现一设定对象事件预警,基于矩阵分析和回归预测模型定期计算目标区域发生该设定对象事件的可能性以及可能的发生时间,并进行不同级别的风险预警;
其中,对网页信息中表示处所的词语进行解析的方法为:
a)对于地名代词,用一判断模型判断地名代词与其前面出现的地理名词之间是否存在指代关系,如果存在,则将地名代词替换为相应的地理名词;
b)基于标准词语和非标准词语对照表对词语中非标准地名词语进行解析,将非标准词语替换为标准词语;
c)基于所述食品安全事件信息本体中的区域维度,对词语中的相对位置区域信息进行解析,得到准确的地名词语;
其中,所述判断模型的建立方法为:将包含地名代词的网页信息形成一样本集合,并对样本集合中地名代词和其之前的地理名词之间的指代关系进行标注,作为类别变量;建立地名代词和其之前的地理名词之间关系的特征向量:然后选择机器学习方法基于所述样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型;
其中,判断地名代词与其前面出现的地理名词之间是否存在指代关系的方法为:计算地名代词和地理名词之间关系的特征向量值,利用所述判断模型对所述特征向量值进行判断,确定地名代词和地理名词之间的指代关系是否存在。
2.如权利要求1所述的方法,其特征在于对爬取的网页信息中的欺骗性垃圾意见进行过滤的方法为:
21)爬取所选用户生成内容信息源的网页,并根据爬取的网页建立一用户意见信息集合;对用户意见信息集合进行聚类,得到若干个信息区域,并计算每一信息区域中所有信息的特征向量均值,作为该信息区域的标志向量;
22)对每一信息区域中的用户意见信息进行样本抽样,得到每个信息区域的样本集合;
23)对每一信息区域的样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见样本集合和无标注意见信息样本集合;
24)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,基于该P个样本的类别标识、及其与该样本之间的相似度值,得到该样本的最终特征向量;
25)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立一欺骗性垃圾意见检测模型;
26)利用欺骗性垃圾意见检测模型对用户意见信息集合中的信息进行过滤。
3.如权利要求2所述的方法,其特征在于得到所述每个信息区域的样本集合的方法为:先对所述用户意见信息集合中确定为欺骗性垃圾意见的信息进行标注,建立一准确的欺骗性垃圾意见信息集合;然后对意见信息分区后,在样本抽样过程中对每一分区按照随机抽样的方法进行多次抽取,并根据所建欺骗性垃圾意见信息集合选择所抽取样本中欺骗性垃圾意见数最多的一次抽取为该分区的最终样本,得到每个信息区域的样本集合。
4.如权利要求2或3所述的方法,其特征在于对每一样本,以样本的内容和链接纬度的特征参数形成其初始特征向量,寻找各信息区域的样本集合中与其最相似的P个样本。
5.如权利要求2所述的方法,其特征在于利用欺骗性垃圾意见检测模型对用户意见信息集合中的信息进行过滤过程中,以意见信息和各信息区域的距离为基础建立加权系数,将每一欺骗性垃圾意见检测模型对用户意见信息的检测结果进行综合加权,得到最终的检测结果;根据最终的检测结果对用户意见信息进行标注。
6.如权利要求2所述的方法,其特征在于所述样本最终特征向量的计算方法为:
A)首先对抽取出来的样本意见信息内容进行分词,去掉停用词,并经过降维后形成内容特征向量Qj,j为样本编号;
B)计算样本意见信息的链接特征,并将各项链接特征进行加权计算得到总的数值,设为Lj
C)计算Mj=Lj*Qj,得到基于内容、链接的表征样本意见信息的初始特征向量Mj
D)对信息区域中的每一样本Sample,基于该样本的初始特征向量,计算其与各信息区域中每一样本信息的相似值,并将各样本信息按照相似值从大到小排序,得到其相似样本序列;
E)将样本序列中前P个样本信息的类别标识与对应相似值分别相乘,形成一个纬数为P的向量N,作为样本Sample的最终特征向量。
7.如权利要求2所述的方法,其特征在于定期对准确欺骗性垃圾意见信息集合和无标注的用户意见信息集合进行补充、更新,然后对更新后的用户意见信息集合进行聚类,计算每一信息区域当前标志向量与上一次标志向量之间的距离并求和得到累加值Dis,当Dis值大于事先设定的阈值时,更新每个信息区域的欺骗性垃圾意见检测模型。
8.如权利要求2所述的方法,其特征在于对用户意见信息集合进行聚类分析的特征向量为:提取意见信息的字数、词数、意见段落数、段落长度均值、句子数、句子长度均值、第一人称代词数、第二人称代词数、第三人称代词数、形容词数、副词数、动词数、人名数、地名数、机构名数、时间数、感叹号数、问号数以及标题字数,并对其进行归一化得到对用户意见信息集合进行聚类分析的特征向量。
9.如权利要求1所述的方法,其特征在于对网页信息中表示处所的地名代词进行解析的方法为:
91)建立一代词解析的长度为L的滑动窗口;
92)选择地名代词前L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤93);
93)选择地名代词前2L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤93);
94)根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
10.如权利要求1或2或9所述的方法,其特征在于计算目标区域发生该设定事件的可能性以及可能的发生时间,并进行不同级别的风险预警的方法为:
11)选择与目标区域同行政级别的区域的历史事件信息集合,基于该历史事件信息集合建立事件网络图;其中,事件网络图的顶点标识各个区域、食品安全事件,如果一个区域发生了某一事件,则标识该区域的顶点与标识该事件的顶点之间产生一个边,并且边的权重为该事件发生的次数;
12)将该事件网络图转换为一个R*S的矩阵A;其中,R为区域数,S为食品安全事件数;
13)基于上述的历史事件信息集合,按照目标区域发生设定事件距离最早发生该事件的时间不同,设定N个时间范围,针对每一时间范围分别对该历史事件信息集合进行标注,形成N个数据集合;
14)对上述每一数据集合,将目标区域在相应时间范围内是否发生设定事件作为因变量,其余区域是否发生相应事件作为自变量,采用回归分析方法分别建立自变量、因变量之间的回归预测模型;
15)更新矩阵A中的相应元素,对矩阵A采用矩阵分解方法进行处理,形成新的矩阵B;
16)寻找矩阵B中标识目标区域和设定事件相关性的矩阵元素值,如果其大于事先设定的阈值,则确定目标区域可能会发生该设定事件;否则,不会发生该设定事件;
17)如果确定目标区域未来会发生该设定事件,则根据目前发生该设定事件的区域得到自变量的值,代入上述回归预测模型进行判断,根据判断结果得到目标区域可能发生设定事件的时间预测值;
18)根据上述的风险预测结果,对目标区域发生设定事件的风险进行不同级别的预警。
CN201210501872.7A 2012-11-29 2012-11-29 一种基于互联网开放信息的事件发生风险预测并预警方法 Active CN103854063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210501872.7A CN103854063B (zh) 2012-11-29 2012-11-29 一种基于互联网开放信息的事件发生风险预测并预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210501872.7A CN103854063B (zh) 2012-11-29 2012-11-29 一种基于互联网开放信息的事件发生风险预测并预警方法

Publications (2)

Publication Number Publication Date
CN103854063A CN103854063A (zh) 2014-06-11
CN103854063B true CN103854063B (zh) 2017-04-05

Family

ID=50861693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210501872.7A Active CN103854063B (zh) 2012-11-29 2012-11-29 一种基于互联网开放信息的事件发生风险预测并预警方法

Country Status (1)

Country Link
CN (1) CN103854063B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123368B (zh) * 2014-07-24 2017-06-13 中国软件与技术服务股份有限公司 基于聚类的大数据属性重要性和辨识度的预警方法及***
CN104156402B (zh) * 2014-07-24 2017-06-13 中国软件与技术服务股份有限公司 一种基于聚类的常态模式提取方法及***
CN104142986B (zh) * 2014-07-24 2017-08-04 中国软件与技术服务股份有限公司 一种基于聚类的大数据态势分析预警方法及***
CN106548189B (zh) * 2015-09-18 2019-06-21 阿里巴巴集团控股有限公司 一种事件识别方法和设备
CN107025596B (zh) * 2016-02-01 2021-07-16 腾讯科技(深圳)有限公司 一种风险评估方法和***
CN107247742A (zh) * 2017-05-17 2017-10-13 武汉工程大学 一种基于网页特征的正文信息抽取方法
CN110334720A (zh) * 2018-03-30 2019-10-15 百度在线网络技术(北京)有限公司 业务数据的特征提取方法、装置、服务器和存储介质
CN110086829B (zh) * 2019-05-14 2021-06-22 四川长虹电器股份有限公司 一种基于机器学习技术进行物联网异常行为检测的方法
CN110457595B (zh) * 2019-08-01 2023-07-04 腾讯科技(深圳)有限公司 突发事件报警方法、装置、***、电子设备及存储介质
CN113051573B (zh) * 2021-02-19 2021-11-02 广州银汉科技有限公司 一种基于大数据的主机安全实时监控警报***
CN113051315B (zh) * 2021-03-26 2022-08-19 中国气象局公共气象服务中心(国家预警信息发布中心) 一种突发事件预警信息的信息量测算***
CN114565196B (zh) * 2022-04-28 2022-07-29 北京零点远景网络科技有限公司 基于政务热线的多事件趋势预判方法、装置、设备及介质
CN117131944B (zh) * 2023-10-24 2024-01-12 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
JP2010128806A (ja) * 2008-11-27 2010-06-10 Hitachi Ltd 情報分析装置
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控***及方法
CN102193951A (zh) * 2010-03-19 2011-09-21 华为技术有限公司 信息抽取的方法及***
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和***
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测***及其工作方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088794A1 (en) * 2005-09-27 2007-04-19 Cymer, Inc. Web-based method for information services

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128806A (ja) * 2008-11-27 2010-06-10 Hitachi Ltd 情報分析装置
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控***及方法
CN102193951A (zh) * 2010-03-19 2011-09-21 华为技术有限公司 信息抽取的方法及***
CN102567393A (zh) * 2010-12-21 2012-07-11 北大方正集团有限公司 一种处理舆情话题的方法、装置和***
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测***及其工作方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
用户生成内容中垃圾意见研究综述;杨风雷 等;《计算机应用研究》;20111031;第28卷(第10期);全文 *

Also Published As

Publication number Publication date
CN103854063A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN103854063B (zh) 一种基于互联网开放信息的事件发生风险预测并预警方法
CN103854064B (zh) 一种面向特定区域的事件发生风险预测并预警方法
CN103176981B (zh) 一种事件信息挖掘并预警的方法
Bozarth et al. Toward a better performance evaluation framework for fake news classification
CN103853700B (zh) 一种基于区域和对象信息发现的事件预警方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN103853744B (zh) 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN105005594B (zh) 异常微博用户识别方法
CN105138570B (zh) 网络言论数据疑似犯罪度计算方法
Kalampokis et al. Combining social and government open data for participatory decision-making
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN106940732A (zh) 一种面向微博的疑似水军发现方法
CN103176984B (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN101394311A (zh) 一种基于时间序列的网络舆情预测方法
CN102946331A (zh) 一种社交网络僵尸用户检测方法及装置
Yamak et al. Detection of multiple identity manipulation in collaborative projects
Petroni et al. An extensible event extraction system with cross-media event resolution
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
Hofmann et al. The reddit politosphere: a large-scale text and network resource of online political discourse
Ruffo et al. Surveying the research on fake news in social media: a tale of networks and language
Cao et al. Fake reviewer group detection in online review systems
Sharma et al. Going beyond content richness: Verified information aware summarization of crisis-related microblogs
Abu Talha et al. Scrutinize artificial intelligence algorithms for Pakistani and Indian parody tweets detection
Mouty et al. Survey on steps of truth detection on Arabic tweets
Arafat et al. Popularity prediction of online news item based on social media response

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant