发明内容
由于传统的特征词过滤方法面对互联网海量文本,缺乏有效的语义约束,容易造成错判、漏判,无法准确检测出需要进行关注的舆情事件的问题,本发明提出一种舆情事件检测方法及装置。
第一方面,本发明提出一种舆情事件检测方法,包括:
获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
优选地,所述获取待检测文本的特征词向量之前包括:
根据网页内容构建所述语义知识库。
优选地,所述网页内容存储在xml格式文件中。
优选地,所述网页内容为***。
优选地,所述根据网页内容构建所述语义知识库之后包括:
根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
第二方面,本发明还提出一种舆情事件检测装置,包括:
特征词向量获取模块,用于获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
对应向量获取模块,用于从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
相似度计算模块,用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
事件检测模块,用于获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量;根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
优选地,还包括:
语义知识库构建模块,用于根据网页内容构建所述语义知识库。
优选地,所述网页内容存储在xml格式文件中。
优选地,所述网页内容为***。
优选地,还包括:
敏感词库建立模块,用于根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
由上述技术方案可知,本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题,大大降低错判和漏判的概率。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的一种舆情事件检测方法的流程示意图,包括:
S101、获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
S102、从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
S103、计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
S104、获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
其中,当所述特征词向量的元素对应的特征词为敏感词时,可将对应元素设为0。
本实施例通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题,大大降低错判和漏判的概率。
作为本实施例的可选方案,步骤S101之前包括:
S100、根据网页内容构建所述语义知识库。
通过构建语义知识库,对舆情敏感词进行歧义标注,为分析检测舆情事件提供语义支撑,为待检测文本中的敏感词找到正确的含义提供依据。由于舆情特征词往往是对舆情的直接体现,但是舆情特征词在不同的语境却可以表示不同的含义,因此,该类具有歧义的舆情特征词往往给文本过滤预处理带来假阳性问题。因此,通过借助该语义知识库准确给出其描述可识别出其在具体语境中所表达的意思。
其中,对于语义知识库中存储的特征词对应的向量,是通过对分词预处理后的文本利用深度学习工具word2vec进行训练得到的。对每个分词(即为待检测文本中的特征词),都可以用一定维数的向量将其有效表示。如下表所示
具体地,所述网页内容存储在xml格式文件中。
举例来说,所述网页内容为***。
***(Wikipedia)是规模最大的在线网络百科全书之一,采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。特别针对***中的歧义词,人工标注反映舆情特征的义项,为后续预警分析提供支持。以xml格式的***语料作为输入,从中提取词的描述内容,分析是否为歧义词和重定向词、是否需要繁简转换,保留摘要介绍部分,同时对敏感特征词进行标注。
借助***强大的语义知识,可自动增加舆情敏感词,扩大舆情事件的表征范围,从而辅助用户更好地把握舆情动向,制定相关对策予以应对。
进一步地,步骤S100之后包括:
S1001、根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
其中,对待检测文本进行处理时,可以以分句为处理单位,对敏感词进行处理。具体处理时,将待检测文本分句的特征词向量中的特征词与语义知识库中特征词对应的向量相匹配,通过计算不同特征词的义项之间的相似度以及与待检测文本的相似度,相似度越高说明该义项越贴近其在文本中的真实含义,则选取该义项与敏感词相配,利用最优化方法获取目标函数最大值时各歧义词在文本中的准确含义。计算公式如下:
maxf(wi)
f(wi)=f(wi+1)+Sim(wi,wi+1)+Sim(wi,doci)
s.t.
wi∈{v1,v2…,vm}
doci=(w1,w2,…,wn),wi=0
其中:wi表示待检测文本中的特征词,f(wi)表示词wi到句子结尾词的语义相似度值,doci是文本去除敏感词后的向量表示,即相应位置的元素置为0;v1,v2……是特征词对应的向量,若该词为非歧义词,则有一个向量表示,反之,有多个向量表示;Sim(wi,wi+1)是计算相邻敏感词相似度的函数,Sim(wi,doci)是计算敏感词与文本的相似度的函数。由于词与文本均用词向量来表示,相似度计算函数可采用余弦相似度计算方法。
举例来说,根据待检测文本检测舆情事件时,如图2所示,可先对待检测文本进行分词和去停用词操作,其中,分词是指将待检测文本中的句子分成多个特征词,去停用词是指删去待检测文本中的停用词,如“同时”、“另外”等。
然后,利用word2vec从语义知识库和敏感词库中获取待检测文本中敏感义项的向量,便于后续针对待检测文本的句子中的相邻词进行相似度计算;
接着,利用每个特征词的敏感义项向量与其他特征词对应的向量及待检测文本的特征词向量进行相似度计算,取相似度最大值时各敏感义项的含义,从而获取与其他词及待检测文本都能合理搭配的敏感义项,确定该特征词在待检测文本中的具体含义;
最后,对文本中的命名实体及敏感义项进行权重求和,大于一定阈值则判定为需要预警的舆情事件。其中,命名实体是指待检测文本中特征词的数量。
本实施例利用特征词的不同义项和待检测文本中所有特征词的信息标注进行有监督学习的语义识别。能够避免仅仅依靠关键词匹配对舆情事件进行错误检测的弊端,从而准确识别舆情事件,对需要预警的舆情事件进行预警提示。
图3示出了本发明一实施例提供的一种舆情事件检测装置的结构示意图,包括:
特征词向量获取模块31,用于获取待检测文本的特征词向量,所述特征词向量的元素表示待检测文本中对应的特征词是否出现;
对应向量获取模块32,用于从语义知识库中获取所有特征词对应的向量,并从敏感词库获取敏感义项向量,所述特征词对应的向量的元素包括当前特征词、当前特征词是否包含敏感义项、当前特征词的当前义项和当前特征词对应的特征词向量,所述敏感义项向量表示当前特征词对应的向量中的义项为当前敏感义项;
相似度计算模块33,用于计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,其中,所述所有特征词对应的特征词向量包括所有敏感义项向量;
事件检测模块34,用于获取相似度最大时对应的第一敏感义项,并获取待检测文本中所述第一敏感义项的数量和待检测文本中特征词的数量;根据第一预设权值和第二预设权值,计算所述第一敏感义项的数量和所述特征词的数量的加权和,当所述加权和大于阈值时确定待检测文本中描述的事件为舆情事件。
本实施例通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题,大大降低错判和漏判的概率。
作为本实施例的可选方案,还包括:
语义知识库构建模块,用于根据网页内容构建所述语义知识库。
具体地,所述网页内容存储在xml格式文件中。
举例来说,所述网页内容为***。
进一步地,还包括:
敏感词库建立模块,用于根据所述语义知识库和预设特征词的敏感义项建立敏感词库。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。