CN108874852A

CN108874852A - 一种舆情信息中的个性化垃圾信息过滤方法及***

Info

Publication number: CN108874852A
Application number: CN201810229800.9A
Authority: CN
Inventors: 齐保元; 李鹏; 王斌; 周美林
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-11-23

Abstract

本发明提供一种舆情信息中的个性化垃圾信息过滤方法及***，该方法的步骤包括：基于通用词库和用户个性化词库，构建内存索引库；对含有舆情信息的原始文档进行分词处理，去除停用词；根据所述内存索引库，对经过上述处理的文档进行识别，识别出垃圾信息和非垃圾信息；将上述非垃圾信息输入到可更新的信息分类模型中，进一步识别出垃圾信息和非垃圾信息；基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料，对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记，生成训练集，用来更新所述信息分类模型。

Description

一种舆情信息中的个性化垃圾信息过滤方法及***

技术领域

本发明涉及网络信息处理技术领域，特别是涉及互联网舆情信息中的个性化垃圾过滤方法及***。

背景技术

互联网舆情信息监测涉及到海量的数据信息，而对于其中的垃圾信息，过滤具有重要的作用。首先，垃圾信息过滤有助于获取有效信息，去除无效信息；其次，对于垃圾信息的过滤，可以减轻***检索压力，减小数据规模。

现有技术存在的问题，是对于大规模舆情信息的处理中垃圾信息过滤中的不足，较长的处理时间，模型的更新较慢，无法快速捕获垃圾信息的变异特征，用户难以定制个性化的垃圾过滤机制。

发明内容

鉴于现有技术不足，本发明目的是提出一种舆情信息中的个性化垃圾信息过滤方法及***。

为达到上述目的，本发明采用如下技术方案：

一种舆情信息中的个性化垃圾信息过滤方法，其步骤包括：

基于通用词库和用户个性化词库，构建内存索引库；

对含有舆情信息的原始文档进行分词处理，去除停用词；

根据所述内存索引库，对经过上述处理的文档进行识别，识别出垃圾信息和非垃圾信息；

将上述非垃圾信息输入到可更新的信息分类模型中，进一步识别出垃圾信息和非垃圾信息；

基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料，对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记，生成训练集，用来更新所述信息分类模型。

进一步地，所述通用词库和用户个性化词库均包括垃圾词词典和非垃圾词词典。

进一步地，所述通用垃圾识别标注语料和用户个性化垃圾识别标注语料包括含有是否为垃圾信息标记的原始文档。

进一步地，将所述训练集输入到所述用户个性化垃圾识别标注语料中进行更新。

进一步地，所述内存索引库采用倒排方式。

进一步地，所述分词采用基于条件随机场的分词方法。

进一步地，所述停用词为无实体含义的虚词。

进一步地，所述信息分类模型包括贝叶斯模型。

进一步地，初次使用所述信息分类模型时，先基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料对含有舆情信息的原始文档进行垃圾信息和非垃圾信息的标记，从非垃圾信息中提取有用词及其词序组成的特征，来训练所述信息分类模型。

一种舆情信息中的个性化垃圾信息过滤***，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述方法中各步骤的指令。

本发明的技术效果是：1)由于将词库和语料提前储存，构建倒序方式的内存索引库，能够及时低调用、识别和标记，采用更少的处理时间，具备实时的处理能力；2)采用快速的更新机制，及时生成训练集，对信息分类模型进行更新，能够更快地对垃圾信息的特征机制进行识别；3)基于用户个性化词库和用户个性化垃圾识别标注语料的个性化信息配置机制，用户可以对垃圾信息特征进行个性化制定，能够灵活地对结果进行矫正，进一步提升垃圾信息的过滤效果。

附图说明

图1一种舆情信息中的个性化垃圾信息过滤方法流程框架图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种舆情信息中的个性化垃圾信息过滤方法及实现该方法的***，如图1所示，分为以下五个主要阶段：

1、数据准备：数据准备是指将***中需要的资源进行预处理，包含以下步骤：

步骤1：添加通用词库和用户个性化词库。通用词库数据来源于互联网开放数据以及***人员的初始设定，对所有用户均可见并在预测阶段发挥作用。用户个性化词库是由特定的用户设置，并只对当前用户可见并发挥作用。这些词库包含垃圾词词典以及非垃圾词词典。

步骤2：添加通用垃圾识别标注语料和用户个性化垃圾识别标注语料。通用垃圾识别标注语料来源于互联网开放数据以及***人员的初始设定，对所有用户均可见并在预测阶段发挥作用。用户个性化垃圾识别标注语料是由特定的用户设置，并只对当前用户可见并发挥作用。这些语料包含含有是否为垃圾信息标记的舆情信息原始文档。

步骤3：数据持久化。将通用词库和用户个性化词库以及通用垃圾识别标注语料和用户个性化垃圾识别标注语料进行分类存储，以备***进行调用读取。

2、基于词库资源的垃圾信息过滤，通用词库和用户个性化词库对输入的舆情文档进行垃圾信息识别与过滤。包含以下步骤：

步骤1：对通用词库和用户个性化词库创建内存索引。***分别读取通用词库和用户个性化词库，通过建立倒排的方式建立内存索引库。因为词库资源一般数量较小，并且不容易发生变化，因此索引维护更容易、更新速度更快，而传统的基于海量文档的索引方式更新缓慢，并且对资源的占用消耗很大。

步骤2：接收原始文档输入，这里的原始文档是指含舆情信息的文档，可以由用户指定文档或者***自动传送过来的文档。

步骤3：对接收的原始文档进行分词处理，去除停用词，得到由词及其词序组成的文档。这分词采用分词工具，基于条件随机场的分词方法，分词结果不包含词性。该分词方法支持用户导入自定义的词典，因此词库资源需要在分词之前加载到分词器中。停用词是大量出现且对文档意义不大的虚词，例如“了”“的”等词，可由用户自定义。

步骤4：通过内存检索识别垃圾信息。对经过步骤3处理的原始文档，在步骤1得到的内存索引库上进行检索，得到检索的结果。此处的结果是一个0或者1的数字，其中0表示为非垃圾信息，1表示为垃圾信息。

3、基于可更新的贝叶斯模型的个性化垃圾信息过滤。

步骤1：特征提取。对一定数量的原始文档进行特征提取，主要是将这些文档进行分词、去除停用词处理，再基于通用词库和用户个性化词库的垃圾信息识别，再进行基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料的人工标记，转化成由词按原先顺序的组合方式，这些词组作为训练的输入特征，即训练集。

步骤2：建立可更新的贝叶斯模型。贝叶斯模型是数据挖掘中进行分类的重要的信息分类模型，尤其在文本挖掘方面具有较广的应用范围，通过该模型可以对垃圾信息和非垃圾信心进行分类。基于上述提取的特征，对初建的贝叶斯模型进行训练。为便于用户随时人为对数据进行是否为垃圾信息的标记，该贝叶斯模型采用动态可更新的形式，对用户标记的数据进行自动更新，提高信息过滤的准确率。需说明的是，本发明不限于该贝叶斯模型，其它支持增量更新的信息分类模型也是可以的。

步骤3：基于本模型的垃圾信息过滤阶段。含舆情信息的原始文档经过上述基于词库资源进行垃圾信息过滤，识别出垃圾信息和非垃圾信息。为了在准确度和适应度两个方面提高对垃圾信息过滤的效果，对识别的非垃圾信息做进一步的处理，即输入到该贝叶斯模型中，进一步识别出垃圾信息和非垃圾信息，作为最终的垃圾信息过滤结果。

4、自动标记更新训练集阶段

对经过上述模型过滤得到的垃圾信息和非垃圾信息，再经过基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料的标记，即标记为“垃圾”“非垃圾”，生成新的训练数据，更新训练集，对模型进行再次训练更新。该标记可以自动进行，可以进行人工监督，通过调整用户个性化垃圾识别标注语料来输出更好的结果，提高训练数据的质量。

5、模型自动更新阶段

自动触发模型预更新训练，自动触发的条件可以是训练数据到达一定量时，如此可以避免频繁更新的运行负担。自动更新后的模型会进行准确度测试，如果准确度高于先前模型，则将该模型替换先前模型，即允许模型正式更新，并将所述训练数据输入到所述用户个性化垃圾识别标注语料中进行更新，否则，放弃本次更新。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种舆情信息中的个性化垃圾信息过滤方法，其步骤包括：

基于通用词库和用户个性化词库，构建内存索引库；

对含有舆情信息的原始文档进行分词处理，去除停用词；

2.根据权利要求1所述的方法，其特征在于，所述通用词库和用户个性化词库均包括垃圾词词典和非垃圾词词典。

3.根据权利要求1所述的方法，其特征在于，所述通用垃圾识别标注语料和用户个性化垃圾识别标注语料包括含有是否为垃圾信息标记的原始文档。

4.根据权利要求1所述的方法，其特征在于，将所述训练集输入到所述用户个性化垃圾识别标注语料中进行更新。

5.根据权利要求1所述的方法，其特征在于，所述内存索引库采用倒排方式。

6.根据权利要求1所述的方法，其特征在于，所述分词采用基于条件随机场的分词方法。

7.根据权利要求1所述的方法，其特征在于，所述停用词为无实体含义的虚词。

8.根据权利要求1所述的方法，其特征在于，所述信息分类模型包括贝叶斯模型。

9.根据权利要求1所述的方法，其特征在于，初次使用所述信息分类模型时，先基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料对含有舆情信息的原始文档进行垃圾信息和非垃圾信息的标记，从非垃圾信息中提取有用词及其词序组成的特征，来训练所述信息分类模型。

10.一种舆情信息中的个性化垃圾信息过滤***，包括存储器和处理器，所述存储器存储计算机程序，所述程序被配置为由所述处理器执行，所述程序包括用于执行上述权利要求1-9任一所述方法的各步骤的指令。