CN108874852A - 一种舆情信息中的个性化垃圾信息过滤方法及*** - Google Patents
一种舆情信息中的个性化垃圾信息过滤方法及*** Download PDFInfo
- Publication number
- CN108874852A CN108874852A CN201810229800.9A CN201810229800A CN108874852A CN 108874852 A CN108874852 A CN 108874852A CN 201810229800 A CN201810229800 A CN 201810229800A CN 108874852 A CN108874852 A CN 108874852A
- Authority
- CN
- China
- Prior art keywords
- information
- rubbish
- spam
- junk
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种舆情信息中的个性化垃圾信息过滤方法及***,该方法的步骤包括:基于通用词库和用户个性化词库,构建内存索引库;对含有舆情信息的原始文档进行分词处理,去除停用词;根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。
Description
技术领域
本发明涉及网络信息处理技术领域,特别是涉及互联网舆情信息中的个性化垃圾过滤方法及***。
背景技术
互联网舆情信息监测涉及到海量的数据信息,而对于其中的垃圾信息,过滤具有重要的作用。首先,垃圾信息过滤有助于获取有效信息,去除无效信息;其次,对于垃圾信息的过滤,可以减轻***检索压力,减小数据规模。
现有技术存在的问题,是对于大规模舆情信息的处理中垃圾信息过滤中的不足,较长的处理时间,模型的更新较慢,无法快速捕获垃圾信息的变异特征,用户难以定制个性化的垃圾过滤机制。
发明内容
鉴于现有技术不足,本发明目的是提出一种舆情信息中的个性化垃圾信息过滤方法及***。
为达到上述目的,本发明采用如下技术方案:
一种舆情信息中的个性化垃圾信息过滤方法,其步骤包括:
基于通用词库和用户个性化词库,构建内存索引库;
对含有舆情信息的原始文档进行分词处理,去除停用词;
根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;
将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;
基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。
进一步地,所述通用词库和用户个性化词库均包括垃圾词词典和非垃圾词词典。
进一步地,所述通用垃圾识别标注语料和用户个性化垃圾识别标注语料包括含有是否为垃圾信息标记的原始文档。
进一步地,将所述训练集输入到所述用户个性化垃圾识别标注语料中进行更新。
进一步地,所述内存索引库采用倒排方式。
进一步地,所述分词采用基于条件随机场的分词方法。
进一步地,所述停用词为无实体含义的虚词。
进一步地,所述信息分类模型包括贝叶斯模型。
进一步地,初次使用所述信息分类模型时,先基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料对含有舆情信息的原始文档进行垃圾信息和非垃圾信息的标记,从非垃圾信息中提取有用词及其词序组成的特征,来训练所述信息分类模型。
一种舆情信息中的个性化垃圾信息过滤***,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述方法中各步骤的指令。
本发明的技术效果是:1)由于将词库和语料提前储存,构建倒序方式的内存索引库,能够及时低调用、识别和标记,采用更少的处理时间,具备实时的处理能力;2)采用快速的更新机制,及时生成训练集,对信息分类模型进行更新,能够更快地对垃圾信息的特征机制进行识别;3)基于用户个性化词库和用户个性化垃圾识别标注语料的个性化信息配置机制,用户可以对垃圾信息特征进行个性化制定,能够灵活地对结果进行矫正,进一步提升垃圾信息的过滤效果。
附图说明
图1一种舆情信息中的个性化垃圾信息过滤方法流程框架图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提供一种舆情信息中的个性化垃圾信息过滤方法及实现该方法的***,如图1所示,分为以下五个主要阶段:
1、数据准备:数据准备是指将***中需要的资源进行预处理,包含以下步骤:
步骤1:添加通用词库和用户个性化词库。通用词库数据来源于互联网开放数据以及***人员的初始设定,对所有用户均可见并在预测阶段发挥作用。用户个性化词库是由特定的用户设置,并只对当前用户可见并发挥作用。这些词库包含垃圾词词典以及非垃圾词词典。
步骤2:添加通用垃圾识别标注语料和用户个性化垃圾识别标注语料。通用垃圾识别标注语料来源于互联网开放数据以及***人员的初始设定,对所有用户均可见并在预测阶段发挥作用。用户个性化垃圾识别标注语料是由特定的用户设置,并只对当前用户可见并发挥作用。这些语料包含含有是否为垃圾信息标记的舆情信息原始文档。
步骤3:数据持久化。将通用词库和用户个性化词库以及通用垃圾识别标注语料和用户个性化垃圾识别标注语料进行分类存储,以备***进行调用读取。
2、基于词库资源的垃圾信息过滤,通用词库和用户个性化词库对输入的舆情文档进行垃圾信息识别与过滤。包含以下步骤:
步骤1:对通用词库和用户个性化词库创建内存索引。***分别读取通用词库和用户个性化词库,通过建立倒排的方式建立内存索引库。因为词库资源一般数量较小,并且不容易发生变化,因此索引维护更容易、更新速度更快,而传统的基于海量文档的索引方式更新缓慢,并且对资源的占用消耗很大。
步骤2:接收原始文档输入,这里的原始文档是指含舆情信息的文档,可以由用户指定文档或者***自动传送过来的文档。
步骤3:对接收的原始文档进行分词处理,去除停用词,得到由词及其词序组成的文档。这分词采用分词工具,基于条件随机场的分词方法,分词结果不包含词性。该分词方法支持用户导入自定义的词典,因此词库资源需要在分词之前加载到分词器中。停用词是大量出现且对文档意义不大的虚词,例如“了”“的”等词,可由用户自定义。
步骤4:通过内存检索识别垃圾信息。对经过步骤3处理的原始文档,在步骤1得到的内存索引库上进行检索,得到检索的结果。此处的结果是一个0或者1的数字,其中0表示为非垃圾信息,1表示为垃圾信息。
3、基于可更新的贝叶斯模型的个性化垃圾信息过滤。
步骤1:特征提取。对一定数量的原始文档进行特征提取,主要是将这些文档进行分词、去除停用词处理,再基于通用词库和用户个性化词库的垃圾信息识别,再进行基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料的人工标记,转化成由词按原先顺序的组合方式,这些词组作为训练的输入特征,即训练集。
步骤2:建立可更新的贝叶斯模型。贝叶斯模型是数据挖掘中进行分类的重要的信息分类模型,尤其在文本挖掘方面具有较广的应用范围,通过该模型可以对垃圾信息和非垃圾信心进行分类。基于上述提取的特征,对初建的贝叶斯模型进行训练。为便于用户随时人为对数据进行是否为垃圾信息的标记,该贝叶斯模型采用动态可更新的形式,对用户标记的数据进行自动更新,提高信息过滤的准确率。需说明的是,本发明不限于该贝叶斯模型,其它支持增量更新的信息分类模型也是可以的。
步骤3:基于本模型的垃圾信息过滤阶段。含舆情信息的原始文档经过上述基于词库资源进行垃圾信息过滤,识别出垃圾信息和非垃圾信息。为了在准确度和适应度两个方面提高对垃圾信息过滤的效果,对识别的非垃圾信息做进一步的处理,即输入到该贝叶斯模型中,进一步识别出垃圾信息和非垃圾信息,作为最终的垃圾信息过滤结果。
4、自动标记更新训练集阶段
对经过上述模型过滤得到的垃圾信息和非垃圾信息,再经过基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料的标记,即标记为“垃圾”“非垃圾”,生成新的训练数据,更新训练集,对模型进行再次训练更新。该标记可以自动进行,可以进行人工监督,通过调整用户个性化垃圾识别标注语料来输出更好的结果,提高训练数据的质量。
5、模型自动更新阶段
自动触发模型预更新训练,自动触发的条件可以是训练数据到达一定量时,如此可以避免频繁更新的运行负担。自动更新后的模型会进行准确度测试,如果准确度高于先前模型,则将该模型替换先前模型,即允许模型正式更新,并将所述训练数据输入到所述用户个性化垃圾识别标注语料中进行更新,否则,放弃本次更新。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种舆情信息中的个性化垃圾信息过滤方法,其步骤包括:
基于通用词库和用户个性化词库,构建内存索引库;
对含有舆情信息的原始文档进行分词处理,去除停用词;
根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;
将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;
基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。
2.根据权利要求1所述的方法,其特征在于,所述通用词库和用户个性化词库均包括垃圾词词典和非垃圾词词典。
3.根据权利要求1所述的方法,其特征在于,所述通用垃圾识别标注语料和用户个性化垃圾识别标注语料包括含有是否为垃圾信息标记的原始文档。
4.根据权利要求1所述的方法,其特征在于,将所述训练集输入到所述用户个性化垃圾识别标注语料中进行更新。
5.根据权利要求1所述的方法,其特征在于,所述内存索引库采用倒排方式。
6.根据权利要求1所述的方法,其特征在于,所述分词采用基于条件随机场的分词方法。
7.根据权利要求1所述的方法,其特征在于,所述停用词为无实体含义的虚词。
8.根据权利要求1所述的方法,其特征在于,所述信息分类模型包括贝叶斯模型。
9.根据权利要求1所述的方法,其特征在于,初次使用所述信息分类模型时,先基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料对含有舆情信息的原始文档进行垃圾信息和非垃圾信息的标记,从非垃圾信息中提取有用词及其词序组成的特征,来训练所述信息分类模型。
10.一种舆情信息中的个性化垃圾信息过滤***,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述权利要求1-9任一所述方法的各步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810229800.9A CN108874852A (zh) | 2018-03-20 | 2018-03-20 | 一种舆情信息中的个性化垃圾信息过滤方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810229800.9A CN108874852A (zh) | 2018-03-20 | 2018-03-20 | 一种舆情信息中的个性化垃圾信息过滤方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108874852A true CN108874852A (zh) | 2018-11-23 |
Family
ID=64326081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810229800.9A Pending CN108874852A (zh) | 2018-03-20 | 2018-03-20 | 一种舆情信息中的个性化垃圾信息过滤方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108874852A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413771A (zh) * | 2019-06-18 | 2019-11-05 | 平安科技(深圳)有限公司 | 基于solr的分类索引方法、装置、设备及存储介质 |
CN111354342A (zh) * | 2020-02-28 | 2020-06-30 | 科大讯飞股份有限公司 | 一种个性化词库的更新方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6650777B1 (en) * | 1999-07-12 | 2003-11-18 | Novell, Inc. | Searching and filtering content streams using contour transformations |
CN103778225A (zh) * | 2014-01-23 | 2014-05-07 | 北京奇虎科技有限公司 | 广告营销类语言信息的处理方法、识别装置及*** |
CN103996130A (zh) * | 2014-04-29 | 2014-08-20 | 北京京东尚科信息技术有限公司 | 一种商品评价信息过滤方法及*** |
CN104794125A (zh) * | 2014-01-20 | 2015-07-22 | 中国科学院深圳先进技术研究院 | 一种垃圾短信的识别方法及装置 |
CN107515852A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 特定类型信息识别方法及装置 |
CN107515873A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种垃圾信息识别方法及设备 |
-
2018
- 2018-03-20 CN CN201810229800.9A patent/CN108874852A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6650777B1 (en) * | 1999-07-12 | 2003-11-18 | Novell, Inc. | Searching and filtering content streams using contour transformations |
CN104794125A (zh) * | 2014-01-20 | 2015-07-22 | 中国科学院深圳先进技术研究院 | 一种垃圾短信的识别方法及装置 |
CN103778225A (zh) * | 2014-01-23 | 2014-05-07 | 北京奇虎科技有限公司 | 广告营销类语言信息的处理方法、识别装置及*** |
CN103996130A (zh) * | 2014-04-29 | 2014-08-20 | 北京京东尚科信息技术有限公司 | 一种商品评价信息过滤方法及*** |
CN107515852A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 特定类型信息识别方法及装置 |
CN107515873A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种垃圾信息识别方法及设备 |
Non-Patent Citations (1)
Title |
---|
张帆: ""贝叶斯算法在校园留言板垃圾过滤中的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413771A (zh) * | 2019-06-18 | 2019-11-05 | 平安科技(深圳)有限公司 | 基于solr的分类索引方法、装置、设备及存储介质 |
CN111354342A (zh) * | 2020-02-28 | 2020-06-30 | 科大讯飞股份有限公司 | 一种个性化词库的更新方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN105740349B (zh) | 一种结合Doc2vec和卷积神经网络的情感分类方法 | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN110019770A (zh) | 训练分类模型的方法与装置 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN109933796A (zh) | 一种公告文本关键信息提取方法及设备 | |
CN104679738A (zh) | 互联网热词挖掘方法及装置 | |
CN109886270A (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN105740229A (zh) | 关键词提取的方法及装置 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN106354818A (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN103246603A (zh) | 一种缺陷跟踪***的软件缺陷报告自动分发方法 | |
CN110457711A (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN105677795A (zh) | 抽象语义的推荐方法、推荐装置及推荐*** | |
CN110083832A (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN103631874A (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN107590119B (zh) | 人物属性信息抽取方法及装置 | |
CN107704869B (zh) | 一种语料数据抽样方法及模型训练方法 | |
CN109902284A (zh) | 基于论辩挖掘的一种无监督论点提取方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN108874852A (zh) | 一种舆情信息中的个性化垃圾信息过滤方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181123 |
|
WD01 | Invention patent application deemed withdrawn after publication |