CN102693236A - 基于内容理解的不良信息过滤方法 - Google Patents

基于内容理解的不良信息过滤方法 Download PDF

Info

Publication number
CN102693236A
CN102693236A CN2011100712318A CN201110071231A CN102693236A CN 102693236 A CN102693236 A CN 102693236A CN 2011100712318 A CN2011100712318 A CN 2011100712318A CN 201110071231 A CN201110071231 A CN 201110071231A CN 102693236 A CN102693236 A CN 102693236A
Authority
CN
China
Prior art keywords
content
flame
information
text
filter method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100712318A
Other languages
English (en)
Inventor
宦奕奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU STYLE INFORMATION TECHNOLOGY CO LTD
Original Assignee
SUZHOU STYLE INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU STYLE INFORMATION TECHNOLOGY CO LTD filed Critical SUZHOU STYLE INFORMATION TECHNOLOGY CO LTD
Priority to CN2011100712318A priority Critical patent/CN102693236A/zh
Publication of CN102693236A publication Critical patent/CN102693236A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于内容理解的不良信息过滤方法,其包括以下步骤:首先对网络信息源中的内容进行数据预处理,从中提取出能够反映或是有助判别内容的显性和隐性特征,令不良信息内容通过特征项有效的表达。之后,根据匹配规则和方法,将不良信息模板与待处理的不良信息内容进行匹配。接着,根据匹配结果对信息源进行相应的过滤处理。最后,将处理后的结果返回给Web页的用户。由此,能够根据文本信息内容的上下文语境以及图像信息的各种特征,精确有效的过滤网络信息中的不良信息,为用户提供一个干净的网络环境,其应用前景非常广阔。

Description

基于内容理解的不良信息过滤方法
技术领域
本发明涉及一种信息过滤方法,尤其涉及一种基于内容理解的不良信息过滤方法。
背景技术
近年来随着互联网技术的发展,各种良莠不齐的信息数量急剧膨胀,网络信息安全问题日益突出,严重的败坏了社会的风气,因此社会和个人对信息的过滤需求日益强烈。然而结合目前正在使用的不良信息过滤软件和***来看,存在着漏报、错报的现象,并且过滤速度较慢,而本发明提出的基于内容分析的方法,不仅能够精确有效的过滤不良信息,为用户提供干净的网络环境,而且过滤速度较快,应用前景非常广阔。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于内容理解的不良信息过滤方法。
本发明的目的通过以下技术方案来实现:
基于内容理解的不良信息过滤方法,其包括以下步骤:
步骤①,对网络信息源中的内容进行数据预处理,从中提取出能够反映或是有助判别内容的显性和隐性特征,令不良信息内容通过特征项有效的表达;
步骤②,根据匹配规则和方法,将不良信息模板与待处理的不良信息内容进行匹配;
步骤③,根据匹配结果对信息源进行相应的过滤处理;
步骤④,将处理后的结果返回给Web页的用户。
上述的基于内容理解的不良信息过滤方法,其中:所述的网络信息源包括文本内容信息和图像内容信息。
进一步地,上述的基于内容理解的不良信息过滤方法,其中:所述的文本信息的过滤是根据文本内容的上下文语境、文本要素,通过分析和理解文本内容的语义,发现不良信息。
更进一步地,上述的基于内容理解的不良信息过滤方法,其中:所述图像内容的过滤是根据图像的色彩、纹理、形状、轮廓以及色彩、纹理、形状、轮廓之间的空间关系特征和语义作为索引,通过图像之间的相似程度的匹配而进行过滤。
更进一步地,上述的基于内容理解的不良信息过滤方法,其中:步骤②所述的不良信息包括,淫秽色情、反动暴力以及垃圾信息。
再进一步地,上述的基于内容理解的不良信息过滤方法,其中:所述的预处理是清除网络信息源中的无关信息,保留有用的信息并将其描述特征分离出来进行量化,然后将能反映或有助于辨别内容性质的显性和隐性信息提取出来,使不良信息能通过特征项有效表达。
本发明技术方案的优点主要体现在:能够根据文本信息内容的上下文语境以及图像信息的各种特征,精确有效的过滤网络信息中的不良信息,为用户提供一个干净的的网络环境,其应用前景非常广阔。
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
具体实施方式
基于内容理解的不良信息过滤方法,其与众不同之处在于包括以下步骤:首先,对网络信息源中的内容进行数据预处理,从中提取出能够反映或是有助判别内容的显性和隐性特征,令不良信息内容通过特征项有效的表达。具体来说,所述的网络信息源包括文本内容信息和图像内容信息。
之后,根据匹配规则和方法,将不良信息模板与待处理的不良信息内容进行匹配。具体来说,所述的不良信息包括,淫秽色情、反动暴力以及垃圾信息。
接着,根据匹配结果对信息源进行相应的过滤处理。最后,将处理后的结果返回给Web页的用户。
结合本发明的实际实施过程来看,采用文本信息的过滤是根据文本内容的上下文语境、文本要素,通过分析和理解文本内容的语义,发现不良信息。同时,所述图像内容的过滤是根据图像的色彩、纹理、形状、轮廓以及色彩、纹理、形状、轮廓之间的空间关系特征和语义作为索引,通过图像之间的相似程度的匹配而进行过滤。并且,为了起到较佳的过滤效果,采用的预处理是清除网络信息源中的无关信息,保留有用的信息并将其描述特征分离出来进行量化,然后将能反映或有助于辨别内容性质的显性和隐性信息提取出来,使不良信息能通过特征项有效表达。
通过上述的文字表述可以看出,采用本发明后,能够根据文本信息内容的上下文语境以及图像信息的各种特征,精确有效的过滤网络信息中的不良信息,为用户提供一个干净的的网络环境,其应用前景非常广阔。

Claims (6)

1.基于内容理解的不良信息过滤方法,其特征在于包括以下步骤:
步骤①,对网络信息源中的内容进行数据预处理,从中提取出能够反映或是有助判别内容的显性和隐性特征,令不良信息内容通过特征项有效的表达;
步骤②,根据匹配规则和方法,将不良信息模板与待处理的不良信息内容进行匹配;
步骤③,根据匹配结果对信息源进行相应的过滤处理;
步骤④,将处理后的结果返回给Web页的用户。
2.根据权利要求1所述的基于内容理解的不良信息过滤方法,其特征在于:所述的网络信息源包括文本内容信息和图像内容信息。
3.根据权利要求2所述的基于内容理解的不良信息过滤方法,其特征在于:所述的文本信息的过滤是根据文本内容的上下文语境、文本要素,通过分析和理解文本内容的语义,发现不良信息。
4.根据权利要求2所述的基于内容理解的不良信息过滤方法,其特征在于:所述图像内容的过滤是根据图像的色彩、纹理、形状、轮廓以及色彩、纹理、形状、轮廓之间的空间关系特征和语义作为索引,通过图像之间的相似程度的匹配而进行过滤。
5.根据权利要求1所述的基于内容理解的不良信息过滤方法,其特征在于:步骤②所述的不良信息包括,淫秽色情、反动暴力以及垃圾信息。
6.根据权利要求1所述的基于内容理解的不良信息过滤方法,其特征在于:所述的预处理是清除网络信息源中的无关信息,保留有用的信息并将其描述特征分离出来进行量化,然后将能反映或有助于辨别内容性质的显性和隐性信息提取出来,使不良信息能通过特征项有效表达。
CN2011100712318A 2011-03-24 2011-03-24 基于内容理解的不良信息过滤方法 Pending CN102693236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100712318A CN102693236A (zh) 2011-03-24 2011-03-24 基于内容理解的不良信息过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100712318A CN102693236A (zh) 2011-03-24 2011-03-24 基于内容理解的不良信息过滤方法

Publications (1)

Publication Number Publication Date
CN102693236A true CN102693236A (zh) 2012-09-26

Family

ID=46858693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100712318A Pending CN102693236A (zh) 2011-03-24 2011-03-24 基于内容理解的不良信息过滤方法

Country Status (1)

Country Link
CN (1) CN102693236A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609516A (zh) * 2012-02-08 2012-07-25 苏州中联互通信息科技有限公司 基于内容理解的不良信息过滤方法
CN103473299A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
WO2015058631A1 (en) * 2013-10-23 2015-04-30 Tencent Technology (Shenzhen) Company Limited Method, server and system for malicious url identification
CN105740752A (zh) * 2014-12-11 2016-07-06 世纪龙信息网络有限责任公司 敏感图片过滤方法和***
WO2018000273A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种不良语料内容检测装置和方法
CN107547555A (zh) * 2017-09-11 2018-01-05 北京匠数科技有限公司 一种网站安全监测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101359329A (zh) * 2008-04-01 2009-02-04 北京恒金恒泰信息技术有限公司 基于浏览器的过滤色情软件插件

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055621A (zh) * 2006-04-10 2007-10-17 中国科学院自动化研究所 基于内容的敏感网页识别方法
CN101359329A (zh) * 2008-04-01 2009-02-04 北京恒金恒泰信息技术有限公司 基于浏览器的过滤色情软件插件

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609516A (zh) * 2012-02-08 2012-07-25 苏州中联互通信息科技有限公司 基于内容理解的不良信息过滤方法
CN103473299A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN103473299B (zh) * 2013-09-06 2017-02-08 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
WO2015058631A1 (en) * 2013-10-23 2015-04-30 Tencent Technology (Shenzhen) Company Limited Method, server and system for malicious url identification
CN105740752A (zh) * 2014-12-11 2016-07-06 世纪龙信息网络有限责任公司 敏感图片过滤方法和***
CN105740752B (zh) * 2014-12-11 2021-05-11 世纪龙信息网络有限责任公司 敏感图片过滤方法和***
WO2018000273A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种不良语料内容检测装置和方法
CN107547555A (zh) * 2017-09-11 2018-01-05 北京匠数科技有限公司 一种网站安全监测方法及装置

Similar Documents

Publication Publication Date Title
CN108038119A (zh) 利用新词发现投资标的的方法、装置及存储介质
CN106202211B (zh) 一种基于微博类型的集成微博谣言识别方法
CN102693236A (zh) 基于内容理解的不良信息过滤方法
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索***
CN103631948B (zh) 命名实体的识别方法
CN107391598B (zh) 一种威胁情报自动生成方法及***
CN102542061B (zh) 一种产品的智能分类方法
CN101673266B (zh) 音频、视频内容的搜索方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN104933130A (zh) 评论信息的标注方法及装置
CN103744877A (zh) 部署于互联网的舆情监测应用***及运用方法
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及***
CN103500172A (zh) 一种图片搜索***
CN103076894B (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN105117434A (zh) 一种网页分类方法和***
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及***
CN102609516A (zh) 基于内容理解的不良信息过滤方法
Jin et al. Filtering spam in Weibo using ensemble imbalanced classification and knowledge expansion
US8266140B2 (en) Tagging system using internet search engine
CN103853720A (zh) 基于用户关注度的网络敏感信息监控***及方法
CN104331396A (zh) 一种智能识别广告的方法
US20140379806A1 (en) Data matching method and device
CN101562603A (zh) 一种通过回显解析telnet协议的方法及***
CN102982029B (zh) 一种搜索需求识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120926