CN102693236A

CN102693236A - 基于内容理解的不良信息过滤方法

Info

Publication number: CN102693236A
Application number: CN2011100712318A
Authority: CN
Inventors: 宦奕奕
Original assignee: SUZHOU STYLE INFORMATION TECHNOLOGY CO LTD
Current assignee: SUZHOU STYLE INFORMATION TECHNOLOGY CO LTD
Priority date: 2011-03-24
Filing date: 2011-03-24
Publication date: 2012-09-26

Abstract

本发明涉及一种基于内容理解的不良信息过滤方法，其包括以下步骤：首先对网络信息源中的内容进行数据预处理，从中提取出能够反映或是有助判别内容的显性和隐性特征，令不良信息内容通过特征项有效的表达。之后，根据匹配规则和方法，将不良信息模板与待处理的不良信息内容进行匹配。接着，根据匹配结果对信息源进行相应的过滤处理。最后，将处理后的结果返回给Web页的用户。由此，能够根据文本信息内容的上下文语境以及图像信息的各种特征，精确有效的过滤网络信息中的不良信息，为用户提供一个干净的网络环境，其应用前景非常广阔。

Description

基于内容理解的不良信息过滤方法

技术领域

本发明涉及一种信息过滤方法，尤其涉及一种基于内容理解的不良信息过滤方法。

背景技术

近年来随着互联网技术的发展，各种良莠不齐的信息数量急剧膨胀，网络信息安全问题日益突出，严重的败坏了社会的风气，因此社会和个人对信息的过滤需求日益强烈。然而结合目前正在使用的不良信息过滤软件和***来看，存在着漏报、错报的现象，并且过滤速度较慢，而本发明提出的基于内容分析的方法，不仅能够精确有效的过滤不良信息，为用户提供干净的网络环境，而且过滤速度较快，应用前景非常广阔。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种基于内容理解的不良信息过滤方法。

本发明的目的通过以下技术方案来实现：

基于内容理解的不良信息过滤方法，其包括以下步骤：

步骤①，对网络信息源中的内容进行数据预处理，从中提取出能够反映或是有助判别内容的显性和隐性特征，令不良信息内容通过特征项有效的表达；

步骤②，根据匹配规则和方法，将不良信息模板与待处理的不良信息内容进行匹配；

步骤③，根据匹配结果对信息源进行相应的过滤处理；

步骤④，将处理后的结果返回给Web页的用户。

上述的基于内容理解的不良信息过滤方法，其中：所述的网络信息源包括文本内容信息和图像内容信息。

进一步地，上述的基于内容理解的不良信息过滤方法，其中：所述的文本信息的过滤是根据文本内容的上下文语境、文本要素，通过分析和理解文本内容的语义，发现不良信息。

更进一步地，上述的基于内容理解的不良信息过滤方法，其中：所述图像内容的过滤是根据图像的色彩、纹理、形状、轮廓以及色彩、纹理、形状、轮廓之间的空间关系特征和语义作为索引，通过图像之间的相似程度的匹配而进行过滤。

更进一步地，上述的基于内容理解的不良信息过滤方法，其中：步骤②所述的不良信息包括，淫秽色情、反动暴力以及垃圾信息。

再进一步地，上述的基于内容理解的不良信息过滤方法，其中：所述的预处理是清除网络信息源中的无关信息，保留有用的信息并将其描述特征分离出来进行量化，然后将能反映或有助于辨别内容性质的显性和隐性信息提取出来，使不良信息能通过特征项有效表达。

本发明技术方案的优点主要体现在：能够根据文本信息内容的上下文语境以及图像信息的各种特征，精确有效的过滤网络信息中的不良信息，为用户提供一个干净的的网络环境，其应用前景非常广阔。

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

具体实施方式

基于内容理解的不良信息过滤方法，其与众不同之处在于包括以下步骤：首先，对网络信息源中的内容进行数据预处理，从中提取出能够反映或是有助判别内容的显性和隐性特征，令不良信息内容通过特征项有效的表达。具体来说，所述的网络信息源包括文本内容信息和图像内容信息。

之后，根据匹配规则和方法，将不良信息模板与待处理的不良信息内容进行匹配。具体来说，所述的不良信息包括，淫秽色情、反动暴力以及垃圾信息。

接着，根据匹配结果对信息源进行相应的过滤处理。最后，将处理后的结果返回给Web页的用户。

结合本发明的实际实施过程来看，采用文本信息的过滤是根据文本内容的上下文语境、文本要素，通过分析和理解文本内容的语义，发现不良信息。同时，所述图像内容的过滤是根据图像的色彩、纹理、形状、轮廓以及色彩、纹理、形状、轮廓之间的空间关系特征和语义作为索引，通过图像之间的相似程度的匹配而进行过滤。并且，为了起到较佳的过滤效果，采用的预处理是清除网络信息源中的无关信息，保留有用的信息并将其描述特征分离出来进行量化，然后将能反映或有助于辨别内容性质的显性和隐性信息提取出来，使不良信息能通过特征项有效表达。

通过上述的文字表述可以看出，采用本发明后，能够根据文本信息内容的上下文语境以及图像信息的各种特征，精确有效的过滤网络信息中的不良信息，为用户提供一个干净的的网络环境，其应用前景非常广阔。

Claims

1.基于内容理解的不良信息过滤方法，其特征在于包括以下步骤：

步骤③，根据匹配结果对信息源进行相应的过滤处理；

步骤④，将处理后的结果返回给Web页的用户。

2.根据权利要求1所述的基于内容理解的不良信息过滤方法，其特征在于：所述的网络信息源包括文本内容信息和图像内容信息。

3.根据权利要求2所述的基于内容理解的不良信息过滤方法，其特征在于：所述的文本信息的过滤是根据文本内容的上下文语境、文本要素，通过分析和理解文本内容的语义，发现不良信息。

4.根据权利要求2所述的基于内容理解的不良信息过滤方法，其特征在于：所述图像内容的过滤是根据图像的色彩、纹理、形状、轮廓以及色彩、纹理、形状、轮廓之间的空间关系特征和语义作为索引，通过图像之间的相似程度的匹配而进行过滤。

5.根据权利要求1所述的基于内容理解的不良信息过滤方法，其特征在于：步骤②所述的不良信息包括，淫秽色情、反动暴力以及垃圾信息。

6.根据权利要求1所述的基于内容理解的不良信息过滤方法，其特征在于：所述的预处理是清除网络信息源中的无关信息，保留有用的信息并将其描述特征分离出来进行量化，然后将能反映或有助于辨别内容性质的显性和隐性信息提取出来，使不良信息能通过特征项有效表达。