CN1794719A

CN1794719A - 一种基于权重关键字的Web过滤方法

Info

Publication number: CN1794719A
Application number: CN 200510022788
Authority: CN
Inventors: 樊长安; 李金库; 赵明彰; 向冬; 张永斌; 廖明涛; 刘志强; 吴华强
Original assignee: Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Current assignee: Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Priority date: 2005-12-31
Filing date: 2005-12-31
Publication date: 2006-06-28

Abstract

本发明的目的是要提供一种基于权重关键字的Web过滤方法，以克服现有技术存在的无法准确地进行网页内容过滤的问题。本发明的解决方案是：一种基于权重关键字的Web过滤方法，其特殊之处在于，在网络的网关或防火墙出口处部署Web过滤软件，并建立带有权重的关键字库，Web过滤软件采用串行的方式对网络数据包进行侦听，对数据包的内容进行滑动窗口关键字比对，根据过滤到的每个页面的关键字及其权重的值，计算出其分数值，与预设的拦截阈值相比较，以确定是否阻断该网页。

Description

一种基于权重关键字的Web过滤方法

技术领域：

本发明涉及网络技术领域，具体涉及一种基于权重关键字的Web过滤方法。

背景技术：

互联网的开放性及网上信息优劣参差不齐，使得网上各种不良信息也随之泛滥，特别是反动、色情、暴力等有害信息极大地危害着社会的稳定和青少年的身心健康。目前，在企业中面临着可信员工通过互联网无意或有意地收发不适当内容的风险。由于病毒及不良Web内容摧毁企业计算机所造成的威胁有越来越严重的趋势，企业对于功能更强大的Web内容过滤工具的需求越来越迫切。

传统的Web过滤产品采用旁路监听的方式，即通过Hub共享或交换机端口映射的方式来获得网络信息。对于此类产品，从技术上讲它是无法做到对Web访问的内容进行过滤的，它只是对Web访问的网址进行过滤，其原因是因为这些产品是在终端用户发出Web访问请求后，获得访问的网址，检索网址数据库，如果是不允许的网址，就采用黑客软件的手法，给终端用户的机器发送伪装的Web回应数据，从而达到拦截的效果。但现有技术存在的问题是：这种方法对网页内容的过滤缺乏准确度。

发明内容：

本发明的目的是要提供一种基于权重关键字的Web过滤方法，以克服现有技术存在的无法准确地进行网页内容过滤的问题。

本发明的解决方案是：一种基于权重关键字的Web过滤方法，其特殊之处在于，在网络的网关或防火墙出口处部署Web过滤软件，并建立带有权重的关键字库，Web过滤软件采用串行的方式对网络数据包进行侦听，对数据包的内容进行滑动窗口关键字比对，根据过滤到的每个页面的关键字及其权重的值，计算出其分数值，与预设的拦截阈值相比较，以确定是否阻断该网页。

本发明通过以下几个具体步骤来实现：

步骤一：建立过滤关键字库，并设置每个关键字的权重值，同时预设拦截阈值，权重的设置遵循如下原则是坏的关键字是正权重，好的关键字是负权重，分数的范围在-100到100；

步骤二：在网关或者防火墙出口上监听目的端口为80或者8080端口的数据包，并对数据包做缓冲；

步骤三：将数据包中的内容与关键字库中的关键字比对，并根据关键字权重值计算出分值，计算方法即是将过滤到的关键字的权重值相加；

步骤四：将分值与预设的阈值相比较，如果大于阈值则阻断并报警，如果小于阈值放行。

上述步骤一中：坏的关键字可以是色情、暴力、赌博、黑客、邪教、毒品、恐怖词汇等。

上述步骤一中：好的关键字可以是教育、旅游等词汇。

与现有技术相比，本发明的优点是：

1、本方法算法简便：给不同程度的不健康关键字和有益词汇打分，简便易行；

2、判断准确，减少了上网过滤的误判率：单纯的关键字过滤会过滤掉很多有益的网站，而权重关键字就能够较好地解决这个问题。它通过给不同程度的不健康关键字和有益词汇的打分，能够很好地区分不健康网页和有益的网页，减少了上网过滤的误判率。

附图说明：

附图为本发明基于权重关键字的Web过滤方法流程图。

具体实施方式：

下面将通过在防火墙设备中实施本发明进行详细描述。实施时，需要在防火墙设备中设置基于权重关键字的Web过滤模块，该模块完成基于权重关键字的Web过滤功能。

本发明的步骤是：

(一)在***中建立过滤关键字库，并设置每个关键字的权重值，同时预设拦截阈值。权重关键字只起到拦截网页的作用；预定义了暴力、色情、赌博、黑客、邪教、毒品、恐怖以及有益词汇等多个类别的权重关键字。每个类别里包含相关类别里的中英文词汇，并根据其影响程度预设了权重分值。

(二)防火墙在内存中缓存目的端口为80或者8080端口的数据包；

(三)将数据包中的内容与关键字库中的关键字比对，并根据关键字权重值计算出分值，计算方法即是将过滤到的关键字的权重值相加；

(四)将分值与预设的阈值相比较，如果大于阈值则阻断并报警，如果小于阈值放行。例如，关键字“***”权重分数为40，“***”权重分数为60，“社会新闻”为-30，拦截阈值为90分。那么如果一个网页里同时出现“***”和“***”两个词的话，这个网页就会被拦截，因为两个词的分数相加(为100)超过了90分的阈值。但如果一个网页同时出现“***”，“***”和“社会新闻”这三个词，那么这个网页就不会被拦截。

最后所应说明的是：以上实施方式仅用以说明而非限制本发明的技术方案，尽管参照上述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改与局部替换，其均应涵盖在本发明的权利要求范围内。

Claims

1、一种基于权重关键字的Web过滤方法，其特征在于：在网络的网关或防火墙出口处部署Web过滤软件，并建立带有权重的关键字库，Web过滤软件采用串行的方式对网络数据包进行侦听，对数据包的内容进行滑动窗口关键字比对，根据过滤到的每个页面的关键字及其权重的值，计算出其分数值，与预设的拦截阈值相比较，以确定是否阻断该网页。

2、如权利要求1所述的一种基于权重关键字的Web过滤方法，其特征在于：包括以下几个步骤，

3、如权利要求2所述的一种基于权重关键字的Web过滤方法，其特征在于：所述步骤一中：坏的关键字可以是色情、暴力、赌博、黑客、邪教、毒品、恐怖词汇。