CN1794719A - 一种基于权重关键字的Web过滤方法 - Google Patents

一种基于权重关键字的Web过滤方法 Download PDF

Info

Publication number
CN1794719A
CN1794719A CN 200510022788 CN200510022788A CN1794719A CN 1794719 A CN1794719 A CN 1794719A CN 200510022788 CN200510022788 CN 200510022788 CN 200510022788 A CN200510022788 A CN 200510022788A CN 1794719 A CN1794719 A CN 1794719A
Authority
CN
China
Prior art keywords
keyword
weight
value
packet
web filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510022788
Other languages
English (en)
Inventor
樊长安
李金库
赵明彰
向冬
张永斌
廖明涛
刘志强
吴华强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Original Assignee
Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda filed Critical Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Priority to CN 200510022788 priority Critical patent/CN1794719A/zh
Publication of CN1794719A publication Critical patent/CN1794719A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是要提供一种基于权重关键字的Web过滤方法,以克服现有技术存在的无法准确地进行网页内容过滤的问题。本发明的解决方案是:一种基于权重关键字的Web过滤方法,其特殊之处在于,在网络的网关或防火墙出口处部署Web过滤软件,并建立带有权重的关键字库,Web过滤软件采用串行的方式对网络数据包进行侦听,对数据包的内容进行滑动窗口关键字比对,根据过滤到的每个页面的关键字及其权重的值,计算出其分数值,与预设的拦截阈值相比较,以确定是否阻断该网页。

Description

一种基于权重关键字的Web过滤方法
技术领域:
本发明涉及网络技术领域,具体涉及一种基于权重关键字的Web过滤方法。
背景技术:
互联网的开放性及网上信息优劣参差不齐,使得网上各种不良信息也随之泛滥,特别是反动、色情、暴力等有害信息极大地危害着社会的稳定和青少年的身心健康。目前,在企业中面临着可信员工通过互联网无意或有意地收发不适当内容的风险。由于病毒及不良Web内容摧毁企业计算机所造成的威胁有越来越严重的趋势,企业对于功能更强大的Web内容过滤工具的需求越来越迫切。
传统的Web过滤产品采用旁路监听的方式,即通过Hub共享或交换机端口映射的方式来获得网络信息。对于此类产品,从技术上讲它是无法做到对Web访问的内容进行过滤的,它只是对Web访问的网址进行过滤,其原因是因为这些产品是在终端用户发出Web访问请求后,获得访问的网址,检索网址数据库,如果是不允许的网址,就采用黑客软件的手法,给终端用户的机器发送伪装的Web回应数据,从而达到拦截的效果。但现有技术存在的问题是:这种方法对网页内容的过滤缺乏准确度。
发明内容:
本发明的目的是要提供一种基于权重关键字的Web过滤方法,以克服现有技术存在的无法准确地进行网页内容过滤的问题。
本发明的解决方案是:一种基于权重关键字的Web过滤方法,其特殊之处在于,在网络的网关或防火墙出口处部署Web过滤软件,并建立带有权重的关键字库,Web过滤软件采用串行的方式对网络数据包进行侦听,对数据包的内容进行滑动窗口关键字比对,根据过滤到的每个页面的关键字及其权重的值,计算出其分数值,与预设的拦截阈值相比较,以确定是否阻断该网页。
本发明通过以下几个具体步骤来实现:
步骤一:建立过滤关键字库,并设置每个关键字的权重值,同时预设拦截阈值,权重的设置遵循如下原则是坏的关键字是正权重,好的关键字是负权重,分数的范围在-100到100;
步骤二:在网关或者防火墙出口上监听目的端口为80或者8080端口的数据包,并对数据包做缓冲;
步骤三:将数据包中的内容与关键字库中的关键字比对,并根据关键字权重值计算出分值,计算方法即是将过滤到的关键字的权重值相加;
步骤四:将分值与预设的阈值相比较,如果大于阈值则阻断并报警,如果小于阈值放行。
上述步骤一中:坏的关键字可以是色情、暴力、赌博、黑客、邪教、毒品、恐怖词汇等。
上述步骤一中:好的关键字可以是教育、旅游等词汇。
与现有技术相比,本发明的优点是:
1、本方法算法简便:给不同程度的不健康关键字和有益词汇打分,简便易行;
2、判断准确,减少了上网过滤的误判率:单纯的关键字过滤会过滤掉很多有益的网站,而权重关键字就能够较好地解决这个问题。它通过给不同程度的不健康关键字和有益词汇的打分,能够很好地区分不健康网页和有益的网页,减少了上网过滤的误判率。
附图说明:
附图为本发明基于权重关键字的Web过滤方法流程图。
具体实施方式:
下面将通过在防火墙设备中实施本发明进行详细描述。实施时,需要在防火墙设备中设置基于权重关键字的Web过滤模块,该模块完成基于权重关键字的Web过滤功能。
本发明的步骤是:
(一)在***中建立过滤关键字库,并设置每个关键字的权重值,同时预设拦截阈值。权重关键字只起到拦截网页的作用;预定义了暴力、色情、赌博、黑客、邪教、毒品、恐怖以及有益词汇等多个类别的权重关键字。每个类别里包含相关类别里的中英文词汇,并根据其影响程度预设了权重分值。
(二)防火墙在内存中缓存目的端口为80或者8080端口的数据包;
(三)将数据包中的内容与关键字库中的关键字比对,并根据关键字权重值计算出分值,计算方法即是将过滤到的关键字的权重值相加;
(四)将分值与预设的阈值相比较,如果大于阈值则阻断并报警,如果小于阈值放行。例如,关键字“***”权重分数为40,“***”权重分数为60,“社会新闻”为-30,拦截阈值为90分。那么如果一个网页里同时出现“***”和“***”两个词的话,这个网页就会被拦截,因为两个词的分数相加(为100)超过了90分的阈值。但如果一个网页同时出现“***”,“***”和“社会新闻”这三个词,那么这个网页就不会被拦截。
最后所应说明的是:以上实施方式仅用以说明而非限制本发明的技术方案,尽管参照上述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改与局部替换,其均应涵盖在本发明的权利要求范围内。

Claims (3)

1、一种基于权重关键字的Web过滤方法,其特征在于:在网络的网关或防火墙出口处部署Web过滤软件,并建立带有权重的关键字库,Web过滤软件采用串行的方式对网络数据包进行侦听,对数据包的内容进行滑动窗口关键字比对,根据过滤到的每个页面的关键字及其权重的值,计算出其分数值,与预设的拦截阈值相比较,以确定是否阻断该网页。
2、如权利要求1所述的一种基于权重关键字的Web过滤方法,其特征在于:包括以下几个步骤,
步骤一:建立过滤关键字库,并设置每个关键字的权重值,同时预设拦截阈值,权重的设置遵循如下原则是坏的关键字是正权重,好的关键字是负权重,分数的范围在-100到100;
步骤二:在网关或者防火墙出口上监听目的端口为80或者8080端口的数据包,并对数据包做缓冲;
步骤三:将数据包中的内容与关键字库中的关键字比对,并根据关键字权重值计算出分值,计算方法即是将过滤到的关键字的权重值相加;
步骤四:将分值与预设的阈值相比较,如果大于阈值则阻断并报警,如果小于阈值放行。
3、如权利要求2所述的一种基于权重关键字的Web过滤方法,其特征在于:所述步骤一中:坏的关键字可以是色情、暴力、赌博、黑客、邪教、毒品、恐怖词汇。
CN 200510022788 2005-12-31 2005-12-31 一种基于权重关键字的Web过滤方法 Pending CN1794719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510022788 CN1794719A (zh) 2005-12-31 2005-12-31 一种基于权重关键字的Web过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510022788 CN1794719A (zh) 2005-12-31 2005-12-31 一种基于权重关键字的Web过滤方法

Publications (1)

Publication Number Publication Date
CN1794719A true CN1794719A (zh) 2006-06-28

Family

ID=36805986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510022788 Pending CN1794719A (zh) 2005-12-31 2005-12-31 一种基于权重关键字的Web过滤方法

Country Status (1)

Country Link
CN (1) CN1794719A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008037207A1 (fr) * 2006-09-30 2008-04-03 Alibaba Group Holding Limited Procédé et dispositif de filtrage d'informations indésirables
CN101296220B (zh) * 2007-04-29 2011-03-16 阿里巴巴集团控股有限公司 一种过滤信息的方法及装置
CN103336771A (zh) * 2013-04-02 2013-10-02 江苏大学 基于滑动窗口的数据相似检测方法
CN104639499A (zh) * 2013-11-06 2015-05-20 ***通信集团广东有限公司 一种防火墙监控方法、装置和网管平台

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008037207A1 (fr) * 2006-09-30 2008-04-03 Alibaba Group Holding Limited Procédé et dispositif de filtrage d'informations indésirables
US8326776B2 (en) 2006-09-30 2012-12-04 Alibaba Group Holding Limited Network-based method and apparatus for filtering junk messages
CN101296220B (zh) * 2007-04-29 2011-03-16 阿里巴巴集团控股有限公司 一种过滤信息的方法及装置
CN103336771A (zh) * 2013-04-02 2013-10-02 江苏大学 基于滑动窗口的数据相似检测方法
CN103336771B (zh) * 2013-04-02 2016-12-28 江苏大学 基于滑动窗口的数据相似检测方法
CN104639499A (zh) * 2013-11-06 2015-05-20 ***通信集团广东有限公司 一种防火墙监控方法、装置和网管平台
CN104639499B (zh) * 2013-11-06 2018-05-22 ***通信集团广东有限公司 一种防火墙监控方法、装置和网管平台

Similar Documents

Publication Publication Date Title
US8191149B2 (en) System and method for predicting cyber threat
CN110149350B (zh) 一种告警日志关联的网络攻击事件分析方法及装置
US10114934B2 (en) Calculating consecutive matches using parallel computing
CN109885554A (zh) 数据库安全审计方法、***及计算机可读存储介质
US9032521B2 (en) Adaptive cyber-security analytics
US11700269B2 (en) Analyzing user behavior patterns to detect compromised nodes in an enterprise network
US20070199070A1 (en) Systems and methods for intelligent monitoring and response to network threats
CN104753863A (zh) 一种分布式拒绝服务攻击的防御方法、设备及***
CN107451476A (zh) 基于云平台的网页后门检测方法、***、设备及存储介质
CN106850647B (zh) 基于dns请求周期的恶意域名检测算法
US20090070880A1 (en) Methods and apparatus for validating network alarms
TWI234974B (en) Methodology of predicting distributed denial of service based on gray theory
CN1859398A (zh) 一种反网络钓鱼的***和方法
CN1271838C (zh) 为单一登录计算机网络提供访问控制的方法
CN1794719A (zh) 一种基于权重关键字的Web过滤方法
CN109561097B (zh) 结构化查询语言注入安全漏洞检测方法、装置、设备及存储介质
CN106850675A (zh) 一种网络攻击行为的确定方法及装置
EP4066463A1 (en) Threat mitigation system and method
CN109308330A (zh) 基于互联网的企业泄露信息提取、分析及分类的方法
Torres-Lugo et al. Manipulating Twitter through deletions
CN111934954A (zh) 宽带的检测方法、装置、电子设备及存储介质
CA3199700A1 (en) Threat mitigation system and method
CN113992423B (zh) 一种计算机网络防火墙的使用方法
CN113904829B (zh) 一种基于机器学习的应用防火墙***
CN111565201B (zh) 一种基于多属性的工业互联网安全评估方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060628