CN101692639A

CN101692639A - 一种基于url的不良网页识别方法

Info

Publication number: CN101692639A
Application number: CN200910023926A
Authority: CN
Inventors: 郑庆华; 骞雅楠; 刘均; 常晓; 吴朝晖; 蒋路
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2009-09-15
Filing date: 2009-09-15
Publication date: 2010-04-07

Abstract

本发明公开了一种基于URL的不良网页识别方法。该方法通过URL主域名部分的语义分析和整个URL的结构分析来判别其是否为色情站点URL。判别时，提取了URL所包含的敏感串特征与结构特征两类特征作为判别的依据，并采用将和SVM算法综合起来的判别器最终综合特征进行二分类得到判别结果。本发明可以协助其它识别方法快速地识别不良网页，以便提供健康的互联网环境，在不需获取网页内容的情况下进行判别，为色情网页的识别提供了一种高效的新思路。

Description

一种基于URL的不良网页识别方法

技术领域

本发明涉及一种互联网不良信息过滤方法，特别是涉及一种基于URL的不良网页识别方法。该方法涉及到机器学习领域，应用机器学习领域的特征抽取及分类技术完成最终的判别。

背景技术

随着互联网的飞速发展，不良网络文化也充斥其中，色情网页的大量出现更是严重影响了青少年的健康发展。近年来关于色情内容的自动识别研究取得了显著的成就。申请人经过查新，检索得到两篇与本发明相关的关于色情内容自动识别的专利，它们分别是：

1.网络色情图像和不良信息检测多功能管理***

2.色情内容拦截方法

在上述专利1中，发明人提出了一套基于客户机/服务器模式的色情图像和不良信息检测多功能管理***，该***有以下特点：

1)该***是基于客户机/服务器模式的，在客户机端主要进行数据过滤和解协议等数据获取工作，在服务器端对客户机端的数据进行监听，并对数据内容进行不良信息检测；

2)该***中的数据检测模块包括：URL检测、关键字检测和图像检测，所有的检测请求服务器进行。其中URL检测模块通过已知URL建立可信URL及不良URL列表从而进行过滤。

在上述专利2中，发明人提出了一种使用散列值的色情内容拦截方法，该方法有以下特点：

1)首先，从整个或部分不同的色情内容中提取散列值，构建数据库；

2)检测过程中，对网络传送或存储在计算机中的文件采取以下步骤：①提取：提取部分文件的散列值，②比较：与数据库中存储的散列值进行比较，③阻断：对于判别为不良内容的信息加以阻断；

3)该方法主要适用于视频等流媒体文件。

根据上述查新，现有***在不良网页识别方面存在以下四方面的不足：

1.基于关键字匹配和文本分析的不良网页识别方法适用于包含大量文本内容的网页，对于纯图片和视频的网页则会失效；

2.基于图像及流媒体识别的方法适用范围广泛，但该方法处理数据量大，方法复杂性高，延迟较大，需要耗费大量带宽资源，还不适用于网络环境下实时的识别与处理工作；

3.现有的基于URL的不良网页识别方法是基于维护可信URL及不良URL名单，将待判别URL与名单中的URL进行比对来进行过滤判别的。该方法的缺陷是灵活性差，无法应对新增站点；

4.当前还没有通过对URL的分析和语义理解来进行不良网页识别的文献，因此该发明弥补了这方面的空缺，提供了快速识别不良网页的新思路。

发明内容

发明目的：在互联网高速发展的过程中，不良网页充斥其中并快速增长。采用人工阻塞不良网页的方法实时性查，而现有自动识别不良网页的方法复杂性高，效率较低，难以在互联网中广泛采用。该发明提出的基于URL的不良网页识别方法具有实时性、高效性的特点，为不良网页识别提供了一种高效的新思路。

本发明的技术方案是这样实现的：

通过网页的URL来判别其是否为色情页面。该方法的效果为：可以识别出URL域名具有色情语义信息及特殊结构特征的色情网页；

该方法包含：URL预处理模块、主域名自动分串模块、敏感串特征提取与判别模块、结构特征提取模块与综合判别模块，其中，敏感串特征提取与判别模块用于提取并判别不良URL域名中包含的具有不良语义的关键词；结构特征提取是指提取出不良URL为了保持其隐蔽性采取的一些特殊构成方式；

具体的判别过程如下：

Step1：建立URL敏感串特征词典：

1)在由正常网页URL及色情网页URL记录组成的训练集上进行人工标注，标注的过程中将URL主域名中具有独立语义的单词、拼音、数字串之间用空格分开；

2)统计出标注后的各个字符串以及各个串出现的次数，进而用出现次数除以所有字符串的出现总数计算出各个串出现的频率；

3)剔除长度小于3的短字符串以及数字串；

4)将长度大于4的正常串频率设置为1；

最终生成的敏感词特征词典表示为下述形式：

(t₁:f₁，t₂:f₂，…t_n:f_n)

其中t_i代表该词典中的第i个串，f_i代表第i个串出现的频率，该符号表示在以下内容中同样适用；

Step2：通过URL预处理模块提取出URL的主机名、主域名和后缀名，将URL后缀名为.edu.gov的网页直接判定为正常网页；

Step3：对URL主域名部分进行自动分串，将其分割为具有独立语义的单词、拼音和数字串；对于分串结果，根据敏感串特征词典对其进行二值量化，表示成下述形式：

(E(t₁)，E(t₂)，…E(t_n))

其中E(t_i)的取值为“1”或者“0”，若t_i为该URL主域名分串后的一部分，则取“1”；否则取“0”。对于该向量，采取采用

Bayes算法进行分类，得到URL属于不良URL的概率，记为“T₁”；

同时对于URL的主机名部分，将其作为一个单独的串，用同样的方法进行量化计算，得到主机名属于不良URL的概率，记为“T₂”；

Step4：提取出URL在结构方面的七维特征(S₁，S₂，…S₇)，其中：

S₁：主机名是否为单字母加序号，是则S₁取“1”，否则取“0”；

S₂：主机名是否为单字符，是则S₂取“1”，否则取“0”；

S₃：主机名的长度；

S₄：主域名中连续字符最多出现次数；

S₅：主域名中字母与数字交杂出现次数；

S₆：主域名分串后的子串个数；

S₇：主域名中数字字符出现的次数；

Step5：将基于敏感串特征的分类判别结果与结构特征取值联合起来，组成以下九维向量：

(T₁，T₂，S₁，S₂，…S₇)

将该向量通过SVM算法进行二分类判别，得到URL的最终判别结果，即该URL对应的网页是否为不良网页。

在主域名自动分串模块中，针对不良URL主域名的特点提出一种递归的主域名自动分串方法；

该方法将一个字符串t_letters从中间某一位置划分为两个子串t₁，t₂，使得划分后子串的熵值小于原字符串的熵值，即：

H(t₁，t₂)＜H(t_letters)

找出一种熵减最大的划分方式作为第一步的划分，即：

max(H(t_letters)-H(t₁，t₂))

对划分后的两个子串t₁，t₂采用同样的方法进行进一步的划分，直到熵值不能再减小，即不能再划分为止；

其中某一字符串t_i的熵值定义为

H (t_{i}) = \log_{2} \frac{1}{f_{i}}

其中f_i为t_i在敏感词词典中对应的频率；

将一个串划分为n个子串后熵值的计算公式如下：

H (t_{1}, t_{2}, . . . t_{n}) = \frac{H (t_{1}) + H (t_{2}) + . . . + H (t_{n})}{n} .

在敏感串特征提取与判别模块、结构特征提取模块与综合判别模块中，提出一种基于

Bayes算法及SVM算法的综合分类器进行最终分类判别。

该方法为：敏感词特征以敏感词词典中的一个词作为一维特征，以该词是否在主域名中出现对该维特征进行赋值，最终，对于敏感串特征向量运用

Bayes算法对该敏感串特征向量进行判别，得到该URL属于不良URL的概率；然后将该结果与不良URL在结构上的7维特征取值联合起来，采用SVM算法进行判别，得出最终结果。

技术效果：本发明可以协助其它识别方法快速地识别不良网页，以便提供健康的互联网环境。该方法克服了传统基于URL“黑名单”、“白名单”方法灵活性差、难以维护的缺点，同时也克服了基于文本、图像、视频的不良内容识别算法复杂性高，大量消耗网络带宽的缺点，在不需获取网页内容的情况下进行判别，为色情网页的识别提供了一种高效的新思路。

附图说明

图1、URL识别流程图；

图2、不良URL特征学习模块结构图；

图3、不良URL判别模块结构图；

图4、***实现流程；

图5、词频统计算法流程图；

图6、分串程序各函数间递归调用关系；

具体实施方式

为了更清楚地理解本发明，以下结合附图对本发明作进一步的详细描述。

参照图1所示，在对URL的判别过程中，首先通过预处理模块过滤掉特殊字符，提取出后缀名、主域名、主机名等对判别有实际作用的部分；真正的判别流程中首先判别URL后缀是否属于专属后缀(.gov.edu)：若属于，则直接将其判别为正常URL，否则进行下一步的判别；主要判别流程中对域名部分进行分串并进行特征抽取，同时对主机名部分进行特征抽取；将抽取的结果用组合分类器进行分类判别，若判别结果为正常URL，则通过后续的工具进一步确认，若属于不良，则直接禁止用户对该网页的访问。该方法又可以具体分为图2所示的不良URL特征学习模块以及图3所示的不良URL判别模块。

参照图2所示，首先需要通过不良URL特征学习模块对不良URL特征进行统计学习。

图2中各个子模块的作用为：

1)敏感串频率统计模块：用于统计在标注URL中出现的串以及各个串出现的频率；

2)URL敏感串向量化模块：将URL根据统计出的敏感串进行特征表示，即向量化；

3)NB分类器判别模块：对于量化的URL利用Bayes算法进行分类，得出每个URL属于不良URL的概率；

4)生成NB参数列表模块：通过训练集的分类结果得到

Bayes分类时所需各参数取值；

5)URL结构特征提取模块：提取出错误！未找到引用源。小节中提出的七类URL结构特征；

6)生成SVM参数列表模块：将训练集的

Bayes分类结果与URL结构特征综合起来利用SVM方法进行判别学习，得出用SVM进行判别所需参数。

参照图3所示，不良URL判别的判别过程中各个子模块的作用为：

1)URL预处理模块：提取出URL的主机名、主域名以及后缀名三部分，去除多余信息；

2)URL自动分串模块：利用基于递归的最大熵减模型对URL主域名部分进行自动分串；

3)URL敏感串向量化模块：利用URL敏感串表对分串后的URL进行特征表示；

4)NB分类器判别模块：根据学习模块中生成的Bayes参数列表，利用

Bayes分类器对URL向量进行分类判别，得到其属于不良URL的概率；

5)URL结构特征提取模块：提取出URL中的七维结构特征；

6)SVM分类器判别模块：根据学习模块生成的SVM判别所需参数，对URL的综合特征进行分类判别，得出判别结果。

参照图4所示，在整个***的实现过程中按照以下模块依次进行：URL预处理模块，URL敏感串统计模块，URL分串模块，敏感串特征量化模块，Bayes分类模块，结构特征提取与量化模块以及SVM判别模块。

以下对整个实现流程中的关键技术及其实现方法进行详细地介绍：

URL预处理

该发明中提出的判别方法是针对URL的主机名、主域名和后缀名三部分进行的。所以对URL处理的第一步就是要过滤掉无用信息，准确地提取以上三部分的信息。每个URL虽然都遵从URL命题规范，但具体的URL可能省略掉除主域名外的任意一部分信息，也可能具有多个后缀名，因此预处理过程要考虑到各种可能性。URL包含如下四种类型：

1.包含协议名的URL(http://www.domain.com)；

2.不包含协议名的URL(www.domain.com)；

3.省略主机名的URL(domain.com)；

4.有多个后缀名的URL(domain.com.cn)。

要准确地提取出URL的主机名、主域名和后缀名，首先设计了如下算法来区分URL的类型：

Step1：判断URL中是否包含“://”If包含该字符串该URL属于类型1；删除“://”及协议名部分，转向Step2；Else直接转向Step2；Step2：for i＝1 to strlen(URL)统计“.”出现的次数，即分段数seg；Step3：if seg＝＝1URL属于类型3，缺失主机名；else提取第二段的内容；If第二段内容为com，edu，gov等后缀名该URL属于类型4；Else该URL属于类型2；

通过以上流程，就可以准确的判断URL的类型，并针对不同的类型获取URL的主机名、主域名和后缀名，以便下一步的判别。

敏感串特征词典生成方法

敏感词特征词典用于主域名分串及敏感词特征量化过程，其生成过程包含三个阶段，即：词频统计、特征筛选、关键词处理。以下分别介绍每一个过程：

●词频统计

词频统计以人工分串标注的URL串为输入，首先用URL预处理程序对主机名和主域名部分进行提取，并对出现的字符串进行词频统计。统计过程中，一个主机名作为一个词，一个主域名经标注分串后的各个子串各作为一个词。词频统计模块的算法流程如图5所示。

经过以上流程，可以统计出不良URL以及正常URL中出现的串频率，初步生成串频率词典。

●特征筛选

在人工分串标注的过程中，由于截取主要语义单词后，剩余的串可能为无意义的短字符串、数字串等，这将对基于熵减的分串模型产生很大的不良影响，因此我们需要对敏感串特征词典进行以下两个方面的筛选：

-去掉长度≤3且没有语义的短字符串；

-去掉数字串。

以上两个方面的处理既保证了对URL进行基于敏感串的语义分析时的准确性，同时短字符串以及数字串特征实质上在对URL进行结构分析时已经进行了考虑。这样的考虑是因为：例如URL中出现数字串“2008”和“2009”对分类的影响应该是相同的，因此从结构方面考虑更有利于准确的分类。

●关键词处理

为了减少对正常URL的误判，因此需要对敏感串词典中的关键词做了以下四方面的处理：

1.将具有明显语义的不良串词频乘以一个常数a；

其中a为训练样本中正常URL的数量除以不良URL数量的倍数值，这样做可以消除数据的不平衡性带来的误差。

2.将长度≥4的正常单词串词频设为1.0；

这是为了避免对正常URL进行“断章取义”式的截取，保证了优先匹配正常串。

3.将相关的字符串频率进行调整，使得长字符频率大于短字符串。

这种做法是通过词典的调整达到长字符串优先匹配的目的，由于不良敏感串中的短字符串较多，这一做法也进一步地避免了将正常URL判别为不良URL。

4.对于多个单词组成的词组，同时将词组与单个单词加入词典中。

这是由于通过敏感串词典建立起的特征向量，采用了

Bayes分类器进行分类判别，而

Bayes算法是基于各维属性独立的假设的，因此就可能造成只考虑单个词，忽略组合在一起的词组，这种做法使得可以通过词典避免这一问题。

URL自动分串方法

URL分串模块在整个识别方法中起着基础性的作用，因此程序中设计一个名为segmentation的类来完成分串的工作，该类的成员变量与成员函数如下所示：

class segmentation{private:struct Token * head；public:segmentation()；struct Token*BuildTokenList()； //建立敏感串频率列表double entropy(double input)； //计算某一频率对应的熵值double Token_entropy(char input[])； //计算某一个串对应的熵值int Divide(char input[]，int a，int b)； //计算对某一个字符串最佳的分串方式void seg(char input[]，int a，int b)； //递归计算对一个串的分类}:

在进行分串的过程中，需要首先通过BuildTokenList函数将敏感串特征词典从文件读入内存，将其转化为链表的形式，并将链表的头指针赋给该类的私有成员变量head，该链表每一项的结构体Token定义如下所示：

struct Token{char str[URL_length]；//存放表项中的敏感串double frequency；//存放敏感串的频率信息struct Token*next；//指向下一个表项的指针}；

然后开始通过前面提出的分串方法进行分串，该分串方法是基于熵减的递归分串方法，因此实现该方法的四个主要函数entropy()，Token_entropy()，Divide()和seg()之间是相互调用的关系，同时seg()函数对自身进行递归的调用。函数调用关系如图6所示。

该分串方法的基本思想是：首先从字符串中间某一位置找到一个最佳的划分位置将其划分为两个字串，再对两个字段进行同样的操作，直到不能划分为止。seg()函数就实现了这一功能：首先seg()函数调用divide()函数寻求一种最佳的分串方式将字符串分为两个子串，然后对两个子串，seg()函数递归地对自身进行调用从而进行进一步的划分，直到不能划分为止。

divide()函数在寻求最佳分串方式的过程中，首先尝试各种可能的划分，对于每种划分的方式求其熵值的减少量。最后，求得熵减最大的划分方式，即最佳分串方式。如果所有的划分方式熵减均为0，则表示该字符串已经不能进行进一步的分解。计算熵减的过程中调用Token_entropy()函数，该函数通过查找敏感串词典，找到当前串对应的频率，再通过entropy()函数计算该频率对应的熵值。若该串没有在敏感串词典中出现，则认为其熵值无穷大，在程序中设定为一个大的正整数。

通过以上的函数调用过程，就可以实现对一个字符串基于熵减的递归分串过程。敏感串特征提取及量化

在前面的章节中说明了敏感串特征需要通过敏感串词典进行二值量化表示，然后通过

Bayes算法进行分类得出一个概率结果。在实现的过程中，量化与分类的过程是可以同时进行的。这是因为量化的过程中需要对敏感串词典中每一维敏感串属性进行扫描，而

Bayes算法本身的计算过程中也需要对每一维属性进行扫描。这两个过程可以合并进行，既可以提高效率，又可以使得程序代码更加简洁。因此在实现过程中，敏感串特征向量化与分类过程都通过NaiveBayes类实现，该类的成员变量与成员函数如下所示：

class NaiveBayes{private:struct Attribute * AttriHead；public:NaiveBayes()；voidBuildAttributeList()；//将朴素贝叶斯参数从文件读入内存void build_vector(char*url_string，float vector_n[URL_token]，float vector_p[URL_token])；//将单个串进行量化float calculate(char*url)；//将整个URL进行量化并计算最终结果}；

在向量化及分类判别的过程中，需要首先通过BuildAttributeList函数将通过特征学习模块得到的Bayes参数列表从文件中读入内存，转化为链表的形式，并将链表的头指针赋给该类的私有成员变量AttriHead，该链表每一项的结构体Attribute定义如下所示：

struct Attribute{char AttributeStr[token_length]；//存放表项中的敏感串(属性名)float a0p；//在所有不良URL中，该属性取值为0的概率float a1p；//在所有不良URL中，该属性取值为1的概率float a0n；//在所有正常URL中，该属性取值为0的概率float a1n；//在所有正常URL中，该属性取值为1的概率Attribute*next；//指向下一个表项的头指针}；

建立好属性链表之后，build_vector()函数将通过该链表对某一单个字符串进行向量化，该函数具有两个数组参数vector_n和vector_p。这是由于为了简化后续的计算，并没有将字符串直接量化为二值向量形式。以vector_p的构建为例，如果该字符串在属性列表中的某一项出现，则vector_p数组的对应维就赋为a1p的值，即在所有不良URL中这维向量为1的概率；若不出现，就赋为a0p的值。vector_n数组也采用同样的方法进行构建。这样赋值之后，在利用Bayes算法进行计算的过程中，只需要将vector_n以及vector_p数组中的每一维连乘即可，大大降低了算法实现的复杂度。

calculate()函数最终实现

Bayes分类器的判别算法并返回分类结果。calculate()函数针对URL分串后的各个串分别调用build_vector()函数，URL完成向量化之后计算其属于正常URL以及属于不良URL的概率。以计算其属于正常URL的概率而言，首先将vector_n中的各维向量连乘起来，再乘以正常URL占全部URL的百分比即可。计算其属于不良URL概率的过程与之相类似。

但是，vector_n以及vector_p向量分别具有上千维属性，因此连乘的过程使得结果为很小的小数。为了其在后续判别过程中的应用，对于结果采用了归一化的处理方式。假设计算出URL属于不良URL的概率为p，属于正常URL的概率为n。则最终该URL属于不良URL的概率为：

p = \frac{p}{p + n}

该计算结果即为通过敏感串特征判别后，URL属于不良URL的概率。综合分类器判决模块

综合分类器模块在敏感串特征判别结果的基础上加入结构特征，利用SVM算法进行综合判别。在程序中设置OtherAttri类用于提取URL的结构特征，类定义如下：

class OtherAttri{private:char URL[URL_length]；//保存待判别的URLpublic:OtherAttri(char*str)；//通过构造函数传入待判别URLint number_count()；//主域名中数字字符个数int continuous_char()；//主域名中最多连续字符出现个数int prefix_length()；//主机名长度int prefix_cpx()；//主机名是否为单字母加数字序号int single_prefix()；//主机名是否为单字符int char_num_count()；//主域名中字母与数字交错出现的次数int seg_num()；//主域名分串后的分段数}；

经过特征提取后，需要把这7维结构特征同主机名、主域名的敏感词特征判别结构结合起来组成九维向量，量化后的属性形式如下所示：

+1 1:0.379751 2:0 3:5 4:0 5:0 6:1 7:1 8:0.971448 9:1+1 1:0.648471 2:0 3:3 4:0 5:0 6:1 7:0 8:0.727691 9:0+1 1:0.693055 2:1 3:1 4:1 5:2 6:2 7:1 8:0.879875 9:2+1 1:0.648471 2:0 3:3 4:0 5:0 6:1 7:0 8:0.727691 9:0+1 1:0.379751 2:0 3:3 4:0 5:0 6:1 7:0 8:0.379751 9:0-1 1:0.092424 2:0 3:3 4:0 5:0 6:1 7:0 8:0.004775 9:1-1 1:0.119562 2:0 3:3 4:0 5:0 6:1 7:0 8:0.004775 9:0-1 1:0.143705 2:0 3:8 4:0 5:1 6:1 7:1 8:0.169310 9:0-1 1:0.143705 2:0 3:11 4:0 5:1 6:1 7:1 8:0.169310 9:0-1 1:0.048397 2:0 3:9 4:0 5:0 6:1 7:2 8:0.345357 9:0-1 1:0.092424 2:0 3:6 4:0 5:0 6:1 7:2 8:0.000141 9:0

进行量化后的属性值可以调用SVMlight工具包，便可以得到最终的判别结果。

Claims

1.一种基于URL的不良网页识别方法，其特征在于：通过网页的URL来判别其是否为色情页面，该方法的效果为：可以识别出URL域名具有色情语义信息及特殊结构特征的色情网页；