发明内容
本申请所要解决的技术问题是提供一种网站分类方法及装置,以解决现有网站分类技术需要处理的数据量大,效率不高的问题。
为了解决上述问题,本申请公开了一种网站分类方法,包括:根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。
优选地,在所述根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合的步骤之前,还包括:在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取所述网站的关系特征作为所述网络访问行为特征。
优选地,网站分类方法还包括:若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类。
优选地,在所述根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合的步骤之前,还包括:从所述网站数据库中随机抽取设定数量的网站,进行标注分类。
为了解决上述问题,本申请还公开了一种网站分类装置,包括:划分模块,用于根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;分类模块,用于若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。
优选地,网络分类装置还包括:特征提取模块,用于在所述划分模块根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取所述网站的关系特征作为所述网络访问行为特征。
优选地,所述分类模块还用于若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类。
优选地,网络分类装置还包括:标注模块,用于在所述划分模块根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,从所述网站数据库中随机抽取设定数量的网站,进行标注分类。
与现有技术相比,本申请具有以下优点:
通过本申请,使用对通信网络报文进行报文特征提取后获得的网络访问行为特征作为网站划分的依据,而不必对网页或网站的海量数据进行大量分析提取,解决了传统网络分类方法必须处理海量数据的问题,进而依据设定的网站的标注分类,对包含了标注分类过的网站的网站集合进行精确分类,提高了网站分类的准确率。可见,通过本申请,既减少了进行网络分类所需要处理的数据量,又提高了网络分类的准确率,从而有效提高了网络分类的效率,解决了现有网站分类技术需要处理的数据量大,效率不高的问题。另外,网络访问行为特征是通过对用户的通信网络报文进行分析后获得的有关用户网络访问行为的信息,能够较好地反映网站的真实类别,从而提高网站分类的准确性,进而提高网站分类效率。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
参照图1,示出了根据本申请实施例一的一种网站分类方法的步骤流程图。
本实施例的一种网站分类方法包括以下步骤:
步骤S102:根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合。
其中,网络访问行为特征通过对通信网络报文进行报文特征提取而获得。
网络访问行为特征是对用户使用网络的行为进行分析后,提取的其行为特征。本实施例中,是通过获取的通信网络报文分析用户使用网络的行为,对报文特征进行提取而获取网络访问行为特征,如,对通信网络报文中的数据进行数据分析,根据数据分析结果提取报文特征,本实施例中,重点对用户的网页查询词与用户所点击的网页的URL进行分析,从而提取报文特征,获得网络访问行为特征。
网站数据库中包含有多个网站的一个或多个网页,通过对网页的分析,可以获取其所属的网站的相关信息。本实施例中,根据网络访问行为特征,对多个网站的相关网页进行分析,进而将相关网页所属的网站划分为不同的集合。
步骤S104:若网站集合中包括标注分类过的网站,则将该标注分类过的网站所归属的网站集合中的其他网站的类别,确定为该标注分类过的网站的类别。
其中,标注分类过的网站为从网站数据库中抽取的预先进行了标注分类的网站。也即,从网站数据库中选取一定数量的网站,然后采用人工或由机器按照设定规则,对选取的每个网站标注其所属的网站类别,如A网站属于军事类网站,B网站属于财经类网站等。
通常情况下,一个网站集合中可能包括一个标注分类网站,也可能包括多个标注分类网站。由于相似的网络访问行为特征对应的网站的类别也基本相同,因此,一般来说,经过了以网络访问行为特征为依据的网络集合的划分后,如果一个网站集合中包括了多个标注分类过的网站,这个网站集合中的每个标注分类过的网站的类别也是相同的。
在根据网络访问行为特征对所有网站进行了划分后,就可以根据网站集合与标注分类过的网站的关系,确定该网站集合中的网站的类别。如S1集合中包含有A、F、G、H四个网站,而A网站已事先标注为军事类网站,则可以确定集合S1中的F、G、H网站的类别也属于军事类网站。而对于不包含标注分类过的网站的集合,则可以采用其它适当的分类方法进行分类,如自动分类,或者将该网站集合中的各个网站直接归为其它类、杂类等。
通过本实施例,使用对通信网络报文进行报文特征提取后获得的网络访问行为特征作为网站划分的依据,而不必对网页或网站的海量数据进行大量分析提取,解决了传统网络分类方法必须处理海量数据的问题,进而依据设定的网站的标注分类,对包含了标注分类过的网站的网站集合进行精确分类,提高了网站分类的准确率。通过本实施例,既减少了进行网络分类所需要处理的数据量,又提高了网络分类的准确率,从而有效提高了网络分类的效率,解决了现有网站分类技术需要处理的数据量大,效率不高的问题。另外,网络访问行为特征是通过对用户的通信网络报文进行分析后获得的有关用户网络访问行为的信息,能够较好地反映网站的真实类别,从而提高网站分类的准确性,进而提高网站分类效率。
实施例二
参照图2,示出了根据本申请实施例二的一种网站分类方法的步骤流程图。
本实施例的网站分类方法包括以下步骤:
步骤S202:在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取网站的关系特征作为网络访问行为特征。
本实施例中,在多个地理位置部署网关,获取通过网关的所有用户的通信网络报文。对获取的原始的通信网络报文进行数据处理和分析,形成查询词(也可称为网页查询词或者网站查询词)与点击到的网站的对应关系信息,本申请中简称为“查询词网站关系信息”。由“查询词网站关系信息”可以确定点击到的多个网站之间具有一定的相似关系。值得注意的是,查询词反映了用户的查询意图,而点击到的网站一般是用户想要的结果,故“查询词网站关系信息”是进行网站分类的一个较好的文本特征。在实际应用中,可以直接将“查询词网站关系信息”作为网络访问行为特征,也可以进一步地将根据其确定的多个网站之间的关系特征作为网络访问行为特征。
通过将提取的网站的关系特征作为网络访问行为特征可以方便有效地将网站数据库中的多个相关网站划分到一个集合中,减少了网站分类处理数据量,提高了网站分类效率。
当然,不限于此,其它能够有效标识用户网络访问行为的特征也可以作为网络访问行为特征。
步骤S204:从网站数据库中随机抽取一定数量的网站,进行标注分类。
其中,抽取的网站的数量可以预先设定,也可以随机设定,当然也可以按照比例抽取需要进行标注分类的网站。理论上讲,标注分类的网站越多,网站类别越全面和细致,网站分类越准确。
从网站数据库中随机抽取部分网站进行人工标注分类,可以以标注分类后的网站作为分类依据,准确地确定相关网站的类别。
需要说明的是,步骤S204与步骤S202可以不分先后顺序执行。
步骤S206:根据网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合。
为便于理解本实施例的方案,以下以一个简化的例子作为示意性说明。例如,设定用户输入的查询词为“专利”,设定与该关系词对应的点击的网站为A、B、C三个网站,经过一系列的数据分析可以推测这三个网站的相似度可能比较大,将A、B、C三个网站相似度大的关系作为网络访问行为特征。通过该网络访问行为特征,结合一定的数据分析可以推测网站数据库中A、B、C三个网站属于同一个网站集合,此外,通过对通信网络报文的分析,结合一定的数据分析,还可以推测与这三个网站有较强联系的网站也都属于与A、B、C三个网站相同的网站集合。如,通过对通信网络报文分析发现,多数用户查询“专利”时,在访问A、B、C三个网站中的一个或多个的同时,还访问了D、E网站,或者经由A、B、C三个网站中的一个或多个访问了D、E网站,则可以将A、B、C、D、E划分到一个网站集合中。
步骤S208:根据网站数据库中标注分类过的网站,分别确定多个不同的网站集合中的网站的类别。
本实施例中,假设A、B、C、D、E中的任何一个网站已被标注为专利网站,则A、B、C、D、E均被分类为专利网站。
优选地,在实现确定网站类别时,先判断多个不同的网站集合的某个或某些网站集合中是否包括至少一个标注分类过的网站;若是,则将该网站集合中的网站确定为与该网站集合中包括的标注分类过的网站相同的类别。
而对于那些所包括的网站均为未标注分类过的网站集合,可以通过现有分类方法对其中的网站进行分类,如进行自动分类,或者,直接将其归为其它类等。自动分类实现简单,方便灵活,可以节约网站分类的实现成本。
本实施例实现了基于用户网络访问行为信息和对部分网站进行人工标注的标注结果,对网站进行分类。在进行网站分类的过程中,采用通信网络报文中基于查询词与网站的对应关系信息,提取的网站的关系特征作为网络访问行为特征,该网络访问行为特征具有较好的代表性,能够以此为依据对网站数据库中的网站进行较为准确地集合划分,与现有技术通过对网页或网站的海量数据进行分析提取网页特征相比,本实施例的方案仅需对通过网络报文进行分析,而通信网络报文的数据量远小于网站或网页的数据量,由此减少了对网站进行分类所要处理的数据量,提高了网站分类的效率;而在确定网站集合类别时,对不包含进行了人工标注分类的网站的那些集合进行自动分类或直接划归为其它类,节约了网站分类的实现成本。
实施例三
参照图3,示出了根据本申请实施例三的一种网站分类装置的结构框图。
本实施例的网站分类装置包括:划分模块302,用于根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,网络访问行为特征通过对通信网络报文进行报文特征提取而获得;分类模块304,可以与划分模块302连接,用于若网站集合中包括标注分类过的网站,则将标注分类过的网站所归属的网站集合中的其他网站的类别,确定为标注分类过的网站的类别,其中,标注分类过的网站为从网站数据库中抽取的预先进行了标注分类的网站。
优选地,本实施例的网站分类装置还包括:特征提取模块306,可以与划分模块302、标注模块308分别连接,用于在划分模块302根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取网站的关系特征作为网络访问行为特征。
优选地,分类模块304还用于若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类,或直接划归为“其它类”。
优选地,本实施例的网站分类装置还包括:标注模块308,可以与划分模块302、特征提取模块306分别连接,用于在划分模块302根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,从网站数据库中随机抽取设定数量的网站,进行标注分类。
特征提取模块306的执行和标注模块308的执行可以不分先后顺序。
本实施列的网站分类装置用于实现前述多个方法实施例中相应的网站分类方法,并具有相应的网站分类方法实施例的有益效果,在此不再赘述。
实施例四
本实施例的网站分类装置主要包括两个模块,即通信网络报文预处理模块和网站分类模块。
其中:
通信网络报文预处理模块(相当于实施例三中的特征提取模块)主要负责对原始的通信网络报文进行预处理,形成查询词与点击到的网站的对应关系信息,简称“查询词网站关系信息”,将该信息作为网络访问行为特征。值得注意的是,查询词反映了用户的查询意图,而点击到的网站一般是用户想要的结果,故查询词网站关系信息是进行网站分类的一个较好的文本特征。
网站分类模块(相当于实施例三中的标注模块、划分模块和分类模块)主要负责随机抽取部分网站进行人工标注分类,基于查询词网站关系信息和人工标注分类结果,利用机器学习的分类模型完成网站的分类,对不能依据人工标注分类结果进行分类的网站,进行自动分类,形成网站分类结果。
使用本实施例的上述网站分类装置进行网络分类的过程如图4所示。在图4中,通信网络报文经过通信网络报文预处理模块的处理,生成了查询词网站关系信息,网站分类模块根据该查询词网站关系信息,以及事先标注分类的网站,对网站数据库中的所有网站进行分类,形成网站分类结果。其中,网站的标注分类可能先于查询词网站关系信息的生成,也可能后于查询词网站关系信息的生成。原始通信网络报文通过上述两个模块的处理,构建出网站分类***。
本实施列的网站分类装置用于实现前述多个方法实施例中相应的网站分类方法,并具有相应的网站分类方法实施例的有益效果,在此不再赘述。
本申请基于用户网络访问行为信息和对部分网站进行人工标注的标注结果,对网站进行了分类。通过本申请,实现了:
(1)本申请提出了基于通信网络报文信息对网站进行分类的方案,使用了更好的文本特征,即查询词网站关系信息来进行网站分类,解决了传统方案必须处理海量数据和准确率不高的问题。
(2)本申请可对目前网上绝大多数网站进行准确率较高的分类,其更准确的分类结果可用于很多网络应用。例如,可构建比www.hao123.com更好的网站导航门户,可用于鉴别出敏感网站以进行舆情监控,等等。
(3)基于本申请的网站分类结果,可进一步对用户的兴趣进行挖掘,建立精确的用户轮廓以指导精准广告投放等等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种网站分类方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。