CN101458713A - 网站分类的方法及*** - Google Patents

网站分类的方法及*** Download PDF

Info

Publication number
CN101458713A
CN101458713A CNA2008102466693A CN200810246669A CN101458713A CN 101458713 A CN101458713 A CN 101458713A CN A2008102466693 A CNA2008102466693 A CN A2008102466693A CN 200810246669 A CN200810246669 A CN 200810246669A CN 101458713 A CN101458713 A CN 101458713A
Authority
CN
China
Prior art keywords
website
seed
classifieds
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102466693A
Other languages
English (en)
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CNA2008102466693A priority Critical patent/CN101458713A/zh
Publication of CN101458713A publication Critical patent/CN101458713A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站分类方法及***,其中的方法包括:以网站为单位,统计用户搜索关键字并点击网址的信息;利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;根据相似度大小,确定待分类网站的类型。本发明与现有方法相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,可实现更加准确的网站分类。

Description

网站分类的方法及***
技术领域
本发明涉及网络技术领域,尤其涉及一种网站分类的方法及***。
背景技术
搜索引擎运营商需要事先对众多网站进行分类,以便在用户输入关键字时,有针对性地从对应类型的网站显示关键字对应的信息。参见表1,为网站分类举例。
表1
 
网站类型 关键字举例 网站举例
视频 公主小妹在线观看遍地英雄视频钻石王老五全集   www.aire.com www.tudou.com www.youku.com
小说 兰心有期小说玄幻这辈子爱定你 www.xxsv.combook.sohu.comhjsm.tom.com 
软件 office2000文件格式兼容包dos矮人视频转换软件             download.zol.com.cndl.pconline.com.cnwww.skycn.com    
财经 搜狐股票多股行情关税减让易基价值精选     stock.business.sohu.comwww.mathfund.comgb.chineseworldnet.com  
...... ...... ......
搜索引擎如果能够预先对网站进行分类,用户在搜索时发给搜索引擎一个特定类型的关键字(例如视频类查询词),搜索引擎可以优先到对应类型网站(如视频类网站)中进行检索,或者将检索结果中来自对应类型网站(如视频类网站)的结果排在前面,以提高搜索的精度。
下面介绍现有的网站方类方案:
如果某一用户搜索关键字Q之后,在搜索结果中点击了网站S的网页,则称Q指向S。所有用户搜索关键字Q之后,在搜索结果中点击了网站S的网页的次数累积之和,称为Q指向S的次数。
现有的确定网站是否属于某一类型网站的方案,是基于关键字的。
第一步:生成该类型T关键字的集合;
第二步:为了判断某个网站S是否属于类型T,统计指向S的所有关键字,计算其中属于T的关键字的比例。定义“网站S属于类型T的概率”为P(S→T),则有:
P ( S → T ) = Σcount ( Q i T ) Σcount ( Q i )
其中,
Figure A200810246669D00062
是指向网站S的属于类型T的关键字,
Figure A200810246669D00063
Figure A200810246669D00064
指向网站S的次数,Qi是指向网站S的所有关键字,count(Qi)是Qi指向网站S的次数。
在P(S→T)达到设定的阈值时,确定网站S属于类型T。
上述方案存在以下不足:
(1)由于属于某类网站的关键字往往是数目庞大的,因此很难枚举出某个类型的所有关键字,比如,视频类关键字可能有无数个,无法找全,采用某类不全的关键字计算出来的P(S→T)会偏小。
(2)该方案以关键字分类为前提,而关键字分类本身还是一个尚未得到完善的技术问题,关键字分类结果中难以避免含有错误,因此造成以此为基础的网站分类方案不准确。
本申请人在申请号200710103028.8的专利文件中,公开了一种网站分类方法,概括而言,该专利的方法就是采用类似上述介绍的以关键字分类为基础的网站分类方法,因此也存在上述(1)、(2)的不足。
发明内容
本发明提供一种网站分类的方法及***,以解决现有方案分类不准确的问题。
为此,本发明实施例采用如下技术方案:
一种网站分类的方法,包括:以网站为单位,统计用户搜索关键字并点击网址的信息;利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;根据相似度大小,确定待分类网站的类型。
所述以该关键字集合建立待分类网站的向量的过程为:统计所述关键字集合中各关键字分别指向待分类网站的次数;构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。
所述根据相似度大小确定待分类网站的类型的过程为:将所述相似度与预置的相似度阈值进行比较;如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,将待分类网站的向量与所述关键字集合对应的其他种子网站的向量进行相似度计算,确定网站是否同属于该其他种子网站的类型。
优选地,所述种子网站为多个,并且,各个种子网站属于相同类型的网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和种子网站的相似度。
或者,所述种子网站为多个,并且,各个种子网站属于不同类型的网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并从这多个相似度中选取出最大值作为所述待分类网站和种子网站的相似度。
或者,所述种子网站为多类种子网站集,各类种子网站集包括多个种子网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各类种子网站集中各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各类种子网站集中各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和各类种子网站集的相似度;从所述待分类网站和各类种子网站集的相似度中,选取最大值作为所述待分类网站和种子网站的相似度。
其中,采用向量夹角余弦法或者空间坐标距离法计算待分类网站和种子网站的相似度。
一种网站分类的***,包括:统计单元,用于以网站为单位,统计用户搜索关键字并点击网址的信息;待分类网站控制单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;种子网站控制单元,用于确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;相似度计算单元,用于利用所述待分类网站控制单元获得的待分类网站的向量,以及所述种子网站控制单元获得的种子网站的向量,计算待分类网站和种子网站的相似度;判断单元,用于根据所述相似度计算单元获得的相似度大小,确定待分类网站的类型。
所述待分类网站控制单元包括:关键字集合确定子单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合;统计子单元,用于统计所述关键字集合中各关键字分别指向待分类网站的次数;向量确定子单元,用于构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。
所述判断单元包括:比较子单元,用于将所述相似度计算单元获得的相似度与预置的相似度阈值进行比较;类型确定及指示子单元,用于根据所述比较子单元的比较结果划分待分类网站的类型:如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,指示所述种子网站控制单元确定其他种子网站,并指示所述相似度计算单元计算待分类网站与所述其他种子网站的相似度,确定网站是否同属于该其他种子网站的类型。
对于上述技术方案的技术效果分析如下:
在现有方案中,例如,存在关键字“火箭对爵士比赛”和“青花瓷”,其中,“火箭对爵士比赛”属于体育类关键字,但用户搜索之后若想观看视频,就会点击视频网站,“青花瓷”属于百科类关键字,但它同时也是一首歌曲的名字,如果用户目的是看它的MV,也会点击视频网站。若采用现有方案,如果不把这两个关键字作为视频类关键字,则指向视频类网站的视频类关键字的比例就会偏低。也就是说,由于“火箭对爵士比赛”不属于生成该视频类型T关键字的集合,那么按照现有方案,不会将此关键字计算到T指向视频网站的次数,继而导致指向视频类网站的视频类关键字的比例偏低。
而在本发明中,不考虑“火箭对爵士比赛”和“青花瓷”本身的关键字类型,只要这样的关键字指向某类种子网站,且指向待确定的网站,则就可以根据待分类网站与种子网站的相似度判断待分类网站的类型。
可见,本发明与现有方案相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,实现更加准确的网站分类。
附图说明
图1为本发明网站分类方法流程图;
图2为本发明网站分类***结构示意图。
具体实施方式
本发明中,一个网站类型采用点击了这个网站的关键字组成的向量表示,首先枚举出一个或几个典型的已知类型的种子网站,然后,再计算待分类网站与种子网站的向量相似度,如果相似度足够高,则确定该网站属于种子网站相同类型的网站。
概括而言,本发明提供的网站分类方法包括以下步骤:
步骤1:以网站为单位,统计用户搜索关键字并点击网址的信息;
步骤2:利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;
步骤3:确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;
步骤4:利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;
步骤5:根据相似度大小,确定待分类网站的类型。
其中,关键字集合至少包括一个关键字,一般包括多个关键字,由此计算的向量才能够更加全面表示网站的类型。
下面结合附图,对本发明实施例进行详细介绍。
参见图1,为本发明网站分类方法流程图,包括:
S101:以网站为单位,统计用户搜索关键字并点击网址的信息;
对于某段时间内,统计的原始数据包括用户搜索的关键字,以及最后点击的网站地址,参见表2,为搜索的关键字与点击的网址的统计示例。
表2
 
点击时间t1 关键字q1 点击地址u1
点击时间t2 关键字q2 点击地址u2
点击时间t3 关键字q3 点击地址u3
通过表2的原始数据,可统计出一段时间内点击各个网站的关键字及其搜索次数,参见表3。
表3
Figure A200810246669D00111
S102:利用S101统计信息,采用向量表示网站;
用向量VS表示网站S,VS的每一维度是指向S的关键字Q,维度的数值是Q指向S的次数。
假设共有四个关键字Q1、Q2、Q3和Q4;
假设网站S被Q1指向1次,被Q2指向0次,被Q3指向3次,被Q4指向2次;则S对应的向量为:VS={1,0,3,2}。
S103:确定种子网站及其向量;
对于一个类别,枚举一个或多个种子网站,并计算出上述四个关键字Q1、Q2、Q3和Q4对应该种子网站的向量。假设确定一个种子网站M,其向量为VM
S104:利用待分类网站的向量与种子网站的向量,计算待分类网站与种子网站的相似度;
在待分类网站S和种子网站M的向量都已知的情况下,可利用向量夹角余弦或者空间坐标距离等方法,计算出二者的相似度。上述相似度计算方法都是成熟的算法,此处不多作介绍。
下面以向量夹角余弦为例,计算网站S和M之间的相似度:
若网站S的向量为VS=(a1,a2,a3,...,an),种子网站M的向量为VM=(b1,b2,b3,...,bn),则网站S和M之间的相似度LS,M为:
L S , M = a 1 × b 1 + a 2 × b 2 + . . . + a n × b n a 1 2 + a 2 2 + . . . + a n 2 × b 1 2 + b 2 2 + . . . + b n 2
S105:根据待分类网站和种子网站的相似度,判断待分类网站的类型。
如果待分类网站S和种子网站的相似度LS,M足够大,例如,大于或等于预置的相似度阈值,则可确定网站S是与种子网站M类型相同的网站,比如,如果种子网站M为视频网站,则可确定S也为视频类网站。
如果相似度LS,M小于预置的相似度阈值,则可进一步计算S与其他类型的种子网站的相似度、并判断是否与其他种子网站类型相同,或者,直接将网站S划定为杂类网站,所谓杂类网站即是除一般类型网站之外的类型不确定网站。
本发明与现有方法相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,实现更加准确的网站分类。
例如,存在关键字“火箭对爵士比赛”和“青花瓷”,其中,“火箭对爵士比赛”属于体育类关键字,但用户搜索之后若想观看视频,就会点击视频网站,“青花瓷”属于百科类关键字,但它同时也是一首歌曲的名字,如果用户目的是看它的MV,也会点击视频网站。如果采用现有方案,如果不把这两个关键字作为视频类关键字,则指向视频类网站的视频类关键字的比例就会偏低。
也就是说,由于“火箭对爵士比赛”不属于生成该视频类型T关键字的集合,那么按照现有方案,不会将此关键字计算到T指向视频网站的次数,继而导致指向视频类网站的视频类关键字的比例偏低。
而在本发明中,不考虑“火箭对爵士比赛”和“青花瓷”本身的关键字类型,只要这样的关键字指向某类种子网站,且指向待确定的网站,则就可以根据待分类网站与种子网站的相似度确定待分类网站的类型。
进一步而言,一个关键字可以指向若干个类型的网站,计算网站A与网站B的相似度时,仅考虑关键字指向网站A和B的次数,而不考虑关键字指向其他网站的次数,例如四个关键字,前三个仅是视频关键字,第四个既是视频类也是体育类关键字,网站A对应的向量是(100,100,100,1),网站B对应的向量是(200,200,200,2),网站C对应的向量是(0,1,1,100),由此,网站A和B的相似度为1,完全相关,如果网站B为视频类种子网站,即可确定网站A也是视频类网站,网站A和网站B的相似度与网站C无关。由此可以看出,跨类别的关键字(第四个关键字)或者不易区分类别的关键字,对于本发明不会带来负面影响。
下面介绍应用本发明的两个具体实例。
如前所述,本发明主要是计算待分类网站与某类型种子网站之间的相似度,从而确定网站类型,在具体应用中,可依据同一类型的多个种子网站,以及,不同类型的多个种子网站,来确定网站类型。
第一实例:
对于同属某类型的多个网站,其侧重点也有所不同,因此被相同关键字指向的概率也不尽相同。例如,同属于视频类的多个网站,有的侧重电影视频和电视剧视频,有的侧重歌曲MV,有的则侧重时事新闻的视频,因此,当用户输入某个视频关键字时,各个视频网站被用户点击的概率是不同的,假如用户搜索一个典型的影视名称关键字,则该关键字指向侧重电影视频的网站的概率就最高。
因此,在执行S103步骤时,可以确定同属该类型的多个网站作为种子网站,并计算待分类网站与各种子网站的相似度,最终确定网站类型。
参见表4,为第一实例表格,其中包括同属某类A的多个种子网站与待分类网站X的相似度关系。
表4
Figure A200810246669D00141
假设存在多个同属类型A的种子网站A1、A2、...、An,在采用某个关键字集合计算待分类网站X与种子网站的相似度时,分别计算网站X与种子网站A1、A2、...、An的相似度
Figure A200810246669D00142
最后,由相似度
Figure A200810246669D00143
Figure A200810246669D00144
按照比例计算出网站X与类型A网站的相似度LX,A,即采用加权累加法确定LX,A
L X , A = α 1 L X , A 1 + α 2 L X , A 2 + . . . + α n L X , A n
其中,α1、α1、...、αn均为大于等于0、小于等于1的数值,并且α12+...+αn=1。具体各α1、α1、...、αn的取值可以根据对应网站A1、A2、...、An的知名度或者历史被点击率确定。
最简单的一种做法,直接采用平均值法确定LX,A
L X , A = L X , A 1 + L X , A 2 + . . . + L X , A n n
可见,第一实例采用多个同属类型的种子网站,较仅采用一个种子网站判断待分类网站类型的方案,能够进一步提高网站分类的精度。
第二实例:
在根据某类种子网站判断待分类网站类型时,有可能存在待分类网站与某类种子网站相似度较小的情况,从而导致无法将待分类网站划分为该类种子网站的范畴。如果此时仅有一个类型的种子网站,就难以明确待分类网站的类型,因此,可枚举多个类型的网站作为种子网站。
参见表5,为第二实例表格,其中包括属于不同某类的多个种子网站与待分类网站X的相似度关系。
表5
 
不同类型的多个种子网站 待分类网站X与各种子网站的相似度
A LX,A
B LX,B
...... ......
W LX,W
假设存在多个属于不同类型的种子网站A、B、...、W,在采用某个关键字集合计算待分类网站X与种子网站的相似度时,分别计算网站X与种子网站A、B、...、W的相似度LX,A、LX,B、...、LX,W,最后,通过比较相似度LX,A、LX,B、...、LX,W大小,确定网站X为相似度最大值对应的类型。
假设网站X与类型I的种子网站相似度最大:
LX,I=MAX{LX,A,LX,B,...,LX,W}
则将网站X与类型I种子网站的相似度LX,I作为与相似度作为最终的相似度,与预置的相似度阈值进行比较,如果大于或等于相似度阈值,则可确定网站X是属于类型I的网站。
可见,第二实例通过枚举多个类型的种子网站,可判断出待分类网站与哪类种子网站相似度更高,从而更加准确地划分网站类型。
另外,第一实例与第二实例的方法可结合应用,即,同时枚举出多个类型的种子网站集,每类种子网站集又包括多个种子网站,在计算待分类网站与种子网站相似度时,首先采用第一实例的方法,计算出各类种子网站集与待分类网站的相似度,然后再通过第二实例的方法,选取出相似度最大的种子网站集,将此相似度与预置的相似度阈值进行比较,从而确定网站类型。
与上述方法相对应,本发明还提供一种网站分类***,该***可由软件、硬件或软硬件结合实现,在实际应用中,该***可存在于搜索引擎的服务器中。
参见图2,为本发明提供的***内部结构示意图,该***包括统计单元201、待分类网站控制单元202、种子网站控制单元203、相似度计算单元204以及判断单元205,其中:
统计单元201,用于以网站为单位,统计用户搜索关键字并点击网址的信息;
待分类网站控制单元202,用于利用统计单元201获得的统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;
种子网站控制单元203,用于确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;
相似度计算单元204,用于利用待分类网站控制单元202获得的待分类网站的向量,以及种子网站控制单元203获得的种子网站的向量,计算待分类网站和种子网站的相似度;
判断单元205,用于根据相似度计算单元204获得的相似度大小,确定待分类网站的类型。
优选地,待分类网站控制单元202包括:
关键字集合确定子单元2021,用于利用统计单元201获得的统计信息,确定指向待分类网站的关键字集合;
统计子单元2022,用于统计所述关键字集合中各关键字分别指向待分类网站的次数;
向量确定子单元2023,用于构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。
优选地,判断单元205包括:
比较子单元2051,用于将相似度计算单元204获得的相似度与预置的相似度阈值进行比较;
类型确定及指示子单元2052,用于根据比较子单元2051的比较结果划分待分类网站的类型:
如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;
否则,将待分类网站划为杂类,或者,指示种子网站控制单元203确定其他种子网站,并指示相似度计算单元204计算待分类网站与所述其他种子网站的相似度,确定网站是否同属于该其他种子网站的类型。
另外,本发明提供的***可以采用上述介绍的第一实例或/和第二实例方式进行工作,即,
可通过种子网站控制单元203设置多个属于同一类型的种子网站,并分别计算各种子网站的向量;通过相似度计算单元204分别计算待分类网站与各种子网站的相似度,最后根据这多个相似度,采用加权累加法或取平均值法,计算出待分类网站与种子网站的相似度。
或者,
可通过种子网站控制单元203设置多个属于不同类型的种子网站,并分别计算各类种子网站的向量;通过相似度计算单元204分别计算待分类网站与各类种子网站的相似度,最后从这多个相似度选取出最大值,作为待分类网站与种子网站的相似度。
或者,
可通过种子网站控制单元203设置多类种子网站集,其中各类种子网站集包括多个种子网站,并计算各类种子网站集中各个种子网站的向量;通过相似度计算单元204分别利用待分类网站的向量与各类种子网站集中各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和各类种子网站集的相似度,并从待分类网站和各类种子网站集的相似度中,选取最大值作为待分类网站和种子网站的相似度。
本发明与现有方案相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,可实现更加准确的网站分类。
本领域普通技术人员可以理解,实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1、一种网站分类的方法,其特征在于,包括:
以网站为单位,统计用户搜索关键字并点击网址的信息;
利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;
利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;
根据相似度大小,确定待分类网站的类型。
2、根据权利要求1所述方法,其特征在于,所述以该关键字集合建立待分类网站的向量的过程为:
统计所述关键字集合中各关键字分别指向待分类网站的次数;
构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。
3、根据权利要求1所述方法,其特征在于,所述根据相似度大小确定待分类网站的类型的过程为:
将所述相似度与预置的相似度阈值进行比较;
如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;
否则,将待分类网站划为杂类,或者,将待分类网站的向量与所述关键字集合对应的其他种子网站的向量进行相似度计算,确定网站是否同属于该其他种子网站的类型。
4、根据权利要求1所述方法,其特征在于,
所述种子网站为多个,并且,各个种子网站属于相同类型的网站;
所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;
所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和种子网站的相似度。
5、根据权利要求1所述方法,其特征在于,
所述种子网站为多个,并且,各个种子网站属于不同类型的网站;
所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;
所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并从这多个相似度中选取出最大值作为所述待分类网站和种子网站的相似度。
6、根据权利要求1所述方法,其特征在于,
所述种子网站为多类种子网站集,各类种子网站集包括多个种子网站;
所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各类种子网站集中各个种子网站的向量;
所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各类种子网站集中各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和各类种子网站集的相似度;从所述待分类网站和各类种子网站集的相似度中,选取最大值作为所述待分类网站和种子网站的相似度。
7、根据权利要求1至6任一项所述方法,其特征在于,采用向量夹角余弦法或者空间坐标距离法计算待分类网站和种子网站的相似度。
8、一种网站分类的***,其特征在于,包括:
统计单元,用于以网站为单位,统计用户搜索关键字并点击网址的信息;
待分类网站控制单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;
种子网站控制单元,用于确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;
相似度计算单元,用于利用所述待分类网站控制单元获得的待分类网站的向量,以及所述种子网站控制单元获得的种子网站的向量,计算待分类网站和种子网站的相似度;
判断单元,用于根据所述相似度计算单元获得的相似度大小,确定待分类网站的类型。
9、根据权利要求8所述***,其特征在于,所述待分类网站控制单元包括:
关键字集合确定子单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合;
统计子单元,用于统计所述关键字集合中各关键字分别指向待分类网站的次数;
向量确定子单元,用于构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。
10、根据权利要求8所述***,其特征在于,所述判断单元包括:
比较子单元,用于将所述相似度计算单元获得的相似度与预置的相似度阈值进行比较;
类型确定及指示子单元,用于根据所述比较子单元的比较结果划分待分类网站的类型:
如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;
否则,将待分类网站划为杂类,或者,指示所述种子网站控制单元确定其他种子网站,并指示所述相似度计算单元计算待分类网站与所述其他种子网站的相似度,确定网站是否同属于该其他种子网站的类型。
CNA2008102466693A 2008-12-29 2008-12-29 网站分类的方法及*** Pending CN101458713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102466693A CN101458713A (zh) 2008-12-29 2008-12-29 网站分类的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102466693A CN101458713A (zh) 2008-12-29 2008-12-29 网站分类的方法及***

Publications (1)

Publication Number Publication Date
CN101458713A true CN101458713A (zh) 2009-06-17

Family

ID=40769569

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102466693A Pending CN101458713A (zh) 2008-12-29 2008-12-29 网站分类的方法及***

Country Status (1)

Country Link
CN (1) CN101458713A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236652A (zh) * 2010-04-27 2011-11-09 腾讯科技(深圳)有限公司 一种信息的分类方法和装置
CN102523311A (zh) * 2011-11-25 2012-06-27 中国科学院计算机网络信息中心 非法域名识别方法及装置
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和***
CN103902550A (zh) * 2012-12-25 2014-07-02 深圳市世纪光速信息技术有限公司 搜索站点的方法和装置
CN104216928A (zh) * 2013-06-05 2014-12-17 腾讯科技(深圳)有限公司 站点信息获取方法及装置
CN104504086A (zh) * 2014-12-25 2015-04-08 北京国双科技有限公司 网页页面的聚类方法和装置
CN105488207A (zh) * 2015-12-10 2016-04-13 合一网络技术(北京)有限公司 网络资源的语义编码方法和装置
CN106033444A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 文本内容的聚类方法和装置
CN107797979A (zh) * 2016-09-02 2018-03-13 株式会社日立制作所 分析装置和分析方法
CN111629273A (zh) * 2020-04-14 2020-09-04 北京奇艺世纪科技有限公司 一种视频管理方法、装置、***及存储介质
CN112579848A (zh) * 2020-12-10 2021-03-30 北京知道创宇信息技术股份有限公司 网站分类方法、装置、计算机设备及存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236652A (zh) * 2010-04-27 2011-11-09 腾讯科技(深圳)有限公司 一种信息的分类方法和装置
CN102523311A (zh) * 2011-11-25 2012-06-27 中国科学院计算机网络信息中心 非法域名识别方法及装置
CN102523311B (zh) * 2011-11-25 2014-08-06 中国科学院计算机网络信息中心 非法域名识别方法及装置
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103377258B (zh) * 2012-04-28 2018-11-02 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103902550A (zh) * 2012-12-25 2014-07-02 深圳市世纪光速信息技术有限公司 搜索站点的方法和装置
CN104216928A (zh) * 2013-06-05 2014-12-17 腾讯科技(深圳)有限公司 站点信息获取方法及装置
CN103425767B (zh) * 2013-08-07 2016-07-27 北京搜狗信息服务有限公司 一种提示数据的确定方法和***
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和***
CN104504086A (zh) * 2014-12-25 2015-04-08 北京国双科技有限公司 网页页面的聚类方法和装置
CN104504086B (zh) * 2014-12-25 2017-11-21 北京国双科技有限公司 网页页面的聚类方法和装置
CN106033444A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 文本内容的聚类方法和装置
CN106033444B (zh) * 2015-03-16 2019-12-10 北京国双科技有限公司 文本内容的聚类方法和装置
CN105488207A (zh) * 2015-12-10 2016-04-13 合一网络技术(北京)有限公司 网络资源的语义编码方法和装置
CN107797979A (zh) * 2016-09-02 2018-03-13 株式会社日立制作所 分析装置和分析方法
CN107797979B (zh) * 2016-09-02 2021-05-04 株式会社日立制作所 分析装置和分析方法
CN111629273A (zh) * 2020-04-14 2020-09-04 北京奇艺世纪科技有限公司 一种视频管理方法、装置、***及存储介质
CN111629273B (zh) * 2020-04-14 2022-02-11 北京奇艺世纪科技有限公司 一种视频管理方法、装置、***及存储介质
CN112579848A (zh) * 2020-12-10 2021-03-30 北京知道创宇信息技术股份有限公司 网站分类方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN101458713A (zh) 网站分类的方法及***
CN111008265B (zh) 企业信息搜索方法及装置
CN102567408B (zh) 推荐搜索关键词的方法和装置
JP5513624B2 (ja) クエリの一般属性に基づく情報の検索
CN101464905B (zh) 一种网页信息抽取的***及方法
US8751458B2 (en) Method and system for saving database storage space
CN103902545B (zh) 一种类目路径识别方法及***
CN101685521A (zh) 在网页中展现广告的方法及***
CN113342976B (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN102024058A (zh) 音乐推荐方法及***
CN104951468A (zh) 数据搜索处理方法和***
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
TW201214166A (en) Processing of categorized product information cross reference to other applications
US9405803B2 (en) Ranking signals in mixed corpora environments
CN102103603A (zh) 用户行为数据分析方法和装置
CN100354863C (zh) 大规模关键词匹配的方法和***
CN102737123B (zh) 一种多维数据分布方法
CN106503184A (zh) 确定目标文本所属业务类别的方法及装置
CN104978356A (zh) 一种同义词的识别方法及装置
CN109635084A (zh) 一种多源数据文档实时快速去重方法及***
CN103136213A (zh) 一种提供相关词的方法及装置
CN107832444A (zh) 基于搜索日志的事件发现方法及装置
CN101405725A (zh) 多义词的信息检索装置以及程序
CN101836209B (zh) 管理信息地图的***和方法
CN103853771B (zh) 一种搜索结果的推送方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090617