CN102567494A - 网站分类方法及装置 - Google Patents

网站分类方法及装置 Download PDF

Info

Publication number
CN102567494A
CN102567494A CN2011104361679A CN201110436167A CN102567494A CN 102567494 A CN102567494 A CN 102567494A CN 2011104361679 A CN2011104361679 A CN 2011104361679A CN 201110436167 A CN201110436167 A CN 201110436167A CN 102567494 A CN102567494 A CN 102567494A
Authority
CN
China
Prior art keywords
websites
website
mark
classification
netwoks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104361679A
Other languages
English (en)
Other versions
CN102567494B (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES CO LTD
Izp China Network Technology Co ltd
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201110436167.9A priority Critical patent/CN102567494B/zh
Publication of CN102567494A publication Critical patent/CN102567494A/zh
Application granted granted Critical
Publication of CN102567494B publication Critical patent/CN102567494B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种网站分类方法及装置,其中,网站分类方法包括:根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。通过本申请,有效提高了网络分类的效率,解决了现有网站分类技术需要处理的数据量大,效率不高的问题。

Description

网站分类方法及装置
技术领域
本申请涉及网络技术领域,特别是涉及一种网站分类方法及装置。
背景技术
随着信息技术的快速发展,网站数量已数以百万计。为了能在如此众多的网站中快速搜索到需要的网站,网站分类技术应运而生。网站分类即利用网站的特征数据,对网站进行类别划分。“物以类聚,人以群分”,对现有网站进行分门别类具有重要意义,例如,www.hao123.com对一些流量较高的网站进行分类,将网站划分到最合适的类别中,以进行网站导航,为用户查询提供便利。此外,网站分类还可以鉴别出敏感网站以进行舆情监控。
目前,在对网站进行分类时,常利用爬虫技术。爬虫技术是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。爬虫技术通过对网站信息进行采集,获取网站的文本特征,进而利用特定的文本分类方法,如通过机器学习或者基于规则的方法,对网站进行分类。
然而,由于网站数量众多,而且网站上的数据通常也都是海量数据,这使得使用爬虫技术采集获取的数据也是海量的,对如此大数据量的信息进行采集分析,不利于数据采集后,网页文本特征的形成,造成网站分类效率低下。
另外,在某些情况下,网站的文本特征可能并不能真实地反映网站的真正类别,部分原因是因为某些网站为提高其访问量,在其页面上尤其是标题上引入了一些与本网站无关的关键词信息,这无疑将大大降低网站分类的准确率,也造成网站分类效率的低下。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何减少网络分类需要处理的数据量,提高网站分类的效率。
发明内容
本申请所要解决的技术问题是提供一种网站分类方法及装置,以解决现有网站分类技术需要处理的数据量大,效率不高的问题。
为了解决上述问题,本申请公开了一种网站分类方法,包括:根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。
优选地,在所述根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合的步骤之前,还包括:在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取所述网站的关系特征作为所述网络访问行为特征。
优选地,网站分类方法还包括:若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类。
优选地,在所述根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合的步骤之前,还包括:从所述网站数据库中随机抽取设定数量的网站,进行标注分类。
为了解决上述问题,本申请还公开了一种网站分类装置,包括:划分模块,用于根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;分类模块,用于若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。
优选地,网络分类装置还包括:特征提取模块,用于在所述划分模块根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取所述网站的关系特征作为所述网络访问行为特征。
优选地,所述分类模块还用于若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类。
优选地,网络分类装置还包括:标注模块,用于在所述划分模块根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,从所述网站数据库中随机抽取设定数量的网站,进行标注分类。
与现有技术相比,本申请具有以下优点:
通过本申请,使用对通信网络报文进行报文特征提取后获得的网络访问行为特征作为网站划分的依据,而不必对网页或网站的海量数据进行大量分析提取,解决了传统网络分类方法必须处理海量数据的问题,进而依据设定的网站的标注分类,对包含了标注分类过的网站的网站集合进行精确分类,提高了网站分类的准确率。可见,通过本申请,既减少了进行网络分类所需要处理的数据量,又提高了网络分类的准确率,从而有效提高了网络分类的效率,解决了现有网站分类技术需要处理的数据量大,效率不高的问题。另外,网络访问行为特征是通过对用户的通信网络报文进行分析后获得的有关用户网络访问行为的信息,能够较好地反映网站的真实类别,从而提高网站分类的准确性,进而提高网站分类效率。
附图说明
图1是根据本申请实施例一的一种网站分类方法的步骤流程图;
图2是根据本申请实施例二的一种网站分类方法的步骤流程图;
图3是根据本申请实施例三的一种网站分类装置的结构框图;
图4是使用本申请实施例四的一种网站分类装置进行网络分类的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
参照图1,示出了根据本申请实施例一的一种网站分类方法的步骤流程图。
本实施例的一种网站分类方法包括以下步骤:
步骤S102:根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合。
其中,网络访问行为特征通过对通信网络报文进行报文特征提取而获得。
网络访问行为特征是对用户使用网络的行为进行分析后,提取的其行为特征。本实施例中,是通过获取的通信网络报文分析用户使用网络的行为,对报文特征进行提取而获取网络访问行为特征,如,对通信网络报文中的数据进行数据分析,根据数据分析结果提取报文特征,本实施例中,重点对用户的网页查询词与用户所点击的网页的URL进行分析,从而提取报文特征,获得网络访问行为特征。
网站数据库中包含有多个网站的一个或多个网页,通过对网页的分析,可以获取其所属的网站的相关信息。本实施例中,根据网络访问行为特征,对多个网站的相关网页进行分析,进而将相关网页所属的网站划分为不同的集合。
步骤S104:若网站集合中包括标注分类过的网站,则将该标注分类过的网站所归属的网站集合中的其他网站的类别,确定为该标注分类过的网站的类别。
其中,标注分类过的网站为从网站数据库中抽取的预先进行了标注分类的网站。也即,从网站数据库中选取一定数量的网站,然后采用人工或由机器按照设定规则,对选取的每个网站标注其所属的网站类别,如A网站属于军事类网站,B网站属于财经类网站等。
通常情况下,一个网站集合中可能包括一个标注分类网站,也可能包括多个标注分类网站。由于相似的网络访问行为特征对应的网站的类别也基本相同,因此,一般来说,经过了以网络访问行为特征为依据的网络集合的划分后,如果一个网站集合中包括了多个标注分类过的网站,这个网站集合中的每个标注分类过的网站的类别也是相同的。
在根据网络访问行为特征对所有网站进行了划分后,就可以根据网站集合与标注分类过的网站的关系,确定该网站集合中的网站的类别。如S1集合中包含有A、F、G、H四个网站,而A网站已事先标注为军事类网站,则可以确定集合S1中的F、G、H网站的类别也属于军事类网站。而对于不包含标注分类过的网站的集合,则可以采用其它适当的分类方法进行分类,如自动分类,或者将该网站集合中的各个网站直接归为其它类、杂类等。
通过本实施例,使用对通信网络报文进行报文特征提取后获得的网络访问行为特征作为网站划分的依据,而不必对网页或网站的海量数据进行大量分析提取,解决了传统网络分类方法必须处理海量数据的问题,进而依据设定的网站的标注分类,对包含了标注分类过的网站的网站集合进行精确分类,提高了网站分类的准确率。通过本实施例,既减少了进行网络分类所需要处理的数据量,又提高了网络分类的准确率,从而有效提高了网络分类的效率,解决了现有网站分类技术需要处理的数据量大,效率不高的问题。另外,网络访问行为特征是通过对用户的通信网络报文进行分析后获得的有关用户网络访问行为的信息,能够较好地反映网站的真实类别,从而提高网站分类的准确性,进而提高网站分类效率。
实施例二
参照图2,示出了根据本申请实施例二的一种网站分类方法的步骤流程图。
本实施例的网站分类方法包括以下步骤:
步骤S202:在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取网站的关系特征作为网络访问行为特征。
本实施例中,在多个地理位置部署网关,获取通过网关的所有用户的通信网络报文。对获取的原始的通信网络报文进行数据处理和分析,形成查询词(也可称为网页查询词或者网站查询词)与点击到的网站的对应关系信息,本申请中简称为“查询词网站关系信息”。由“查询词网站关系信息”可以确定点击到的多个网站之间具有一定的相似关系。值得注意的是,查询词反映了用户的查询意图,而点击到的网站一般是用户想要的结果,故“查询词网站关系信息”是进行网站分类的一个较好的文本特征。在实际应用中,可以直接将“查询词网站关系信息”作为网络访问行为特征,也可以进一步地将根据其确定的多个网站之间的关系特征作为网络访问行为特征。
通过将提取的网站的关系特征作为网络访问行为特征可以方便有效地将网站数据库中的多个相关网站划分到一个集合中,减少了网站分类处理数据量,提高了网站分类效率。
当然,不限于此,其它能够有效标识用户网络访问行为的特征也可以作为网络访问行为特征。
步骤S204:从网站数据库中随机抽取一定数量的网站,进行标注分类。
其中,抽取的网站的数量可以预先设定,也可以随机设定,当然也可以按照比例抽取需要进行标注分类的网站。理论上讲,标注分类的网站越多,网站类别越全面和细致,网站分类越准确。
从网站数据库中随机抽取部分网站进行人工标注分类,可以以标注分类后的网站作为分类依据,准确地确定相关网站的类别。
需要说明的是,步骤S204与步骤S202可以不分先后顺序执行。
步骤S206:根据网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合。
为便于理解本实施例的方案,以下以一个简化的例子作为示意性说明。例如,设定用户输入的查询词为“专利”,设定与该关系词对应的点击的网站为A、B、C三个网站,经过一系列的数据分析可以推测这三个网站的相似度可能比较大,将A、B、C三个网站相似度大的关系作为网络访问行为特征。通过该网络访问行为特征,结合一定的数据分析可以推测网站数据库中A、B、C三个网站属于同一个网站集合,此外,通过对通信网络报文的分析,结合一定的数据分析,还可以推测与这三个网站有较强联系的网站也都属于与A、B、C三个网站相同的网站集合。如,通过对通信网络报文分析发现,多数用户查询“专利”时,在访问A、B、C三个网站中的一个或多个的同时,还访问了D、E网站,或者经由A、B、C三个网站中的一个或多个访问了D、E网站,则可以将A、B、C、D、E划分到一个网站集合中。
步骤S208:根据网站数据库中标注分类过的网站,分别确定多个不同的网站集合中的网站的类别。
本实施例中,假设A、B、C、D、E中的任何一个网站已被标注为专利网站,则A、B、C、D、E均被分类为专利网站。
优选地,在实现确定网站类别时,先判断多个不同的网站集合的某个或某些网站集合中是否包括至少一个标注分类过的网站;若是,则将该网站集合中的网站确定为与该网站集合中包括的标注分类过的网站相同的类别。
而对于那些所包括的网站均为未标注分类过的网站集合,可以通过现有分类方法对其中的网站进行分类,如进行自动分类,或者,直接将其归为其它类等。自动分类实现简单,方便灵活,可以节约网站分类的实现成本。
本实施例实现了基于用户网络访问行为信息和对部分网站进行人工标注的标注结果,对网站进行分类。在进行网站分类的过程中,采用通信网络报文中基于查询词与网站的对应关系信息,提取的网站的关系特征作为网络访问行为特征,该网络访问行为特征具有较好的代表性,能够以此为依据对网站数据库中的网站进行较为准确地集合划分,与现有技术通过对网页或网站的海量数据进行分析提取网页特征相比,本实施例的方案仅需对通过网络报文进行分析,而通信网络报文的数据量远小于网站或网页的数据量,由此减少了对网站进行分类所要处理的数据量,提高了网站分类的效率;而在确定网站集合类别时,对不包含进行了人工标注分类的网站的那些集合进行自动分类或直接划归为其它类,节约了网站分类的实现成本。
实施例三
参照图3,示出了根据本申请实施例三的一种网站分类装置的结构框图。
本实施例的网站分类装置包括:划分模块302,用于根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,网络访问行为特征通过对通信网络报文进行报文特征提取而获得;分类模块304,可以与划分模块302连接,用于若网站集合中包括标注分类过的网站,则将标注分类过的网站所归属的网站集合中的其他网站的类别,确定为标注分类过的网站的类别,其中,标注分类过的网站为从网站数据库中抽取的预先进行了标注分类的网站。
优选地,本实施例的网站分类装置还包括:特征提取模块306,可以与划分模块302、标注模块308分别连接,用于在划分模块302根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取网站的关系特征作为网络访问行为特征。
优选地,分类模块304还用于若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类,或直接划归为“其它类”。
优选地,本实施例的网站分类装置还包括:标注模块308,可以与划分模块302、特征提取模块306分别连接,用于在划分模块302根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,从网站数据库中随机抽取设定数量的网站,进行标注分类。
特征提取模块306的执行和标注模块308的执行可以不分先后顺序。
本实施列的网站分类装置用于实现前述多个方法实施例中相应的网站分类方法,并具有相应的网站分类方法实施例的有益效果,在此不再赘述。
实施例四
本实施例的网站分类装置主要包括两个模块,即通信网络报文预处理模块和网站分类模块。
其中:
通信网络报文预处理模块(相当于实施例三中的特征提取模块)主要负责对原始的通信网络报文进行预处理,形成查询词与点击到的网站的对应关系信息,简称“查询词网站关系信息”,将该信息作为网络访问行为特征。值得注意的是,查询词反映了用户的查询意图,而点击到的网站一般是用户想要的结果,故查询词网站关系信息是进行网站分类的一个较好的文本特征。
网站分类模块(相当于实施例三中的标注模块、划分模块和分类模块)主要负责随机抽取部分网站进行人工标注分类,基于查询词网站关系信息和人工标注分类结果,利用机器学习的分类模型完成网站的分类,对不能依据人工标注分类结果进行分类的网站,进行自动分类,形成网站分类结果。
使用本实施例的上述网站分类装置进行网络分类的过程如图4所示。在图4中,通信网络报文经过通信网络报文预处理模块的处理,生成了查询词网站关系信息,网站分类模块根据该查询词网站关系信息,以及事先标注分类的网站,对网站数据库中的所有网站进行分类,形成网站分类结果。其中,网站的标注分类可能先于查询词网站关系信息的生成,也可能后于查询词网站关系信息的生成。原始通信网络报文通过上述两个模块的处理,构建出网站分类***。
本实施列的网站分类装置用于实现前述多个方法实施例中相应的网站分类方法,并具有相应的网站分类方法实施例的有益效果,在此不再赘述。
本申请基于用户网络访问行为信息和对部分网站进行人工标注的标注结果,对网站进行了分类。通过本申请,实现了:
(1)本申请提出了基于通信网络报文信息对网站进行分类的方案,使用了更好的文本特征,即查询词网站关系信息来进行网站分类,解决了传统方案必须处理海量数据和准确率不高的问题。
(2)本申请可对目前网上绝大多数网站进行准确率较高的分类,其更准确的分类结果可用于很多网络应用。例如,可构建比www.hao123.com更好的网站导航门户,可用于鉴别出敏感网站以进行舆情监控,等等。
(3)基于本申请的网站分类结果,可进一步对用户的兴趣进行挖掘,建立精确的用户轮廓以指导精准广告投放等等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种网站分类方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种网站分类方法,其特征在于,包括:
根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;
若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。
2.根据权利要求1所述的方法,其特征在于,在所述根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合的步骤之前,还包括:
在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取所述网站的关系特征作为所述网络访问行为特征。
3.根据权利要求1所述的方法,其特征在于,还包括:
若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类。
4.根据权利要求3所述的方法,其特征在于,在所述根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合的步骤之前,还包括:
从所述网站数据库中随机抽取设定数量的网站,进行标注分类。
5.一种网站分类装置,其特征在于,包括:
划分模块,用于根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合,其中,所述网络访问行为特征通过对通信网络报文进行报文特征提取而获得;
分类模块,用于若所述网站集合中包括标注分类过的网站,则将所述标注分类过的网站所归属的网站集合中的其他网站的类别,确定为所述标注分类过的网站的类别,其中,所述标注分类过的网站为从所述网站数据库中抽取的预先进行了标注分类的网站。
6.根据权利要求5所述的装置,其特征在于,还包括:
特征提取模块,用于在所述划分模块根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,在获取的通信网络报文中,基于查询词与网站的对应关系信息,提取所述网站的关系特征作为所述网络访问行为特征。
7.根据权利要求5所述的装置,其特征在于,所述分类模块还用于若所述网站集合中所有的网站为未标注分类过的网站,则对该网站集合中的所有网站进行自动分类。
8.根据权利要求7所述的装置,其特征在于,还包括:
标注模块,用于在所述划分模块根据预先获取的网络访问行为特征,将网站数据库中所有的网站划分为多个不同的网站集合之前,从所述网站数据库中随机抽取设定数量的网站,进行标注分类。
CN201110436167.9A 2011-12-22 2011-12-22 网站分类方法及装置 Expired - Fee Related CN102567494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110436167.9A CN102567494B (zh) 2011-12-22 2011-12-22 网站分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110436167.9A CN102567494B (zh) 2011-12-22 2011-12-22 网站分类方法及装置

Publications (2)

Publication Number Publication Date
CN102567494A true CN102567494A (zh) 2012-07-11
CN102567494B CN102567494B (zh) 2014-07-02

Family

ID=46412896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110436167.9A Expired - Fee Related CN102567494B (zh) 2011-12-22 2011-12-22 网站分类方法及装置

Country Status (1)

Country Link
CN (1) CN102567494B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN105335449A (zh) * 2014-08-15 2016-02-17 北京奇虎科技有限公司 基于搜索引擎数据库的样本自动挖掘方法及装置
CN105447077A (zh) * 2015-11-04 2016-03-30 清华大学 基于OpenFlow的查询词抽取方法及***
WO2016115319A1 (en) * 2015-01-15 2016-07-21 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for generating and using a web page classification model
CN106294443A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于知识库的url分类识别方法及***
CN106294442A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于url的互联网信息分类识别方法及***
CN106649384A (zh) * 2015-11-03 2017-05-10 中国电信股份有限公司 对url进行分类的方法和装置
CN106708843A (zh) * 2015-11-12 2017-05-24 北京国双科技有限公司 网站搜索词的推送方法及装置
CN108073667A (zh) * 2016-11-11 2018-05-25 财团法人工业技术研究院 产生用户浏览属性的方法、以及非暂存计算机可读介质
CN111966948A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 信息投放方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243676A1 (en) * 2003-05-24 2004-12-02 Blankenship Mark H. Message manager for tracking customer attributes
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的***及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243676A1 (en) * 2003-05-24 2004-12-02 Blankenship Mark H. Message manager for tracking customer attributes
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾梦青等: "基于用户HTTP行为分析的网站分类研究", 《计算机工程与设计》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN105335449A (zh) * 2014-08-15 2016-02-17 北京奇虎科技有限公司 基于搜索引擎数据库的样本自动挖掘方法及装置
CN105335449B (zh) * 2014-08-15 2019-03-01 北京奇虎科技有限公司 基于搜索引擎数据库的样本自动挖掘方法及装置
WO2016115319A1 (en) * 2015-01-15 2016-07-21 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for generating and using a web page classification model
US10530671B2 (en) 2015-01-15 2020-01-07 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for generating and using a web page classification model
CN106294443A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于知识库的url分类识别方法及***
CN106294442A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于url的互联网信息分类识别方法及***
CN106649384A (zh) * 2015-11-03 2017-05-10 中国电信股份有限公司 对url进行分类的方法和装置
CN106649384B (zh) * 2015-11-03 2019-07-09 中国电信股份有限公司 对url进行分类的方法和装置
CN105447077A (zh) * 2015-11-04 2016-03-30 清华大学 基于OpenFlow的查询词抽取方法及***
CN106708843A (zh) * 2015-11-12 2017-05-24 北京国双科技有限公司 网站搜索词的推送方法及装置
CN108073667A (zh) * 2016-11-11 2018-05-25 财团法人工业技术研究院 产生用户浏览属性的方法、以及非暂存计算机可读介质
CN108073667B (zh) * 2016-11-11 2021-08-27 财团法人工业技术研究院 产生用户浏览属性的方法、以及非暂存计算机可读介质
CN111966948A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 信息投放方法、装置、设备及存储介质
CN111966948B (zh) * 2020-09-25 2023-08-01 北京百度网讯科技有限公司 信息投放方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102567494B (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN102567494B (zh) 网站分类方法及装置
CN103164427B (zh) 新闻聚合方法及装置
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102542061B (zh) 一种产品的智能分类方法
CN101794311A (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN101650715B (zh) 一种筛选网页上链接的方法和装置
CN104794242B (zh) 一种搜索方法
CN102521248A (zh) 一种网络用户分类方法及其装置
CN104008109A (zh) 基于用户兴趣的Web信息推送服务***
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN109800350A (zh) 一种个性化新闻推荐方法及***、存储介质
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN101393555A (zh) 一种垃圾博客检测方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104462611A (zh) 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN102637172B (zh) 网页分块标注方法与***
CN103116635B (zh) 面向领域的暗网资源采集方法和***
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及***
CN103177036A (zh) 一种标签自动提取方法和***
CN103838754A (zh) 信息搜索装置及方法
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN101071445A (zh) 分类样本集的优化方法和内容相关广告服务器
CN104699851A (zh) 一种大数据环境下业务标签的扩展方法
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee after: Izp (China) Network Technology Co.,Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: BEIJING IZP NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20151230

Address after: 100190, Haidian District, Beijing South Street, northeast flourishing, Beijing Zhongguancun software incubator, building 1, block C, three, 1322-D

Patentee after: IZP (BEIJING) TECHNOLOGIES Co.,Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: Izp (China) Network Technology Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140702

Termination date: 20181222