CN101079064B - 一种网页排序方法及装置 - Google Patents

一种网页排序方法及装置 Download PDF

Info

Publication number
CN101079064B
CN101079064B CN2007100761642A CN200710076164A CN101079064B CN 101079064 B CN101079064 B CN 101079064B CN 2007100761642 A CN2007100761642 A CN 2007100761642A CN 200710076164 A CN200710076164 A CN 200710076164A CN 101079064 B CN101079064 B CN 101079064B
Authority
CN
China
Prior art keywords
webpage
user
classification
web page
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100761642A
Other languages
English (en)
Other versions
CN101079064A (zh
Inventor
刘致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2007100761642A priority Critical patent/CN101079064B/zh
Publication of CN101079064A publication Critical patent/CN101079064A/zh
Priority to PCT/CN2008/070608 priority patent/WO2009000174A1/zh
Application granted granted Critical
Publication of CN101079064B publication Critical patent/CN101079064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于计算机应用领域,提供了一种网页排序方法及装置,所述方法包括:存储用户确立的网页类别向量;将用户访问的IP日志进行分类,将用户访问最多的网页类别确定为用户的专家类别;当用户根据搜索引擎检索结果点击网页时,按照确定的用户的专家类别对该网页对应的网页类别向量的值加分;当用户通过搜索引擎输入索引词条进行信息检索时,对所述索引词条进行分类处理,得到所述索引词条的网页类别,根据索引词条的网页类别对应的网页类别向量对搜索的网页进行优化排序。本发明解决了现有技术中直接靠用户的点击次数对网页进行加分而导致用户恶意点击,加分推荐非常盲目的问题。

Description

一种网页排序方法及装置
技术领域
本发明属于计算机应用领域,尤其涉及一种网页排序方法及装置。
背景技术
搜索引擎是当前竞争非常激烈的领域,搜索引擎除了内容的丰富以外,还有用户体验。一般来说,搜索引擎现在面对的问题不是信息不够而是信息过量,往往是搜索一个关键词会出现上千万的结果。
在实际应用过程中,用户使用搜索引擎时,都希望第一页甚至前5个统一资源***(Uniform Resource Locator,URL)中就包括了用户希望得到的信息,因此排序成了提高搜索引擎质量的关键因素。著名的搜索引擎Google能在短时间内成为世界第一的搜索引擎,就是因为其发明的网页等级(pagerank)技术能够有效解决排序问题。
但是如今,各个网络公司已经了解并且大部分都采用了pagerank技术,实际上当前的任何一个比较大的搜索引擎的排序结果都不是靠单一的一个算法了,而是靠几十个甚至上百个因素的总结果。常用的算法不仅仅是pagerank,还有hits算法(一种基于超链接的检索算法),Hilltop算法(一种适用于大分类的搜索引擎排名算法)等,因为单一的算法很容易被识破而被进行欺骗。当然,采用大量算法的目的只有一个,即让排序结果更加贴近用户。
现有技术中,在对用户通过搜索引擎搜索的结果进行排序时,直接靠用户的点击次数对网页进行加分。由于这种方法没有对用户进行划分,导致用户恶意点击,而且加分推荐非常盲目。
发明内容
本发明实施例的目的在于提供一种网页排序方法,旨在解决现有技术中直接靠用户的点击次数对网页进行加分而导致用户恶意点击,加分推荐非常盲目的问题。
本发明实施例是这样实现的,一种网页排序方法,所述方法包括以下步骤:
存储用户确立的网页类别向量;
将用户访问的IP日志进行分类,将用户访问最多的网页类别确定为用户的专家类别;
当用户根据搜索引擎检索结果点击网页时,按照确定的用户的专家类别对该网页的网页类别向量中与用户的专家类别相同的类别的值加分;所述网页类别向量为该网页在每个网页类别中的权重;
当用户通过搜索引擎输入索引词条进行信息检索时,对所述索引词条进行分类处理,得到所述索引词条的类别,根据搜索结果网页对应的网页类别向量中关于索引词条类别的值的大小,来调整网页的排序结果,并把该索引词条类别的值大的提前。
本发明实施例的另一目的在于提供一种网页排序装置,所述装置包括:
网页类别向量存储模块,用于存储用户确立的网页类别向量;
用户专家类别确定模块,用于将用户访问的IP日志进行分类,将用户访问最多的网页类别确定用户的专家类别;
网页类别向量加分模块,用于当用户根据搜索引擎检索结果点击网页时,按照确定的用户的专家类别对该网页的网页类别向量中与用户的专家类别相同的类别的值加分;所述网页类别向量为该网页在每个网页类别中的权重;
网页优化排序模块,用于当用户通过搜索引擎输入索引词条进行信息检索时,对所述索引词条进行分类处理,得到所述索引词条的类别,根据搜索结果网页对应的网页类别向量中关于索引词条类别的值的大小,来调整网页的排序结果,并把该索引词条类别的值大的提前。
本发明实施例根据用户访问的IP日志对用户进行用户专家类别划分,并根据用户点击的网页对该网页对应的网页类别向量的值加分,在用户检索信息时,根据该网页类别向量对用户的搜索结果进行排序,解决了现有技术中直接靠用户的点击次数对网页进行加分而导致用户恶意点击,加分推荐非常盲目的问题。
附图说明
图1是本发明实施例提供的网页排序方法的流程图;
图2是搜索引擎的典型结构图;
图3是本发明实施例提供的网页排序装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例根据用户访问的网络协议(Internet Protocol,IP)日志对用户进行用户专家类别划分,并根据用户点击的网页对该网页对应的网页类别向量的值加分,在用户检索信息时,根据该网页类别向量对用户的搜索结果进行排序。
图1示出了本发明实施例提供的网页排序方法的流程,详述如下。
在步骤S101中,存储用户确立的网页类别向量。
其中,向量是一维的矩阵,可以保存事物对某一个集合的所有元素的分值。本发明实施例通过对网页分配一个向量,保存此网页对类别集合中每个类别的取值,譬如,如果类别集合为{“体育”,“新闻”},那么网页的向量就保存了此网页对“体育”的分值和“新闻”的分值,可以通过访问向量读取这两个分值。在实际应用过程中,类别集合的大小都在上百的级别上,因此网页向量就保存了每个网页对这上百个类别的每个类别的分值。
对所有网页使用一个n维的向量叫网页类别向量,向量的维数n等于网页类别集合A的类别数量,该向量的含义是此网页在每个类别的权重,即此网页在每个类别中占的比例是多少,因为一个网页不一定属于一个类别,用一个向量就可以表示此网页在每个类别上的权重是多少。其中,在现有技术中,大多数的网站都能够根据当前的互联网网页的内容确立一个类别集合A,譬如历史、军事、旅游、人文、汽车等。
在步骤S102中,将用户访问的IP日志进行分类,根据用户访问最多的IP类别确定用户的专家类别。
获取用户访问的IP日志的过程描述如下,如图2所示的搜索引擎的典型结构,包括爬虫(crawler),索引器,检索器等,其中爬虫的工作主要是给网页分配统一资源***的身份标识(Uniform Resource Locator Identify,URLID)和下载网页,爬虫给每个互联网的网页分配一个唯一的标识符ID,来区分不同的URLID,此URLID对应一个结构,包括了网页的文本内容,网页的附加属性等。
爬虫从互联网下载网页,并且分配唯一的URLID,存入原始数据库。索引器从原始数据库读取网页信息建立索引,并存入索引数据库。
在用户输入检索信息进行信息检索时,检索器接受用户输入,从索引数据库得到记录并且排序后返回给该用户,同时把用户的操作日志记录到用户行为日志。
其中,在确定用户的专家类别时,所用到的算法如下,
定义专家数组UserType[],其中UserType[i]表示第i个用户的专家类别。
譬如,用户输入检索信息“T43”,搜索引擎对检索的字符串进行分类,得到类别为“电脑”类,搜索引擎对检索的结果进行排序时,考虑网页类别向量的作用,把“电脑”的权重比较大的网页排在前面。
在步骤S103中,当用户在搜索引擎检索结果点击某网页时,按照确定的用户的专家类别对该网页对应的网页类别向量的值加分。
譬如,当用户对搜索引擎进行搜索后,选择点击了一个网页,如果此用户属于网页类别向量的专家,就把该网页的类别权重在对应的向量上加分。即该用户点击的网页,按照该用户的专家类别对该网页类别向量相应的值加分。
在具体实施过程中,在按照用户的专家类别对该用户点击网页对应的网页类别向量的值加分时,用到的算法如下,
在步骤S104中,当用户通过搜索引擎进行检索时,参照网页类别向量中的分值对用户搜索的结果进行优化排序。
其中,该步骤用到的算法如下,
IF(用户检索词条“KKK”)
{
对“KKK”进行分类,得到“kkk”的类别为a,)
搜索引擎调用检索器得到检索结果。
对检索结果进行预排序,作为本发明的实施例,此处用pagerank技术对搜索结果进行排序。
For(每一个检索结果网页c)
{
查询c网页对应的网页类别向量,读取该网页关于类别a的专家推荐值为Ua
根据专家推荐值为Ua的大小调整此网页c的排序结果,把Ua大的提前。
}
返回排序后的网页集合,并将排序后的网页结果显示。
图3示出了本发明实施例提供的网页排序装置的结构。
网页类别向量存储模块11存储用户确立的网页类别向量,其中,该网页类别向量中的每个向量用于标识该向量对应的网页在网页类别集合中的权重。
用户专家类别确定模块12将用户访问的IP日志进行分类,根据用户访问最多的IP类别确定用户的专家类别,当用户根据搜索引擎检索结果点击网页时,网页类别向量加分模块13按照用户专家类别确定模块12确定的用户的专家类别对该网页对应的网页类别向量的值加分,具体过程在前文已述,此处就不再赘述。
当用户通过搜索引擎输入索引进行信息检索时,网页优化排序模块14参照网页的网页类别向量对搜索的网页进行优化排序,网页显示模块15将优化排序后的网页显示。
本发明实施例根据用户访问的IP日志对用户进行用户专家类别划分,并根据用户点击的网页对该网页对应的网页类别向量的值加分,在用户检索信息时,根据该网页类别向量对用户的搜索结果进行排序,解决了现有技术中直接靠用户的点击次数对网页进行加分而导致用户恶意点击,加分推荐非常盲目的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种网页排序方法,其特征在于,所述方法包括以下步骤:
存储用户确立的网页类别向量;
将用户访问的IP日志进行分类,将用户访问最多的网页类别确定为该用户的专家类别;
当用户根据搜索引擎检索结果点击网页时,按照确定的用户的专家类别对该网页的网页类别向量中与用户的专家类别相同的类别的值加分;所述网页类别向量为该网页在每个网页类别中的权重;
当用户通过搜索引擎输入索引词条进行信息检索时,对所述索引词条进行分类处理,得到所述索引词条的类别,根据搜索结果网页对应的网页类别向量中关于索引词条类别的值的大小,来调整网页的排序结果,并把该索引词条类别的值大的提前。
2.如权利要求1所述的网页排序方法,其特征在于,所述方法进一步包括:
将优化排序后的网页显示。
3.一种网页排序装置,其特征在于,所述装置包括:
网页类别向量存储模块,用于存储用户确立的网页类别向量;
用户专家类别确定模块,用于将用户访问的IP日志进行分类,将用户访问最多的网页类别确定为该用户的专家类别;
网页类别向量加分模块,用于当用户根据搜索引擎检索结果点击网页时,按照确定的用户的专家类别对该网页的网页类别向量中与用户的专家类别相同的类别的值加分;所述网页类别向量为该网页在每个网页类别中的权重;
网页优化排序模块,用于当用户通过搜索引擎输入索引词条进行信息检索时,对所述索引词条进行分类处理,得到所述索引词条的类别,根据搜索结果网页对应的网页类别向量中关于索引词条类别的值的大小,来调整网页的排序结果,并把该索引词条类别的值大的提前。
4.如权利要求3所述的网页排序装置,其特征在于,所述装置进一步包括:网页显示模块,用于将优化排序后的网页显示。
CN2007100761642A 2007-06-25 2007-06-25 一种网页排序方法及装置 Active CN101079064B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007100761642A CN101079064B (zh) 2007-06-25 2007-06-25 一种网页排序方法及装置
PCT/CN2008/070608 WO2009000174A1 (fr) 2007-06-25 2008-03-27 Procédé et dispositif de classement de pages web

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100761642A CN101079064B (zh) 2007-06-25 2007-06-25 一种网页排序方法及装置

Publications (2)

Publication Number Publication Date
CN101079064A CN101079064A (zh) 2007-11-28
CN101079064B true CN101079064B (zh) 2011-11-30

Family

ID=38906543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100761642A Active CN101079064B (zh) 2007-06-25 2007-06-25 一种网页排序方法及装置

Country Status (2)

Country Link
CN (1) CN101079064B (zh)
WO (1) WO2009000174A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182186A (zh) * 2016-12-08 2018-06-19 广东精点数据科技股份有限公司 一种基于随机森林算法的网页排序方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515360A (zh) 2009-04-13 2009-08-26 阿里巴巴集团控股有限公司 向用户推荐网络目标信息的方法和服务器
CN101840420B (zh) * 2010-04-02 2011-12-28 清华大学 搜索辅助***与搜索辅助方法
CN101996240A (zh) * 2010-10-13 2011-03-30 蔡亮华 提供信息的方法和装置
CN102542474B (zh) 2010-12-07 2015-10-21 阿里巴巴集团控股有限公司 查询结果排序方法及装置
CN102541857A (zh) * 2010-12-08 2012-07-04 腾讯科技(深圳)有限公司 一种网页排序方法和装置
CN102722503A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 一种对检索结果进行排序的方法及装置
CN102231152B (zh) * 2011-05-25 2014-09-03 北京捷讯华泰科技有限公司 基于移动终端ip地址进行精确查询的搜索方法
CN102956009B (zh) 2011-08-16 2017-03-01 阿里巴巴集团控股有限公司 一种基于用户行为的电子商务信息推荐方法与装置
CN103164804B (zh) 2011-12-16 2016-11-23 阿里巴巴集团控股有限公司 一种个性化的信息推送方法及装置
CN103390008B (zh) * 2012-05-08 2018-09-28 六六鱼信息科技(上海)有限公司 一种获取用户个性化特征的方法和***
CN102722545B (zh) * 2012-05-25 2015-11-25 百度在线网络技术(北京)有限公司 一种用于对已发布信息进行排序的方法、装置与设备
TWI465948B (zh) * 2012-05-25 2014-12-21 Gemtek Technology Co Ltd 前置瀏覽及瀏覽資料客製化的方法及其數位媒體裝置
CN103399861B (zh) * 2013-07-04 2017-03-08 百度在线网络技术(北京)有限公司 一种网址导航中的网址推荐方法、装置和***
CN104636366B (zh) * 2013-11-11 2020-06-02 腾讯科技(深圳)有限公司 一种获取搜索结果队列的方法和装置
CN105224657B (zh) * 2015-09-30 2018-10-12 北京奇虎科技有限公司 一种基于搜索引擎的信息推荐方法及电子设备
CN107153656B (zh) * 2016-03-03 2020-12-01 阿里巴巴集团控股有限公司 一种信息搜索方法和装置
CN105763633B (zh) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 一种域名和网站访问行为的关联方法
CN107870941B (zh) * 2016-09-27 2021-11-02 北京搜狗科技发展有限公司 一种网页排序方法、装置及设备
CN106777201B (zh) * 2016-12-23 2021-01-08 北京奇元科技有限公司 搜索结果页上的推荐数据的排序方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947924B2 (en) * 2002-01-07 2005-09-20 International Business Machines Corporation Group based search engine generating search results ranking based on at least one nomination previously made by member of the user group where nomination system is independent from visitation system
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
US7028027B1 (en) * 2002-09-17 2006-04-11 Yahoo! Inc. Associating documents with classifications and ranking documents based on classification weights
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US20050256848A1 (en) * 2004-05-13 2005-11-17 International Business Machines Corporation System and method for user rank search

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182186A (zh) * 2016-12-08 2018-06-19 广东精点数据科技股份有限公司 一种基于随机森林算法的网页排序方法

Also Published As

Publication number Publication date
CN101079064A (zh) 2007-11-28
WO2009000174A1 (fr) 2008-12-31

Similar Documents

Publication Publication Date Title
CN101079064B (zh) 一种网页排序方法及装置
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其***
CN101154224B (zh) 一种网址导航方法及***
TWI391834B (zh) 藉分析標籤尋找相關文件之系統及方法
CN101295319B (zh) 一种扩展查询的方法、装置及搜索引擎***
US20050065959A1 (en) Systems and methods for clustering search results
US20010047353A1 (en) Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
US20070162448A1 (en) Adaptive hierarchy structure ranking algorithm
US20070250501A1 (en) Search result delivery engine
CN102004782A (zh) 一种搜索结果排序方法和搜索结果排序器
CN103365904B (zh) 一种广告信息搜索方法和***
CN101641697A (zh) 对网页的相关搜索查询及其应用
CN103577489A (zh) 一种网页浏览历史查询方法及装置
CN103577490A (zh) 一种网页浏览历史展现方法及装置
CN102722498A (zh) 搜索引擎及其实现方法
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
Lei et al. Improved relevance ranking in WebGather
JP4094844B2 (ja) 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
CN1838123A (zh) 一种基于固定关键词的信息搜索方法及***
Surendiran Similarity Matrix Approach in Web Clustering
CN117370485A (zh) 一种搭建索引库的方法和***及检索***
Lin et al. Meta-search based web resource discovery for object-level vertical search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160106

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.