CN103646092B - 基于用户参与的搜索引擎排序方法 - Google Patents
基于用户参与的搜索引擎排序方法 Download PDFInfo
- Publication number
- CN103646092B CN103646092B CN201310693680.5A CN201310693680A CN103646092B CN 103646092 B CN103646092 B CN 103646092B CN 201310693680 A CN201310693680 A CN 201310693680A CN 103646092 B CN103646092 B CN 103646092B
- Authority
- CN
- China
- Prior art keywords
- user
- search engine
- data
- model
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于用户参与的搜索引擎排序方法,属于软件技术领域。该方法基于搜索引擎排序***,搜索结果的显示列表上用户通过表达赞同、喜欢、不赞同、反对等意见针对全部的信息及检索结果评分,依据搜索结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序,分数高的排在前面,并设置有防止恶意评分程序。该方法实施所建立的***包括用户、搜索引擎排序***、模型处理***和输出***。本发明方法可以加强用户的参与,针对搜索信息进行意见表达,并供其他用户参考,从而能够有效地提高搜索质量,便于用户参考意见进行选择,从而有效地减少了用户的搜索查找时间,提高了办事效率和获知信息的能力。
Description
技术领域
本发明涉及一种基于用户参与的搜索引擎排序方法,属于软件技术领域。
背景技术
中国互联网络信息中心调查报告指出,有82.5%的网民经常使用搜索引擎,83.4%的用户通过搜索引擎得知新网站。可见,搜索引擎在大家日常的网络生活中发挥了重要作用。一个优秀的搜索引擎能从巨量的、形如垃圾的信息中发现真正的知识,通过对信息的甄别、加工、提纯,带来信息价值的提升。然而由于当今搜索引擎相关性排序算法并不完善,用户通常需要从大量的返回结果中手工挑选相关网页,搜索引擎的导航功能没有发挥明显优势。
在搜索引擎发展的初期,搜索结果的排列只是根据搜索引擎在数据库中找到匹配网页的先后次序,不保证排在前面的网页与用户查询的相关性更大,因此不能帮助用户从过载的海量信息中快速地选取真正相关的信息。目前搜索引擎访问的网页数量已达到上十亿的规模,通常搜索结果包含成千上万的网页,即便这些网页都是用户所需要的,用户也不可能浏览所有的网页。如何将更相关的网页排在前面,减少用户浏览网页的数目,帮助其快速找到需要的信息,是一项很有意义且富有挑战性的工作。用户通常只关心搜索引擎返回的排在前面的文档。因此研究搜索引擎的相关性排序算法,将用户期望的结果排列在前面,显得越来越重要。
搜索引擎不仅需要返回检索结果,而且应该对这些结果进行再加工,判断哪些更符合用户搜索意图,将用户最感兴趣的文档排列在前面,方便用户在最短时间内找到需要的信息,提高搜索引擎的用户满意度。这便是搜索引擎的相关性原则,已被作为搜索引擎最基本原则之一。搜索引擎的相关性排序模型包含布尔模型,向量空间模型,概率模型,超链接模型,自学习排序模型。布尔模型建立在经典集合论和布尔代数的基础上,根据文档中是否出现关键词来判断文档是否相关,所有相关文档与查询的相关程度都是一样的,所以不支持相关性排序。向量空间模型将文档和用户查询分别转化为向量形式,计算两个向量的夹角余弦,并按照递减的顺序排列文档。概率模型通过估计文档与查询相关联的概率,根据关联概率对所有文档进行排序。超链接模型根据网页之间相互的超链接计算网页排名,从链接数目和链接页面的质量判断网页的级别。自学习排序模型将机器学习的方法运用到搜索引擎相关性排序问题,解决了以往模型的许多不足之处。它根据训练样本学习排序模型,再将排序模型预测与查询相关的文档排序。
目前,不同的搜索引擎使用了不同的相关度排序方法。比较流行的有两类:超链接分析法,即一个网页被链接的次数越多而且链接的站点越权威就说明此网页的质量越高;词频统计法,即网页文档中出现查询词的频率越高,其排序就越靠前。此外,还有点击率法,即网页被点击的次数越多,相关度越高。任何一个搜索引擎的目的就是更快速地响应用户搜索,把满足用户需求的搜索结果反馈给搜索用户。能否把与用户检索需求最相关的高质量文档纳入结果排序的前面是衡量搜索引擎性能的关键技术之一。
发明内容
本发明的目的在于提供一种基于用户参与的搜索引擎排序方法,依据用户参与对搜索列表的评价,并对评价结果打分评比参与排序,方便根据用户参与评价的结果查找相应的结果,方便人们根据需要使用。
为了实现上述目的,本发明的技术方案如下。
一种基于用户参与的搜索引擎排序方法,该方法基于搜索引擎排序***,搜索结果的显示列表上用户通过表达赞同、喜欢、不赞同、反对意见针对检索结果评分,依据搜索结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序,分数高的排在前面,并设置有防止恶意评分程序。该方法实施所建立的***包括用户、搜索引擎排序***、模型处理***和输入输出***,其中,
(1)用户分别为注册用户和非注册用户,个性化服务主要针对注册用户,非注册用户具有搜索引擎排序功能。搜索引擎排序***本身较为复杂性,为保证搜索引擎排序质量和实时性,要求构建合理的搜索引擎排序***。
(2)搜索引擎排序***采用基于用户参与的方法,属于完全个性化搜索引擎排序,为用户提供个性化的服务。其中,搜索引擎排序***需要管理网站信息、用户注册信息、评分等数据以及搜索引擎排序方法、模型、结果等内容。考虑到搜索引擎排序方法运行效率和搜索引擎排序实时性的要求,搜索引擎排序***包括在线实时搜索引擎排序和模型处理两部分。在线是对于访问用户而言。模型处理不实时进行,从而有利于提高搜索引擎排序***的执行效率。搜索引擎排序***适用于一般网站,根据客户注册信息采集用户个人信息,根据用户对不同显示列表评价,预测其感兴趣的列表内容。搜索引擎排序***目的是方便用户选择评价,促进搜索选择。由于不同的搜索引擎排序技术在特定类型的搜索引擎排序***中,会获得较好的效果,具有一定的适用性范围。对于搜索结果的显示列表来说,一般不能通过规范的形式全面描述出,而是需要依据用户感受描述。用户选择一种搜索结果的显示列表后,根据用户一系列信息,用户可以表达赞同、喜欢、不赞同、反对等意见。
(3)模型处理***主要根据搜索引擎排序方法处理数据得到模型,当用户浏览网页时,在线搜索引擎排序会依据模型结果实时输出搜索引擎排序列表反馈给用户;在线搜索引擎排序部分根据不同的情况,执行不同的搜索引擎排序策略;特别是对于新用户,采用离线计算模型,产生模型输出结果;
所述在线搜索引擎排序过程如下:在线推荐主要的功能是分析搜索引擎排序的类型,选择相应的算法模型的输出结果与输入数据结合预测出搜索引擎排序结果,并反馈给用户,具体过程为:
选择模型:搜索引擎排序***根据搜索引擎排序的类型,选择不同模型,主要包括三种搜索引擎排序:
①评分用户的搜索引擎排序:如果是***中已存在评分的用户,根据其评分数据、列表数据以及用户数据选择用于分类的模型;
②新列表搜索引擎排序:新列表是指原有搜索引擎排序***不存在有关该列表的任何用户评分数据以及列表特征数据;对于新列表的搜索引擎排序根据输入的列表特征运用基于内容的分类模型进行分析;如果用户对所有的搜索结果都不满意,或者没有他想要的信息,用户自觉提供添加他觉得应该出现的搜索信息;此添加信息将在某一页面位置出现;搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同样参与其他用户的评分,分值决定其排列顺序;
③新用户搜索引擎排序:新用户是指搜索引擎排序***中不存在其任何评分数据,包括有两种类型的用户,一种是新注册的用户,另一种是注册但没有进行过评分的用户;对于新用户的搜索引擎排序采用依据用户信息的模型;
预测搜索引擎排序:
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排序结果;在线搜索引擎排序采用的是实时搜索引擎排序模式的进行搜索引擎排序;当用户登录搜索引擎排序***网站,浏览页面时,直接读取用户评分数据,预测用户感兴趣的列表,直接反馈给用户其最可能感兴趣的列表;结合基于用户信息的混合搜索引擎排序算法实现两种类型的搜索引擎排序;其中,近邻聚类结合基于内容和用户信息的混合搜索引擎排序是根据列表信息和用户评分数据,形成用户偏好,然后进行近邻聚类,将相似用户进行聚类,然后结合测试用户信息预测,产生用户搜索引擎排序列表;另一种是基于用户信息的搜索引擎排序算法实现对新用户的搜索引擎排序,根据新用户信息和原有用户信息加权使用支持向量机预测新用户评分,产生新用户列表搜索引擎排序列表,供用户使用。
(4)输入输出***:个性化搜索引擎排序***主要的功能是收集用户信息、网站信息以及对网站的评价信息,经过模型处理,为用户提供搜索引擎排序列表。
上述***需要管理的数据如下:***需要搜索结果的显示列表中存在的大量数据进行分析,***管理的数据主要包括输入数据、模型数据与输出数据。
(1)输入数据:***的输入包括用户信息、显示列表信息、用户评价信息。其中,用户信息数据是通过收集用户登录***后填写的个人信息获得的。用户信息包括:用户标示、登录密码、年龄、性别、职业、住址、电子邮件。搜索引擎排序***需要为用户搜索引擎排序其可能感兴趣的显示列表信息,同时根据感兴趣的信息和相应的搜索引擎排序算法预测用户兴趣度。该***针对显示列表的搜索引擎排序,因此信息主要包括:列表编号、列表名称、日期、类型。搜索引擎排序***的采集用户对列表信息评价的数据信息,作为搜索引擎排序算法的重要输入内容。用户对列表信息的评价可以是多种类型的,如文字形式的描述、模糊评价(赞同、喜欢、不赞同、反对)或直接评分的形式。用户对列表信息的评分方法。评价信息包括:用户标示、列表编号、评分、时间标示。
(2)模型数据包括两种:
①模型输入数据:搜索引擎排序***的核心是搜索引擎排序算法模型,但由于不同算法要求输入数据不同,因此在进行计算时需要将***的输入数据进行预处理,整理为模型输入数据。主要包括:用户、列表信息、评分数据。其中,用户数据,将用户信息转化为算法模型需要的形式,具体包括:用户标示、年龄段、性别标示、职业标示;其中年龄、性别与职业分别是对应用户信息经过模型数据预处理后的数据形式。列表数据:将列表信息转化为模型要求的形式,包括:列表编号、类型l、类型2、…类型M。其中类型是根据列表信息转化而来,将不同的类型表现为不同的字段。评分数据:用户评分数据需要进行处理成为评分矩阵的形式,包括用户编号、列表1评分、列表评分2…评分K。其中每位用户的评分数据表示成行向量的形式。
②模型输出数据:模型结构数据:搜索引擎排序***利用搜索引擎排序算法计算输入数据,得出算法模型的结构组成数据,作为预测的依据,包括模型标示、基于算法的权重、模型参数;用户分类数据:模型输入数据经过算法处理后,得到分类结果。包括两部分内容,一部分是原有用户的分类结果,包括用户编号、模型标示、分类编号。另一部分是分类的评分结果,包括模型编号、分类编号、列表1评分、列表2评分…列表K评分。
(3)输出数据:
根据搜索引擎排序***的应用不同,采用不同的模型,主要产生两种输出结果:
①用户预测评分数据:搜索引擎排序***的输出是应用模型进行用户预测后,输出搜索引擎排序结果。根据搜索引擎排序***的输入数据和模型数据,计算得到预测用户的搜索引擎排序结果,包括用户编号、模型标示、分类编号、列表编号、评分。预测新列表用户数据:根据新列表的特征和用户评分信息,预测可能感兴趣的用户类。
②新用户评分数据:根据新用户以及原有用户数据,预测用户评分结果,包括新用户编号、模型编号、列表编号、评分。如果用户对所有的搜索结果都不满意,或者没有他想要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同样参与其他用户的评分。分值决定其排列顺序
上述模型处理部分工作过程如下:
搜索引擎排序***的模型处理部分对于访问用户是不可见的。由于列表网站的数据量庞大、增长迅速,使得算法模型在处理上会耗费较长时间。***资源消耗很大,严重影响了搜索引擎排序的实时性。因此,搜索引擎排序***采用离线计算模型,产生模型输出结果。在线搜索引擎排序时利用模型结果和***输入数据,返回给用户搜索引擎排序结果。模型的计算是根据输入数据增量进行更新,当新增加用户评分数据达到一定的限制值时,需要重新处理模型,其具体步骤为:
(1)数据预处理:根据不同算法的要求处理数据,将***输入数据处理为模型输入数据。
(2)模型计算搜索引擎排序***根据数据量的变动,定期运行模型,计算更新数据,修改模型输出结果,保证搜索引擎排序质量。
该发明的有益效果在于:本发明方法可以加强用户的参与,针对搜索信息进行意见表达,并供其他用户参考,从而能够有效地提高搜索质量,便于用户参考意见进行选择,从而有效地减少了用户的搜索查找时间,提高了办事效率和获知信息的能力。
附图说明
图1是本发明实施例中所使用搜索引擎基本框架图。
图2是本发明实施例中搜索引擎中在线评分流程图。
图3是本发明实施例中结合列表和用户评分流程图。
图4是本发明实施例中结合列表和新用户评分流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式进行描述,以便更好的理解本发明。
实施例
基于用户参与的搜索引擎排序方法,该方法基于搜索引擎排序***,该***的基本框架见图1,以某搜索引擎网站为例,搜索结果的显示列表上用户可以表达赞同、喜欢、不赞同、反对意见针对检索结果评分,依据搜索结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序,分数高的排在前面。同时有专门的防止恶意评分程序。如图1所示,该***包括用户、搜索引擎排序***、模型处理***和输入输出***,其中,用户分别为注册用户和非注册用户,个性化服务主要针对注册用户,非注册用户具有搜索引擎排序功能。搜索引擎排序***本身较为复杂性,为保证搜索引擎排序质量和实时性,要求构建合理的搜索引擎排序***。基于用户参与的搜索引擎排序***属于完全个性化搜索引擎排序,采用合理算法,为注册用户提供个性化的服务。其中,搜索引擎排序***需要管理网站信息、用户注册信息、评分等数据以及搜索引擎排序方法、模型、结果等内容。考虑到搜索引擎排序方法运行效率和搜索引擎排序实时性的要求,***包括在线实时搜索引擎排序和模型处理两部分。在线是对于访问用户而言。模型处理可以不实时进行,从而有利于提高搜索引擎排序***的执行效率。模型处理部分主要根据搜索引擎排序方法处理数据得到模型,当用户浏览网页时,在线搜索引擎排序会依据模型结果实时输出搜索引擎排序列表反馈给用户。在线搜索引擎排序部分根据不同的情况,执行不同的搜索引擎排序策略。特别是对于新用户采用不同搜索引擎排序方法,在一定程度上解决冷启动问题,提高搜索引擎排序质量。图2是本发明实施例中搜索引擎中在线评分流程图。
搜索引擎排序***的适用性:
输入输出***:个性化搜索引擎排序***主要的功能是收集用户信息、网站信息以及对网站的评价信息,经过模型处理,为用户提供搜索引擎排序列表。搜索引擎排序***适用于一般网站,根据客户注册信息采集用户个人信息,根据用户对不同显示列表评价,预测其感兴趣的列表内容。搜索引擎排序***目的是方便用户选择评价,促进搜索选择。由于不同的搜索引擎排序技术在特定类型的搜索引擎排序***中,会获得较好的效果,具有一定的适用性范围。对于搜索结果的显示列表来说,一般不能通过规范的形式全面描述出,而是需要依据用户感受描述。用户选择一种搜索结果的显示列表后,根据用户一系列信息,用户可以表达赞同、喜欢、不赞同、反对等意见。图3是本发明实施例中结合列表和用户评分流程图。
该***需要管理的数据以及运行过程如下:***需要搜索结果的显示列表中存在的大量数据进行分析,***管理的数据主要包括输入数据、模型数据与输出数据。
(1)输入数据:***的输入包括用户信息、显示列表信息、用户评价信息。其中,用户信息数据是通过收集用户登录***后填写的个人信息获得的。用户信息包括:用户标示、登录密码、年龄、性别、职业、住址、电子邮件。显示列表信息:搜索引擎排序***需要为用户搜索引擎排序其可能感兴趣的显示列表信息,同时根据感兴趣的信息和相应的搜索引擎排序算法预测用户兴趣度。该***针对显示列表的搜索引擎排序,因此信息主要包括:列表编号、列表名称、日期、类型。所述用户评价信息:搜索引擎排序***的采集用户对列表信息评价的数据信息,作为搜索引擎排序算法的重要输入内容。用户对列表信息的评价可以是多种类型的,如文字形式的描述、模糊评价(赞同、喜欢、不赞同、反对)或直接评分的形式。用户对列表信息的评分方法。评价信息包括:用户标示、列表编号、评分、时间标示。
(2)模型数据包括两种:
①模型输入数据:搜索引擎排序***的核心是搜索引擎排序算法模型,但由于不同算法要求输入数据不同,因此在进行计算时需要将***的输入数据进行预处理,整理为模型输入数据。主要包括:用户、列表信息、评分数据。其中,用户数据,将用户信息转化为算法模型需要的形式,具体包括:用户标示、年龄段、性别标示、职业标示;其中年龄、性别与职业分别是对应用户信息经过模型数据预处理后的数据形式。列表数据:将列表信息转化为模型要求的形式,包括:列表编号、类型l、类型2、…类型M。其中类型是根据列表信息转化而来,将不同的类型表现为不同的字段。评分数据:用户评分数据需要进行处理成为评分矩阵的形式,包括用户编号、列表1评分、列表评分2…评分K。其中每位用户的评分数据表示成行向量的形式。
②模型输出数据:模型结构数据:搜索引擎排序***利用搜索引擎排序算法计算输入数据,得出算法模型的结构组成数据,作为预测的依据。模型标示、基于算法的权重、模型参数;用户分类数据:模型输入数据经过算法处理后,得到分类结果。包括两部分内容,一部分是原有用户的分类结果,包括用户编号、模型标示、分类编号。另一部分是分类的评分结果,包括模型编号、分类编号、列表1评分、列表2评分…列表K评分。
(3)输出数据:
根据搜索引擎排序***的应用不同,采用不同的模型,主要产生两种输出结果:
①用户预测评分数据:搜索引擎排序***的输出是应用模型进行用户预测后,输出搜索引擎排序结果。根据搜索引擎排序***的输入数据和模型数据,计算得到预测用户的搜索引擎排序结果。用户编号、模型标示、分类编号、列表编号、评分。预测新列表用户数据:根据新列表的特征和用户评分信息,预测可能感兴趣的用户类。
②新用户评分数据:根据新用户以及原有用户数据,预测用户评分结果。包括新用户编号、模型编号、列表编号、评分。如果用户对所有的搜索结果都不满意,或者没有他想要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同样参与其他用户的评分。分值决定其排列顺序。图4是本发明实施例中结合列表和新用户评分流程图。
模型处理部分:
搜索引擎排序***的模型处理部分对于访问用户是不可见的。由于列表网站的数据量庞大、增长迅速,使得算法模型在处理上会耗费较长时间。***资源消耗很大,严重影响了搜索引擎排序的实时性。因此,搜索引擎排序***采用离线计算模型,产生模型输出结果。在线搜索引擎排序时利用模型结果和***输入数据,返回给用户搜索引擎排序结果。模型的计算是根据输入数据增量进行更新,当新增加用户评分数据达到一定的限制值时,需要重新处理模型,其具体步骤为:
(1)数据预处理:根据不同算法的要求处理数据,将***输入数据处理为模型输入数据。
(2)模型计算搜索引擎排序***根据数据量的变动,定期运行模型,计算更新数据,修改模型输出结果,保证搜索引擎排序质量。
在线搜索引擎排序部分:
个性化列表搜索引擎排序***的主要任务是根据用户的个人喜好,搜索引擎排序列表。在线推荐主要的功能是分析搜索引擎排序的类型,选择相应的算法模型的输出结果与输入数据结合预测出搜索引擎排序结果,并反馈给用户。主要过程如图3、图4所示。
(1)选择模型:搜索引擎排序***根据搜索引擎排序的类型,选择不同模型,主要包括三种搜索引擎排序:
①评分用户的搜索引擎排序:如果是***中已存在评分的用户,根据其评分数据、列表数据以及用户数据选择用于分类的模型。
②新列表搜索引擎排序:新列表是指原有搜索引擎排序***不存在有关该列表的任何用户评分数据以及列表特征数据。对于新列表的搜索引擎排序根据输入的列表特征运用基于内容的分类模型进行分析。如果用户对所有的搜索结果都不满意,或者没有他想要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同样参与其他用户的评分。分值决定其排列顺序。
③新用户搜索引擎排序:新用户是指搜索引擎排序***中不存在其任何评分数据,包括有两种类型的用户,一种是新注册的用户,另一种是注册但没有进行过评分的用户。对于新用户的搜索引擎排序采用依据用户信息的模型。
(2)预测搜索引擎排序
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排序结果。在线搜索引擎排序采用的是实时搜索引擎排序模式的进行搜索引擎排序。当用户登录搜索引擎排序***网站,浏览页面时,直接读取用户评分数据,预测用户感兴趣的列表,直接反馈给用户其最可能感兴趣的列表。
结合基于用户信息的混合搜索引擎排序算法可以实现两种类型的搜索引擎排序。其中,近邻聚类结合基于内容和用户信息的混合搜索引擎排序是根据列表信息和用户评分数据,形成用户偏好,然后进行近邻聚类,将相似用户进行聚类。然后结合测试用户信息预测,产生用户搜索引擎排序列表。另一种是基于用户信息的搜索引擎排序算法实现对新用户的搜索引擎排序,根据新用户信息和原有用户信息加权使用支持向量机预测新用户评分,产生新用户列表搜索引擎排序列表,供用户使用。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (3)
1.一种基于用户参与的搜索引擎排序方法,其特征在于:该方法基于搜索引擎排序***,搜索结果的显示列表上用户通过表达赞同、喜欢、不赞同、反对意见针对检索结果评分,依据搜索结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序,分数高的排在前面,并设置有防止恶意评分程序;该方法实施所建立的***包括用户、搜索引擎排序***、模型处理***和输入输出***,所述:
(1)用户分别为注册用户和非注册用户,个性化服务主要针对注册用户,非注册用户具有搜索引擎排序功能;
(2)搜索引擎排序***采用基于用户参与的方法,属于完全个性化搜索引擎排序,为用户提供个性化的服务;搜索引擎排序***管理网站信息、用户注册信息、评分等数据以及搜索引擎排序方法、模型、结果内容;搜索引擎排序***包括在线实时搜索引擎排序和模型处理两部分;在线是对于访问用户而言,模型处理不实时进行;搜索引擎排序***适用于一般网站,根据客户注册信息采集用户个人信息,根据用户对不同显示列表评价,预测其感兴趣的列表内容;用户选择一种搜索结果的显示列表后,根据用户一系列信息,用户能表达赞同、喜欢、不赞同、反对意见;
(3)模型处理***主要根据搜索引擎排序方法处理数据得到模型,当用户浏览网页时,在线搜索引擎排序会依据模型结果实时输出搜索引擎排序列表反馈给用户;在线搜索引擎排序部分根据不同的情况,执行不同的搜索引擎排序策略;特别是对于新用户,采用离线计算模型,产生模型输出结果;
所述在线搜索引擎排序过程如下:在线推荐主要的功能是分析搜索引擎排序的类型,选择相应的算法模型的输出结果与输入数据结合预测出搜索引擎排序结果,并反馈给用户,具体过程为:
选择模型:搜索引擎排序***根据搜索引擎排序的类型,选择不同模型,主要包括三种搜索引擎排序:
①评分用户的搜索引擎排序:如果是***中已存在评分的用户,根据其评分数据、列表数据以及用户数据选择用于分类的模型;
②新列表搜索引擎排序:新列表是指原有搜索引擎排序***不存在有关该列表的任何用户评分数据以及列表特征数据;对于新列表的搜索引擎排序根据输入的列表特征运用基于内容的分类模型进行分析;如果用户对所有的搜索结果都不满意,或者没有他想要的信息,用户自觉提供添加他觉得应该出现的搜索信息;此添加信息将在某一页面位置出现;搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同样参与其他用户的评分,分值决定其排列顺序;
③新用户搜索引擎排序:新用户是指搜索引擎排序***中不存在其任何评分数据,包括有两种类型的用户,一种是新注册的用户,另一种是注册但没有进行过评分的用户;对于新用户的搜索引擎排序采用依据用户信息的模型;
预测搜索引擎排序:
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排序结果;在线搜索引擎排序采用的是实时搜索引擎排序模式的进行搜索引擎排序;当用户登录搜索引擎排序***网站,浏览页面时,直接读取用户评分数据,预测用户感兴趣的列表,直接反馈给用户其最可能感兴趣的列表;结合基于用户信息的混合搜索引擎排序算法实现两种类型的搜索引擎排序;其中,近邻聚类结合基于内容和用户信息的混合搜索引擎排序是根据列表信息和用户评分数据,形成用户偏好,然后进行近邻聚类,将相似用户进行聚类,然后结合测试用户信息预测,产生用户搜索引擎排序列表;另一种是基于用户信息的搜索引擎排序算法实现对新用户的搜索引擎排序,根据新用户信息和原有用户信息加权使用支持向量机预测新用户评分,产生新用户列表搜索引擎排序列表,供用户使用;
(4)输入输出***:个性化搜索引擎排序***主要的功能是收集用户信息、网站信息以及对网站的评价信息,经过模型处理,为用户提供搜索引擎排序列表。
2.根据权利要求1所述的基于用户参与的搜索引擎排序方法,其特征在于:所述搜索引擎排序***需要管理的数据主要包括输入数据、模型数据与输出数据,所述:
(1)输入数据:***的输入包括用户信息、显示列表信息、用户评价信息;用户信息数据通过收集用户登录***后填写的个人信息获得的;所述用户信息包括:用户标示、登录密码、年龄、性别、职业、住址、电子邮件;搜索引擎排序***为用户搜索引擎排序其感兴趣的显示列表信息,同时根据感兴趣的信息和相应的搜索引擎排序算法预测用户兴趣度;该信息主要包括:列表编号、列表名称、日期、类型;搜索引擎排序***的采集用户对列表信息评价的数据信息,作为搜索引擎排序算法的重要输入内容;用户对列表信息的评价多种类型,如文字形式的描述、模糊评价或直接评分的形式;评价信息包括:用户标示、列表编号、评分、时间标示;
(2)模型数据包括两种:
①模型输入数据:搜索引擎排序***的核心是搜索引擎排序算法模型,但由于不同算法要求输入数据不同,在进行计算时需要将***的输入数据进行预处理,整理为模型输入数据;主要包括:用户、列表信息、评分数据;所述用户数据,将用户信息转化为算法模型需要的形式,具体包括:用户标示、年龄段、性别标示、职业标示;其中年龄、性别与职业分别是对应用户信息经过模型数据预处理后的数据形式;列表数据为将列表信息转化为模型要求的形式,包括:列表编号、类型l、类型2、…类型M;类型是根据列表信息转化而来,将不同的类型表现为不同的字段;用户评分数据需要进行处理成为评分矩阵的形式,包括用户编号、列表1评分、列表评分2…评分K;其中每位用户的评分数据表示成行向量的形式;
②模型输出数据:搜索引擎排序***利用搜索引擎排序算法计算输入数据,得出算法模型的结构组成数据,作为预测的依据,包括模型标示、基于算法的权重、模型参数;用户分类数据是模型输入数据经过算法处理后得到分类结果,包括两部分内容,一部分是原有用户的分类结果,包括用户编号、模型标示、分类编号;另一部分是分类的评分结果,包括模型编号、分类编号、列表1评分、列表2评分…列表K评分;
(3)输出数据:
根据搜索引擎排序***的应用不同,采用不同的模型,主要产生两种输出结果:
①用户预测评分数据:搜索引擎排序***的输出是应用模型进行用户预测后,输出搜索引擎排序结果;根据搜索引擎排序***的输入数据和模型数据,计算得到预测用户的搜索引擎排序结果,包括用户编号、模型标示、分类编号、列表编号、评分;根据新列表的特征和用户评分信息,预测可能感兴趣的用户类;
②新用户评分数据:根据新用户以及原有用户数据,预测用户评分结果,包括新用户编号、模型编号、列表编号、评分;如果用户对所有的搜索结果都不满意,或者没有他想要的信息,用户能自觉提供添加他觉得应该出现的搜索信息,此添加信息将在某一页面位置出现;搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同样参与其他用户的评分,分值决定其排列顺序。
3.根据权利要求1所述的基于用户参与的搜索引擎排序方法,其特征在于:所述上述模型处理部分工作过程如下:搜索引擎排序***的模型处理部分对于访问用户是不可见的,采用离线计算模型,产生模型输出结果;在线搜索引擎排序时利用模型结果和***输入数据,返回给用户搜索引擎排序结果;模型的计算是根据输入数据增量进行更新,当新增加用户评分数据达到一定的限制值时,需要重新处理模型,其具体步骤为:
(1)数据预处理:根据不同算法的要求处理数据,将***输入数据处理为模型输入数据;
(2)模型计算搜索引擎排序***根据数据量的变动,定期运行模型,计算更新数据,修改模型输出结果,保证搜索引擎排序质量。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310693680.5A CN103646092B (zh) | 2013-12-18 | 2013-12-18 | 基于用户参与的搜索引擎排序方法 |
JP2015552986A JP2016505178A (ja) | 2013-12-18 | 2013-12-24 | ユーザ参加による検索エンジンソーティング方法 |
US14/410,252 US20150379135A1 (en) | 2013-12-18 | 2013-12-24 | Search Engine Ranking Method Based on User Participation |
EP13890864.5A EP2902923A4 (en) | 2013-12-18 | 2013-12-24 | SEARCH ENGINEERING PROCEDURE BASED ON A USER PARTICIPATION |
PCT/CN2013/090350 WO2015089860A1 (zh) | 2013-12-18 | 2013-12-24 | 基于用户参与的搜索引擎排序方法 |
RU2015110455A RU2015110455A (ru) | 2013-12-18 | 2013-12-24 | Способ поискового ранжирования с участием пользователя |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310693680.5A CN103646092B (zh) | 2013-12-18 | 2013-12-18 | 基于用户参与的搜索引擎排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103646092A CN103646092A (zh) | 2014-03-19 |
CN103646092B true CN103646092B (zh) | 2017-07-04 |
Family
ID=50251306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310693680.5A Active CN103646092B (zh) | 2013-12-18 | 2013-12-18 | 基于用户参与的搜索引擎排序方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20150379135A1 (zh) |
EP (1) | EP2902923A4 (zh) |
JP (1) | JP2016505178A (zh) |
CN (1) | CN103646092B (zh) |
RU (1) | RU2015110455A (zh) |
WO (1) | WO2015089860A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346576A (zh) * | 2014-12-01 | 2015-02-11 | 北京奇虎科技有限公司 | 提权配置信息反馈、匹配方法及相应的装置 |
CN104348628A (zh) * | 2014-12-01 | 2015-02-11 | 北京奇虎科技有限公司 | 获取本机Root权限的方法和装置 |
US10015269B2 (en) | 2014-12-09 | 2018-07-03 | Xiaomi Inc. | Method and device for providing contact information |
CN105069653A (zh) * | 2015-08-07 | 2015-11-18 | 合肥工业大学 | 一种针对推荐***解释的交互方法 |
CN106909412A (zh) * | 2015-12-23 | 2017-06-30 | 北京奇虎科技有限公司 | 一种终端设备的root方法、配置方法、终端设备和服务器 |
CN106060637A (zh) * | 2016-06-29 | 2016-10-26 | 乐视控股(北京)有限公司 | 视频推荐方法、装置及*** |
CN106547816B (zh) * | 2016-09-27 | 2019-10-18 | 河海大学 | 一种基于负相关反馈的时间序列相似性搜索方法 |
CN107122467B (zh) * | 2017-04-26 | 2020-12-29 | 努比亚技术有限公司 | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 |
KR101804960B1 (ko) * | 2017-06-08 | 2017-12-06 | 윤성민 | 집단지성 수렴 시스템 및 그 방법 |
CN110020096B (zh) * | 2017-07-24 | 2021-09-07 | 北京国双科技有限公司 | 基于查询的分类器训练方法和装置 |
CN109948032A (zh) * | 2017-08-21 | 2019-06-28 | 李华林 | 基于用户偏好的网络搜索结果排名装置、搜索引擎及浏览器 |
CN109934648A (zh) * | 2017-12-15 | 2019-06-25 | ***通信集团公司 | 一种基于信息协同过滤算法的集团产品推荐方法及装置 |
CN108446964B (zh) * | 2018-03-30 | 2022-03-22 | 中南大学 | 一种基于移动流量dpi数据的用户推荐方法 |
US20190325069A1 (en) * | 2018-04-18 | 2019-10-24 | Microsoft Technology Licensing, Llc | Impression-tailored computer search result page visual structures |
CN110765345B (zh) * | 2018-07-10 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 搜索方法、装置以及设备 |
CN109104301A (zh) * | 2018-07-19 | 2018-12-28 | 国政通科技有限公司 | 一种基于深度学习模型针对综艺节目进行网络热度预测的方法和*** |
CN109034895A (zh) * | 2018-07-23 | 2018-12-18 | 中国联合网络通信集团有限公司 | 一种搜索结果评分方法和*** |
CN109189904A (zh) * | 2018-08-10 | 2019-01-11 | 上海中彦信息科技股份有限公司 | 个性化搜索方法及*** |
CN109740140B (zh) * | 2018-12-28 | 2023-07-11 | 北京百度网讯科技有限公司 | 页面排版方法、装置和计算机设备 |
CN116501969B (zh) * | 2023-04-28 | 2024-01-30 | 北京泰茂科技股份有限公司 | 一种基于个性化推荐算法的医药数据搜索*** |
CN117076773B (zh) * | 2023-08-23 | 2024-05-28 | 上海兰桂骐技术发展股份有限公司 | 一种基于互联网信息的数据源筛选优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169797A (zh) * | 2007-11-30 | 2008-04-30 | 朱廷劭 | 一种对搜索结果优化的方法 |
CN101661487A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 对信息项进行搜索的方法和*** |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006218A (en) * | 1997-02-28 | 1999-12-21 | Microsoft | Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge |
KR101374651B1 (ko) * | 2005-03-18 | 2014-03-17 | 써치 엔진 테크놀로지스, 엘엘씨 | 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진 |
CN101661474B (zh) * | 2008-08-26 | 2012-07-04 | 华为技术有限公司 | 一种搜索方法和*** |
CN102081604A (zh) * | 2009-11-27 | 2011-06-01 | 上海电机学院 | 一种用于元搜索引擎的搜索方法及其装置 |
US20110196733A1 (en) * | 2010-02-05 | 2011-08-11 | Wei Li | Optimizing Advertisement Selection in Contextual Advertising Systems |
CN101968799B (zh) * | 2010-09-21 | 2012-02-08 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎的用户交互方法及*** |
US9665643B2 (en) * | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
-
2013
- 2013-12-18 CN CN201310693680.5A patent/CN103646092B/zh active Active
- 2013-12-24 JP JP2015552986A patent/JP2016505178A/ja active Pending
- 2013-12-24 RU RU2015110455A patent/RU2015110455A/ru not_active Application Discontinuation
- 2013-12-24 US US14/410,252 patent/US20150379135A1/en not_active Abandoned
- 2013-12-24 EP EP13890864.5A patent/EP2902923A4/en not_active Withdrawn
- 2013-12-24 WO PCT/CN2013/090350 patent/WO2015089860A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169797A (zh) * | 2007-11-30 | 2008-04-30 | 朱廷劭 | 一种对搜索结果优化的方法 |
CN101661487A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 对信息项进行搜索的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
EP2902923A1 (en) | 2015-08-05 |
WO2015089860A1 (zh) | 2015-06-25 |
EP2902923A4 (en) | 2016-10-26 |
RU2015110455A (ru) | 2016-10-10 |
CN103646092A (zh) | 2014-03-19 |
JP2016505178A (ja) | 2016-02-18 |
US20150379135A1 (en) | 2015-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103646092B (zh) | 基于用户参与的搜索引擎排序方法 | |
US12001490B2 (en) | Systems for and methods of finding relevant documents by analyzing tags | |
CN107391687B (zh) | 一种面向地方志网站的混合推荐*** | |
CN100507920C (zh) | 一种基于用户行为信息的搜索引擎检索结果重排序方法 | |
Cao et al. | Mashup service recommendation based on user interest and social network | |
CN104077407B (zh) | 一种智能数据搜索***及方法 | |
CN104346425B (zh) | 一种层次化的互联网舆情指标体系的方法及*** | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
CN110543595A (zh) | 一种站内搜索***及方法 | |
CN105787068A (zh) | 基于引用网络及用户熟练度分析的学术推荐方法及*** | |
CN111523055A (zh) | 一种基于农产品特征属性评论倾向的协同推荐方法及*** | |
Jalali et al. | A web usage mining approach based on lcs algorithm in online predicting recommendation systems | |
Li et al. | CoWS: An Internet-enriched and quality-aware Web services search engine | |
Liu et al. | How to choose appropriate experts for peer review: An intelligent recommendation method in a big data context | |
Guo et al. | Research on collaborative filtering personalized recommendation algorithm based on deep learning optimization | |
US20130332440A1 (en) | Refinements in Document Analysis | |
CN106909626A (zh) | 改进的决策树分类算法实现搜索引擎优化技术 | |
Klein et al. | How Important Are User-Generated Data For Search Result Quality? | |
Neunerdt et al. | Focused crawling for building web comment corpora | |
Yan et al. | An improved PageRank method based on genetic algorithm for web search | |
CN105975508A (zh) | 个性化元搜索引擎检索结果合成排序方法 | |
Wiechetek | Educators and Academics in Specialized Social Networks: Comparison of Google Scholar and ResearchGate Usage by Business Researchers of MCSU | |
CN106649537A (zh) | 基于改进的群智能算法实现搜索引擎关键词优化技术 | |
Lu et al. | The research on webpage ranking algorithm based on topic-expert documents | |
Lu et al. | Influence model of paper citation networks with integrated pagerank and HITS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180528 Address after: 266000 room 211, zone A, software park, 169 Songling Road, Laoshan District, Qingdao, Shandong. Patentee after: Qingdao fast search computing technology Limited by Share Ltd Address before: 257100 302 unit, 4 unit 24, 2 District, 205 West three road, Dongying District, Dongying, Shandong. Patentee before: Sun Yanqun |
|
TR01 | Transfer of patent right |