CN104615621B - 搜索中的相关性处理方法和*** - Google Patents

搜索中的相关性处理方法和*** Download PDF

Info

Publication number
CN104615621B
CN104615621B CN201410294419.2A CN201410294419A CN104615621B CN 104615621 B CN104615621 B CN 104615621B CN 201410294419 A CN201410294419 A CN 201410294419A CN 104615621 B CN104615621 B CN 104615621B
Authority
CN
China
Prior art keywords
search result
search
characteristic vector
feature
query string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410294419.2A
Other languages
English (en)
Other versions
CN104615621A (zh
Inventor
贺海军
李雅凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410294419.2A priority Critical patent/CN104615621B/zh
Publication of CN104615621A publication Critical patent/CN104615621A/zh
Application granted granted Critical
Publication of CN104615621B publication Critical patent/CN104615621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜索中的相关性处理方法***,所述方法包括:获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。采用本发明能提高搜索结果的相关性处理的准确性。

Description

搜索中的相关性处理方法和***
技术领域
本发明涉及计算机应用技术,特别是涉及一种搜索中的相关性处理方法和***。
背景技术
随着搜索技术的发展,用户越来越多地使用各种搜索引擎完成各种查询串的搜索,以得到相应的搜索结果。在搜索引擎中,根据查询串所得到并显示于搜索页面的搜索结果通常是海量的,因此,需要对搜索结果进行相关性处理,为用户提供与查询串较为相关的搜索结果。
然而,传统的对搜索进行的相关性处理大都是基于搜索结果中单一的属性实现的,例如,搜索结果相对于查询串的文本覆盖率等。这将使得真实的应用中存在着搜索结果的相关性处理不准确的局限性。
发明内容
基于此,有必要针提供一种能提高搜索结果的相关性处理的准确性的搜索中的相关性处理方法。
此外,还有必要提供一种能提高搜索结果的相关性处理的准确性的搜索中的相关性处理***。
一种搜索中的相关性处理方法,包括如下步骤:
获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;
按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;
在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;
根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。
一种搜索中的相关性处理***,包括:
查询串搜索模块,用于获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;
特征抽取模块,用于按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;
处理模块,用于在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到所述搜索结果相对于所述查询串的相关度得分;
相关性确定模块,用于根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。
上述搜索中的相关性处理方法和***,将获取查询串进行相应的搜索以得到若干条搜索结果,对所得到的若干条搜索结果将按照预先定义的多个特征逐一进行特征抽取,以得到每一搜索结果中每一特征所对应的特征标记值,在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分,根据相关度得分确定与查询串最相关的搜索结果,并对与查询串最相关的搜索结果进行显示,由于与查询串最相关的搜索结果是依赖于预先定义的多个特征,并作为回归问题处理得到的,因此,将大为提高了搜索结果的相关性处理的准确性。
附图说明
图1为一个实施例中搜索中的相关性处理方法的流程图;
图2为图1中在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分的方法流程图;
图3为一个实施例中预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的方法流程图;
图4为一个实施例中获取搜索结果的相关性标记值和搜索结果对应的特征向量,根据相关性标记值和特征向量优化回归模型的方法流程图;
图5为一个实施例中搜索中的相关性处理***的结构示意图;
图6为图5中处理模块的结构示意图;
图7为另一个实施例中搜索中的相关性处理***的结构示意图;
图8为图7中模型构建模块的结构示意图;
图9为一个实施例中优化模块的结构示意图;
图10为本发明实施例提供的一种服务器结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,一种搜索中的相关性处理方法,包括如下步骤:
步骤110,获取查询串,并根据查询串进行搜索得到若干条搜索结果。
本实施例中,获取用户由搜索页面输入的查询串,以根据查询串通过搜索引擎进行搜索得到若干条与该查询串相关的搜索结果。
例如,用户所进行的搜索可以是地图搜索,因此,根据查询串对地图进行搜索所得到的搜索结果将是兴趣点(Point of Interest,简称POI)数据,每一兴趣点数据将包含了名称、类别、经度、纬度和重要度(POIRank)等多种信息。
步骤130,按照预先定义的多个特征对得到的若干条搜索结果逐一进行特征抽取,以得到搜索结果中每一特征所对应的特征标记值。
本实施例中,预先定义了多个特征,以通过预先定义的多个特征表达每一搜索结果中包含的多种属性。对每一条搜索结果都将按照预先定义的多个特征进行特征抽取,以将搜索结果按照预先定义的多个特征表达成特征标记值,即每一搜索结果中对应了多个特征,每一特征均有与之相对应的特征标记值。
其中,不同的搜索过程其所预先定义的多个特征也将各不相同,特征所对应的特征标记值将用于衡量搜索结果与查询串之间的相关程度。
例如,地图搜索中所预先定义的多个特征可包括当前结果的位置、当前结果的文本总得分、当前结果的重要度、当前结果的可信度、当前结果的权威度、当前结果的标题文本得分、当前结果的聚合别名文本得分、当前结果的标题覆盖率、当前结果的聚合别名覆盖率、与首条结果的文本总得分的差值、与首条结果的标题文本得分的差值、与首条结果的重要度的差值、与上一条结果的文本总得分的差值、与上一条结果的标题文本得分的差值、与上一条结果的重要度的差值、与下一条结果的文本总得分的差值、与下一条结果的标题文本得分的差值、与下一条结果的重要度的差值、当前结果的文本总得分与Top N结果平均文本总得分的差值、当前结果的标题文本得分与Top N结果平均标题文本得分的差值以及当前结果的重要度与Top N结果平均重要度的差值,其中,Top N结果平均标题文本得分指的是文本总得分最高的N个搜索结果中对应的文本总得分平均值,Top N结果平均标题文本得分指的是标题文本得分最高的N个搜索结果中对应的标题文本得分平均值,Top N结果平均重要度指的是重要度最高的N个搜索结果对应的重要度平均值,N可根据需要灵活进行取值。
具体的,地图搜索中预先定义的多个特征及每一特征所对应的特征表达(即特征标记值的获取)如下表所示:
其中,如上所述的结果即为进行地图搜索得到的兴趣点数据。
地图中的一种兴趣点数据可能会在多个数据源中出现,并在不同数据源中的名称、地址、电话等可能会有微小差别,因此,将来自于不同数据源的兴趣点数据做聚合处理,以将不同数据来源的兴趣点数据聚合成一条兴趣点数据,选取一数据源所对应的标题作为该条兴趣点数据的标题,其它数据来源的标题则作为该条兴趣点数据的聚合别名。
此外,查询串经过切词处理后将形成多个字段,以文本字段的形式存在的搜索结果也将被切成多个字段,搜索结果中的多个字段在查询串的多个字段中出现的比例即为文本覆盖率,相应的定义了标题文本覆盖率、聚合别名文本覆盖率等。
步骤150,在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分。
本实施例中,采用逻辑回归(Logisitic Regression)的方法对每一搜索结果中多个特征所对应的多个特征标记值进行运算,以得到该搜索结果相对于查询串的相关度得分。
其中,所得到的相关度得分越高,则说明所对应的搜索结果与查询串越为相关。
步骤170,根据相关度得分确定与查询串最相关的搜索结果,并显示搜索结果。
本实施例中,搜索得到的若干条搜索结果均得到了其所对应的相关度得分之后,即可根据相关度得分的数值大小得到相关度得分最高的若预设数量个搜索结果,该搜索结果即为与查询串最相关的搜索结果,并将在搜索页面中进行显示。
进一步的,在用户通过输入查询串进行搜索得到的搜索页面中,仅将确定的与查询串最相关的搜索结果显示于搜索页面中,其他的搜索结果将不直接进行展示,例如,将其他的搜索结果折叠起来,当用户点击“查看全部结果”等类似的按钮才会全部展现。
例如,在输入“北京大学”这一查询串时,将仅展现名称为“北京大学”的兴趣点数据,其他更多的兴趣点数据将会被折叠起来,待用户选择“查看全部结果”时方可看到。
如图2所示,在一个实施例中,上述步骤150包括:
步骤151,在每一搜索结果中,由多个特征所对应的每一特征标记值形成特征向量。
步骤153,以特征向量为输入,根据预先构建的回归模型得到搜索结果相对于查询串的相关度得分。
本实施例中,获取预先构建的回归模型,也就是w参数集合,即β012...,βn,以及相应的相关度得分计算公式,进而将特征向量和w参数集合输入如下的相关度得分计算公式即可计算得到相应搜索结果相对于查询串的相关度得分,即:
其中,yi∈{-1,+1},表示了相应搜索结果是正样本(+1)还是负样本(-1),xi∈Rn是一个n维向量,表示第i个搜索结果在这n个特征上的取值。
在一个实施例中,上述步骤153之前,如上所述的方法还包括了如下步骤:
预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型。
本实施例中,给定的精确搜索查询串集合将包括多个精确查询串,该精确查询串将用于实现精确搜索。例如,在地图搜索中,精确搜索查询串集合中包含的精确查询串可为“北京北京大学”,将通过这一精确查询串指定在北京搜索“北京大学”的兴趣点数据。
其中,给定的精确搜索查询串集合可由搜索日志中获取得到,也可通过其它的一些方式获取得到,而对应的最相关结果数据也可由搜索日志获取得到,例如,在搜索日志中记录了查询串以及最相关的结果数据,此外,也可通过对给定的精确搜索查询串集合进行搜索得到,在此不一一进行限定。
根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征进行机器学习,以构建回归模型,适用于此的机器学习方法包括但不限于决策树、支持向量机、人工神经网络和梯度递增决策树等方法。
通过大规模的精确搜索查询串集合以及多个特征实现回归模型的构建,将大为提高了回归模型识别搜索过程中最相关搜索结果的准确性。
如图3所示,在一个实施例中,上述预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的步骤包括:
步骤301,获取给定的精确搜索查询串集合以及精确搜索查询串集合中查询串对应的最相关结果数据。
步骤303,对最相关结果数据进行特征抽取,以得到最相关结果数据对应的特征向量。
本实施例中,按照预先定义的多个特征对最相关结果数据进行特征抽取,以将最相关结果数据表示为预先定义的多个特征,得到对应的特征向量。
具体的,由于给定的精确搜索查询串集合包含了多个精确查询串,因此,该精确搜索查询串集合所对应的最相关结果数据将包含了与每一精确查询串对应的若干条搜索结果。
由此可知,将按照预先定义的多个特征分别提取每一搜索结果对应的特征标记值,进而每一搜索结果都可表示成一个N*1的特征向量,其中,N为预先定义的特征数量;整个最相关结果数据就可表示成一个M*N维的特征向量,M是最相关结果数据中搜索结果的数量。
步骤305,根据最相关结果数据对应的特征向量进行回归学习以构建回归模型。
本实施例中,由最相关结果数据所对应的特征向量进行机器学习,以构建用于识别最相关搜索结果的回归模型。
具体的,将给定M个训练样本(x1,y1),(x2,y2),(x3,y3),...,(xM,yM),其中,xi∈Rn是n维向量,用于表示第i个样本,即最相关结果数据中的第i个搜索结果在预先定义的n个特征上的取值,yi∈{-1,+1}表示了此样本是正样本(+1)还是负样本(-1)。回归模型是通过逻辑函数将第i个样本的特征向量xi与该样本为正样本的概率联系起来,即:
其中,wTxi=β01xi12xi2+...+βnxin,w参数的形式为β012...,βn,参数w对x的n个维度做不同的加权以计算得到wTxi,然后被S型的逻辑函数至0至1,即为正样本的概率。
进行机器学习的目标是需要找即最为合适的w,使得正本样的相关度得分P都比较大,同时负样本的相关度得分都比较小。
在另一个实施例中,上述预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的步骤之后,如上所述的方法还包括:
获取搜索结果的相关性标记值和搜索结果对应的特征向量,根据相关性标记值和特征向量优化回归模型。
本实施例中,还可不断地根据搜索结果的相关性标记值和搜索结果对应的特征向量进行回归模型的优化,以得到更为合适的回归模型。
其中,搜索结果的相关性标记值是根据预先设定的规则进行标注得到的,该预先设定的规则将是与预先定义的多个特征相关的。其中,搜索结果的相关性标注值包括了0和1两个数值,也就是说,最相关的搜索结果所对应的相关性标注值为1,其余搜索结果所对应的相关性标注值为0。
将根据搜索结果对应的特征向量由当前所使用的回归模型得到搜索结果的相关度得分,进而比较相关度得分和相关性标记值之间的误差对回归模型进行调整,以优化当前所使用的回归模型,进而不断提高搜索中相关性处理的准确性。
如图4所示,在一个实施例中,上述获取搜索结果的相关性标记值和搜索结果对应的特征向量,根据相关性标记值和特征向量优化回归模型的步骤包括:
步骤401,获取搜索结果的相关性标记值和搜索结果对应的特征向量。
步骤403,由搜索结果对应的特征向量和回归模型得到搜索结果的相关度得分。
本实施例中,将搜索结果对应的特征向量输入公式以计算得到搜索结果的相关度得分,其中,所采用的w参数集合为机器学习所得到的。
步骤405,根据搜索结果的相关性标记值和相关度得分优化回归模型。
本实施例中,对搜索结果的相关性标记值和相关度得分进行比较以得到两者之间的误差,进而根据该误差发现回归模型的不足,以优化回归模型,获得更好的预测模型。
如图5所示,在一个实施例中,一种搜索中的相关性处理***,包括查询串搜索模块510、特征抽取模块530、处理模块550和相关性确定模块570。
查询串搜索模块510,用于获取查询串,并根据查询串进行搜索得到若干条搜索结果。
本实施例中,查询串搜索模块510获取用户由搜索页面输入的查询串,以根据查询串通过搜索引擎进行搜索得到若干条与该查询串相关的搜索结果。
例如,用户所进行的搜索可以是地图搜索,因此,查询串搜索模块510根据查询串对地图进行搜索所得到的搜索结果将是兴趣点数据,每一兴趣点数据将包含了名称、类别、经度、纬度和重要度等多种信息。
特征抽取模块530,用于按照预先定义的多个特征对得到的若干条搜索结果逐一进行特征抽取,以得到搜索结果中每一特征所对应的特征标记值。
本实施例中,预先定义了多个特征,以通过预先定义的多个特征表达每一搜索结果中包含的多种属性。特征抽取模块530对每一条搜索结果都将按照预先定义的多个特征进行特征抽取,以将搜索结果按照预先定义的多个特征表达成特征标记值,即每一搜索结果中对应了多个特征,每一特征均有与之相对应的特征标记值。
其中,不同的搜索过程其所预先定义的多个特征也将各不相同,特征所对应的特征标记值将用于衡量搜索结果与查询串之间的相关程度。
处理模块550,用于在每一搜索结果中根据特征所对应的特征标记值进行回归问题处理得到搜索结果相对于查询串的相关度得分。
本实施例中,处理模块550采用逻辑回归的方法对每一搜索结果中多个特征所对应的多个特征标记值进行运算,以得到该搜索结果相对于查询串的相关度得分。
其中,所得到的相关度得分越高,则说明所对应的搜索结果与查询串越为相关。
相关性确定模块570,用于根据相关度得分确定与查询串最相关的搜索结果,并显示该搜索结果。
本实施例中,搜索得到的若干条搜索结果均得到了其所对应的相关度得分之后,相关性确定模块570即可根据相关度得分的数值大小得到相关度得分最高的若预设数量个搜索结果,该搜索结果即为与查询串最相关的搜索结果,并将在搜索页面中进行显示。
进一步的,在用户通过输入查询串进行搜索得到的搜索页面中,仅将确定的与查询串最相关的搜索结果显示于搜索页面中,其他的搜索结果将不直接进行展示,例如,将其他的搜索结果折叠起来,当用户点击“查看全部结果”等类似的按钮才会全部展现。
例如,在输入“北京大学”这一查询串时,将仅展现名称为“北京大学”的兴趣点数据,其他更多的兴趣点数据将会被折叠起来,待用户选择“查看全部结果”时方可看到。
如图6所示,在一个实施例中,上述处理模块550包括向量形成单元551和模型输入单元553。
向量形成单元551,用于在每一搜索结果中由多个特征所对应的每一特征标记值形成特征向量。
模型输入单元553,用于以特征向量为输入,根据预先构建的回归模型得到搜索结果相对于查询串的相关度得分。
本实施例中,模型输入单元553获取预先构建的回归模型,也就是w参数集合,即β012...,βn,以及相应的相关度得分计算公式,进而将特征向量和w参数集合输入如下的相关度得分计算公式即可计算得到相应搜索结果相对于查询串的相关度得分,即:
其中,yi∈{-1,+1},表示了相应搜索结果是正样本(+1)还是负样本(-1),xi∈Rn是一个n维向量,表示第i个搜索结果在这n个特征上的取值。
如图7所示,在一个实施例中,如上所述的***还包括了模型构建模块710。
模型构建模块710用于预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型。
本实施例中,给定的精确搜索查询串集合将包括多个精确查询串,该精确查询串将用于实现精确搜索。例如,在地图搜索中,精确搜索查询串集合中包含的精确查询串可为“北京北京大学”,将通过这一精确查询串指定在北京搜索“北京大学”的兴趣点数据。
其中,给定的精确搜索查询串集合可由搜索日志中获取得到,也可通过其它的一些方式获取得到,而对应的最相关结果数据也可由搜索日志获取得到,例如,在搜索日志中记录了查询串以及最相关的结果数据,此外,也可通过对给定的精确搜索查询串集合进行搜索得到,在此不一一进行限定。
模型构建模块710根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征进行机器学习,以构建回归模型,适用于此的机器学习方法包括但不限于决策树、支持向量机、人工神经网络和梯度递增决策树等方法。
模型构建模块710通过大规模的精确搜索查询串集合以及多个特征实现回归模型的构建,将大为提高了回归模型识别搜索过程中最相关搜索结果的准确性。
如图8所示,在一个实施例中,上述模型构建模块710包括了获取单元711、特征处理单元713和学习单元715。
获取单元711,用于获取给定的精确搜索查询串集合以及精确搜索查询串集合中查询串对应的最相关结果数据。
特征处理单元713,用于对最相关结果数据进行特征抽取,以得到最相关结果数据对应的特征向量。
本实施例中,特征处理单元713按照预先定义的多个特征对最相关结果数据进行特征抽取,以将最相关结果数据表示为预先定义的多个特征,得到对应的特征向量。
具体的,由于给定的精确搜索查询串集合包含了多个精确查询串,因此,该精确搜索查询串集合所对应的最相关结果数据将包含了与每一精确查询串对应的若干条搜索结果。
由此可知,特征处理单元713将按照预先定义的多个特征分别提取每一搜索结果对应的特征标记值,进而每一搜索结果都可表示成一个N*1的特征向量,其中,N为预先定义的特征数量;整个最相关结果数据就可表示成一个M*N维的特征向量,M是最相关结果数据中搜索结果的数量。
学习单元715,用于根据最相关结果数据对应的特征向量进行回归学习以构建回归模型。
本实施例中,学习单元715由最相关结果数据所对应的特征向量进行机器学习,以构建用于识别最相关搜索结果的回归模型。
具体的,将给定M个训练样本(x1,y1),(x2,y2),(x3,y3),...,(xM,yM),其中,xi∈Rn是n维向量,用于表示第i个样本,即最相关结果数据中的第i个搜索结果在预先定义的n个特征上的取值,yi∈{-1,+1}表示了此样本是正样本(+1)还是负样本(-1)。回归模型是通过逻辑函数将第i个样本的特征向量xi与该样本为正样本的概率联系起来,即:
其中,wTxi=β01xi12xi2+...+βnxin,w参数的形式为β012...,βn,参数w对x的n个维度做不同的加权以计算得到wTxi,然后被S型的逻辑函数至0至1,即为正样本的概率。
学习单元715进行机器学习的目标是需要找即最为合适的w,使得正本样的相关度得分P都比较大,同时负样本的相关度得分都比较小。
在另一个实施例中,如上所述的***还包括优化模块。该优化模块用于获取搜索结果的相关性标记值和搜索结果对应的特征向量,根据相关性标记值和特征向量优化回归模型。
本实施例中,优化模块还可不断地根据搜索结果的相关性标记值和搜索结果对应的特征向量进行回归模型的优化,以得到更为合适的回归模型。
其中,搜索结果的相关性标记值是根据预先设定的规则进行标注得到的,该预先设定的规则将是与预先定义的多个特征相关的。其中,搜索结果的相关性标注值包括了0和1两个数值,也就是说,最相关的搜索结果所对应的相关性标注值为1,其余搜索结果所对应的相关性标注值为0。
优化模块将根据搜索结果对应的特征向量由当前所使用的回归模型得到搜索结果的相关度得分,进而比较相关度得分和相关性标记值之间的误差对回归模型进行调整,以优化当前所使用的回归模型,进而不断提高搜索中相关性处理的准确性。
如图9所示,在一个实施例中,上述优化模块包括数值获取单元901、相关度运算单元903和模型优化单元905。
数值获取单元901,用于获取搜索结果的特征标记值和搜索结果对应的特征向量。
相关度运算单元903,用于由搜索结果对应的特征向量和回归模型得到搜索结果的相关度得分。
本实施例中,相关度运算单元903将搜索结果对应的特征向量输入公式以计算得到搜索结果的相关度得分,其中,所采用的w参数集合为机器学习所得到的。
模型优化单元905,用于根据搜索结果的相关性标记值和相关度得分优化回归模型。
本实施例中,模型优化单元905对搜索结果的相关性标记值和相关度得分进行比较以得到两者之间的误差,进而根据该误差发现回归模型的不足,以优化回归模型,获得更好的预测模型。
图10是本发明实施例提供的一种服务器结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质51030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示未示出),例如图5中的查询串搜索模块510、特征抽取模块530、处理模块550和相关性确定模块570等,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作***1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。上述图1至图4所示实施例中所述的由服务器所执行的步骤可以基于该图10所示的服务器结构。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机***的存储介质中,并被该计算机***中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种搜索中的相关性处理方法,包括如下步骤:
获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;
按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;
在每一搜索结果中,由多个特征所对应的每一特征标记值形成特征向量;
以所述特征向量为输入,根据预先构建的回归模型得到所述搜索结果相对于所述查询串的相关度得分;
根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述以所述特征向量为输入,通过预先构建的回归模型得到所述搜索结果相对于所述查询串的相关度得分的步骤之前,所述方法还包括:
预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型。
3.根据权利要求2所述的方法,其特征在于,所述预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的步骤包括:
获取给定的精确搜索查询串集合以及所述精确搜索查询串集合中查询串对应的最相关结果数据;
对所述最相关结果数据进行特征抽取,以得到所述最相关结果数据对应的特征向量;
根据所述最相关结果数据对应的特征向量进行回归学习以构建回归模型。
4.根据权利要求2所述的方法,其特征在于,所述预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型的步骤之后,所述方法还包括:
获取搜索结果的相关性标记值和所述搜索结果对应的特征向量,根据所述相关性标记值和特征向量优化所述回归模型。
5.根据权利要求4所述的方法,其特征在于,所述获取搜索结果的相关性标记值和所述搜索结果对应的特征向量,根据所述相关性标记值和特征向量优化所述回归模型的步骤包括:
获取搜索结果的特征标记值和所述搜索结果对应的特征向量;
由所述搜索结果对应的特征向量和回归模型得到所述搜索结果的相关度得分;
根据所述搜索结果的相关性标记值和相关度得分优化所述回归模型。
6.一种搜索中的相关性处理***,其特征在于,包括:
查询串搜索模块,用于获取查询串,并根据所述查询串进行搜索得到若干条搜索结果;
特征抽取模块,用于按照预先定义的多个特征对所述得到的若干条搜索结果逐一进行特征抽取,以得到所述搜索结果中每一特征所对应的特征标记值;
处理模块,用于在每一搜索结果中由多个特征所对应的每一特征标记值形成特征向量;以所述特征向量为输入,根据预先构建的回归模型得到所述搜索结果相对于所述查询串的相关度得分;
相关性确定模块,用于根据所述相关度得分确定与所述查询串最相关的搜索结果,并显示所述搜索结果。
7.根据权利要求6所述的***,其特征在于,所述***还包括:
模型构建模块,用于预先根据给定的精确搜索查询串集合以及对应的最相关结果数据中的多个特征构建回归模型。
8.根据权利要求7所述的***,其特征在于,所述模型构建模块包括:
获取单元,用于获取给定的精确搜索查询串集合以及所述精确搜索查询串集合中查询串对应的最相关结果数据;
特征处理单元,用于对所述最相关结果数据进行特征抽取,以得到所述最相关结果数据对应的特征向量;
学习单元,用于根据所述最相关结果数据对应的特征向量进行回归学习以构建回归模型。
9.根据权利要求7所述的***,其特征在于,所述***还包括:
优化模块,用于获取搜索结果的相关性标记值和所述搜索结果对应的特征向量,根据所述相关性标记值和特征向量优化所述回归模型。
10.根据权利要求9所述的***,其特征在于,所述优化模块包括:
数值获取单元,用于获取搜索结果的特征标记值和所述搜索结果对应的特征向量;
相关度运算单元,用于由所述搜索结果对应的特征向量和回归模型得到所述搜索结果的相关度得分;
模型优化单元,用于根据所述搜索结果的相关性标记值和相关度得分优化所述回归模型。
CN201410294419.2A 2014-06-25 2014-06-25 搜索中的相关性处理方法和*** Active CN104615621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410294419.2A CN104615621B (zh) 2014-06-25 2014-06-25 搜索中的相关性处理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410294419.2A CN104615621B (zh) 2014-06-25 2014-06-25 搜索中的相关性处理方法和***

Publications (2)

Publication Number Publication Date
CN104615621A CN104615621A (zh) 2015-05-13
CN104615621B true CN104615621B (zh) 2017-11-21

Family

ID=53150069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410294419.2A Active CN104615621B (zh) 2014-06-25 2014-06-25 搜索中的相关性处理方法和***

Country Status (1)

Country Link
CN (1) CN104615621B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055607B (zh) * 2016-05-25 2020-05-19 百度在线网络技术(北京)有限公司 用户到访预测模型建立、用户到访预测方法和装置
US10733243B2 (en) * 2017-08-30 2020-08-04 Microsoft Technology Licensing, Llc Next generation similar profiles
CN108197621A (zh) * 2017-12-28 2018-06-22 北京金堤科技有限公司 企业信息获取方法及***和信息处理方法及***
CN109948030A (zh) * 2019-02-28 2019-06-28 北京搜狗科技发展有限公司 网页搜索结果质量检测方法及装置
CN109977293B (zh) * 2019-03-29 2021-04-20 北京搜狗科技发展有限公司 一种搜索结果相关性的计算方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043834A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN102375823A (zh) * 2010-08-13 2012-03-14 腾讯科技(深圳)有限公司 搜索结果聚合显示方法及***
CN102999508A (zh) * 2011-09-13 2013-03-27 腾讯科技(深圳)有限公司 搜索结果排序方法及***
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN103870573A (zh) * 2014-03-18 2014-06-18 北京奇虎科技有限公司 对网址进行分析的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051072B2 (en) * 2008-03-31 2011-11-01 Yahoo! Inc. Learning ranking functions incorporating boosted ranking in a regression framework for information retrieval and ranking
US9727616B2 (en) * 2009-07-06 2017-08-08 Paypal, Inc. Systems and methods for predicting sales of item listings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375823A (zh) * 2010-08-13 2012-03-14 腾讯科技(深圳)有限公司 搜索结果聚合显示方法及***
CN102043834A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN102999508A (zh) * 2011-09-13 2013-03-27 腾讯科技(深圳)有限公司 搜索结果排序方法及***
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN103870573A (zh) * 2014-03-18 2014-06-18 北京奇虎科技有限公司 对网址进行分析的方法和装置

Also Published As

Publication number Publication date
CN104615621A (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
CN112100529B (zh) 搜索内容排序方法、装置、存储介质和电子设备
US9218364B1 (en) Monitoring an any-image labeling engine
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN105302810B (zh) 一种信息搜索方法和装置
CN104615621B (zh) 搜索中的相关性处理方法和***
CN107193962B (zh) 一种互联网推广信息的智能配图方法及装置
US8560531B2 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
US20180218241A1 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
CN105045875B (zh) 个性化信息检索方法及装置
CN109815952A (zh) 品牌名称识别方法、计算机装置及计算机可读存储介质
CN103853722B (zh) 一种基于检索串的关键词扩展方法、装置和***
CN106033416A (zh) 一种字符串处理方法及装置
CN107424043A (zh) 一种产品推荐方法及装置,电子设备
CN105159938B (zh) 检索方法和装置
CN103778262B (zh) 基于叙词表的信息检索方法及装置
US8583669B2 (en) Query suggestion for efficient legal E-discovery
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
US20210173874A1 (en) Feature and context based search result generation
CN109492081A (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN110232133A (zh) 一种基于特征融合和款式分类的服装图像检索方法和***
Jiang et al. ContextRank: personalized tourism recommendation by exploiting context information of geotagged web photos
JPH11167581A (ja) 情報分類方法、装置及びシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant