CN106095780B - 一种基于位置特征的检索方法 - Google Patents
一种基于位置特征的检索方法 Download PDFInfo
- Publication number
- CN106095780B CN106095780B CN201610361839.7A CN201610361839A CN106095780B CN 106095780 B CN106095780 B CN 106095780B CN 201610361839 A CN201610361839 A CN 201610361839A CN 106095780 B CN106095780 B CN 106095780B
- Authority
- CN
- China
- Prior art keywords
- score
- keyword
- search result
- preset
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000002131 composite material Substances 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000007689 inspection Methods 0.000 claims 1
- 230000010354 integration Effects 0.000 abstract description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000011109 contamination Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于位置特征的检索方法,包括如下步骤:根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算关键词在检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;将词频及密度分数及位置距离分数进行加权求和获取关键词在检索结果中的基本分数A,将分布分数平滑后,计算顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算关键词在每个检索结果的综合分数,将检索结果按照其对应的综合分数进行降序排序后通过用户接口提供给用户。本发明词频及密度的分数、位置距离分数、分布分数、顺序分数的统合分数,实现提高检索结果相关性,提高用户体验性的目的。
Description
技术领域
本发明属于互联网技术领域,具体而言,涉及一种基于位置特征的检索方法。
背景技术
随着互联网的发展,搜索引擎的种类也越来越多。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。在信息检索的过程中,搜索引擎一般是根据用户输入的查询词获取匹配相应的泛需求的关键词,再根据关键词在检索结果中的词频、密度或位置计算在检索结果中的分数后,根据分数排序检索结果并提供给用户的。这种检索结果并没有考虑综合到关键词在检索结果中的词频、密度、位置、以及关键词的排序对检索结果的影响。
发明内容
为解决现有现有搜索引擎检索并未综合考虑关键词在检索结果总的词频及密度、位置、顺序对检索结果的影响,导致用户检索体验性差的计算缺陷,本发明提供了一种将关键词在检索结果中的词频、密度、位置、顺序都考虑在内计算用户查询词与检索结果关联性的基于位置特征的检索方法。
本发明提供了一种基于位置特征的检索方法,包括如下步骤:
采集通过用户接口获取的用户输入的查询词;
查询预设所述泛需求关键词数据库,获取所述查询词对应的关键词,根据所述关键词获取对应的检索结果;
根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;
将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A,将所述分布分数平滑后,计算所述顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算所述关键词在每个检索结果的综合分数;
将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。
进一步,所述获取所述查询词对应的关键词包括
遍历所述泛需求关键词数据库,获取所述查询词中包括的关键词。
进一步,所述词频及密度分数为:
,其中,demote为预设参数,idf为所述关键词在所述检索结果中的重要程度,hit_count为查询词在检索结果中击中的次数,term为查询词,
所述idf按照如下公式计算:
进一步,所述位置距离分数的计算公式为:
其中,smoothA和smoothB为预设的平滑参数,words_count为预设的关键词词数的数量,span为预设的计算关键词分布分数的距离,promote为预设的控制参数。
进一步,所述基本分数的计算公式为:
A=hits_score*weight1+span_score*weight2
其中,weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。
进一步,所述分布分数的计算公式为:
其中,positions表示所述关键词在检索结果中的位置,N表示所述关键词在检索结果中的位置的数量。
进一步,所述顺序分数的计算公式为:
其中,smoothA、smoothB为预设的平滑参数,promote为预设控制参数。
进一步,所述比值
其中,所述SmoothA为预设的平滑参数。
综上,本发明通过统计所述关键词的词频及密度的分数、所述位置距离分数、分布分数、顺序分数的统合分数,实现提高检索结果相关性,提高用户体验性的目的。
附图说明
图1为本发明所述的基于位置特征的检索方法的流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
本发明的基本思想是:将用户输入的查询词进行识别获取泛需求检索的关键词,根据所述泛需求检索的关键词查找相应的文档,根据所述关键词在所述查找出的文档中的紧密度、检索的重要程度进行相关性分数计算,最后按照预设的规则将统计分数后的检索结果提供给用户。
如图1所示,本发明提供了一种基于位置特征的检索方法,包括如下步骤:
S101、采集通过用户接口获取的用户输入的查询词;
S102、查询预设所述泛需求关键词数据库,获取所述查询词对应的关键词,根据所述关键词获取对应的检索结果。
进一步,所述获取所述查询词对应的关键词包括
遍历所述泛需求关键词数据库,获取所述查询词中包括的关键词。
具体实施时,所述泛需求关键词数据库可选的利用搜索引擎采集的网页进行分词,并将分词的结果构建出倒排索引结构;同时还可选的还会存储它们的“正排”信息,即记录它们的标题、作者、发布时间、描述等跟位置、出现次数无关但也很重要的信息。而在搜索引擎中,这些关键词可选的以倒排索引的形式存储的。倒排索引中可选的包括所有的关键词的组合及每一个关键词词对应的倒排链表。每个所述倒排链表中的块都是该关键词在某个文档中的信息,包括在文档ID、在文档中出现的次数、在文档中的出现的位置等。
关键词的获取方式是通过分词算法获取的。例如“好看的电影”,在分词算法中会被分为“好看”、“的”、“电影”,其中“的”字因为经常出现,会被作为“停用词”给去除。所以最后的关键词结果是“好看”、“电影”。具体实施时,如查找Term(即关键词)是否在文档A中存在,以及存在的位置,就是先找到Term所在的倒排链表,然后遍历该倒排链表(当然链表是按ID顺序排列的,可以随时中断跳出),找到文档A对应的信息,就能获得该Term在文档中出现的次数、位置等。如果没有找到,就说明这个Term没有在文档中出现。
例如,对于查找“电影”查询词。假设有文档1(“好看的电影”),文档2(“电影很好看,是一部好看的电影”),“电影”这个Term对应到的倒排列表有A(docid:1,count:1,pos:2),B(docid:2,count:2,pos:1、5)。这里的count指该term在文档中出现的次数,pos表示在文档中出现的词的位置(去除了停用词“很”、“是”、“的”)。通过“电影”可以很容易地查找到在哪个文档中出现,以及出现的位置等信息。
S103、根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数。
S104、将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A,将所述分布分数平滑后,计算所述顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算所述关键词在每个检索结果的综合分数;
S105、将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。
所述词频及密度分数为:
,其中,demote为预设参数,idf为所述关键词在所述检索结果中的重要程度,hit_count为查询词在检索结果中击中的次数,term为查询词,
所述idf按照如下公式计算:
进一步,所述位置距离分数的计算公式为:
其中,smoothA和smoothB为预设的平滑参数,words_count为预设的关键词词数的数量,span为预设的计算关键词分布分数的距离,promote为预设的控制参数。
进一步,所述基本分数的计算公式为:
A=hits_score*weight1+span_score*weight2
其中,weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。
进一步,所述分布分数的计算公式为:
其中,positions表示所述关键词在检索结果中的位置,N表示所述关键词在检索结果中的位置的数量。
进一步,所述顺序分数的计算公式为:
其中,smoothA、smoothB为预设的平滑参数,promote为预设控制参数
进一步,
其中,所述SmoothA为预设的平滑参数。
以“好看电影”这个搜索和文档(“好看的动漫电影,评价很好看”)为例说明本发明。“电影”对应到的倒排列表为(docid:1,count:1,pos:3),“好看”对应的倒排列表为(docid:1,count:2,pos:1、5)。
计算hit_score:假设文档库中有10000个文档,有2000个文档包含了“电影”,则idf(“电影”)=log(10000/2001)=0.698,假设有5000个文档包含了“好看”,则idf(“好看”)=log(10000/5001)=0.30。设置demote=0.5,文档1的hit_score=idf(好看)*exp(hits_count(好看),0.5)+idf(电影)*exp(hits_count(电影),0.5)=0.698*exp(2,0.5)+0.30=0.698*1.414+0.3=1.287。
计算span_score:文档1的最优位置组合是“好看的动漫电影”,words_count是指“好看电影”这个查询里的词数,为2;span为“好看的动漫电影”中的词数,为3;设置promote为0.7,smoothA为1,smoothB为2,span_score=exp((2+1)/(3+2),0.7)=0.699。
计算base_score:假设对两个分数都取相同的权重,则base_score=0.5*1.287+0.5*0.699=0.993。
计算balance_score:平均位置u=1/3*(1+3+5)=3,
计算reverse_score:reverse score是在最优位置组合“好看的动漫电影”里计算reverse_score。由于对于查询“好看电影”,这个组合中的逆序数为0,而对于2个词的最大逆序数为1。取smoothA为1和smoothB为10,promote为0.5,则reverse_score=exp(1–(0+1)/(1+10),0.5)=0.9534。
最后计算总分final_score=base_score*reverse_score/(balance_score+smoothA)=0.993*0.9534/(0.8366+1)=0.515,其中smoothA设置为1。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于位置特征的检索方法,其特征在于,包括如下步骤:
采集通过用户接口获取的用户输入的查询词;
查询预设泛需求关键词数据库,获取所述查询词对应的关键词,根据所述关键词获取对应的检索结果;
根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数;
将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A,将所述分布分数平滑后,计算所述顺序分数与平滑后的分布分数的比值B,通过A与B的乘积计算所述关键词在每个检索结果的综合分数;其中,所述词频及密度分数为:
其中,demote为预设参数,idf为所述关键词在所述检索结果中的重要程度,hit_count为查询词在检索结果中击中的次数,term为查询词,所述idf按照如下公式计算:
将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。
2.根据权利要求1所述的基于位置特征的检索方法,其特征在于,所述获取所述查询词对应的关键词包括
遍历所述泛需求关键词数据库,获取所述查询词中包括的关键词。
3.根据权利要求2所述的基于位置特征的检索方法,其特征在于,所述位置距离分数的计算公式为:
其中,smoothA和smoothB为预设的平滑参数,words_count为预设的关键词词数的数量,span为预设的计算关键词分布分数的距离,promote为预设的控制参数。
4.根据权利要求3所述的基于位置特征的检索方法,其特征在于,所述基本分数的计算公式为:
A=hits_score*weight1+span_score*weight2
其中,weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。
5.根据权利要求1所述的基于位置特征的检索方法,其特征在于,所述分布分数的计算公式为:
其中,positions表示所述关键词在检索结果中的位置,N表示所述关键词在检索结果中的位置的数量。
6.根据权利要求5所述的基于位置特征的检索方法,其特征在于,所述顺序分数的计算公式为:
其中,smoothA、smoothB为预设的平滑参数,promote为预设控制参数。
7.根据权利要求6所述的基于位置特征的检索方法,其特征在于,
所述比值
其中,所述SmoothA为预设的平滑参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610361839.7A CN106095780B (zh) | 2016-05-26 | 2016-05-26 | 一种基于位置特征的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610361839.7A CN106095780B (zh) | 2016-05-26 | 2016-05-26 | 一种基于位置特征的检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095780A CN106095780A (zh) | 2016-11-09 |
CN106095780B true CN106095780B (zh) | 2019-12-03 |
Family
ID=57229346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610361839.7A Active CN106095780B (zh) | 2016-05-26 | 2016-05-26 | 一种基于位置特征的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095780B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933947B (zh) * | 2017-01-20 | 2018-12-04 | 北京三快在线科技有限公司 | 一种搜索方法及装置、电子设备 |
CN109033222B (zh) * | 2018-06-29 | 2021-07-13 | 北京奇虎科技有限公司 | 兴趣点poi与检索关键字的相关性分析方法和装置 |
CN111310477B (zh) * | 2020-02-24 | 2023-04-21 | 成都网安科技发展有限公司 | 文档查询方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043812A (zh) * | 2009-10-13 | 2011-05-04 | 北京大学 | 一种医疗信息的检索方法及*** |
CN103064846A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 检索装置和检索方法 |
CN103150356A (zh) * | 2013-02-22 | 2013-06-12 | 百度在线网络技术(北京)有限公司 | 一种应用的泛需求检索方法及*** |
CN103235773A (zh) * | 2013-04-26 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 基于关键词的文本的标签提取方法及装置 |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150304368A1 (en) * | 2014-04-16 | 2015-10-22 | Facebook, Inc. | Sharing Locations with Friends on Online Social Networks |
-
2016
- 2016-05-26 CN CN201610361839.7A patent/CN106095780B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043812A (zh) * | 2009-10-13 | 2011-05-04 | 北京大学 | 一种医疗信息的检索方法及*** |
CN103064846A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 检索装置和检索方法 |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和*** |
CN103150356A (zh) * | 2013-02-22 | 2013-06-12 | 百度在线网络技术(北京)有限公司 | 一种应用的泛需求检索方法及*** |
CN103235773A (zh) * | 2013-04-26 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 基于关键词的文本的标签提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106095780A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Howe et al. | Legal area classification: A comparative study of text classifiers on singapore supreme court judgments | |
CN104063523B (zh) | 一种电子商务搜索评分与排名的方法及*** | |
Chen et al. | Collabseer: a search engine for collaboration discovery | |
Kim et al. | Attribute relationship evaluation methodology for big data security | |
Sambasivam et al. | Advanced data clustering methods of mining Web documents. | |
Soliman et al. | Ranking with uncertain scoring functions: semantics and sensitivity measures | |
CN105320772B (zh) | 一种专利查重的关联论文查询方法 | |
CN106598949B (zh) | 一种词语对文本贡献度的确定方法及装置 | |
CN106095780B (zh) | 一种基于位置特征的检索方法 | |
CN107247743A (zh) | 一种司法类案检索方法及*** | |
Oh et al. | CV-PCR: a context-guided value-driven framework for patent citation recommendation | |
CN103902694B (zh) | 基于聚类和查询行为的检索结果排序方法 | |
Zhang et al. | Consensus-based ranking of multivalued objects: A generalized borda count approach | |
CN110569273A (zh) | 一种基于相关性排序的专利检索***及方法 | |
Fu et al. | Patent citation recommendation for examiners | |
Galkó et al. | Biomedical question answering via weighted neural network passage retrieval | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
CN108062355A (zh) | 基于伪反馈与tf-idf的查询词扩展方法 | |
Leilei et al. | Approaches for source retrieval and text alignment of plagiarism detection | |
Sun et al. | Visualizing differences in web search algorithms using the expected weighted Hoeffding distance | |
Krstovski et al. | Efficient nearest-neighbor search in the probability simplex | |
Wang et al. | A semantic query expansion-based patent retrieval approach | |
Sharma et al. | Finding similar patents through semantic query expansion | |
Yuan et al. | A mathematical information retrieval system based on RankBoost | |
CN106095779A (zh) | 一种基于关键词位置的检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Patentee after: Daguan Data Co.,Ltd. Address before: Room 1208, No. 2305 Zuchongzhi Road, Zhangjiang, Pudong New Area, Shanghai, 200000 Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |