CN103425687A - 一种基于关键词的检索方法和*** - Google Patents

一种基于关键词的检索方法和*** Download PDF

Info

Publication number
CN103425687A
CN103425687A CN2012101589067A CN201210158906A CN103425687A CN 103425687 A CN103425687 A CN 103425687A CN 2012101589067 A CN2012101589067 A CN 2012101589067A CN 201210158906 A CN201210158906 A CN 201210158906A CN 103425687 A CN103425687 A CN 103425687A
Authority
CN
China
Prior art keywords
keyword
primary keys
term
participle entry
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101589067A
Other languages
English (en)
Inventor
卢中县
王磊
杨松
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2012101589067A priority Critical patent/CN103425687A/zh
Publication of CN103425687A publication Critical patent/CN103425687A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于关键词的检索方法和***,其中,所述方法包括:接收提交的原始关键词;对所述原始关键词进行分词,获得分词条目term;按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;为各原始关键词和扩展关键词分配相应的权重;采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;根据所述相关性得分从所述候选检索结果中提取最终检索结果。本申请可以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。

Description

一种基于关键词的检索方法和***
技术领域
本申请涉及信息搜索的技术领域,特别是涉及一种基于关键词的检索方法和一种基于关键词的检索***。
背景技术
随着网络技术的发展和普及,能帮助用户在海量的网络资源中搜索其所需信息的搜索引擎技术也得到了大力发展和普及,目前,搜索引擎已成为每个网民不可缺少的上网工具之一。
公知的是,搜索引擎是基于用户提交的关键词进行检索,用户在搜索页面输入检索关键词(query),搜索引擎会采用该query在其检索库中进行检索,判断是否有匹配的信息。然而,在实际中可能出现的一种情况是,搜索引擎可能在检索库中检索不到数据或检索到很少数据,对于这种检索不到数据或检索到很少数据的query,可以称之为零少结果query。如何提高零少结果query的召回率,以提升用户的搜索体验和网站的点击率,成为本领域技术人员迫切需要解决的问题。其中,召回率是指检索出的相关文档数和检索库中所有的相关文档数的比率,其衡量的是搜索***的查全率。
发明内容
本申请的目的是提供一种基于关键词的检索方法和***,用以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。
为了解决上述问题,本申请公开了一种基于关键词的检索方法,包括:
接收提交的原始关键词;
对所述原始关键词进行分词,获得分词条目term;
按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
为各原始关键词和扩展关键词分配相应的权重;
采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
根据所述相关性得分从所述候选检索结果中提取最终检索结果。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取所述分词条目term和/或分词条目term组合的同义词;
采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
去除符合预设条件的分词条目term,获得重写关键词。
优选地,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:
去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
优选地,所述采用原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:
分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
s i = 0 r i = = 0 r i · w i r i > 0
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
优选地,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:
按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;
按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
本申请实施例还公开了一种基于关键词的检索***,包括:
原始关键词接收模块,用于接收提交的原始关键词;
分词模块,用于对所述原始关键词进行分词,获得分词条目term;
扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;
检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。
优选地,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:
拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
优选地,所述扩展关键词获取模块包括:
同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
优选地,所述扩展关键词获取模块包括:
第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词获取模块包括:
第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:
条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。
优选地,所述条目去除子模块进一步包括:
候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
分值计算单元,用于采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSavedTerms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
优选地,所述检索模块包括:
候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
s i = 0 r i = = 0 r i · w i r i > 0
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
优选地,所述检索结果获得模块包括:
第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
与现有技术相比,本申请包括以下优点:
本申请实施例对于零少结果的query,通过query改写,将原始query和扩展query一同参与检索,在保证优先出原quey的检索结果的同时,提高检索的召回率。本申请还提出了多query检索排序的一般性方法,通过基于权重的query算分策略,对检索效果进行了有效优化。
附图说明
图1是本申请的一种基于关键词的检索方法实施例的步骤流程图;
图2是本申请的一种获取原始query(原始关键词)对应的QR词(扩展关键词)的具体示例的处理流程图;
图3是本申请的一种基于关键词的检索***实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,采用原始关键词和一组基于该原始关键词生成的扩展关键词进行检索,既能够明显提高零少结果query的召回率,又能同时保证原始query的检索结果优先召回。
参照图1,其示出了一种基于关键词的检索方法实施例的步骤流程图,具体可以包括以下步骤:
步骤101、接收提交的原始关键词;
其中,所述原始关键词可以为用户提交的原始query,也可以为任一种方式生成的原始query,本申请对此不作限制。
步骤102、对所述原始关键词进行分词,获得分词条目term;
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。
下面介绍一些常用的分词方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词***,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子***、句法语义子***、总控部分。在总控部分的协调下,分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
在具体实现中,可以采用一些分词工具,如采用Stanford的Chinese-Segmenter进行所述语料的批量分词处理,本申请对所述分词的方式不作限制。
步骤103、按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,在这种情况下,所述步骤103可以包括如下子步骤:
子步骤S11、对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
由于用户提交的原始query经常会出现一些错别字或错词,拼写纠错处理是利用字形、字音分析,对可能错误的query进行纠错处理。例如,将“黄挑苗”拼写纠错处理为“黄桃苗”。
和/或,
子步骤S12、对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
用户输入原始query的过程中,通过分析用户输入的内容,提供一组建议的query以节省输入成本,对于输入拼音、字母、数字混合的query时,这种体验尤其出色。例如,用户在输入原始query“手机”的过程中,可以提供“手机”、“手机电池”、“手机套”、“智能手机”等拼写建议处理的结果;在实际中,可以直接选择第一个拼写建议处理的结果作为相似关键词。若只有一个拼写建议处理结果,如输入“shoujidianchi”,仅提供有一个拼写建议处理的结果“手机电池”,则直接将该拼写建议处理的结果作为相似关键词。
当然,上述选取所述拼写建议处理的结果作为相似关键词的方式仅仅用作示例,本领域技术人员根据实际情况采用任一种选取方法都是可行的,本申请对此不作限制。
在本申请的一种优选实施例中,还可以通过以下子步骤生成原始关键词的相似关键词:
子步骤S21、获取所述分词条目term和/或分词条目term组合的同义词;
子步骤S22、采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
若原始query中的term或者term组合可以在预置的同义词表中找到可替换的同义词,那么可采用本实施例用同义词替换掉该term或者term组合,从而组合成新的query。例如,原始query为“黑胡椒牛***”,同义词表中存在“黑胡椒”的同义词“黑椒”,那么将“黑椒牛***”作为相似关键词进行添加。
在本申请的一种优选实施例中,还可以通过以下子步骤生成原始关键词的相似关键词:
子步骤S31、获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
子步骤S32、获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
子步骤S33、统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
作为本申请实施例具体应用的一种示例,可以使用termweight对原始query进行分词,采用termweight可以对输入的一个短字符串(比如信息标题)和其他可选信息(比如信息类目id或者供应商id),通过分析,还可以给出输入字符中每一个term的词性和重要性打分。比如输入:供应mp3\mp4车载发射器。可以得到如下表所示的term、term词性和term重要性:
  term   词性   重要性
  供应   FW   20
  Mp3   CP_XIUSHI   90
  \   BL   0
  Mp4   CP_XIUSHI   90
  车载   XS   40
  发射器   CP_CORE   150
其中,term词性用于说明该词的类型。目前可以识别的类型是可以枚举的。在本例中主要包括:CP_CORE(产品核心词)、CP_XIUSHI(产品修饰词)、XS(一般性修饰词)、PP(品牌词)、XH(型号词)、QH(区划词)、BL(并列词)、以及PT(普通词)。
term重要性用于说明该词的重要性。如果term对于输入字符串的表意能力越强,则分数越高。一般来说:score(cp_core)>score(pp)>score>(xh)>score(cp_xiushi)>score(qh)>score(xs)>score(pt)。
在具体实现中,可以将上述term、term词性和term重要性组织为一个二维数组:
[Q]={{t1,tag1,w1,tw1},{t2,tag2,w2,tw2}...{tn,tagn,wn,twn}};
其中,ti为对原始query分词后的一个term,tagi为该term词性,wi为该term的重要性分数,twi分数是作为本实施例具体应用的一种示例,按照下表规则,对几种典型的term词性做了相应附加的分。
Figure BDA00001663430700121
本实施例中的特征词性信息可由本领域技术人员根据实际情况任意设置,例如,参考上例,可以设置特征词性信息为产品修饰词、机构词或一般性修饰词、普通词、并列词等,遍历原始query中的term,如果对于某一个term Ti,它的词性为品牌词或区划词,则可以得到对Ti去掉一些字的新词Ni,然后对该新词与原始query进行相似度判断,比如进行文本相似度计算,若大于一定阈值,如80%,则将该新词作为相似关键词。如原始query为“滑盖式手机”,对其分词为:“滑盖式”(产品修饰词),“手机”(产品核心词),对具有产品修饰词词性的“滑盖式”去除一个字,生成新词“滑盖手机”,计算“滑盖手机”与“滑盖式手机”的相似度为80%,于是将“滑盖手机”作为相似关键词。
在本申请的一种优选实施例中,还可以通过以下子步骤生成原始关键词的相似关键词:
子步骤S41、获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
子步骤S42、获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
子步骤S43、分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
子步骤S44、若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
在具体实现中,所述特征词性信息也可以采用开放式限定方式,例如,设置不为品牌词或区划词的词性信息即为特征词性信息。
例如,遍历原始query中的term,如果对于一个term Ti,它的词性不为品牌词或区划词,可以得到对Ti去掉一些字的新词Ni,进一步得到Ni和Ti作为query查询点击的offer的类目向量,计算Ti和Ni的点击类目向量的cosine相似度,若相似度高于0.8,则用Ni替换Ti生成新的query作为相似关键词中。以在电子商务平台的应用为例,用户发布的一条产品信息或求购信息可以称之为一条offer,所有的offer集合即为offer库。
例如,原始query为“杭州马鞍式花盆”,“马鞍式”被termweight分为一个term,“鞍式”和“马鞍式”差了一个字,类目点击向量的cosine相似度高于0.8,所以“杭州鞍式花盆”可以被作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词还可以包括重写关键词,在这种情况下,可以通过以下子步骤生成原始关键词对应的重写关键词:
子步骤S51、去除符合预设条件的分词条目term,获得重写关键词。
更为优选的是,所述子步骤S51可以包括如下子步骤:
子步骤S51-1、去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
子步骤S51-2、采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
子步骤S51-3、按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
可以理解的是,本申请实施例采用多种QR(Query Rewrite,关键词改写)的方式,对于零少结果的query进行重写,从而提高搜索结果的召回率。其中,相似关键词(QR相似词)与原始query相比,相关度较高,信息损失程度较低。如“女式套装”重写为“女套装”。重写关键词(QR重写词)与原始query相比,相关度一般,有一定的信息损失,但核心产品词保持一致。如“以纯纯棉卫衣”重写为“以纯卫衣”。
步骤104、为各原始关键词和扩展关键词分配相应的权重;在实际中,可以为所述原始关键词分配固定权重,所述扩展关键词的权重可以根据在其生成过程中生成并分配,也可分配固定权重,本申请对此无需加以限制。
为使本领域技术人员更好地理解本申请实施例,以下通过一个在电子商务平台中具体应用的实例对上述步骤进一步说明。
参照图2所示的一种获取原始query(原始关键词)对应的QR词(扩展关键词)的具体处理流程图,具体可以包括如下步骤:
子步骤S201,前端获取用户输入的原始query Q,向QR服务器发送查询请求;
子步骤S202,对Q通过查询搜索展现日志进行召回结果数的预判,判断Q召回的搜索结果数N是否大于预设阈值,如200,若是,则执行子步骤S203;否则执行子步骤S204;
子步骤S203,直接返回原始query Q,[QR]输出的结果为[QR]={{Q,1.0}}。
子步骤S204,如果N数值较小或N为零,则对原始query进行词法预处理。
首先需要使用termweight对进行分词、term词性、term重要性的获取,得到一个二维数组:
[Q]={{t1,tag1,w1,tw1},{t2,tag2,w2,tw2}...{tn,tagn,wn,twn}}。
其中,ti为Q分词后的一个term,tagi为该term词性,wi为该term的重要性分数,twi分数是按照下表规则,对几种典型的term词性做了相应附加的分。
Figure BDA00001663430700151
然后顺序执行以下子步骤S205-209:
子步骤S205,对原始query进行拼写纠错操作。
对Q进行拼写纠错操作,如果Q能够输出拼写纠错的结果Q1,那么将Q1***QR相似词中;如Q为“蓝球”,拼写纠错结果为“篮球”,那么将“篮球”***QR相似词,输出数组状态为[QR]={{蓝球,1.0},{篮球,1.0}}。
子步骤S206,对原始query进行拼写建议检查。
如果Q的组成元素完全是字母、数字,并且拼写建议能够输出结果{S1,S2...Sk},那么将S 1***到QR相似词中;如Q为“mp3shouji”,拼写建议结果为{“mp3手机”,“mp3手机套”,...},将“mp3手机”***QR相似词,输出数组状态为[QR]={{mp3shouji,1.C},{mp3手机,1.0}}。
子步骤S207,对原始query进行同义词替换操作。
原始Q中的term或者term组合片段能够在同义词表中找到可替换的同义词,那么会将同义词替换掉该term片段,组合成新的query。如原始query为“黑胡椒牛***”,同义词表中“黑胡椒”的同义词为“黑椒”,那么将“黑椒牛***”***QR相似词,输出数组状态为[QR]={{黑胡椒牛***,1.0},{黑椒牛***,1.0}}。
子步骤S208,对原始query进行去单字操作。
遍历Q中的term,如果对于一个term Ti,它的词性不为品牌词或区划词,可以得到对Ti去掉一些字的新词Ni,进一步得到Ni和Ti作为query查询点击的offer的类目向量,计算Ti和Ni的点击类目向量的cosine相似度,若相似度高于0.8,则用Ni替换Ti生成新的query***到QR相似词中。例如Q为“杭州马鞍式花盆”,“马鞍式”被termweight分为一个term,“鞍式”和“马鞍式”差了一个字,类目点击向量的cosine相似度高于0.8,所以“杭州鞍式花盆”被***QR的相似词数组中。QR输出数组状态为[QR]={{杭州马鞍式花盆,1.0},{杭州鞍式花盆,1.0}}。
子步骤S209,对原始query进行去term操作。
对Q中的term进行一个或多个的去除,组合成新的query N,其中N包含的term数组为{t1,t2,...,tm},其中m<n,这里使用的打分公式为:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分。对Q中去词得到的候选词进行评分得到每个词的score,按分数降序排列,取分数较高的候选词***QR重写词数组中。
输出QR词的数组状态为:
[QR]={{Q,1.0},{Q′1,1.0},{Q′2,1.0}...,{Q′p,1.0},{Q″1,score1},{Q″2,score2}...,{Q″q,scoreq}
子步骤S210,QR服务器将经上述处理获得的QR词返回给前端。
在本实施例中,QR服务器接收到的query为原始搜索query Q,输出的结构可以形式化表示为一个二维数组:
[QR]=
{{Q,w0},{Q′1,w′1},{Q′2,w′2}...,{Q′p,w′p},{Q″1,w″1},{Q″2,w″2}...,{Q″q,w″q}}
其中,{Q,wo}表示原始query及其权重分;{Q′i,w′i}为QR相似词及其权重分,{Q″i,w″i}表示QR重写词,w0和w′i取值可以为1.0。
当然,所述生成原始关键词对应的扩展关键词的方式仅仅用作示例,本领域技术人员采用其它方式均是可行的,本申请对此无需加以限制。
步骤106、采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
在本申请的一种优选实施例中,所述步骤106具体可以包括如下子步骤:
子步骤S61、分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
子步骤S62、计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
s i = 0 r i = = 0 r i · w i r i > 0
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
步骤107、根据所述相关性得分从所述候选检索结果中提取最终检索结果。
在本申请的一种优选实施例中,所述步骤107具体可以包括如下子步骤:
子步骤S71、按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
子步骤S72、将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;
按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
应用本实施例,在具体实现中,前端将原始query和扩展的query,按照一定的格式拼接后,向搜索引擎发送检索请求。搜索引擎解析检索请求,按照一定的规则进行第一遍检索。然后,将匹配度较高的检索结果进行第二次排序,从而得到精确的排序结果,将其返回给前端。
为使本领域技术人员更好地理解本申请,以下通过一个具体实例说明所述检索的过程。
1)搜索引擎收到的前端的检索请求串可以是按照一定的格式拼接的。对于多query检索,该检索串中至少需要包括如下信息,原始query,扩展query,以及每个query的权重。搜索引擎对解析好的检索串按query的权重降序排序,并存储到二维数组[QW]={{q0,w0},{q1,w1},...{qk,wk}}。其中,qi为一个query;wi为qi对应的权重因子。且当i<j时,wi≤wj
2)搜索引擎用[QW]中的每个qi,去检索offer库,将全匹配(qi中的任一个词必须至少在offer的关键区域如标题,属性,地域,公司名中出现)qi的那部分offer的id和相关性得分按照相关性得分降序排序,并保存到二维数组[oi]={{idi0,si0},{idi1,si1}...{idim,sim}}。其中,id为offer的标识,s为offer的相关性得分。且当i<j时,0<si≤sj。相关性得分的计算策略满足如下两条原则:
i)保持原有的相关性计算策略不变。
ii)考虑query的权重。在通过第i)计算出来的相关性得分相当(实际应用时,按照相关性得分的大小进行划档,这里所谓的相当就是同属于一个档位)时,保证权重越大的query的匹配结果优先被召回。
基于上述原则,一种通用的相关性得分计算公式如下:
s i = 0 r i = = 0 r i · w i r i > 0
其中,wi是qi的权重。ri是qi与offer按照原有相关性计算策略计算出来的相关性得分,0≤ri≤1。si是qi与offer的相关性得分。
3)按照相关性得分的大小降序归并[oi],得到第一遍排序结果集,保存到一个三维数组中:
[Oi]={{q0,id00,s00},{q0,id01,s01},...,{q0,idm0,sm0},
{q1,id10,s10},{q0,id11,s11},...,{q1,idm1,sm1},
{qn,idn0,sn0},{qn,idn1,sn1},...,{qn,idmn,smn}}
需要注意的是,当一个offer同时能被多个query检索出来时,则[Oi]中只需要保存相关性得分最高的那个query的信息。这里,定义这个相关性最高的quey为命中query,认为offer是由该query检索出来的。
在实际应用时,由于相关性得分计算策略ii)的保证,也可以维护一份未命中offer的数据集合U。每次检索时,选择权重最大的q,去集合U中匹配,当offer被命中(相关性得分大于0)时,则从U中删除该offer。
4)根据实际需要,从[Oi]抽取前M条数据,送到排序模块进行精确的相关性得分计算。这里的计算方法与第2)步类似,唯一的差异在于2)中的策略i)的计算需要根据实际需要综合考虑多种因素。
当然,上述检索及排序的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种方式都是可行的,本申请对此无需加以限制。
在具体实现中,可以由前端解析搜索结果,按照一定的形式展现给用户。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图3,示出了本申请的一种基于关键词的检索***实施例的结构框图,具体可以包括如下模块:
原始关键词接收模块301,用于接收提交的原始关键词;
分词模块302,用于对所述原始关键词进行分词,获得分词条目term;
扩展关键词获取模块303,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
权重分配模块304,用于为各原始关键词和扩展关键词分配相应的权重;
检索模块305,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
检索结果获得模块306,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303可以包括如下子模块:
拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303还可以包括如下子模块:
同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303还可以包括如下子模块:
第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括相似关键词,所述扩展关键词获取模块303还可以包括如下子模块:
第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
在本申请的一种优选实施例中,所述扩展关键词可以包括重写关键词,所述扩展关键词获取模块303还可以包括如下子模块:
条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。
作为本申请实施例具体应用的一种示例,所述条目去除子模块进一步可以包括如下单元:
候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
分值计算单元,用于采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
在本申请的一种优选实施例中,所述检索模块305具体可以包括如下子模块:
候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
s i = 0 r i = = 0 r i · w i r i > 0
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
在本申请的一种优选实施例中,所述检索结果获得模块306可以包括如下子模块:
第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令***的制造品,该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种基于关键词的检索方法和一种基于关键词的检索***进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种基于关键词的检索方法,其特征在于,包括:
接收提交的原始关键词;
对所述原始关键词进行分词,获得分词条目term;
按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
为各原始关键词和扩展关键词分配相应的权重;
采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
根据所述相关性得分从所述候选检索结果中提取最终检索结果。
2.根据权利要求1所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
3.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取所述分词条目term和/或分词条目term组合的同义词;
采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
4.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
5.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
6.根据权利要求1或2所述的方法,其特征在于,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
去除符合预设条件的分词条目term,获得重写关键词。
7.根据权利要求6所述的方法,其特征在于,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:
去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
8.根据权利要求1至7中任一项权利要求所述的方法,其特征在于,所述采用原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分的步骤包括:
分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
s i = 0 r i = = 0 r i · w i r i > 0
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
9.根据权利要求8所述的方法,其特征在于,所述根据相关性得分从所述候选检索结果中提取最终检索结果的步骤包括:
按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算;
按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
10.一种基于关键词的检索***,其特征在于,包括:
原始关键词接收模块,用于接收提交的原始关键词;
分词模块,用于对所述原始关键词进行分词,获得分词条目term;
扩展关键词获取模块,用于按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
权重分配模块,用于为各原始关键词和扩展关键词分配相应的权重;
检索模块,用于采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
检索结果获得模块,用于根据所述相关性得分从所述候选检索结果中提取最终检索结果。
11.根据权利要求10所述的***,其特征在于,所述扩展关键词包括相似关键词,所述扩展关键词获取模块包括:
拼写纠错处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
拼写建议处理子模块,用于对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
12.根据权利要求11所述的***,其特征在于,所述扩展关键词获取模块包括:
同义词替换子模块,用于获取所述分词条目term和/或分词条目term组合的同义词;以及,采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
13.根据权利要求11所述的***,其特征在于,所述扩展关键词获取模块包括:
第一单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;以及,统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
14.根据权利要求11所述的***,其特征在于,所述扩展关键词获取模块包括:
第二单字去除子模块,用于获取分词条目term及其对应的词性信息,所述词性信息包括特征词性信息;获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;以及,若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
15.根据权利要求10或11所述的***,其特征在于,所述扩展关键词还包括重写关键词,所述扩展关键词获取模块包括:
条目去除子模块,用于去除符合预设条件的分词条目term,获得重写关键词。
16.根据权利要求15所述的***,其特征在于,所述条目去除子模块进一步包括:
候选词生成单元,用于去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
分值计算单元,用于采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
scoreDelTerm=1.0/(1+n-m)
scoreSavedTerms =
0.4 * scoreCoreCP + 0.3 * ( 1.0 + Σ i = 0 m tw i ) / ( 1.0 + Σ i = 0 n tw i ) + 0.3 * ( 1.0 + Σ i = 0 m w i ) / ( 1.0 + Σ i = 0 n w i )
scoreCoreCP = 1 CP _ CORE ∈ ( tag 1 , tag 2 , . . . tag n ) 0 else
其中,scoreDelterm为删除词的惩罚分数,scoreCoreCP为核心产品词的额外加分;
排序选取单元,用于按候选词的分值score降序排列,取排列在前的预设数量的候选词作为重写关键词。
17.根据权利要求10至16中任一项权利要求所述的***,其特征在于,所述检索模块包括:
候选信息获取子模块,用于分别采用各个原始关键词和扩展关键词检索预置信息库,获得匹配的候选检索结果;
相关性计算子模块,用于计算所述候选检索结果与相应原始关键词或扩展关键词的相关性得分;
其中,所述相关性得分si采用如下公式计算获得:
s i = 0 r i = = 0 r i · w i r i > 0
其中,qi为原始关键词或扩展关键词,wi为qi对应的权重,ri是按预置相关性计算规则计算的qi与候选检索结果的相关性得分,0≤ri≤1。
18.根据权利要求17所述的***,其特征在于,所述检索结果获得模块包括:
第一排序选取子模块,用于按所述候选检索结果的相关性得分对所述候选检索结果进行降序排序,并选取排序在前的预设数量的候选检索结果作为待选检索结果;
第二排序选取子模块,用于将所述待选检索结果与相应的原始关键词、扩展关键词进行相关性得分计算,并按所述待选检索结果的相关性得分选择排序在前的预设数量的待选检索结果作为最终检索结果。
CN2012101589067A 2012-05-21 2012-05-21 一种基于关键词的检索方法和*** Pending CN103425687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101589067A CN103425687A (zh) 2012-05-21 2012-05-21 一种基于关键词的检索方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101589067A CN103425687A (zh) 2012-05-21 2012-05-21 一种基于关键词的检索方法和***

Publications (1)

Publication Number Publication Date
CN103425687A true CN103425687A (zh) 2013-12-04

Family

ID=49650445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101589067A Pending CN103425687A (zh) 2012-05-21 2012-05-21 一种基于关键词的检索方法和***

Country Status (1)

Country Link
CN (1) CN103425687A (zh)

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631929A (zh) * 2013-12-09 2014-03-12 江苏金智教育信息技术有限公司 一种用于搜索的智能提示的方法、模块和***
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及***
WO2014101678A1 (en) * 2012-12-24 2014-07-03 Tencent Technology (Shenzhen) Company Limited Method,apparatus and system for obtaining associated word information
CN104199875A (zh) * 2014-08-20 2014-12-10 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN104361115A (zh) * 2014-12-01 2015-02-18 北京奇虎科技有限公司 一种基于共同点击的词条权重确定方法及装置
CN104376072A (zh) * 2014-11-12 2015-02-25 天脉聚源(北京)传媒科技有限公司 一种搜索方法及装置
CN104598507A (zh) * 2014-08-14 2015-05-06 腾讯科技(北京)有限公司 信息搜索方法及装置
CN104699696A (zh) * 2013-12-05 2015-06-10 深圳市腾讯计算机***有限公司 文件推荐方法和装置
CN104750673A (zh) * 2013-12-31 2015-07-01 ***通信集团公司 文本匹配过滤方法及装置
CN104965817A (zh) * 2015-04-29 2015-10-07 湖北光谷天下传媒股份有限公司 一种检测文章与关键词关联程度的方法
WO2015149690A1 (en) * 2014-04-01 2015-10-08 Tencent Technology (Shenzhen) Company Limited Media content recommendation method and apparatus
CN105069086A (zh) * 2015-07-31 2015-11-18 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及***
CN105550217A (zh) * 2015-12-03 2016-05-04 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN105589967A (zh) * 2015-12-23 2016-05-18 北京奇虎科技有限公司 多级相关新闻的查找方法及装置
CN105608123A (zh) * 2015-12-15 2016-05-25 合一网络技术(北京)有限公司 确定搜索词权重的方法和装置
CN105956168A (zh) * 2016-05-20 2016-09-21 北京市农林科学院 一种信息检索方法及信息检索装置
CN105956195A (zh) * 2016-06-17 2016-09-21 广州视源电子科技股份有限公司 简历搜索方法和装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及***
CN106095780A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN106095982A (zh) * 2016-06-17 2016-11-09 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106126589A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106484698A (zh) * 2015-08-25 2017-03-08 北京奇虎科技有限公司 一种搜索关键词的推送方法和装置
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN106547917A (zh) * 2016-11-29 2017-03-29 国网信息通信产业集团有限公司 一种信息处理方法及电子设备
CN106557476A (zh) * 2015-09-24 2017-04-05 北京奇虎科技有限公司 相关信息的获取方法及装置
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN106815265A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106815262A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106850572A (zh) * 2016-12-29 2017-06-13 网宿科技股份有限公司 目标资源的访问方法和装置
CN107229624A (zh) * 2016-03-23 2017-10-03 百度在线网络技术(北京)有限公司 一种页面提供方法和页面提供装置
CN107301241A (zh) * 2017-07-03 2017-10-27 北京奇艺世纪科技有限公司 一种视频搜索中的查询词纠错方法和装置
CN107329964A (zh) * 2017-04-19 2017-11-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN107491547A (zh) * 2017-08-28 2017-12-19 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107526797A (zh) * 2017-08-17 2017-12-29 广州市西美信息科技有限公司 物质搜索方法及装置
CN107885875A (zh) * 2017-11-28 2018-04-06 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN108108379A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 关键词拓词的方法及装置
CN108733800A (zh) * 2018-05-17 2018-11-02 努比亚技术有限公司 一种全局搜索方法、终端及计算机可读存储介质
WO2018201668A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 文本检索方法、电子装置、计算机可读存储介质及***
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109213925A (zh) * 2018-07-10 2019-01-15 深圳价值在线信息科技股份有限公司 法律文本搜索方法
CN109726272A (zh) * 2018-12-20 2019-05-07 杭州数梦工场科技有限公司 审计规则推荐方法及装置
CN109783690A (zh) * 2019-02-18 2019-05-21 北京奇艺世纪科技有限公司 一种视频查询方法及装置
CN109885753A (zh) * 2019-01-16 2019-06-14 苏宁易购集团股份有限公司 一种扩大商品搜索召回的方法及装置
CN110019738A (zh) * 2018-01-02 2019-07-16 ***通信有限公司研究院 一种搜索词的处理方法、装置及计算机可读存储介质
CN110309278A (zh) * 2019-05-23 2019-10-08 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110569273A (zh) * 2019-07-26 2019-12-13 南京邮电大学 一种基于相关性排序的专利检索***及方法
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110942773A (zh) * 2019-12-10 2020-03-31 上海雷盎云智能技术有限公司 语音控制智能家居设备的方法及装置
CN111191105A (zh) * 2019-10-31 2020-05-22 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、***、设备及存储介质
CN111400253A (zh) * 2020-03-17 2020-07-10 北京华通人商用信息有限公司 一种统计数据的查询方法、装置、电子设备及存储介质
CN111782770A (zh) * 2020-07-03 2020-10-16 国网电子商务有限公司 一种基于类目分析召回规则的搜索方法及***
CN111859013A (zh) * 2020-07-17 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法、装置、终端和存储介质
CN111859042A (zh) * 2020-07-30 2020-10-30 上海妙一生物科技有限公司 一种检索方法、装置及电子设备
CN112507181A (zh) * 2019-09-16 2021-03-16 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN113297489A (zh) * 2021-05-28 2021-08-24 平安科技(深圳)有限公司 康复辅具推荐方法、装置、计算机设备和存储介质
CN116756273A (zh) * 2023-07-04 2023-09-15 重庆亚利贝德科技咨询有限公司 一种海量委托文献实现特征标记筛选的工作***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034874A (ja) * 2005-07-29 2007-02-08 Nomura Research Institute Ltd 検索システム及び検索方法
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101246482A (zh) * 2007-02-16 2008-08-20 中国电信股份有限公司 基于结构化小文本的***搜索***和方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN102110174A (zh) * 2011-04-11 2011-06-29 重庆大学 一种基于关键词的web服务器扩展检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034874A (ja) * 2005-07-29 2007-02-08 Nomura Research Institute Ltd 検索システム及び検索方法
CN101246482A (zh) * 2007-02-16 2008-08-20 中国电信股份有限公司 基于结构化小文本的***搜索***和方法
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN102110174A (zh) * 2011-04-11 2011-06-29 重庆大学 一种基于关键词的web服务器扩展检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴越 等: "运用查询扩展技术的网民言论与舆论话题相关性研究", 《计算机应用研究》, vol. 28, no. 3, 15 March 2011 (2011-03-15), pages 1145 - 1151 *
张志强 等: "个性化的社会标签查询扩展技术研究", 《计算机科学与探索》, vol. 4, no. 9, 15 September 2010 (2010-09-15), pages 812 - 829 *

Cited By (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101678A1 (en) * 2012-12-24 2014-07-03 Tencent Technology (Shenzhen) Company Limited Method,apparatus and system for obtaining associated word information
CN104699696B (zh) * 2013-12-05 2018-12-28 深圳市腾讯计算机***有限公司 文件推荐方法和装置
CN104699696A (zh) * 2013-12-05 2015-06-10 深圳市腾讯计算机***有限公司 文件推荐方法和装置
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及***
CN103631929B (zh) * 2013-12-09 2016-08-31 江苏金智教育信息股份有限公司 一种用于搜索的智能提示的方法、模块和***
CN103631929A (zh) * 2013-12-09 2014-03-12 江苏金智教育信息技术有限公司 一种用于搜索的智能提示的方法、模块和***
CN104750673B (zh) * 2013-12-31 2018-02-23 ***通信集团公司 文本匹配过滤方法及装置
CN104750673A (zh) * 2013-12-31 2015-07-01 ***通信集团公司 文本匹配过滤方法及装置
US10248715B2 (en) 2014-04-01 2019-04-02 Tencent Technology (Shenzhen) Company Limited Media content recommendation method and apparatus
CN104978314B (zh) * 2014-04-01 2019-05-14 深圳市腾讯计算机***有限公司 媒体内容推荐方法及装置
WO2015149690A1 (en) * 2014-04-01 2015-10-08 Tencent Technology (Shenzhen) Company Limited Media content recommendation method and apparatus
CN104978314A (zh) * 2014-04-01 2015-10-14 深圳市腾讯计算机***有限公司 媒体内容推荐方法及装置
CN104598507B (zh) * 2014-08-14 2018-03-30 腾讯科技(北京)有限公司 信息搜索方法及装置
CN104598507A (zh) * 2014-08-14 2015-05-06 腾讯科技(北京)有限公司 信息搜索方法及装置
CN104199875A (zh) * 2014-08-20 2014-12-10 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN104199875B (zh) * 2014-08-20 2017-10-27 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN104376072A (zh) * 2014-11-12 2015-02-25 天脉聚源(北京)传媒科技有限公司 一种搜索方法及装置
CN104361115A (zh) * 2014-12-01 2015-02-18 北京奇虎科技有限公司 一种基于共同点击的词条权重确定方法及装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及***
CN105989040B (zh) * 2015-02-03 2021-02-09 创新先进技术有限公司 智能问答的方法、装置及***
CN104965817A (zh) * 2015-04-29 2015-10-07 湖北光谷天下传媒股份有限公司 一种检测文章与关键词关联程度的方法
CN105069086A (zh) * 2015-07-31 2015-11-18 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及***
CN106484698A (zh) * 2015-08-25 2017-03-08 北京奇虎科技有限公司 一种搜索关键词的推送方法和装置
CN106557476A (zh) * 2015-09-24 2017-04-05 北京奇虎科技有限公司 相关信息的获取方法及装置
CN106815265A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106815262B (zh) * 2015-12-01 2020-07-03 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106815262A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN105550217A (zh) * 2015-12-03 2016-05-04 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN105608123A (zh) * 2015-12-15 2016-05-25 合一网络技术(北京)有限公司 确定搜索词权重的方法和装置
CN105589967B (zh) * 2015-12-23 2019-08-09 北京奇虎科技有限公司 多级相关新闻的查找方法及装置
CN105589967A (zh) * 2015-12-23 2016-05-18 北京奇虎科技有限公司 多级相关新闻的查找方法及装置
CN107229624A (zh) * 2016-03-23 2017-10-03 百度在线网络技术(北京)有限公司 一种页面提供方法和页面提供装置
CN105956168A (zh) * 2016-05-20 2016-09-21 北京市农林科学院 一种信息检索方法及信息检索装置
CN105956168B (zh) * 2016-05-20 2019-05-28 北京市农林科学院 一种信息检索方法及信息检索装置
CN106095780A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN106095780B (zh) * 2016-05-26 2019-12-03 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN106095865B (zh) * 2016-06-03 2019-04-12 中细软移动互联科技有限公司 一种商标文本相似性评审方法
WO2017215242A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法及装置
WO2017215243A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法及装置
CN105956195A (zh) * 2016-06-17 2016-09-21 广州视源电子科技股份有限公司 简历搜索方法和装置
WO2017215245A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法和装置
CN106126589B (zh) * 2016-06-17 2018-05-22 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106126589A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106095982A (zh) * 2016-06-17 2016-11-09 广州视源电子科技股份有限公司 简历搜索方法及装置
CN105956195B (zh) * 2016-06-17 2019-03-29 广州视源电子科技股份有限公司 简历搜索方法和装置
CN106095982B (zh) * 2016-06-17 2019-03-29 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN108108379A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 关键词拓词的方法及装置
CN108108379B (zh) * 2016-11-25 2021-05-28 北京国双科技有限公司 关键词拓词的方法及装置
CN106547917A (zh) * 2016-11-29 2017-03-29 国网信息通信产业集团有限公司 一种信息处理方法及电子设备
CN106850572A (zh) * 2016-12-29 2017-06-13 网宿科技股份有限公司 目标资源的访问方法和装置
CN106850572B (zh) * 2016-12-29 2020-07-21 网宿科技股份有限公司 目标资源的访问方法和装置
CN107329964B (zh) * 2017-04-19 2021-01-05 创新先进技术有限公司 一种文本处理方法及装置
CN107329964A (zh) * 2017-04-19 2017-11-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
WO2018201668A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 文本检索方法、电子装置、计算机可读存储介质及***
CN107301241B (zh) * 2017-07-03 2020-06-05 北京奇艺世纪科技有限公司 一种视频搜索中的查询词纠错方法和装置
CN107301241A (zh) * 2017-07-03 2017-10-27 北京奇艺世纪科技有限公司 一种视频搜索中的查询词纠错方法和装置
CN107526797A (zh) * 2017-08-17 2017-12-29 广州市西美信息科技有限公司 物质搜索方法及装置
CN107491547A (zh) * 2017-08-28 2017-12-19 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107885875A (zh) * 2017-11-28 2018-04-06 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN110019738A (zh) * 2018-01-02 2019-07-16 ***通信有限公司研究院 一种搜索词的处理方法、装置及计算机可读存储介质
CN108733800A (zh) * 2018-05-17 2018-11-02 努比亚技术有限公司 一种全局搜索方法、终端及计算机可读存储介质
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109213925B (zh) * 2018-07-10 2021-08-31 深圳价值在线信息科技股份有限公司 法律文本搜索方法
CN109213925A (zh) * 2018-07-10 2019-01-15 深圳价值在线信息科技股份有限公司 法律文本搜索方法
CN109726272A (zh) * 2018-12-20 2019-05-07 杭州数梦工场科技有限公司 审计规则推荐方法及装置
CN109885753A (zh) * 2019-01-16 2019-06-14 苏宁易购集团股份有限公司 一种扩大商品搜索召回的方法及装置
CN109783690A (zh) * 2019-02-18 2019-05-21 北京奇艺世纪科技有限公司 一种视频查询方法及装置
CN110309278A (zh) * 2019-05-23 2019-10-08 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110309278B (zh) * 2019-05-23 2021-11-16 泰康保险集团股份有限公司 关键词检索方法、装置、介质及电子设备
CN110569273A (zh) * 2019-07-26 2019-12-13 南京邮电大学 一种基于相关性排序的专利检索***及方法
CN110532354B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110738042B (zh) * 2019-09-12 2024-01-05 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110738042A (zh) * 2019-09-12 2020-01-31 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN112507181B (zh) * 2019-09-16 2023-09-29 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN112507181A (zh) * 2019-09-16 2021-03-16 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN111191105B (zh) * 2019-10-31 2024-06-07 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、***、设备及存储介质
CN111191105A (zh) * 2019-10-31 2020-05-22 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、***、设备及存储介质
CN110942773A (zh) * 2019-12-10 2020-03-31 上海雷盎云智能技术有限公司 语音控制智能家居设备的方法及装置
CN111400253A (zh) * 2020-03-17 2020-07-10 北京华通人商用信息有限公司 一种统计数据的查询方法、装置、电子设备及存储介质
CN111400253B (zh) * 2020-03-17 2023-04-21 北京华通人商用信息有限公司 一种统计数据的查询方法、装置、电子设备及存储介质
CN111782770A (zh) * 2020-07-03 2020-10-16 国网电子商务有限公司 一种基于类目分析召回规则的搜索方法及***
CN111859013A (zh) * 2020-07-17 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法、装置、终端和存储介质
CN111859042A (zh) * 2020-07-30 2020-10-30 上海妙一生物科技有限公司 一种检索方法、装置及电子设备
CN113297489A (zh) * 2021-05-28 2021-08-24 平安科技(深圳)有限公司 康复辅具推荐方法、装置、计算机设备和存储介质
CN116756273A (zh) * 2023-07-04 2023-09-15 重庆亚利贝德科技咨询有限公司 一种海量委托文献实现特征标记筛选的工作***

Similar Documents

Publication Publication Date Title
CN103425687A (zh) 一种基于关键词的检索方法和***
CN104199965B (zh) 一种语义信息检索方法
CN102023989A (zh) 一种信息检索方法及其***
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CN103678576A (zh) 基于动态语义分析的全文检索***
US20150310073A1 (en) Finding patterns in a knowledge base to compose table answers
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN103425691A (zh) 一种搜索方法和***
CN102609512A (zh) 异构信息知识挖掘与可视化分析***及方法
US20150006528A1 (en) Hierarchical data structure of documents
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN107844493B (zh) 一种文件关联方法及***
CN116911312B (zh) 一种任务型对话***及其实现方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN103309869A (zh) 数据对象的展示关键词推荐方法及***
US8700624B1 (en) Collaborative search apps platform for web search
CN105468790A (zh) 一种评论信息检索方法和装置
CN101088082A (zh) 全文查询和搜索***及其使用方法
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN111026787A (zh) 网点检索方法、装置及***
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN102460440B (zh) 搜索方法和设备
CN109726292A (zh) 面向大规模多语种数据的文本分析方法和装置
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1188841

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20131204

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1188841

Country of ref document: HK