CN102855252A - 一种基于需求的数据检索方法和装置 - Google Patents

一种基于需求的数据检索方法和装置 Download PDF

Info

Publication number
CN102855252A
CN102855252A CN2011101817228A CN201110181722A CN102855252A CN 102855252 A CN102855252 A CN 102855252A CN 2011101817228 A CN2011101817228 A CN 2011101817228A CN 201110181722 A CN201110181722 A CN 201110181722A CN 102855252 A CN102855252 A CN 102855252A
Authority
CN
China
Prior art keywords
user query
requirement description
semantic vector
data resource
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101817228A
Other languages
English (en)
Other versions
CN102855252B (zh
Inventor
施少杰
刘建柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110181722.8A priority Critical patent/CN102855252B/zh
Publication of CN102855252A publication Critical patent/CN102855252A/zh
Application granted granted Critical
Publication of CN102855252B publication Critical patent/CN102855252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于需求的数据检索方法和装置,预先分别建立并存储各数据资源对应的需求描述关键词的语义向量;选择用户搜索请求(query)与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;在选择的数据资源中进行针对该用户query的检索。相对于现有技术而言,本发明能够召回较准确反映用户需求的搜索结果,避免了多次检索,节约检索资源。

Description

一种基于需求的数据检索方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种基于需求的数据检索方法和装置。
【背景技术】
用户在利用搜索引擎获取信息时,在很多情况下需求是比较明确的,搜索引擎应该针对用户输入的搜索词(query)到需求对应的数据资源中搜索与该query匹配的信息并返回给用户。其中,在确定需求对应的数据资源时,将query与数据资源对应的需求描述关键词(key)进行匹配,但数据资源对应的需求描述key往往是单一的,这就需要用户query与需求描述key的表述方式一致才能找到对应的数据资源,但用户表达同一需求时使用的用户query是多样化的,这就可能造成搜索时采用的数据资源不准确,进而返回的搜索结果不准确。
例如,对于邮箱登入资源来说,存在“163邮箱”需求描述key,用户只能输入与需求描述key完全一致的用户query才能召回准确的搜索结果,如果输入的用户query为“免费网易邮箱”、“163邮箱登陆”等query可能就无法召回准确的搜索结果。
上述问题在结构化数据搜索中尤为突出,结构化数据资源通常为暗网资源,需要外部资源提供。外部资源在提供结构化数据资源时提供单一的需求描述key。例如,提供天气信息的结构化数据资源的需求描述key为“天气预报”,如果输入的用户query为“最近天气怎么样”时,可能就无法映射到提供天气信息的结构化数据资源上,从而无法召回准确反映用户需求的搜索结果,用户只能多次尝试输入query,从而造成了资源浪费。
【发明内容】
有鉴于此,本发明提供了一种基于需求的数据检索方法和装置,以便于召回较准确反映用户需求的搜索结果,节约资源。
具体技术方案如下:
一种基于需求的数据检索方法,预先分别建立并存储各数据资源对应的需求描述关键词的语义向量;所述方法包括:
A、选择用户搜索请求query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;
B、在所述步骤A选择的数据资源中进行针对所述用户query的检索。
具体地,建立所述各数据资源对应的需求描述关键词的语义向量包括以下方式中的至少一种:
从所述数据资源的描述信息中提取指定标签对应的内容构成所述数据资源的需求描述关键词的语义向量;
利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量;以及,
利用所述数据资源对应的需求描述关键词的同义词构成所述数据资源的需求描述关键词的语义向量。
其中,利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量具体包括:
S1、利用所述数据资源对应的需求描述关键词进行搜索;
S2、获取排在前N1个搜索结果的标题,所述N1为预设的正整数;
S3、将步骤S2获取的标题构成所述数据资源的需求描述关键词的语义向量,或者,将步骤S2获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成所述数据资源的需求描述关键词的语义向量。
所述步骤A具体包括:
A11、接收到用户query后,分别计算所述用户query与各需求描述关键词的语义向量的相似度;
A12、选择相似度满足预设第一相似度要求的需求描述关键词所对应的数据资源。
或者,所述步骤A具体包括:
A21、接收到用户query后,查找预先建立的用户query与需求描述关键词的映射关系,其中所述映射关系是在计算搜索日志中各用户query与各需求描述关键词的语义向量的相似度后,选择相似度满足预设第二相似度要求的需求描述关键词和用户query建立的;
A22、选择所述用户query映射到的需求描述关键词所对应的数据资源。
其中,计算用户query与需求描述关键词的语义向量的相似度具体包括:
C1、确定用户query在语义向量中命中的各项内容,分别计算所述命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与各需求描述关键词的语义向量之间的相似度;
C2、将所述步骤C1的计算结果进行合并处理,得到用户query与需求描述关键词的语义向量的相似度。
具体地,所述用户query的语义向量的建立包括以下方式中的至少一种:
利用用户query的搜索结果标题构成该用户query的语义向量;以及,
利用用户query的同义词构成该用户query的语义向量。
优选地,在建立各数据资源对应的需求描述关键词的语义向量之前还包括:对各数据资源对应的需求描述关键词进行预处理;
在所述步骤A之前还包括:对所述用户query进行预处理;
所述预处理至少包括以下处理之一:转换成预设的大写或小写形式,以及,转换成预设的编码形式。
一种基于需求的数据检索装置,该装置包括:
语义向量维护单元,用于分别建立并存储各数据资源对应的需求描述关键词的语义向量;
请求接收单元,用于接收用户搜索请求query;
需求识别单元,用于选择所述用户query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;
检索处理单元,用于在所述需求识别单元选择的数据资源中进行针对所述用户query的检索。
具体地,所述语义向量维护单元包括:第一向量维护子单元、第二向量维护子单元和第三向量维护子单元中的至少一个,以及向量存储子单元;
第一向量维护子单元,用于从所述数据资源的描述信息中提取指定标签对应的内容构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;
第二向量维护子单元,用于利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;
第三向量维护子单元,用于利用所述数据资源对应的需求描述关键词的同义词构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;
所述向量存储子单元,用于存储接收到的需求描述关键词的语义向量。
其中,所述第二向量维护子单元获取所述数据资源对应的需求描述关键词对应的搜索结果中排在前N1个搜索结果的标题,将获取的标题构成所述数据资源的需求描述关键词的语义向量,或者,将获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成所述数据资源的需求描述关键词的语义向量,所述N1为预设的正整数。
所述需求识别单元具体包括:相似度计算子单元和第一资源选择子单元;
所述请求接收单元将接收到的用户query提供给所述相似度计算子单元;
所述相似度计算子单元,用于计算接收到的用户query与所述语义向量维护单元维护的各需求描述关键词的语义向量的相似度;
所述第一资源选择子单元,用于根据所述相似度计算子单元的计算结果,选择相似度满足预设第一相似度要求的需求描述关键词所对应的数据资源。
或者,所述需求识别单元具体包括:日志选取子单元、相似度计算子单元、映射关系维护子单元和第二资源选择子单元;
所述日志选取子单元,用于获取搜索日志中的用户query,并提供给所述相似度计算子单元;
所述相似度计算子单元,用于计算接收到的用户query与所述语义向量维护单元维护的各需求描述关键词的语义向量的相似度;
所述映射关系维护子单元,用于根据所述相似度计算子单元的计算结果,选择相似度满足预设第二相似度要求的需求描述关键词和用户query建立映射关系;
所述第二资源选择子单元,用于选择所述请求接收单元接收到的用户query映射到的需求描述关键词所对应的数据资源。
其中,所述相似度计算子单元具体包括:
相似度计算模块,用于确定用户query在语义向量中命中的各项内容,分别计算所述命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与各需求描述关键词的语义向量之间的相似度;
结果合并模块,用于将所述相似度计算模块的计算结果进行合并处理,得到用户query与需求描述关键词的语义向量的相似度。
更进一步地,所述相似度计算子单元还包括:query向量建立模块,用于利用用户query的搜索结果标题构成该用户query的语义向量,和/或,利用用户query的同义词构成该用户query的语义向量。
优选地,该装置还包括:
预处理单元,用于对各数据资源对应的需求描述关键词进行预处理后提供给所述语义向量维护单元,对所述请求接收单元接收到的用户query进行预处理后提供给所述需求识别单元;
其中所述预处理至少包括以下处理之一:转换成预设的大写或小写形式,以及,转换成预设的编码形式。
由以上技术方案可以看出,本发明通过预先建立各数据资源对应的需求描述key的语义向量,再计算用户query与各语义向量的相似度的方式,能够确定出用户query的需求所对应的数据资源来进行针对该用户query的检索,相比较现有技术而言,能够召回较准确反映用户需求的搜索结果,使得用户不必多次输入用户query尽量与数据资源对应的需求描述key一致来满足搜索需求,避免了多次检索,节约检索资源。
【附图说明】
图1为本发明实施例提供的主要方法流程图;
图2为本发明实施例二提供的选择数据资源的方法流程图;
图3为本发明实施例三提供的选择数据资源的方法流程图;
图4为本发明实施例四提供的一种装置结构图;
图5为本发明实施例四提供的另一种装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的主要方法可以如图1所示,包括以下步骤:
步骤101:预先分别建立并存储各数据资源对应的需求描述key的语义向量。
步骤102:选择用户query与各需求描述key的语义向量的相似度满足预设相似度要求的需求描述key所对应的数据资源。
步骤103:在步骤102选择的数据资源中进行针对该用户query的检索。
首先,通过实施例一对建立各需求描述key的语义向量的过程进行详细描述。
实施例一、
在建立各数据资源对应的需求描述key的语义向量时,首先需要对需求描述key进行预处理。其中预处理可以包括以下处理中的至少一种:转换成预设的大写或小写形式,以及转换成预设的编码形式。
对需求描述key进行预处理是为了使用户query与需求描述key的语义向量在形式上保持一致,以方便后续计算用户query与需求描述key的语义向量之间的相似度。可以预先约定用户query与需求描述key都统一采用大写形式或者统一采用小写形式,也可以预先约定用户query与需求描述key采用统一的编码形式,例如统一采用汉字国际扩展码(GBK)。
需求描述key的语义向量构建可以采用但不限于以下方式:
第一种方式:从数据资源的描述信息中提取指定标签对应的内容构成该数据资源的需求描述key的语义向量。
每个数据资源都会存在对应的描述信息,通常体现为可扩展标记语言(XML)数据,其中包含了这个数据资源所有的关键词以及关键词对应的描述信息。该描述信息与数据资源的需求描述key在语义上存在关联,因此可以利用该描述信息对需求描述key进行扩展构成语义向量。这些描述信息预先都具有一些标签(tag),可以预先指定一些tag,提取指定tag对应的内容构成该数据资源的需求描述key的语义向量。
其中指定tag可以包括但不限于:内容(content)、标题(title)、小标题(smalltitle)、按钮文字(buttontext)、表格标题(formtitle)、描述(description)、邮箱结尾(emailtail)或者链接内容(linktext)。
第二种方式:利用数据资源对应的需求描述key对应的搜索结果标题(title)构成该数据资源的需求描述key的语义向量。
可以利用需求描述key进行搜索,通常搜索结果是按照与需求描述key的相关度进行排序的,在此可以获取排在前N1个搜索结果的title,其中N1为预设的正整数。这些获取的title与需求描述key在语义上存在关联,可以从这些title中提取内容对需求描述key进行扩展构成需求描述key的语义向量。
对于获取的title而言,可以直接将这些获取的title用于构成需求描述key的语义向量。例如,从需求描述key的搜索结果中取排在前20个的搜索结果title对需求描述key进行扩展构成需求描述key的语义向量。
也可以对获取的title分别进行分词处理,提取分词处理后得到的词语中词频-倒文档率(TF-IDF)满足预设要求的词语构成需求描述key的语义向量。TF-IDF用以评估一个词语对于一个语料库中其中一份文件的重要程度,在本方式中就体现为分词后得到的词语对于大规模语料库中上述获取的title的重要程度。其重要程度与词语在获取的title中出现的频率成正比,与该词语在大规模语料库中出现的频率成反比。其中TF-IDF的统计方式是已有技术,在此不再赘述。
在从分词处理后得到的词语中提取词语构成需求描述key的语义向量时,可以提取TF-IDF达到设定阈值的词语,也可以提取TF-IDF排在前N2个的词语,N2为预设的正整数。
第三种方式:利用数据资源对应的需求描述key的同义词构成该数据资源的需求描述key的语义向量。
在该方式中可以通过查询同义词词典,获取需求描述key的同义词,利用获取的同义词对需求描述key进行扩展构成需求描述key的语义向量。
如果同时采用上述三种方式,则需求描述key的语义向量中可以包含:该需求描述key、描述信息中指定tag对应的内容、需求描述key对应的搜索结果title或者搜索结果title中的词语、需求描述key的同义词。
在选择针对用户query进行检索所使用的数据资源时,可以采用两种方式,下面分别通过实施例二和实施例三分别进行介绍。
实施例二、
图2为本发明实施例二提供的选择数据资源的方法流程图,如图2所示,该方法可以包括以下步骤:
步骤201:接收用户query。
该用户query为搜索引擎接收到的用户输入的query。
步骤202:计算用户query与各数据资源的需求描述key的语义向量的相似度。
本步骤在计算相似度时,可以针对各需求描述key的语义向量分别执行以下步骤S1和S2:
S1:将用户query与需求描述key的语义向量进行匹配,确定用户query在该语义向量中命中的各项内容,然后分别计算命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与需求描述key的语义向量之间的相似度。
如果需求描述key的语义向量包含该需求描述key本身,则可以计算用户query命中该需求描述key的长度与该用户query的总长度的比值。
其中,如果需求描述key的语义向量构建采用了实施例一中的第一种方式,则上述命中的各项内容中用户query的命中长度与用户query的长度的比值就是:用户query中的词语在数据资源的描述信息中指定tag对应的内容中所命中的长度与用户query的总长度的比值。本实施例中所述的命中指的是与用户query中的词语相同。
其中优选地,可以进一步根据语义向量中上述指定tag对应的内容的重要程度为上述指定tag对应的内容分配不同的权重值,然后利用权重值将计算的上述比值进行线性加权,从而得到该部分的相似度。
如果需求描述key的语义向量构建采用了实施例一中的第二种方式,则上述命中的各项内容中用户query的命中长度与用户query的长度的比值就是:用户query中的词语在语义向量包含的搜索结果title或搜索结果title的词语中的命中长度与用户query的总长度的比值。
如果需求描述key的语义向量构建采用了实施例一中的第三种方式,则上述命中的各项内容中用户query的命中长度与用户query的长度的比值就是:用户query中的词语在语义向量包含的需求描述key的同义词中命中的长度与用户query的总长度的比值。
在进行上述比值的计算之前首先对用户query进行分词处理,该部分分词处理技术可以采用已有技术,不再赘述。
在该步骤中,也可以计算用户query的语义向量与各需求描述key的语义向量之间的相似度,相似度计算可以采用但不限于余弦相似度计算方式。其中用户query的语义向量的建立可以采用但不限于以下方式中的至少一种:
第一种方式:利用用户query的搜索结果标题构成用户query的语义向量。
可以利用用户query进行搜索(即进行常规页面搜索),通常搜索结果是按照与用户query的相关度进行排序的,在此可以获取排在前N3个搜索结果的title,其中N3为预设的正整数。这些获取的title与用户query在语义上存在关联,可以从这些title中提取内容对用户query进行扩展构成用户query的语义向量。
对于获取的title而言,可以直接将获取的title用于构成用户query的语义向量。例如,从用户query的搜索结果中取排在前20个的搜索结果title构成用户query的语义向量。
也可以对获取的title分别进行分词处理,提取分词处理后得到的词语中TF-IDF满足预设要求的词语构成用户query的语义向量。其中预设要求可以为TF_IDF达到设定阈值或者TF-IDF排在前N4个,N4为预设的正整数。
第二种方式:利用用户query的同义词构成用户query的语义向量。
在该方式中可以通过查询同义词辞典,获取用户query的同义词,利用获取的同义词对用户query进行扩展构成用户query的语义向量。
另外,在建立用户query的语义向量之前,也可以对用户query进行预处理,该预处理的方式与对需求描述key的预处理方式相同,转换成预设的大写或小写形式,和/或,转换成预设的编码形式。
S2:将步骤S1的计算结果进行合并处理,得到用户query与需求描述key的语义向量的相似度。
在此可以采用线性加权的方式,预先设置各计算结果的权值,将上述各计算结果进行线性加权后的结果作为用户query与需求描述key的语义向量的相似度。
步骤203:选择相似度满足预设相似度要求的需求描述key所对应的数据资源。
在本步骤中,可以选择相似度排序在前N个的需求描述key所对应的数据资源,其中N为预设的正整数;也可以选择相似度达到预设的相似度阈值的需求描述key对应的数据资源。
步骤204:在步骤203选择的数据资源中进行针对用户query的检索。
实施例三、
图3为本发明实施例三提供的选择数据资源的方法流程图,如图3所示,该方法可以包括以下步骤:
步骤301:接收用户query。
该用户query为搜索引擎接收到的用户输入的query。
步骤302:查找预先建立的用户query与需求描述key的映射关系,其中所述映射关系是在计算搜索日志中各用户query与各需求描述key的语义向量的相似度后,选择相似度满足预设相似度要求的需求描述key和用户query所建立的。
在本实施例中,采用预先建立用户query与需求描述key的映射关系的方式,在接收到用户query后,直接查找该映射关系,确定用户query所映射到的需求描述key。
在建立用户query与需求描述key的映射关系时,可以预先从搜索日志中获取各用户query,分别针对各用户query计算其与需求描述key的语义向量之间的相似度,选择相似度满足预设相似度要求的用户query和需求描述key建立映射关系。例如,选择相似度达到预设相似度阈值的用户query和需求描述key建立映射关系。
其中用户query与需求描述key的语义向量之间的相似度计算方式参见实施例二的步骤202中的描述。
步骤303:选择接收到的用户query映射到的需求描述key所对应的数据资源。
步骤304:在步骤303选择的数据资源中进行针对该用户query的检索。
实施例二是接收到用户query后采用实时计算其与需求描述key的语义向量之间相似度的方式确定搜索所使用的数据资源,实施例三是预先在线下计算搜索日志中各用户query与需求描述key的语义向量之间的相似度,从而建立各用户query与需求描述key之间的映射关系,接收到用户query后,利用映射关系确定搜索使用的数据资源。
举一个具体的实例,假设某“网易”、“邮箱”、“email”、“免费邮箱”、“网易邮箱”的需求描述key为“163邮箱”。
从该邮箱登陆资源的描述信息中提取出:“163网易免费邮”、“网易免费邮箱”、“注册邮箱”、“163.com”。
利用需求描述key进行搜索后,从搜索结果title中提取出:“网易免费邮箱-中国第一大电子邮件服务商”、“网易163”、“网易VIP邮箱-最安全稳定的收费邮箱”。
提取出需求描述key的同义词为:“网易”、“邮箱”、“email”、“免费邮箱”、“网易邮箱”。
利用上述提取出的内容构成需求描述key的语义向量,该语义向量包括:“163邮箱”、“163网易免费邮”、“网易免费邮箱”、“注册邮箱”、“163.com”、“网易免费邮箱-中国第一大电子邮件服务商”、“网易163”、“网易VIP邮箱-最安全稳定的收费邮箱”、“网易”、“邮箱”、“email”、“免费邮箱”、“网易邮箱”。
以实施例三所示的方式为例,从搜索日志中假设获取到的用户query包含“免费163邮箱”、“163邮箱登陆”等。
分别计算各用户query与上述语义向量的相似度,在计算相似度时,以用户query“免费163邮箱”为例,分别计算该用户query命中的各项内容中用户query的命中长度与用户query的长度的比值。例如,对于语义向量中的“网易免费邮箱”,其命中长度为“免费”和“邮箱”两个词语的长度,确定该命中长度与用户query“免费163邮箱”的长度的比值。按照此方式依次对语义向量中的内容进行比值计算,最终按照预设的权值对各计算结果进行线性加权,得到该用户query与上述语义向量之间的相似度。
假设计算出“免费163邮箱”、“163邮箱登陆”与上述语义向量之间的相似度都满足预设的相似度要求,则建立“免费163邮箱”与需求描述key“163邮箱”之间的映射关系,以及“163邮箱登陆”与需求描述key“163邮箱”之间的映射关系。
如果接收到用户query为“免费163邮箱”,则查找预先建立的映射关系,确定该用户query映射到需求描述key“163邮箱”,则在该“163邮箱”所对应的邮箱登陆资源进行针对用户query“免费163邮箱”的检索。
以上是对本发明所提供的方法进行的描述,下面通过实施例四对本发明所提供的装置进行详细描述。
实施例四、
图4为本发明实施例四提供的装置结构图,该装置可以设置在搜索引擎所在的服务器端。如图4所示,该装置可以包括:语义向量维护单元400、请求接收单元410、需求识别单元420和检索处理单元430。
语义向量维护单元400分别建立并存储各数据资源对应的需求描述key的语义向量。
请求接收单元410接收用户query。
需求识别单元420选择用户query与各需求描述key的语义向量的相似度满足预设相似度要求的需求描述key所对应的数据资源。
检索处理单元430在需求识别单元420选择的数据资源中进行针对用户query的检索。
其中,语义向量维护单元400可以具体包括:第一向量维护子单元401、第二向量维护子单元402和第三向量维护子单元403中的至少一个(图4和图5中以同时包含三个子单元为例),以及向量存储子单元404。
第一向量维护子单元401从数据资源的描述信息中提取指定tag对应的内容构成数据资源的需求描述key的语义向量,并提供给向量存储子单元404。
每个数据资源都会存在对应的描述信息,通常体现为XML数据,其中包含了这个数据资源所有的关键词以及关键词对应的描述信息。该描述信息与数据资源的需求描述key在语义上存在关联,因此可以利用该描述信息对需求描述key进行扩展构成语义向量。这些描述信息预先都具有一些tag,可以预先指定一些tag,提取指定tag对应的内容构成该数据资源的需求描述key的语义向量。
其中指定tag可以包括但不限于:content、title、smalltitle、buttontext、formtitle、de scription、emailtail或者linktext。
第二向量维护子单元402利用数据资源对应的需求描述key对应的搜索结果标题构成数据资源的需求描述key的语义向量,并提供给向量存储子单元404。
可以利用需求描述key进行搜索,通常搜索结果是按照与需求描述key的相关度进行排序的,在此可以获取排在前N1个搜索结果的title,其中N1为预设的正整数。这些获取的title与需求描述key在语义上存在关联,可以从这些title中提取内容对需求描述key进行扩展构成需求描述key的语义向量。
第二向量维护子单元402可以获取数据资源对应的需求描述key对应的搜索结果中排在前N1个搜索结果的标题,将获取的标题构成数据资源的需求描述key的语义向量,或者,将获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成数据资源的需求描述key的语义向量,N1为预设的正整数。
第三向量维护子单元403利用数据资源对应的需求描述key的同义词构成数据资源的需求描述key的语义向量,并提供给向量存储子单元404。
具体可以通过查询同义词词典,获取需求描述key的同义词,利用获取的同义词对需求描述key进行扩展构成需求描述key的语义向量。
向量存储子单元404将接收到的需求描述key的语义向量进行存储,如果语义向量维护单元400同时包含第一向量维护子单元401、第二向量维护子单元402和第三向量维护子单元403,则向量存储子单元404存储的需求描述key的语义向量可以包含:该需求描述key、描述信息中指定tag对应的内容、需求描述key对应的搜索结果title或者搜索结果title中的词语、需求描述key的同义词。
分别对应于上述实施例二和实施例三所示的方式,需求识别单元420可以采用两种结构:
第一种结构如图4中所示,需求识别单元420可以具体包括:相似度计算子单元421和第一资源选择子单元422。
这种结构下,请求接收单元410将接收到的用户query提供给相似度计算子单元421。
相似度计算子单元421计算接收到的用户query与语义向量维护单元400维护的各需求描述key的语义向量的相似度。
第一资源选择子单元422根据相似度计算子单元421的计算结果,选择相似度满足预设第一相似度要求的需求描述key所对应的数据资源。
第二种结构如图5所示,需求识别单元420具体包括:日志选取子单元521、相似度计算子单元522、映射关系维护子单元523和第二资源选择子单元524。
日志选取子单元521获取搜索日志中的用户query,并提供给相似度计算子单元522。
相似度计算子单元522计算接收到的用户query与语义向量维护单元400维护的各需求描述key的语义向量的相似度。
映射关系维护子单元523根据相似度计算子单元522的计算结果,选择相似度满足预设第二相似度要求的需求描述key和用户query建立映射关系。
第二资源选择子单元524选择请求接收单元410接收到的用户query映射到的需求描述key所对应的数据资源。
其中,图4中的相似度计算子单元421和图5中的相似度计算子单元522可以具体包括:相似度计算模块和结果合并模块,图4和图5中未示出。
其中,相似度计算模块确定用户query在语义向量中命中的各项内容,分别计算命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与各需求描述key的语义向量之间的相似度。
结果合并模块将相似度计算模块的计算结果进行合并处理,得到用户query与需求描述key的语义向量的相似度。
另外,相似度计算子单元还可以包括:query向量建立模块,用于利用用户query的搜索结果标题构成该用户query的语义向量,和/或,利用用户query的同义词构成该用户query的语义向量。
如图4和图5中所示,为了方便用户query和需求描述key的语义向量的相似度计算,最好将用户query和需求描述key转换成统一的形式,鉴于此,该装置还可以包括:预处理单元440。
预处理单元440对各数据资源对应的需求描述key进行预处理后提供给语义向量维护单元400,对请求接收单元410接收到的用户query进行预处理后提供给需求识别单元420。
其中预处理可以至少包括以下处理之一:转换成预设的大写或小写形式,以及,转换成预设的编码形式。
上述方法或装置可以用在结构化数据搜索中,通过上述方法或装置为用户query选择满足用户需求的结构化数据资源。后续获取到检索结果后,可以将结构化数据资源获取的搜索结果返回给用户,也可以融合普通页面搜索的搜索结果。在展现搜索结果时,可以采用任意的展现方式,优选地,可以将结构化数据资源获取的搜索结果排在前面进行展现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种基于需求的数据检索方法,其特征在于,预先分别建立并存储各数据资源对应的需求描述关键词的语义向量;所述方法包括:
A、选择用户搜索请求query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;
B、在所述步骤A选择的数据资源中进行针对所述用户query的检索。
2.根据权利要求1所述的方法,其特征在于,建立所述各数据资源对应的需求描述关键词的语义向量包括以下方式中的至少一种:
从所述数据资源的描述信息中提取指定标签对应的内容构成所述数据资源的需求描述关键词的语义向量;
利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量;以及,
利用所述数据资源对应的需求描述关键词的同义词构成所述数据资源的需求描述关键词的语义向量。
3.根据权利要求2所述的方法,其特征在于,利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量具体包括:
S1、利用所述数据资源对应的需求描述关键词进行搜索;
S2、获取排在前N1个搜索结果的标题,所述N1为预设的正整数;
S3、将步骤S2获取的标题构成所述数据资源的需求描述关键词的语义向量,或者,将步骤S2获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成所述数据资源的需求描述关键词的语义向量。
4.根据权利要求1所述的方法,其特征在于,所述步骤A具体包括:
A11、接收到用户query后,分别计算所述用户query与各需求描述关键词的语义向量的相似度;
A12、选择相似度满足预设第一相似度要求的需求描述关键词所对应的数据资源。
5.根据权利要求1所述的方法,其特征在于,所述步骤A具体包括:
A21、接收到用户query后,查找预先建立的用户query与需求描述关键词的映射关系,其中所述映射关系是在计算搜索日志中各用户query与各需求描述关键词的语义向量的相似度后,选择相似度满足预设第二相似度要求的需求描述关键词和用户query建立的;
A22、选择所述用户query映射到的需求描述关键词所对应的数据资源。
6.根据权利要求4或5所述的方法,其特征在于,计算用户query与需求描述关键词的语义向量的相似度具体包括:
C1、确定用户query在语义向量中命中的各项内容,分别计算所述命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与各需求描述关键词的语义向量之间的相似度;
C2、将所述步骤C1的计算结果进行合并处理,得到用户query与需求描述关键词的语义向量的相似度。
7.根据权利要求6所述的方法,其特征在于,所述用户query的语义向量的建立包括以下方式中的至少一种:
利用用户query的搜索结果标题构成该用户query的语义向量;以及,
利用用户query的同义词构成该用户query的语义向量。
8.根据权利要求1所述的方法,其特征在于,在建立各数据资源对应的需求描述关键词的语义向量之前还包括:对各数据资源对应的需求描述关键词进行预处理;
在所述步骤A之前还包括:对所述用户query进行预处理;
所述预处理至少包括以下处理之一:转换成预设的大写或小写形式,以及,转换成预设的编码形式。
9.一种基于需求的数据检索装置,其特征在于,该装置包括:
语义向量维护单元,用于分别建立并存储各数据资源对应的需求描述关键词的语义向量;
请求接收单元,用于接收用户搜索请求query;
需求识别单元,用于选择所述用户query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;
检索处理单元,用于在所述需求识别单元选择的数据资源中进行针对所述用户query的检索。
10.根据权利要求9所述的装置,其特征在于,所述语义向量维护单元包括:第一向量维护子单元、第二向量维护子单元和第三向量维护子单元中的至少一个,以及向量存储子单元;
第一向量维护子单元,用于从所述数据资源的描述信息中提取指定标签对应的内容构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;
第二向量维护子单元,用于利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;
第三向量维护子单元,用于利用所述数据资源对应的需求描述关键词的同义词构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;
所述向量存储子单元,用于存储接收到的需求描述关键词的语义向量。
11.根据权利要求10所述的装置,其特征在于,所述第二向量维护子单元获取所述数据资源对应的需求描述关键词对应的搜索结果中排在前N1个搜索结果的标题,将获取的标题构成所述数据资源的需求描述关键词的语义向量,或者,将获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成所述数据资源的需求描述关键词的语义向量,所述N1为预设的正整数。
12.根据权利要求9所述的装置,其特征在于,所述需求识别单元具体包括:相似度计算子单元和第一资源选择子单元;
所述请求接收单元将接收到的用户query提供给所述相似度计算子单元;
所述相似度计算子单元,用于计算接收到的用户query与所述语义向量维护单元维护的各需求描述关键词的语义向量的相似度;
所述第一资源选择子单元,用于根据所述相似度计算子单元的计算结果,选择相似度满足预设第一相似度要求的需求描述关键词所对应的数据资源。
13.根据权利要求9所述的装置,其特征在于,所述需求识别单元具体包括:日志选取子单元、相似度计算子单元、映射关系维护子单元和第二资源选择子单元;
所述日志选取子单元,用于获取搜索日志中的用户query,并提供给所述相似度计算子单元;
所述相似度计算子单元,用于计算接收到的用户query与所述语义向量维护单元维护的各需求描述关键词的语义向量的相似度;
所述映射关系维护子单元,用于根据所述相似度计算子单元的计算结果,选择相似度满足预设第二相似度要求的需求描述关键词和用户query建立映射关系;
所述第二资源选择子单元,用于选择所述请求接收单元接收到的用户query映射到的需求描述关键词所对应的数据资源。
14.根据权利要求12或13所述的装置,其特征在于,所述相似度计算子单元具体包括:
相似度计算模块,用于确定用户query在语义向量中命中的各项内容,分别计算所述命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与各需求描述关键词的语义向量之间的相似度;
结果合并模块,用于将所述相似度计算模块的计算结果进行合并处理,得到用户query与需求描述关键词的语义向量的相似度。
15.根据权利要求14所述的装置,其特征在于,所述相似度计算子单元还包括:query向量建立模块,用于利用用户query的搜索结果标题构成该用户query的语义向量,和/或,利用用户query的同义词构成该用户query的语义向量。
16.根据权利要求9所述的装置,其特征在于,该装置还包括:
预处理单元,用于对各数据资源对应的需求描述关键词进行预处理后提供给所述语义向量维护单元,对所述请求接收单元接收到的用户query进行预处理后提供给所述需求识别单元;
其中所述预处理至少包括以下处理之一:转换成预设的大写或小写形式,以及,转换成预设的编码形式。
CN201110181722.8A 2011-06-30 2011-06-30 一种基于需求的数据检索方法和装置 Active CN102855252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110181722.8A CN102855252B (zh) 2011-06-30 2011-06-30 一种基于需求的数据检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110181722.8A CN102855252B (zh) 2011-06-30 2011-06-30 一种基于需求的数据检索方法和装置

Publications (2)

Publication Number Publication Date
CN102855252A true CN102855252A (zh) 2013-01-02
CN102855252B CN102855252B (zh) 2015-09-09

Family

ID=47401845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110181722.8A Active CN102855252B (zh) 2011-06-30 2011-06-30 一种基于需求的数据检索方法和装置

Country Status (1)

Country Link
CN (1) CN102855252B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021346A (zh) * 2016-05-09 2016-10-12 北京百度网讯科技有限公司 检索处理方法及装置
CN106570046A (zh) * 2016-03-02 2017-04-19 合网络技术(北京)有限公司 一种基于用户操作行为推荐相关搜索数据的方法及装置
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
WO2017121355A1 (zh) * 2016-01-12 2017-07-20 腾讯科技(深圳)有限公司 搜索处理方法以及装置
CN107885875A (zh) * 2017-11-28 2018-04-06 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及***
CN108804409A (zh) * 2017-04-28 2018-11-13 西安科技大市场创新云服务股份有限公司 一种语义检索方法和装置
CN109669978A (zh) * 2018-12-13 2019-04-23 中国联合网络通信集团有限公司 数据资源服务生成方法、平台和***
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
WO2020052059A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于生成信息的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和***
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN101685448A (zh) * 2008-09-28 2010-03-31 国际商业机器公司 在用户的查询操作与搜索结果之间建立关联的方法和设备
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和***
CN101685448A (zh) * 2008-09-28 2010-03-31 国际商业机器公司 在用户的查询操作与搜索结果之间建立关联的方法和设备
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815252A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN106815252B (zh) * 2015-12-01 2020-08-25 阿里巴巴集团控股有限公司 一种搜索方法和设备
WO2017121355A1 (zh) * 2016-01-12 2017-07-20 腾讯科技(深圳)有限公司 搜索处理方法以及装置
US10713302B2 (en) 2016-01-12 2020-07-14 Tencent Technology (Shenzhen) Company Limited Search processing method and device
CN106570046A (zh) * 2016-03-02 2017-04-19 合网络技术(北京)有限公司 一种基于用户操作行为推荐相关搜索数据的方法及装置
CN106021346B (zh) * 2016-05-09 2020-01-07 北京百度网讯科技有限公司 检索处理方法及装置
CN106021346A (zh) * 2016-05-09 2016-10-12 北京百度网讯科技有限公司 检索处理方法及装置
CN108804409A (zh) * 2017-04-28 2018-11-13 西安科技大市场创新云服务股份有限公司 一种语义检索方法和装置
CN107885875A (zh) * 2017-11-28 2018-04-06 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及***
CN108776901B (zh) * 2018-04-27 2021-01-15 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及***
WO2020052059A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109669978A (zh) * 2018-12-13 2019-04-23 中国联合网络通信集团有限公司 数据资源服务生成方法、平台和***
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
WO2021043088A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 文件查询方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN102855252B (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN102855252B (zh) 一种基于需求的数据检索方法和装置
US9864808B2 (en) Knowledge-based entity detection and disambiguation
CN110069610B (zh) 基于Solr的检索方法、装置、设备和存储介质
US20200192948A1 (en) Efficient forward ranking in a search engine
US8051080B2 (en) Contextual ranking of keywords using click data
US8713024B2 (en) Efficient forward ranking in a search engine
US20120166477A1 (en) Universal Interface for Retrieval of Information in a Computer System
CN103902652A (zh) 自动问答***
WO2008106667A1 (en) Searching heterogeneous interrelated entities
US20110184946A1 (en) Applying synonyms to unify text search with faceted browsing classification
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
CN102725759A (zh) 用于搜索结果的语义目录
CN107844493B (zh) 一种文件关联方法及***
KR20100041482A (ko) 콘텐츠 검색 장치 및 방법
CN106776567A (zh) 一种互联网大数据分析提取方法及***
US8527518B2 (en) Inverted indexes with multiple language support
CN102486784B (zh) 信息请求方法和信息提供方法
Elshater et al. godiscovery: Web service discovery made efficient
CN108804409A (zh) 一种语义检索方法和装置
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
CN101599069A (zh) 电子文档的搜索方法及***
CN111831922B (zh) 一种基于互联网信息的推荐***与方法
CN100496091C (zh) 在有线电视单向机顶盒中进行全文检索的***
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms
Gupta et al. Document summarisation based on sentence ranking using vector space model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant