CN103425697A

CN103425697A - 一种搜索方法及***

Info

Publication number: CN103425697A
Application number: CN2012101642232A
Authority: CN
Inventors: 陆平; 吉锋; 胡磊; 刘丽霞; 程龚; 瞿裕忠
Original assignee: Nanjing University; ZTE Corp
Current assignee: Nanjing University; ZTE Corp
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2013-12-04
Anticipated expiration: 2032-05-24
Also published as: CN103425697B

Abstract

本发明提供一种搜索方法及***，该方法包括：接收到查询的关键词集合后，根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率；根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换；根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序；按照排序后的查询转换搜索对应的数据项。本发明可以实现完全自动化并具有较高的准确率；可实现转换排序的自动演化以不断提升准确率；可增强候选转换的多样性。

Description

一种搜索方法及***

技术领域

本发明涉及信息检索领域，尤其涉及一种关键词查询向结构化查询的转换方法。

背景技术

目前，Web(网页)搜索主要基于传统的信息检索技术实现，其本质是将被搜索的网页内容表示为一组关键词，将用户输入的查询也视作一组关键词，继而返回那些内容中的关键词能够覆盖全部查询关键词的网页。该技术路线在实施效果上的主要问题是精度较低。例如，对于用户输入的查询“南京鱼”，其内在需求可能是搜索“位于南京市的、提供与鱼有关菜肴的餐厅”；然而，基于上述技术的搜索***返回的网页可能是一家“位于上海市南京西路的、店名中包含鱼的餐厅”的主页。造成这一问题的原因包括两方面：数据本身的表示方式不利于计算机理解其含义；简单的字面匹配难以正确理解查询的含义。

针对数据表示上的缺陷，包括关系型数据、RDF(Resource Description Framework，资源描述框架)数据等在内的其它数据表示方式均具有较强的结构化特征——数据分为不同的字段，较之文本更能将信息表示为计算机易理解的形式，并且均已得到广泛应用。然而，面向这些数据的查询方式也相应较为复杂，需要掌握SQL(Structured Query Language，结构化查询语言)、SPARQL(Simple Protocol and RDF Query Language，简单协议和RDF查询语言)等结构化查询语言，普通Web用户难以具备相关技能；相反地，用户已经习惯了目前Web搜索采用的关键词查询。因此，在用户能够输入的关键词查询和***能够处理的结构化查询之间存在鸿沟。

为此，要求搜索***能够将关键词查询转换为分字段的结构化查询(以下简称分字段查询)，但现有技术手段的自动化程度较低。例如，现有技术中，提供了一套可配制的框架，人工基于该框架来制定关键词到数据字段的映射规则，以及制定对查询的分析策略配置文件，在此基础上实现查询转换的自动化。明显地，该方法预先需要大量的人工参与，而人工制定的规则和策略是极为有限的，使得基于该方法实现的搜索***的召回率难免较低，更难以在开放领域的Web上广泛应用。

发明内容

本发明要解决的技术问题是提供一种搜索方法及装置，以实现完全自动化并具有较高的准确率的搜索数据。

为了解决上述技术问题，本发明提供了一种搜索方法，包括：

接收到查询的关键词集合后，根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率；

根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换；

根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序；

按照排序后的查询转换搜索对应的数据项。

进一步地，上述方法还具有下面特点：所述根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序，包括：

对于每条所述可行的查询转换，对所有关键词映射到对应数据字段的条件概率进行求和；

按照求出的和的大小顺序对对应的查询转换进行排序。

统计用户做出的所有历史选择中的所述每个关键词映射到所有数据字段的次数；

计算每个关键词被历史选中的映射到每条所述查询转换中对应的数据字段的次数，与该关键词被历史选中的映射到所有数据字段的次数的总和的比例；

对于每条所述查询转换，将所有关键词映射到对应数据字段的条件概率与每个关键词对应的所述比例乘于一权重系数的积进行求和；

按照求出的和的大小顺序对对应的查询转换进行排序。

进一步地，上述方法还具有下面特点：

所述权重系数α为log(M+1)，其中，M是历史上用户做出选择的总次数。

进一步地，上述方法还具有下面特点：

所述按照求出的和的大小顺序对对应的查询转换进行排序之后，还包括：

步骤1、从所述排序中取出排序第一的查询转换，放入一重排序列；

步骤2、分别计算所述排序中剩余的每个查询转换与所述重排序列中的每个查询转换的相似度；

步骤3、若所述重排序列中仅有一个查询转换，则从所述排序中取出相似度最小的查询转换，若相似度最小的查询转换有多个则取在所述排序中排在最前面的查询转换；若所述重排序列中有多个查询转换，则取趋同度最小的查询转换，若趋同度最小的查询转换有多个，则取在所述排序中排在最前面的查询转换，所述趋同度为所述排序中的查询转换与所述重排序列中的所有查询转换的相似度的最大值；

步骤4、将取出的查询转换放入所述重排序列中，排在所述重排序列中的查询转换之后，并从所述排序中删除所述取出的查询转换；

重复执行步骤2-4，直到所述排序中的查询转换都被删除；

所述按照排序后的查询转换搜索对应的数据项为，按照所述重排序列中排序的查询转换搜索对应的数据项。

进一步地，上述方法还具有下面特点：所述按照排序后的查询转换搜索对应的数据项之后，还包括：

若接收到用户选择一个或多个所述数据项，则根据用户选择的数据项，记录每个关键词映射到对应数据字段的次数。

为了解决上述问题，本发明还提供了一种搜索***，包括：

第一模块，用于接收到查询的关键词集合后，根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率；

第二模块，用于根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换；

第三模块，用于根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序；

第四模块，用于按照排序后的查询转换搜索对应的数据项。

进一步地，上述***还具有下面特点：所述第三模块包括，

第一单元，用于每条所述可行的查询转换，对所有关键词映射到对应数据字段的条件概率进行求和；

第二单元，用于按照求出的和的大小顺序对对应的查询转换进行排序。

进一步地，上述***还具有下面特点：所述第三模块包括，

第三单元，用于统计用户做出的所有历史选择中的所述每个关键词映射到所有数据字段的次数；

第四单元，用于计算每个关键词被历史选中的映射到每条所述查询转换中对应的数据字段的次数，与该关键词被历史选中的映射到所有数据字段的次数的总和的比例；

第五单元，用于对于每条所述查询转换，将所有关键词映射到对应数据字段的条件概率与每个关键词对应的所述比例乘于一权重系数的积进行求和；

第六单元，用于按照求出的和的大小顺序对对应的查询转换进行排序。

进一步地，上述***还具有下面特点：所述第三模块还包括，

第七单元，用于根据以下规则所述第二单元或所述第六单元的排序进行重新排序：步骤1、从所述排序中取出排序第一的查询转换，放入一重排序列；步骤2、分别计算所述排序中剩余的每个查询转换与所述重排序列中的每个查询转换的相似度；步骤3、若所述重排序列中仅有一个查询转换，则从所述排序中取出相似度最小的查询转换，若相似度最小的查询转换有多个则取在所述排序中排在最前面的查询转换；若所述重排序列中有多个查询转换，则取趋同度最小的查询转换，若趋同度最小的查询转换有多个则取在所述排序中排在最前面的查询转换，所述趋同度为所述排序中每个查询转换与所述重排序列中的每个查询转换的相似度的最大值；步骤4、将取出的查询转换放入所述重排序列中，排在所述重排序列中的查询转换之后，并从所述排序中删除所述取出的查询转换；重复执行步骤2-4，直到所述排序中的查询转换都被删除；

所述第四模块，具体用于按照所述重排序列中排序的查询转换搜索对应的数据项。

进一步地，上述***还具有下面特点：所述***还包括：

第五模块，用于若接收到用户选择一个或多个所述数据项，则根据用户选择的数据项，记录每个关键词映射到对应数据字段的次数。

综上，本发明提供一种搜索方法及***，可实现完全自动化并具有较高的准确率；可实现转换排序的自动演化以不断提升准确率；可增强候选转换的多样性。

附图说明

图1为本发明实施例的搜索方法的流程图。

图2是本发明一个具体实施例的分字段数据的示意图。

图3是本发明一个具体实施例的P(f|w)和P(w|f)的计算结果的示意图。

图4是本发明一个具体实施例的所有可能查询转换的示意图。

图5和图6是本发明一个具体实施例的H(f|w)的记录的示意图。

图7是本发明一个具体实施例的H’(t(w)|w)的计算结果的示意图。

图8为本发明实施例的搜索***的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例一

图1为本发明实施例的搜索方法的流程图，如图1所示，本实施例的方法结合关键词查询和数据的统计特征自动生成所有可行的转换并对其排序，采纳排序最高的转换。包括以下步骤：

步骤101：接收到查询的关键词集合后，根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率；

例如，图2为预存的所有数据项，对于查询的关键词集合(记作W，例如W＝{南京，鱼})和数据字段集合(记作F，F＝{名称，地址，菜肴})，计算W中的每个关键词(记作w)映射到F中的每个数据字段(记作f)的条件概率(记作P(f|w))，计算结果如图3所示。

其中，根据条件概率的定义，P(f|w)＝P(w|f)P(f)/P(w)，其中P(w)与f无关，因此可以忽略，将P(f|w)简化为P(w|f)P(f)。

P(w|f)即w在f的取值中出现的概率，为此，只需统计数据中f的取值中包含w的那些取值的百分比，例如，计算结果如图3所示。

P(f)即用户在查询中提及f的取值的先验概率，一种优选法是由领域专家预先人工设定，一种自动化方法是将其设为1。

步骤102步：根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换，形成查询转换集合(记作T)；

图2为预存的所有数据项，其中，每个查询转换均是一个从W到F的函数，如图4所示，例如T＝{t3，t6}。

W中的每个关键词可以映射到F中的任何一个字段，因此所有可能转换的集合(记作T)，共|F|^|w|个元素，其中，|F|是F中的字段个数，|W|是W中的关键词个数，合起来表示|F|的|W|次方，如图4所示，例如，T＝{t1，t2，t3，t4，t5，t6，t7，t8，t9}。

对于T中的每个转换(记作t)，如果其对应的分字段查询在数据上运行的结果为空，即t不可行，就将t从T中删除，例如，t1、t2、t4、t5、t7、t8、t9均被从T中删除。

步骤103：根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序；

在一优选实施例中，可以对于每条所述可行的数据项，对所有关键词映射到对应数据字段的条件概率进行求和；按照求出的和的大小对对应的数据项进行排序，例如，

利用下式对T中的每个转换(记作t)进行打分，并据此自高向低排序，采纳排序最高的转换，如：

∑_w∈WP(t(w)w)，表示对每条数据项中包含的所有关键词对应的条件概率进行求和。

例如，t3的打分为1.0，t6的打分为1.5；并据此自高向低排序，采纳排序最高的转换，例如t6。

步骤104、按照排序后的查询转换搜索对应的数据项。

实施例二

当然，上述方法中排序最高的转换未必是最准确的，为此，搜索***可将排序最高的若干转换呈现给用户，由用户从中选择最准确的一个。同时，***可以自动记录用户的选择，将其作为反馈来改进排序，即一种基于用户反馈的转换重排序方法。包括以下步骤：

步骤201：统计用户做出的所有历史选择中的每个关键词映射到所有数据字段的次数；

具体地，记录用户做出的所有历史选择中的每个查询关键词(记作w)映射到对应数据字段(记作f)的次数(记作H(f|w))，初始值为0，例如，记录如图5所示。

对于用户提交的关键词查询(记作W)，当其选择一个到数据字段(记作F)的转换(记作t)之后，***自动对于W中的每个关键词(记作w)，将H(t(w)|w)加1。

例如，t为前述的t3，***自动对于W中的每个关键词(记作w)，将H(t(w)|w)加1，例如：

H(名称南京)和H(菜肴|鱼)均加1，即H(名称|南京)＝3、H(菜肴|鱼)＝7。图5的记录变成如图6所示。

步骤202：计算每个关键词被历史选中的映射到每条所述数据项中对应的数据字段的次数，与该关键词被历史选中的映射到所有数据字段的次数的总和的比例；

步骤203：对于每条所述查询转换，将所有关键词映射到对应数据字段的条件概率与每个关键词对应的所述比例乘于一权重系数的积进行求和；

例如，可以将上述步骤103中的打分式子∑_w∈WP(t(w)|w)改为∑_w∈WP(t(w)|w)+αH’(t(w)|w)，其中，α是用来调节用户反馈在打分中所占权重的系数。

在一优选实施例中，α为log(M+1)，其中M是历史上用户做出选择的总次数，例如，M＝10、α＝log(10+1)＝1.04，即用户反馈越多越可用；H’(t(w)|w)设为H(t(w)|w)/∑_f∈FH(f|w)。

∑_f∈FH(f|w)表示各关键词映射到所述数据字段的次数的总和。

例如，计算结果如图7所示，继而前述，

t₃的打分为(0.5+1.04×0.3)+(0.5+1.04×0.7)＝2.04、

t₆的打分为(1.0+1.04×0.6)+(0.5+1.04×0.7)＝2.85

步骤204：按照求出的和的大小对对应的查询转换进行排序；

步骤205：按照排序后的查询转换搜索对应的数据项。

实施例三

当然，实施例一和实施例二方法中排序最高的若干转换未必具有明显的差异，为此，可通过计算转换之间的相似度对实施例一或者实施例二中的排序重新排序，以增加排序最高的若干转换的多样性，包括以下步骤：

步骤301：建立重排序列L，初始化为空序列。

步骤302：将上述方法排序后的转换序列(记作L’)中的第一个转换删除，并设为L的第一个转换。

例如，L’＝<t6，t3>，t6被删除后，L’＝<t3>、L＝<t6>。

步骤303：判断L’是否为空序列，如果L’不为空序列，执行步骤304；否则，执行步骤306。

步骤304：分别计算所述排序L’中剩余的每个查询转换与所述重排序列L中的每个查询转换的相似度；

若所述重排序列L中仅有一个查询转换，则从所述排序L’中取出相似度最小的查询转换，若相似度最小的查询转换有多个则取在所述排序L’中排在最前面的查询转换；若所述重排序列L中有多个查询转换，则取趋同度最小的查询转换，若趋同度最小的查询转换有多个，则取在所述排序L’中排在最前面的查询转换。

其中，所述趋同度为一查询转换与所述重排序列L中的所有查询转换的相似度的最大值。

其中，两个查询转换(记作ti和tj)之间的相似度设为|{w∈W|t_i(w)＝t_j(w)}|/|W|，其中，W为查询关键词集合，例如，t₃和t₆之间的相似度为|{鱼}|/||南京，鱼}|＝0.5。

|W|为用户输入的关键词的总个数；

|{w∈W|t_i(w)＝t_j(w)}|为两条查询转换中映射到相同数据字段的关键词的个数。

步骤305：将取出的查询转换放入所述重排序列L中，排在所述重排序列L中的查询转换之后，并从所述排序L’中删除所述取出的查询转换；转向步骤303；

例如，将t从L’中删除，并添加到L的末尾，L’＝<>、L＝<t6，t3>。

步骤306：按照查询转换在L中的顺序排序，并按照所述重排序列L中排序的查询转换搜索对应的数据项。

图8为本发明实施例的搜索***的示意图，如图8所示，本实施例的***包括：

第四模块，用于按照排序后的查询转换搜索对应的数据项。

其中，在一优选实施例中，所述第三模块可以包括，

在另一优选实施例中，所述第三模块可以包括，

在另一优选实施例中，所述第三模块还包括，

其中，所述搜索***还可以包括：

采用本发明所述的基于数据统计的转换构建与排序方法，达到了从关键词查询向结构化查询全自动转换的效果，并具有较高的准确率；采用本发明所述的基于用户反馈的转换重排序方法，进一步达到了转换排序自动演化的效果，准确率不断自动提高；采用本发明所述的基于相似度的转换重排序方法，进一步达到了增加候选转换多样性的效果。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种搜索方法，包括：

按照排序后的查询转换搜索对应的数据项。

2.如权利要求1所述的方法，其特征在于：所述根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序，包括：

按照求出的和的大小顺序对对应的查询转换进行排序。

3.如权利要求1所述的方法，其特征在于：所述根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则，对所述可行的查询转换进行排序，包括：

按照求出的和的大小顺序对对应的查询转换进行排序。

4.如权利要求3所述的方法，其特征在于：

5.如权利要求2-4任一项所述的方法，其特征在于：所述按照求出的和的大小顺序对对应的查询转换进行排序之后，还包括：

重复执行步骤2-4，直到所述排序中的查询转换都被删除；

6.如权利要求1-4任一项所述的方法，其特征在于：所述按照排序后的查询转换搜索对应的数据项之后，还包括：

7.一种搜索***，包括：

第四模块，用于按照排序后的查询转换搜索对应的数据项。

8.如权利要求7所述的***，其特征在于：所述第三模块包括，

9.如权利要求7所述的***，其特征在于：所述第三模块包括，

10.如权利要求8或9所述的***，其特征在于：所述第三模块还包括，

11.如权利要求7-10任一项所述的***，其特征在于：所述***还包括：