WO2016101812A1

WO2016101812A1 - 用于对搜索数据进行处理的方法及设备

Info

Publication number: WO2016101812A1
Application number: PCT/CN2015/097481
Authority: WO
Inventors: 谢朋峻; 周鑫; 郎君
Original assignee: 阿里巴巴集团控股有限公司; 谢朋峻; 周鑫; 郎君
Priority date: 2014-12-23
Filing date: 2015-12-15
Publication date: 2016-06-30
Also published as: CN105786936A; US11347758B2; US10635678B2; JP2018504686A; US20180011857A1; JP6966158B2; JP2020170538A; US20200226142A1; JP6728178B2

Abstract

一种用于对搜索数据进行处理的方法及设备。针对包含知识需求的历史查询序列，挖掘针对历史查询序列的实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率，解决目前包含知识需求的历史查询序列的搜索结果差的问题。

Description

用于对搜索数据进行处理的方法及设备

技术领域

本申请涉及通信及计算机领域，尤其涉及一种用于对搜索数据进行处理的方法及设备。

背景技术

随着电子商务应用的日益普及，网络购物慢慢融入普通用户的衣食住行中。搜索作为很多用户习惯性的购物入口，大家会在搜索框输入各种感兴趣的查询序列(query)。在用户输入query后，购物网站会提供相关的导购信息帮助用户明确用户意图。常用的搜索结果页导购方式有两种形态：

1.导航

导航区通过筛选的方式让用户一步一步明确需要购买的商品，是帮助用户确定购物意图的一种有效方式。例如，公开号为CN 103218719 A、发明名称为“一种电子商务网站导航方法及***”的专利申请中，通过汲取类目点击导航和类目商品数量导航的精华，综合考虑query关键词对应的点击、购买等历史因素，以及查询词相关的商品数量信息等，提供与搜索意图最相关的类目或属性，最终以导航的形式帮助用户明确用户意图。

2.相关搜索

相关搜索是在用户搜索某query后，提供跟当前query相似或者相关的query供用户跳转。公开号CN 103279486 A、发明名称为“一种提供相关搜索的方法和装置”的专利申请中，通过将与当前query共现于同一会话的其他query构成当前query的候选推荐项；再根据相似度对候选推荐项进行聚类，就得到当前query的候选推荐簇。在线推荐的时候，结合输入query的语义得到推荐的query簇，再根据各个簇内候选项的搜索次数，最终将query推荐给用户。

对普通的明确型query，上述现有的导航和相关搜索方案都能提供良好的导购信息给用户。但是对于包含知识需求的query，现有的导航和相关搜索方案都不能很好的满足用户的意图。

1.导航的缺点

当前的导航(如商品导航)本质是通过query关键字召回结果(如商品)，再根据用户对召回结果如商品集合的CPV(类目、属性、属性值)的点击反馈来计算不同的CPV的重要度，根据重要度推荐给用户。这种方式的缺陷是它完全依赖召回结果(如商品)的集合和结果(如商品)自身的类目属性体系。当包含知识需求的query较长导致召回结果(如商品)较少或者结果(如商品)类目属性较宽泛时，导航区提供的信息导购性就很差。例如，如图1所示，包含知识需求的query为送给男朋友的礼物，召回商品类目属性较宽泛，再如图2所示，包含知识需求的query为杭州特产有哪些，召回商品较少，导航区提供的信息导购性都不理想。

2.相关搜索的缺点

相关搜索的推荐候选项来自于用户输入的query，正因为此，它受制于用户认知。如图3所示，当搜索包含知识需求的query时，相关搜索呈现的都是类似的query，不能满足用户获取答案的需求。

发明内容

本申请的目的是提供一种用于对搜索数据进行处理的方法及设备，针对包含知识需求的历史查询序列，挖掘针对历史查询序列的实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率解决目前包含知识需求的历史查询序列的搜索结果差的问题，如目前知识性购物query导购信息较差的问题。

有鉴于此，本申请提供一种用于对搜索数据进行处理的方法，包括：

获取每个包含知识需求的历史查询序列所对应的搜索结果信息；

从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息；

根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息。

进一步的，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息包括：

根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式；

根据每个历史查询序列所对应的抽取候选实体信息的方式从该历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息。

进一步的，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息中，

将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。

进一步的，获取每个包含知识需求的历史查询序列所对应的搜索结果信息中，

获取到的每个历史查询序列所对应的搜索结果信息包括该历史查询序列所对应的回答的文本内容、网站、支持数和反对数。

进一步的，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息中，

从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。

进一步的，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息包括：

从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。

进一步的，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息之后还包括：

计算每个历史查询序列所对应的候选实体信息的分数。

进一步的，根据如下公式计算每个历史查询序列所对应的候选实体信息的分数：

式中，entity1表示某个实体词，m表示网站的总数，i表示m个网站中的某个网站，n表示某个网站i的回答的总数，j表示n个回答中的某个回答，E_ij表示entity1是否在网站i的答案j中出现，出现则为1，不出现则为0，Weight1_i表示网站i的权重，Weight2_j表示回答j的权重，Weight2_j的值由回答j的支持数和反对数确定，Weight2_j为大于等于1的正整数，Weight2_j的默认值为1。

进一步的，从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息中，

根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。

进一步的，根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息之后还包括：

根据每个候选实体信息的分数得到筛选后的对应实体信息的分数。

进一步的，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息之后还包括：

根据包含知识需求的当前查询序列查找对应的历史查询序列；

获取查找到的历史查询序列所对应的实体信息。

进一步的，获取查找到的历史查询序列所对应的实体信息之后还包括：

获取查找到的历史查询序列所对应的实体信息的分数，根据每个实体信息的分数高低对实体信息进行排序。

申请另一方面还提供一种用于对搜索数据进行处理的设备，包括：

第一装置，用于获取每个包含知识需求的历史查询序列所对应的搜索结果信息；

第二装置，用于从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息；

第三装置，用于根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息。

进一步的，所述第二装置包括：

第一单元，用于根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式；

第二单元，用于根据每个历史查询序列所对应的抽取候选实体信息的方式从该历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息。

进一步的，所述第三装置，用于将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。

进一步的，所述第一装置获取到的每个历史查询序列所对应的搜索结果信息包括该历史查询序列所对应的回答的文本内容、网站、支持数和反对数。

进一步的，所述第二装置从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息

进一步的，所述第三装置从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。

进一步的，还包括第四装置，用于计算每个历史查询序列所对应的候选实体信息的分数。

进一步的，所述第四装置根据如下公式计算每个历史查询序列所对应的候选实体信息的分数：

进一步的，所述第三装置，用于根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。

进一步的，所述第三装置还用于根据每个候选实体信息的分数得到筛选后的对应实体信息的分数。

进一步的，还包括：

第五装置，用于根据包含知识需求的当前查询序列查找对应的历史查询序列；

第六装置，用于获取查找到的历史查询序列所对应的实体信息。

进一步的，所述第六装置，还用于获取查找到的历史查询序列所对应的实体信息的分数，根据每个实体信息的分数高低对实体信息进行排序。

与现有技术相比，本申请可以针对包含知识需求的历史查询序列，挖掘针对历史查询序列的实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率，解决目前包含知识需求的历史查询序列的搜索结果差的问题。

进一步的，本申请从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息，以删去不准确或不够准确的候选实体信息，筛选得到准确的候选实体信息作为实体信息，从而得到更优化、更准确的实体信息以提供给用户。

进一步的，本申请通过计算每个历史查询序列所对应的候选实体信息的分数，以供后续根据打分从候选实体信息中进一步筛选实体信息，或者对筛选后的实体信息进行排序后提供给用户，从而向用户提供更准确的推荐结果

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出现有的导航方式的一种搜索结果图；

图2示出现有的导航方式的另一种搜索结果图；

图3示出现有的相关搜索方式的一种搜索结果图；

图4示出根据本申请一个方面的用于对搜索数据进行处理的方法流程图；

图5示出本申请的一种搜索结果图；

图6示出本申请的另一种搜索结果图；

图7示出本申请的一优选的实施例用于对搜索数据进行处理的方法流程图；

图8示出本申请的另一优选的实施例用于对搜索数据进行处理的方法流程图；

图9示出本申请的另一个方面用于对搜索数据进行处理的设备示意图；

图10示出本申请的一优选的实施例用于对搜索数据进行处理的设备示意图；

图11示出本申请的另一个优选的实施例用于对搜索数据进行处理的设备示意图；

图12示出本申请的再一个优选的实施例用于对搜索数据进行处理的设备示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图4所示，本申请提供一种用于对搜索数据进行处理的方法，包括：

步骤S1，获取每个包含知识需求的历史查询序列所对应的搜索结果信息；

步骤S2，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息；

步骤S3，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息。具体的，本申请可以针对包含知识需求的历史查询序列，挖掘针对历史查询序列的实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率解决目前包含知识需求的历史查询序列的搜索结果差的问题。本申请可采用信息抽取的方式，先识别包含知识需求的历史 query，再对与包含知识需求的历史query相关的外网社区数据进行搜索结果信息抽取，从搜索结果信息中挖掘出想要的实体信息作为答案沉淀到一知识库。从而后续用户可在线上根据包含知识需求的当前查询序列查找对应的历史查询序列时，就可以基于所述知识库推荐查找到的历史查询序列所对应的实体信息给用户。

在此，所述实体信息可为客观存在并可相互区别的事物的信息，实体信息可以是具体的人、事、物的信息，也可以是抽象的概念或联系的信息。在一购物应用场景中，包含知识需求的历史查询序列可以是针对知识性购物query，如图5中的“送给父母的实用礼物”，或如图6中的“送给男朋友的礼物”，利用本申请的方法可以从网站的社区数据中挖掘实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率相应得到的实体信息为有针对性的推荐商品，可以解决目前知识性购物query导购信息较差的问题。在另一应用场景中，用户可依次得到N级的实体信息，其中，N为正整数，后一级的实体信息依赖前一级的实体信息得到，例如，前N-1级相应得到的实体信息可分别为一新的包含知识需求的历史查询序列，这样根据前一级的历史查询序列得到下一级的实体信息，除了第N级的实体信息，下一级的实体信息也是一历史查询序列，再以该下一级的历史查询序列得到再下一级的实体信息，依此类推，直到将第N-1级的实体信息(此时为一历史查询序列)得到第N级的某一具体的实体信息如具休商品信息，前N-1级相应得到的实体信息可以多级推荐标签的形式展示给用户，当用户点击某一级的推荐标签时，可以跳转到下一级的推荐标签直到得到最后第N级的具体的实体信息如具体商品信息，通过这种逐级跳转的方式，可以引导用户得到精确想要的实体信息。本领域技术人员应能理解上述应用场景的描述仅为举例，其他现有的或今后可能出现的应用场景如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

如图7所示，本申请一优选的实施例中，图4的步骤S2包括：

步骤S21，根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式；

步骤S22，根据每个历史查询序列所对应的抽取候选实体信息的方式从该历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息。

在此，步骤S21之前，可对所有历史查询序列进行分析总结，提炼出不同包含知识需求的历史查询序列的类型，然后步骤S21中，根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式。例如，可将包含知识需求的历史查询序列的类型分为如下几种：

(1)地名+“特产”：表示希望获取某地的特产知识；

(2)“送”+称呼+“礼物”：表示希望获取送礼的导购知识；

(3)品类词+“品牌”：表示希望获取某品类的畅销品牌；

(4)品类词+“配件”：表示希望获取某品类的其它配件。

对于地名+“特产”类型的历史查询序列，确定该类历史查询序列所对应的抽取候选实体信息的方式为抽取特产的名称作为实体信息；对于“送”+称呼+“礼物”类型的历史查询序列，确定该类历史查询序列所对应的抽取候选实体信息的方式为抽取礼物的名称作为实体信息；对于品类词+“品牌”类型的历史查询序列，确定该类历史查询序列所对应的抽取候选实体信息的方式为抽取品牌的名称作为实体信息；对于品类词+“配件”类型的历史查询序列，确定该类历史查询序列所对应的抽取候选实体信息的方式为抽取配件的名称作为实体信息。本领域技术人员应能理解上述抽取候选实体信息的方式的描述仅为举例，其他现有的或今后可能出现的抽取候选实体信息的方式如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

本申请一优选的实施例中，图4的步骤S3中，将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。在此，如果候选实体信息的数据量不是很大也足够精确，则可直接将所有候选实体信息不经过删选而直接作为实体信息推荐给用户，以节省数据处理量，提高推荐速度。

本申请一优选的实施例中，图4的步骤S1中，获取到的每个历史查询序列所对应的搜索结果信息包括该历史查询序列所对应的回答的文本内容、网站、支持数和反对数。在此，可采用通用的爬虫技术，在社区网站比如百度知道、搜搜问答和淘宝问答抓取包含知识需求的历史查询序列(Query)所对应的搜索结果信息，并对抓取的历史查询序列所对应的搜索结果信息如网页数据进行解析，不光解析网页数据的回答的文本内容，也会把回答的网站、支持数和反对数等信息解析出来，以供后续抽取候选实体信息和对候选实体信息打分使用。抓取的结果数据示例如表1所示：

表1

本领域技术人员应能理解上述搜索结果信息的描述仅为举例，其他现有的或今后可能出现的搜索结果信息如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

本申请一更优的实施例中，图4的步骤S2，从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。有了类似于表1所示的每个query结构化好后的搜索结果信息，还需要从搜索结果信息中抽取需要的候选实体信息，在此，可以从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。从回答的文本内容中识别候选实体信息的方法很多，比如基于规则的方法、基于隐马尔科夫模型的方法、基于条件随机场的方法等。从回答的文本内容抽取的候选实体信息会有很多类型，在一具体的应用场景中如是为了解决知识性购物query的导购问题，需要将品类实体筛选出来，候选实体信息的结果样式可如表2所示：

表2

本申请一优选的实施例中，图4的步骤S3包括步骤S31，从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。在此，可以根据历史查询序列对候选实体信息进行检查，删去不准确或不够准确的候选实体信息，筛选得到准确的候选实体信息作为实体信息，从而得到更优化、更准确的实体信息以提供给用户。

本申请一优选的实施例中，图4的步骤S3之后还包括：

计算每个历史查询序列所对应的候选实体信息的分数。在此，有了类似于表1所示的每个query结构化好后的搜索结果信息和类似于表2所示的从搜索结果信息中抽取候选实体信息，还可以对候选实体信息进行打分，以供后续根据打分从候选实体信息中进一步筛选实体信息，或者对筛选后的实体信息进行排序后提供给用户。例如可以得到类似表3所示的每个历史查询序列所对应的候选实体信息的分数：

表3

有了候选实体信息，就可以结合回答的网站的质量、回答的支持度(权重)来对候选实体信息进行打分，具体如支持度＝支持数-反对数，本申请一更优的实施例中，可以根据如下公式计算每个历史查询序列所对应的候选实体信息的分数：

式中，entity1表示某个实体词，m表示网站的总数，i表示m个网站中的某个网站，n表示某个网站i的回答的总数， j表示n个回答中的某个回答，E_ij表示entity1是否在网站i的答案j中出现，出现则为1，不出现则为0，Weight1_i表示网站i的权重，Weight2_j表示回答j的权重，Weight2_j的值由回答j的支持数和反对数确定，Weight2_j为大于等于1的正整数，Weight2_j的默认值为1。例如，Weight2_j的值由支持数减反对数得到，如支持数减反对数小于等于零，则Weight2_j的默认值为1。其中，Weight1_i可以通过预设或者基于pagerank算法得到。

本领域技术人员应能理解上述计算每个历史查询序列所对应的候选实体信息的分数的描述仅为举例，其他现有的或今后可能出现的计算每个历史查询序列所对应的候选实体信息的分数如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

相应的，本申请一优选的实施例中，步骤S31中，根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。在此，可以将分数较高的候选实体信息从每个历史查询序列的候选实体信息中筛选出来作为该历史查询序列所对应的实体信息。

本申请一更优的实施例中，步骤S31之后还包括：

根据每个候选实体信息的分数得到筛选后的对应实体信息的分数。具体的，如表3所示，如候选实体信息及分数如“手表：55；钱包：46：打火机：32；腰带：22；围巾：22；剃须刀：20；手链：18；皮带：18；领带：18”，筛选后的实体信息及分数为“手表：55；钱包：46：打火机：32；腰带：22；围巾：22；剃须刀：20”，即将保留的候选实体信息及分数作为筛选后的实体信息及分数。

上述搜索结果信息、候选实体信息和实体信息及分数的获取牵涉到大规模的数据处理，有大规模并行计算的需求，本申请一实施例中，可以通过云计算平台来实现。

如图8所示，本申请一优选的实施例中，图4的步骤S3之后还包括：

步骤S4，根据包含知识需求的当前查询序列查找对应的历史查询序列；

步骤S5，获取查找到的历史查询序列所对应的实体信息。在此，步骤S4和步骤S5的过程可通过一在线服务器实现，历史查询序列及对应的实体信息已经预存于一知识库中，用户可通过终端向在所述线服务器提交搜索包含知识需求的当前查询序列查找对应的历史查询序列的请求，在线服务器如从所述知识库中查找到对应的历史查询序列，就直接将对应的实体信息以标签的形式在导航区呈现给用户，用户可以点击标签继续进行网络操作行为如购物行为。另外，所述在线服务器可将包含知识需求的当前查询序列拆分为多个关键字序列，然后根据多个关键字序列查找对应的历史查询序列，以提高历史查询序列的命中率。

本申请一更优的实施例中，图8的步骤S5之后还包括：

获取查找到的历史查询序列所对应的实体信息的分数，根据每个实体信息的分数高低对实体信息进行排序。例如，可以将分数高的实体信息排在前面，将分数低的实体信息排在后面提供给用户，以提高用户选择实体信息的效率。

本申请一实施例中，上述查找对应的历史查询序列及对应的实体信息的过程可以通过一支持实时查询的keyvalue***来实现。

如图9所示，根据本申请的另一面还提供一种用于对搜索数据进行处理的设备100，包括：

第一装置1，用于获取每个包含知识需求的历史查询序列所对应的搜索结果信息；

第二装置2，用于从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息；

第三装置3，用于根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息。具体的，本申请可以针对包含知识需求的历史查询序列，挖掘针对历史查询序列的实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率解决目前包含知识需求的历史查询序列的搜索结果差的问题。本申请可采用信息抽取的方式，先识别包含知识需求的历史query，再对与包含知识需求的历史query相关的外网社区数据进行搜索结果信息抽取，从搜索结果信息中挖掘出想要的实体信息作为答案沉淀到一知识库。从而后续用户可在线上根据包含知识需求的当前查询序列查找对应的历史查询序列时，就可以基于所述知识库推荐查找到的历史查询序列所对应的实体信息给用户。

如图10所示，本申请一优选的实施例中，所述第二装置2包括：

第一单元21，用于根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式；

第二单元22，用于根据每个历史查询序列所对应的抽取候选实体信息的方式从该历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息。

在此，可先对所有历史查询序列进行分析总结，提炼出不同包含知识需求的历史查询序列的类型，然后第一单元21根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式。例如，可将包含知识需求的历史查询序列的类型分为如下几种：

(5)地名+“特产”：表示希望获取某地的特产知识；

(6)“送”+称呼+“礼物”：表示希望获取送礼的导购知识；

(7)品类词+“品牌”：表示希望获取某品类的畅销品牌；

(8)品类词+“配件”：表示希望获取某品类的其它配件。

本申请一优选的实施例中，所述第三装置3，用于将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。本申请一优选的实施例中，图4的步骤S3中，将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。在此，如果候选实体信息的数据量不是很大也足够精确，则可直接将所有候选实体信息不经过删选而直接作为实体信息推荐给用户，以节省数据处理量，提高推荐速度。

本申请一优选的实施例中，所述第一装置1获取到的每个历史查询序列所对应的搜索结果信息包括该历史查询序列所对应的回答的文本内容、网站、支持数和反对数。在此，可采用通用的爬虫技术，在社区网站比如百度知道、搜搜问答和淘宝问答抓取包含知识需求的历史查询序列(Query)所对应的搜索结果信息，并对抓取的历史查询序列所对应的搜索结果信息如网页数据进行解析，不光解析网页数据的回答的文本内容，也会把回答的网站、支持数和反对数等信息解析出来，以供后续抽取候选实体信息和对候选实体信息打分使用。抓取的结果数据示例如表1所示：

表1

相应的，本申请一优选的实施例中，所述第二装置2从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。有了类似于表1所示的每个query结构化好后的搜索结果信息，还需要从搜索结果信息中抽取需要的候选实体信息，在此，可以从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。从回答的文本内容中识别候选实体信息的方法很多，比如基于规则的方法、基于隐马尔科夫模型的方法、基于条件随机场的方法等。从回答的文本内容抽取的候选实体信息会有很多类型，在一具体的应用场景中如是为了解决知识性购物query的导购问题，需要将品类实体筛选出来，候选实体信息的结果样式可如表2所示：

表2

本申请一优选的实施例中，所述第三装置3从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。在此，可以根据历史查询序列对候选实体信息进行检查，删去不准确或不够准确的候选实体信息，筛选得到准确的候选实体信息作为实体信息，从而得到更优化、更准确的实体信息以提供给用户。

本申请一优选的实施例中，如图11所示，所述设备还包括第四装置4，用于计算每个历史查询序列所对应的候选实体信息的分数。在此，有了类似于表1所示的每个query结构化好后的搜索结果信息和类似于表2所示的从搜索结果信息中抽取候选实体信息，还可以对候选实体信息进行打分，以供后续根据打分从候选实体信息中进一步筛选实体信息，或者对筛选后的实体信息进行排序后提供给用户。例如可以得到类似表3所示的每个历史查询序列所对应的候选实体信息的分数：

表3

有了候选实体信息，就可以结合回答的网站的质量、回答的支持度(权重)来对候选实体信息进行打分，具体如支持度＝支持数-反对数，本申请一更优的实施例中，所述第四装置4根据如下公式计算每个历史查询序列所对应的候选实体信息的分数：

式中，entity1表示某个实体词，m表示网站的总数，i表示m个网站中的某个网站，n表示某个网站i的回答的总数，j表示n个回答中的某个回答，E_ij表示entity1是否在网站i的答案j中出现，出现则为1，不出现则为0，Weight1_i表示网站i的权重，Weight2_j表示回答j的权重，Weight2_j的值由回答j的支持数和反对数确定，Weight2_j为大于等于1的正整数，Weight2_j的默认值为1。例如，Weight2_j的值由支持数减反对数得到，如支持数减反对数小于等于零，则Weight2_j的默认值为1。其中，Weight1_i可以通过预设或者基于pagerank算法得到。

本申请一优选的实施例中，所述第三装置3，用于根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。在此，可以将分数较高的候选实体信息从每个历史查询序列的候选实体信息中筛选出来作为该历史查询序列所对应的实体信息。

本申请一更优的实施例中，所述第三装置3还用于根据每个候选实体信息的分数得到筛选后的对应实体信息的分数。具体的，如表3所示，如候选实体信息及分数如“手表：55；钱包：46：打火机：32；腰带：22；围巾：22；剃须刀：20；手链：18；皮带：18；领带：18”，筛选后的实体信息及分数为“手表：55；钱包：46：打火机：32；腰带：22；围巾：22；剃须刀：20”，即将保留的候选实体信息及分数作为筛选后的实体信息及分数。

如图12所示，本申请一优选的实施例中，所述设备还包括：

第五装置5，用于根据包含知识需求的当前查询序列查找对应的历史查询序列；

第六装置6，用于获取查找到的历史查询序列所对应的实体信息。在此，第五装置5和第六装置6的功能可通过一在线服务器实现，历史查询序列及对应的实体信息已经预存于一知识库中，用户可通过终端向在所述线服务器提交搜索包含知识需求的当前查询序列查找对应的历史查询序列的请求，在线服务器如从所述知识库中查找到对应的历史查询序列，就直接将对应的实体信息以标签的形式在导航区呈现给用户，用户可以点击标签继续进行网络操作行为如购物行为。另外，所述在线服务器可将包含知识需求的当前查询序列拆分为多个关键字序列，然后根据多个关键字序列查找对应的历史查询序列，以提高历史查询序列的命中率。

本申请一更优的实施例中，所述第六装置6，还用于获取查找到的历史查询序列所对应的实体信息的分数，根据每个实体信息的分数高低对实体信息进行排序。例如，可以将分数高的实体信息排在前面，将分数低的实体信息排在后面提供给用户，以提高用户选择实体信息的效率。

本申请一实施例中，第五装置5和第六装置6的查找对应的历史查询序列及对应的实体信息的过程可以通过一支持实时查询的keyvalue***来实现。

以下结合具体的应用实施例进一步说明本申请所述的用于对搜索数据进行处理的方法及设备。

在一具体的应用实施例中，为解决目前知识性购物query导购信息较差的问题，可以先从社区网站比如百度知道、搜搜问答和淘宝问答抓取如表1所示的包含知识需求的历史查询序列(Query)如“送给男朋友的礼物”所对应的搜索结果信息如“网站”、“回答文本”、“支持数”和“反对数”，然后从表1的搜索结果信息的“回答文本”中抽取该历史查询序列所对应的候选实体信息如“衣服、领带、皮带、手表、公事包、钢笔”，接着可以对候选实体信息分别进行打分，根据分数高低对“衣服、领带、皮带、手表、公事包、钢笔”的候选实体信息进行筛选，如钢笔的分数很低，则将“钢笔”删去，得到类似表3筛选后的实体信息及分数，如一实体信息为“衣服、领带、皮带、手表、公事包”，后续还可以根据“衣服、领带、皮带、手表、公事包”的分数对实体信息进行排序，将分数高的实体信息排在靠前的位置，以便用户更容易看到并进行选择，从而提高推荐的准确率。

综上所述，本申请可以针对包含知识需求的历史查询序列，挖掘针对历史查询序列的实体信息作为答案推荐给用户，以提高向用户推荐的实体信息的准确率解决，目前包含知识需求的历史查询序列的搜索结果差的问题。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种用于对搜索数据进行处理的方法，其中，包括：

获取每个包含知识需求的历史查询序列所对应的搜索结果信息；

从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息；

根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息。
如权利要求1所述的方法，其中，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息包括：

根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式；

根据每个历史查询序列所对应的抽取候选实体信息的方式从该历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息。
如权利要求1或2所述的方法，其中，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息中，

将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。
如权利要求1至3中任一项所述的方法，其中，获取每个包含知识需求的历史查询序列所对应的搜索结果信息中，

获取到的每个历史查询序列所对应的搜索结果信息包括该历史查询序列所对应的回答的文本内容、网站、支持数和反对数。
如权利要求4所述的方法，其中，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息中，

从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。
如权利要求4或5所述的方法，其中，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息包括：

从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。
如权利要求6所述的用于对搜索数据进行处理的方法，其中，从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息之后还包括：

计算每个历史查询序列所对应的候选实体信息的分数。
如权利要求7所述的用于对搜索数据进行处理的方法，其中，根据如下公式计算每个历史查询序列所对应的候选实体信息的分数：

式中，entity1表示某个实体词，m表示网站的总数，i表示m个网站中的某个网站，n表示某个网站i的回答的总数，j表示n个回答中的某个回答，E_ij表示entity1是否在网站i的答案j中出现，出现则为1，不出现则为0，Weight1_i表示网站i的权重，Weight2_j表示回答j的权重，Weight2_j的值由回答j的支持数和反对数确定，Weight2_j为大于等于1的正整数，Weight2_j的默认值为1。
如权利要求7或8任一项所述的方法，其中，从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息中，

根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。
如权利要求9所述的方法，其中，根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息之后还包括：

根据每个候选实体信息的分数得到筛选后的对应实体信息的分数。
如权利要求10中任一项所述的方法，其中，根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息之后还包括：

根据包含知识需求的当前查询序列查找对应的历史查询序列；

获取查找到的历史查询序列所对应的实体信息。
如权利要求11所述的方法，其中，获取查找到的历史查询序列所对应的实体信息之后还包括：

获取查找到的历史查询序列所对应的实体信息的分数，根据每个实体信息的分数高低对实体信息进行排序。
一种用于对搜索数据进行处理的设备，其中，包括：

第一装置，用于获取每个包含知识需求的历史查询序列所对应的搜索结果信息；

第二装置，用于从每个历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息；

第三装置，用于根据每个历史查询序列所对应的候选实体信息确定该历史查询序列所对应的实体信息。
如权利要求13所述的设备，其中，所述第二装置包括：

第一单元，用于根据每个历史查询序列的类型的确定该历史查询序列所对应的抽取候选实体信息的方式；

第二单元，用于根据每个历史查询序列所对应的抽取候选实体信息的方式从该历史查询序列所对应的搜索结果信息中抽取该历史查询序列所对应的候选实体信息。
如权利要求13或14所述的设备，其中，所述第三装置，用于将每个历史查询序列所对应的所有候选实体信息作为该历史查询序列所对应的实体信息。
如权利要求13至15中任一项所述的设备，其中，所述第一装置获取到的每个历史查询序列所对应的搜索结果信息包括该历史查询序列所对应的回答的文本内容、网站、支持数和反对数。
如权利要求16所述的设备，其中，所述第二装置从每个历史查询序列所对应的回答的文本内容中抽取该历史查询序列所对应的候选实体信息。
如权利要求16或17所述的设备，其中，所述第三装置从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。
如权利要求18所述的设备，其中，还包括第四装置，用于计算每个历史查询序列所对应的候选实体信息的分数。
如权利要求19所述的设备，其中，所述第四装置根据如下公式计算每个历史查询序列所对应的候选实体信息的分数：

式中，entity1表示某个实体词，m表示网站的总数，i表示m个网站中的某个网站，n表示某个网站i的回答的总数，j表示n个回答中的某个回答，E_ij表示entity1是否在网站i的答案j中出现，出现则为1，不出现则为0，Weight1_i表示网站i的权重，Weight2_j表示回答j 的权重，Weight2_j的值由回答j的支持数和反对数确定，Weight2_j为大于等于1的正整数，Weight2_j的默认值为1。
如权利要求19或20所述的设备，其中，所述第三装置，用于根据每个候选实体信息的分数从每个历史查询序列所对应的候选实体信息中筛选该历史查询序列所对应的实体信息。
如权利要求21所述的设备，其中，所述第三装置还用于根据每个候选实体信息的分数得到筛选后的对应实体信息的分数。
如权利要求22所述的设备，其中，还包括：

第五装置，用于根据包含知识需求的当前查询序列查找对应的历史查询序列；

第六装置，用于获取查找到的历史查询序列所对应的实体信息。
如权利要求23所述的设备，其中，所述第六装置，还用于获取查找到的历史查询序列所对应的实体信息的分数，根据每个实体信息的分数高低对实体信息进行排序。