CN109740062B

CN109740062B - 一种基于学习产出的搜索任务聚类方法

Info

Publication number: CN109740062B
Application number: CN201910006059.4A
Authority: CN
Inventors: 张引; 祝孟莨; 徐瑞康; 孙铭真; 赵玉丽; 张斌; 高克宁
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2020-10-16
Anticipated expiration: 2039-01-04
Also published as: CN109740062A

Abstract

本发明提供了一种基于学习产出的搜索过程聚类方法，属于搜索引擎领域。采用基于贝叶斯玫瑰树的搜索任务聚类方法，在聚类过程中采用基于学习产出的查询相似度度量方法，实现对搜索任务的聚类。本发明弥补了现有搜索任务聚类方法只关注搜索过程中的查询和点击，而忽略了学习产出的不足，通过在聚类过程中考虑学习产出，提升搜索任务聚类的效果。

Description

一种基于学习产出的搜索任务聚类方法

技术领域

本发明属于搜索引擎领域，特别涉及一种基于学习产出的搜索任务聚类方法。

背景技术

随着社会整体复杂性的不断提升，人们在工作和生活中也面临着越来越多、越来越复杂的问题。搜索引擎是人们解决日常问题时最为常用的工具之一。随着人们越来越多地使用搜索引擎来解决工作和生活中遇到的复杂问题，研究人员也开始关注如何开发新的搜索技术来帮助人们解决复杂问题。

一种帮助人们使用搜索引擎解决复杂问题的途径，是将搜索日志中属于同一个搜索任务的查询进行聚类，从而识别搜索任务。将搜索任务的查询进行聚类并识别搜索任务的方法被称为搜索任务聚类方法。现有的搜索任务聚类方法大多采用基于文献范式的搜索理论。基于文献范式的搜索理论只关注搜索过程中的查询和点击。然而，人们在解决复杂问题的过程中，总是需要从搜索结果中学习一些知识，形成学习产出(如记忆在大脑中的知识、记录的笔记、编写的程序等)，再进行下一步的搜索。采用文献范式的搜索任务聚类方法仅关注搜索任务中的查询和点击，忽略了学习产出，导致搜索任务聚类的效果不理想。与基于文献范式的搜索理论相对的，是基于学习范式的搜索理论，其不仅关注搜索过程中的查询和点击，还关注搜索过程中的学习产出。针对现有基于文献范式的搜索任务聚类方法的不足，本发明提出一种基于学习产出的搜索任务聚类方法，其采用Mehrotra与Yilmaz在SIGIR 2017会议上提出的基于贝叶斯玫瑰树的搜索任务聚类方法，通过在聚类过程中考虑学习产出，提升搜索任务聚类的效果。

发明内容

本发明提供了一种基于学习产出的搜索任务聚类方法，其采用基于贝叶斯玫瑰树的搜索任务聚类方法，在聚类过程中采用基于学习产出的查询相似度度量方法，实现对搜索任务的聚类。

本发明是通过以下技术方案实现的：

一种基于学习产出的搜索任务聚类方法，包括如下步骤：，

步骤1：根据给定的搜索任务，确定搜索任务中查询的用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合，即每个查询词都是一个由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五维向量；所述搜索任务，指用户在搜索过程中产生的查询信息的有序集合，集合中的每一项元素都是查询信息；所述查询信息，指由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五元组；所述用户会话标识，指由该查询信息所属的用户标识，以及该查询信息所属的会话标识构成的二元组；所述用户标识，指一个用于唯一区分不同用户的标识；所述会话标识，指一个用于唯一区分不同会话的标识；所述查询提交时间，指查询信息的查询词集合被提交到搜索引擎的时间；所述查询词集合，指用户一次提交到搜索引擎的查询词构成的有序集合；所述点击结果地址集合，指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后，在搜索结果列表页上点击的搜索结果的地址构成的有序集合；

步骤2：确定构成学习产出的构成符号，对学习产出的构成符号进行统计，得到学习产出的构成符号集合；如对于采用面向对象编程语言编写的程序，其构成符号可以是编程语言提供的编程接口类，得到的构成符号集合可以是所有编程接口类的集合；所述学习产出集合，指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后，并在将下一组查询词集合提交到搜索引擎或完成搜索任务之前，构建的学习产出的有序集合；所述学习产出，指用户在搜索过程中，利用所学知识构建的成果物，例如撰写的论文，编写的程序等；学习产出是由构成符号构成的有序、可重复集合；

步骤3：基于学习产出的构成符号集合，统计学习产出中每个构成符号的出现次数，将学习产出向量化为构成符号向量；如对于采用面向对象编程语言编写的程序，可将其向量化为基于编程接口类的向量，向量中每一项的值代表该值对应的编程接口类在学习产出中出现的次数；所述构成符号，是指构成学习产出的符号；基于一个构成符号集合，一个学习产出可以被向量化为构成符号向量；所述构成符号集合，指一组构成符号构成的有序集合；所述构成符号向量，指一个与构成符号集合具有相同长度的向量；构成符号向量的每一项的值都是一个非负整数，其代表在构成符号集合中处于相同位置的构成符号在该构成符号向量所对应的学习产出中出现的次数；

步骤4：采用贝叶斯玫瑰树搜索任务聚类算法，对上述查询信息进行基于学习产出的聚类处理，其具体步骤如下：

步骤4.1：基于每条查询信息建立树，全部树构成了森林；

步骤4.2：采用贝叶斯玫瑰树搜索任务聚类算法，将森林递归合并为一颗树，其步骤如下：

步骤4.2.1：计算包含一组查询信息的树的边缘似然，其步骤如下：

步骤4.2.1.1：基于一对查询信息的学习产出，计算基于学习产出的查询相似度，其步骤如下：

步骤4.2.1.1.1：基于查询信息的学习产出集合的第一条学习产出的构成符号向量，采用欧拉距离计算方法，计算一对查询的首条学习产出欧拉距离；

步骤4.2.1.1.2：基于查询信息的学习产出集合的第一条学习产出的构成符号向量，采用海明距离计算方法，计算一对查询的首条学习产出海明距离；

步骤4.2.1.1.3：将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和，采用欧拉距离计算方法，计算一对查询的学习产出集合欧拉距离；

步骤4.2.1.1.4：将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和，采用海明距离计算方法，计算一对查询的学习产出集合海明距离；

步骤4.2.1.1.5：将首条学***均值，作为一对查询的基于学习产出的查询相似度；

步骤4.2.1.2：采用贝叶斯玫瑰树搜索任务聚类算法，将基于学习产出的查询相似度作为一项相似度度量指标，计算包含一组查询信息的树的边缘似然；

步骤4.2.2：依据包含一组查询信息的树的边缘似然，采用贝叶斯玫瑰树搜索任务聚类算法将森林递归合并为一颗树；

步骤5：输出聚类得到的贝叶斯玫瑰树结构，即为给定的搜索任务的聚类结果。

本发明采用基于贝叶斯玫瑰树的搜索任务聚类方法，在聚类过程中采用基于学习产出的查询相似度度量方法，实现对搜索任务的聚类。本发明弥补了现有搜索任务聚类方法只关注搜索过程中的查询和点击，而忽略了学习产出的不足，提供了一种基于学习产出的搜索过程聚类方法，通过在聚类过程中考虑学习产出，提升搜索任务聚类的效果。

附图说明

图1基于学习产出的搜索任务聚类过程图。

具体实施方式

为了解决基于学习产出的搜索任务聚类问题，结合图1对发明进行了详细说明，其具体实施步骤如下：

步骤1：根据给定的搜索任务，确定搜索任务中查询的用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合，即每个查询词都是一个由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五维向量。

步骤2：确定构成学习产出的构成符号，对学习产出的构成符号进行统计，得到学习产出的构成符号集合C＝{c₁，c₂，c₃，...，c_i}。

步骤3：基于学习产出的构成符号集合C，统计学习产出LO_j中每个构成符号的出现次数，将学习产出向量化为构成符号向量

步骤4：采用贝叶斯玫瑰树搜索任务聚类算法，对上述查询信息进行基于学习产出聚类处理，其具体步骤如下：

步骤4.1：基于每条查询信息d_i建立树T_i＝{d_i}，全部树构成了森林F＝{T₁，T₂，T₃，...，T_n}。

步骤4.2.1：计算包含一组查询信息的树的边缘似然

其步骤如下：

步骤4.2.1.1：基于一对查询信息q_i与q_j的学习产出，计算基于学习产出的查询相似度，其步骤如下：

步骤4.2.1.1.1：基于查询信息的学习产出集合的第一条学习产出的构成符号向量V_f，采用欧拉距离计算方法，计算一对查询的首条学习产出欧拉距离h₂。

步骤4.2.1.1.2：基于查询信息的学习产出集合的第一条学习产出的构成符号向量V_f，采用海明距离计算方法，计算一对查询的首条学习产出海明距离a₂。

步骤4.2.1.1.3：将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和得到V_s，采用欧拉距离计算方法，计算一对查询的学习产出集合欧拉距离h₁。

步骤4.2.1.1.4：将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和得到V_s，采用海明距离计算方法，计算一对查询的学习产出集合海明距离a₁。

步骤4.2.1.1.5：将首条学***均值

作为一对查询的基于学习产出的查询相似度。

步骤4.2.1.2：采用贝叶斯玫瑰树搜索任务聚类算法，将基于学习产出的查询相似度作r₀为一项相似度度量指标，计算包含一组查询信息的树的边缘似然。

步骤4.2.2：依据包含一组查询信息的树的边缘似然，采用贝叶斯玫瑰树搜索任务聚类算法将森林递归合并为一颗树。

Claims

1.一种基于学习产出的搜索任务聚类方法，其采用基于贝叶斯玫瑰树的搜索任务聚类方法，在聚类过程中采用基于学习产出的查询相似度度量方法，实现对搜索任务的聚类；其特征在于具体步骤如下：

步骤2：确定构成学习产出的构成符号，对学习产出的构成符号进行统计，得到学习产出的构成符号集合；对于采用面向对象编程语言编写的程序，其构成符号是编程语言提供的编程接口类，得到的构成符号集合是所有编程接口类的集合；所述学习产出集合，指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后，并在将下一组查询词集合提交到搜索引擎或完成搜索任务之前，构建的学习产出的有序集合；所述学习产出，指用户在搜索过程中，利用所学知识构建的成果物；学习产出是由构成符号构成的有序、可重复集合；

步骤3：基于学习产出的构成符号集合，统计学习产出中每个构成符号的出现次数，将学习产出向量化为构成符号向量；对于采用面向对象编程语言编写的程序，将其向量化为基于编程接口类的向量，向量中每一项的值代表该值对应的编程接口类在学习产出中出现的次数；所述构成符号，是指构成学习产出的符号；基于一个构成符号集合，一个学习产出被向量化为构成符号向量；所述构成符号集合，指一组构成符号构成的有序集合；所述构成符号向量，指一个与构成符号集合具有相同长度的向量；构成符号向量的每一项的值都是一个非负整数，其代表在构成符号集合中处于相同位置的构成符号在该构成符号向量所对应的学习产出中出现的次数；

步骤4.1：基于每条查询信息建立树，全部树构成了森林；