CN109740062B - 一种基于学习产出的搜索任务聚类方法 - Google Patents

一种基于学习产出的搜索任务聚类方法 Download PDF

Info

Publication number
CN109740062B
CN109740062B CN201910006059.4A CN201910006059A CN109740062B CN 109740062 B CN109740062 B CN 109740062B CN 201910006059 A CN201910006059 A CN 201910006059A CN 109740062 B CN109740062 B CN 109740062B
Authority
CN
China
Prior art keywords
query
learning output
learning
search
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910006059.4A
Other languages
English (en)
Other versions
CN109740062A (zh
Inventor
张引
祝孟莨
徐瑞康
孙铭真
赵玉丽
张斌
高克宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910006059.4A priority Critical patent/CN109740062B/zh
Publication of CN109740062A publication Critical patent/CN109740062A/zh
Application granted granted Critical
Publication of CN109740062B publication Critical patent/CN109740062B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于学习产出的搜索过程聚类方法,属于搜索引擎领域。采用基于贝叶斯玫瑰树的搜索任务聚类方法,在聚类过程中采用基于学习产出的查询相似度度量方法,实现对搜索任务的聚类。本发明弥补了现有搜索任务聚类方法只关注搜索过程中的查询和点击,而忽略了学习产出的不足,通过在聚类过程中考虑学习产出,提升搜索任务聚类的效果。

Description

一种基于学习产出的搜索任务聚类方法
技术领域
本发明属于搜索引擎领域,特别涉及一种基于学习产出的搜索任务聚类方法。
背景技术
随着社会整体复杂性的不断提升,人们在工作和生活中也面临着越来越多、越来越复杂的问题。搜索引擎是人们解决日常问题时最为常用的工具之一。随着人们越来越多地使用搜索引擎来解决工作和生活中遇到的复杂问题,研究人员也开始关注如何开发新的搜索技术来帮助人们解决复杂问题。
一种帮助人们使用搜索引擎解决复杂问题的途径,是将搜索日志中属于同一个搜索任务的查询进行聚类,从而识别搜索任务。将搜索任务的查询进行聚类并识别搜索任务的方法被称为搜索任务聚类方法。现有的搜索任务聚类方法大多采用基于文献范式的搜索理论。基于文献范式的搜索理论只关注搜索过程中的查询和点击。然而,人们在解决复杂问题的过程中,总是需要从搜索结果中学习一些知识,形成学习产出(如记忆在大脑中的知识、记录的笔记、编写的程序等),再进行下一步的搜索。采用文献范式的搜索任务聚类方法仅关注搜索任务中的查询和点击,忽略了学习产出,导致搜索任务聚类的效果不理想。与基于文献范式的搜索理论相对的,是基于学习范式的搜索理论,其不仅关注搜索过程中的查询和点击,还关注搜索过程中的学习产出。针对现有基于文献范式的搜索任务聚类方法的不足,本发明提出一种基于学习产出的搜索任务聚类方法,其采用Mehrotra与Yilmaz在SIGIR 2017会议上提出的基于贝叶斯玫瑰树的搜索任务聚类方法,通过在聚类过程中考虑学习产出,提升搜索任务聚类的效果。
发明内容
本发明提供了一种基于学习产出的搜索任务聚类方法,其采用基于贝叶斯玫瑰树的搜索任务聚类方法,在聚类过程中采用基于学习产出的查询相似度度量方法,实现对搜索任务的聚类。
本发明是通过以下技术方案实现的:
一种基于学习产出的搜索任务聚类方法,包括如下步骤:,
步骤1:根据给定的搜索任务,确定搜索任务中查询的用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合,即每个查询词都是一个由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五维向量;所述搜索任务,指用户在搜索过程中产生的查询信息的有序集合,集合中的每一项元素都是查询信息;所述查询信息,指由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五元组;所述用户会话标识,指由该查询信息所属的用户标识,以及该查询信息所属的会话标识构成的二元组;所述用户标识,指一个用于唯一区分不同用户的标识;所述会话标识,指一个用于唯一区分不同会话的标识;所述查询提交时间,指查询信息的查询词集合被提交到搜索引擎的时间;所述查询词集合,指用户一次提交到搜索引擎的查询词构成的有序集合;所述点击结果地址集合,指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后,在搜索结果列表页上点击的搜索结果的地址构成的有序集合;
步骤2:确定构成学习产出的构成符号,对学习产出的构成符号进行统计,得到学习产出的构成符号集合;如对于采用面向对象编程语言编写的程序,其构成符号可以是编程语言提供的编程接口类,得到的构成符号集合可以是所有编程接口类的集合;所述学习产出集合,指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后,并在将下一组查询词集合提交到搜索引擎或完成搜索任务之前,构建的学习产出的有序集合;所述学习产出,指用户在搜索过程中,利用所学知识构建的成果物,例如撰写的论文,编写的程序等;学习产出是由构成符号构成的有序、可重复集合;
步骤3:基于学习产出的构成符号集合,统计学习产出中每个构成符号的出现次数,将学习产出向量化为构成符号向量;如对于采用面向对象编程语言编写的程序,可将其向量化为基于编程接口类的向量,向量中每一项的值代表该值对应的编程接口类在学习产出中出现的次数;所述构成符号,是指构成学习产出的符号;基于一个构成符号集合,一个学习产出可以被向量化为构成符号向量;所述构成符号集合,指一组构成符号构成的有序集合;所述构成符号向量,指一个与构成符号集合具有相同长度的向量;构成符号向量的每一项的值都是一个非负整数,其代表在构成符号集合中处于相同位置的构成符号在该构成符号向量所对应的学习产出中出现的次数;
步骤4:采用贝叶斯玫瑰树搜索任务聚类算法,对上述查询信息进行基于学习产出的聚类处理,其具体步骤如下:
步骤4.1:基于每条查询信息建立树,全部树构成了森林;
步骤4.2:采用贝叶斯玫瑰树搜索任务聚类算法,将森林递归合并为一颗树,其步骤如下:
步骤4.2.1:计算包含一组查询信息的树的边缘似然,其步骤如下:
步骤4.2.1.1:基于一对查询信息的学习产出,计算基于学习产出的查询相似度,其步骤如下:
步骤4.2.1.1.1:基于查询信息的学习产出集合的第一条学习产出的构成符号向量,采用欧拉距离计算方法,计算一对查询的首条学习产出欧拉距离;
步骤4.2.1.1.2:基于查询信息的学习产出集合的第一条学习产出的构成符号向量,采用海明距离计算方法,计算一对查询的首条学习产出海明距离;
步骤4.2.1.1.3:将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和,采用欧拉距离计算方法,计算一对查询的学习产出集合欧拉距离;
步骤4.2.1.1.4:将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和,采用海明距离计算方法,计算一对查询的学习产出集合海明距离;
步骤4.2.1.1.5:将首条学***均值,作为一对查询的基于学习产出的查询相似度;
步骤4.2.1.2:采用贝叶斯玫瑰树搜索任务聚类算法,将基于学习产出的查询相似度作为一项相似度度量指标,计算包含一组查询信息的树的边缘似然;
步骤4.2.2:依据包含一组查询信息的树的边缘似然,采用贝叶斯玫瑰树搜索任务聚类算法将森林递归合并为一颗树;
步骤5:输出聚类得到的贝叶斯玫瑰树结构,即为给定的搜索任务的聚类结果。
本发明采用基于贝叶斯玫瑰树的搜索任务聚类方法,在聚类过程中采用基于学习产出的查询相似度度量方法,实现对搜索任务的聚类。本发明弥补了现有搜索任务聚类方法只关注搜索过程中的查询和点击,而忽略了学习产出的不足,提供了一种基于学习产出的搜索过程聚类方法,通过在聚类过程中考虑学习产出,提升搜索任务聚类的效果。
附图说明
图1基于学习产出的搜索任务聚类过程图。
具体实施方式
为了解决基于学习产出的搜索任务聚类问题,结合图1对发明进行了详细说明,其具体实施步骤如下:
步骤1:根据给定的搜索任务,确定搜索任务中查询的用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合,即每个查询词都是一个由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五维向量。
步骤2:确定构成学习产出的构成符号,对学习产出的构成符号进行统计,得到学习产出的构成符号集合C={c1,c2,c3,...,ci}。
步骤3:基于学习产出的构成符号集合C,统计学习产出LOj中每个构成符号的出现次数,将学习产出向量化为构成符号向量
Figure BDA0001935495100000051
步骤4:采用贝叶斯玫瑰树搜索任务聚类算法,对上述查询信息进行基于学习产出聚类处理,其具体步骤如下:
步骤4.1:基于每条查询信息di建立树Ti={di},全部树构成了森林F={T1,T2,T3,...,Tn}。
步骤4.2:采用贝叶斯玫瑰树搜索任务聚类算法,将森林递归合并为一颗树,其步骤如下:
步骤4.2.1:计算包含一组查询信息的树的边缘似然
Figure BDA0001935495100000061
其步骤如下:
步骤4.2.1.1:基于一对查询信息qi与qj的学习产出,计算基于学习产出的查询相似度,其步骤如下:
步骤4.2.1.1.1:基于查询信息的学习产出集合的第一条学习产出的构成符号向量Vf,采用欧拉距离计算方法,计算一对查询的首条学习产出欧拉距离h2
步骤4.2.1.1.2:基于查询信息的学习产出集合的第一条学习产出的构成符号向量Vf,采用海明距离计算方法,计算一对查询的首条学习产出海明距离a2
步骤4.2.1.1.3:将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和得到Vs,采用欧拉距离计算方法,计算一对查询的学习产出集合欧拉距离h1
步骤4.2.1.1.4:将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和得到Vs,采用海明距离计算方法,计算一对查询的学习产出集合海明距离a1
步骤4.2.1.1.5:将首条学***均值
Figure BDA0001935495100000062
作为一对查询的基于学习产出的查询相似度。
步骤4.2.1.2:采用贝叶斯玫瑰树搜索任务聚类算法,将基于学习产出的查询相似度作r0为一项相似度度量指标,计算包含一组查询信息的树的边缘似然。
步骤4.2.2:依据包含一组查询信息的树的边缘似然,采用贝叶斯玫瑰树搜索任务聚类算法将森林递归合并为一颗树。
步骤5:输出聚类得到的贝叶斯玫瑰树结构,即为给定的搜索任务的聚类结果。

Claims (1)

1.一种基于学习产出的搜索任务聚类方法,其采用基于贝叶斯玫瑰树的搜索任务聚类方法,在聚类过程中采用基于学习产出的查询相似度度量方法,实现对搜索任务的聚类;其特征在于具体步骤如下:
步骤1:根据给定的搜索任务,确定搜索任务中查询的用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合,即每个查询词都是一个由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五维向量;所述搜索任务,指用户在搜索过程中产生的查询信息的有序集合,集合中的每一项元素都是查询信息;所述查询信息,指由用户会话标识、查询提交时间、查询词集合、点击结果地址集合、以及学习产出集合构成的五元组;所述用户会话标识,指由该查询信息所属的用户标识,以及该查询信息所属的会话标识构成的二元组;所述用户标识,指一个用于唯一区分不同用户的标识;所述会话标识,指一个用于唯一区分不同会话的标识;所述查询提交时间,指查询信息的查询词集合被提交到搜索引擎的时间;所述查询词集合,指用户一次提交到搜索引擎的查询词构成的有序集合;所述点击结果地址集合,指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后,在搜索结果列表页上点击的搜索结果的地址构成的有序集合;
步骤2:确定构成学习产出的构成符号,对学习产出的构成符号进行统计,得到学习产出的构成符号集合;对于采用面向对象编程语言编写的程序,其构成符号是编程语言提供的编程接口类,得到的构成符号集合是所有编程接口类的集合;所述学习产出集合,指用户在将查询词集合提交到搜索引擎并得到搜索结果列表页后,并在将下一组查询词集合提交到搜索引擎或完成搜索任务之前,构建的学习产出的有序集合;所述学习产出,指用户在搜索过程中,利用所学知识构建的成果物;学习产出是由构成符号构成的有序、可重复集合;
步骤3:基于学习产出的构成符号集合,统计学习产出中每个构成符号的出现次数,将学习产出向量化为构成符号向量;对于采用面向对象编程语言编写的程序,将其向量化为基于编程接口类的向量,向量中每一项的值代表该值对应的编程接口类在学习产出中出现的次数;所述构成符号,是指构成学习产出的符号;基于一个构成符号集合,一个学习产出被向量化为构成符号向量;所述构成符号集合,指一组构成符号构成的有序集合;所述构成符号向量,指一个与构成符号集合具有相同长度的向量;构成符号向量的每一项的值都是一个非负整数,其代表在构成符号集合中处于相同位置的构成符号在该构成符号向量所对应的学习产出中出现的次数;
步骤4:采用贝叶斯玫瑰树搜索任务聚类算法,对上述查询信息进行基于学习产出的聚类处理,其具体步骤如下:
步骤4.1:基于每条查询信息建立树,全部树构成了森林;
步骤4.2:采用贝叶斯玫瑰树搜索任务聚类算法,将森林递归合并为一颗树,其步骤如下:
步骤4.2.1:计算包含一组查询信息的树的边缘似然,其步骤如下:
步骤4.2.1.1:基于一对查询信息的学习产出,计算基于学习产出的查询相似度,其步骤如下:
步骤4.2.1.1.1:基于查询信息的学习产出集合的第一条学习产出的构成符号向量,采用欧拉距离计算方法,计算一对查询的首条学习产出欧拉距离;
步骤4.2.1.1.2:基于查询信息的学习产出集合的第一条学习产出的构成符号向量,采用海明距离计算方法,计算一对查询的首条学习产出海明距离;
步骤4.2.1.1.3:将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和,采用欧拉距离计算方法,计算一对查询的学习产出集合欧拉距离;
步骤4.2.1.1.4:将每条查询信息的学习产出集合的所有学习产出的构成符号向量按向量求和,采用海明距离计算方法,计算一对查询的学习产出集合海明距离;
步骤4.2.1.1.5:将首条学***均值,作为一对查询的基于学习产出的查询相似度;
步骤4.2.1.2:采用贝叶斯玫瑰树搜索任务聚类算法,将基于学习产出的查询相似度作为一项相似度度量指标,计算包含一组查询信息的树的边缘似然;
步骤4.2.2:依据包含一组查询信息的树的边缘似然,采用贝叶斯玫瑰树搜索任务聚类算法将森林递归合并为一颗树;
步骤5:输出聚类得到的贝叶斯玫瑰树结构,即为给定的搜索任务的聚类结果。
CN201910006059.4A 2019-01-04 2019-01-04 一种基于学习产出的搜索任务聚类方法 Expired - Fee Related CN109740062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910006059.4A CN109740062B (zh) 2019-01-04 2019-01-04 一种基于学习产出的搜索任务聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910006059.4A CN109740062B (zh) 2019-01-04 2019-01-04 一种基于学习产出的搜索任务聚类方法

Publications (2)

Publication Number Publication Date
CN109740062A CN109740062A (zh) 2019-05-10
CN109740062B true CN109740062B (zh) 2020-10-16

Family

ID=66363274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910006059.4A Expired - Fee Related CN109740062B (zh) 2019-01-04 2019-01-04 一种基于学习产出的搜索任务聚类方法

Country Status (1)

Country Link
CN (1) CN109740062B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200846942A (en) * 2007-05-21 2008-12-01 Univ Nat Taiwan Science Tech Clustering TRIZ analysis model
US8873836B1 (en) * 2012-06-29 2014-10-28 Emc Corporation Cluster-based classification of high-resolution data
CN103064941B (zh) * 2012-12-25 2016-12-28 深圳先进技术研究院 图像检索方法和装置
CN106372090B (zh) * 2015-07-23 2021-02-09 江苏苏宁云计算有限公司 一种查询聚类方法及装置
CN107491447B (zh) * 2016-06-12 2021-01-22 百度在线网络技术(北京)有限公司 建立查询改写判别模型、查询改写判别的方法和对应装置
US20180285438A1 (en) * 2017-03-31 2018-10-04 Change Healthcase Holdings, Llc Database system and method for identifying a subset of related reports
CN108038183B (zh) * 2017-12-08 2020-11-24 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108228884B (zh) * 2018-01-30 2022-04-05 东北大学 一种面向阅读难度的搜索结果预览***及预览方法

Also Published As

Publication number Publication date
CN109740062A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
WO2022041727A1 (zh) 医疗问诊***的问答管理方法、装置、设备及存储介质
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
US20100293175A1 (en) Feature normalization and adaptation to build a universal ranking function
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN112000776B (zh) 基于语音语义的话题匹配方法、装置、设备及存储介质
US11537905B2 (en) Inference-based assignment of data type to data
CN113569057B (zh) 一种面向本体标签知识图谱的样例查询方法
CN112307182A (zh) 一种基于问答***的伪相关反馈的扩展查询方法
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN112860916B (zh) 一种面向影视的多层次知识图谱生成方法
Wu et al. Discovering topical structures of databases
CN109740062B (zh) 一种基于学习产出的搜索任务聚类方法
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
CN111753151A (zh) 一种基于互联网用户行为的服务推荐方法
CN107193979A (zh) 一种同源图片检索的方法
CN114020948B (zh) 基于排序聚类序列辨别选择的草图图像检索方法及***
Balaji et al. An ensemble blocking scheme for entity resolution of large and sparse datasets
CN115098728A (zh) 视频检索方法及装置
CN114943285A (zh) 互联网新闻内容数据智能审核***
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备
Yuan et al. Analysis of Irony and Stereotype Spreaders Based On Convolutional Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201016