CN108460099A

CN108460099A - 一种基于聊天模块的信息检索方法

Info

Publication number: CN108460099A
Application number: CN201810101448.0A
Authority: CN
Inventors: 张程; 张鹏; 宋大为; 李竞飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-08-28

Abstract

本发明公开了一种基于聊天模块的信息检索方法，综合了web在线聊天以及聚类技术。在用户使用搜索引擎搜索过程中，对符合搜索条件的文档按照其与查询的关键字的相关度进行排序，同时将当前使用搜索引擎中的所有用户根据当前的查询词进行聚类，进而通过所得到的聚类类别分别订阅对应的聊天频道，让具有相同类别查询词的用户可以同其他使用相同类别查询词的用户进行在线的平等交流。传统搜索引擎在用户和搜索引擎中间构建了有中心节点的星状拓扑结构，并且以搜索引擎为中心节点；本发明在用户和搜索引擎中间构建了无中心节点的拓扑结构，在用户之间搭建起有效的沟通桥梁。通过让用户间进行在线的沟通，便于完成一些较难查询的问题并且增加检索效率。

Description

一种基于聊天模块的信息检索方法

技术领域

本发明涉及一种信息检索方法，尤其涉及一种基于聊天模块的信息检索方法。

背景技术

信息检索是指从信息资源的集合中查找所需文献或者查找所需文献中包含的信息检索内容的过程。在现在社会中信息检索也是构建搜索引擎的基础技术，并且信息检索已经成为人们发现与获取知识的重要途径。如今，在用户进行信息检索的过程中，搜索引擎采用了查询补全[1]，查询推荐[2]，webpage ranking[3]等技术来提高信息检索的质量。其中，查询推荐更是可以极大的方便用户在信息检索过程中去完成他们的检索需求。不同搜索引擎在对于查询推荐的使用方法如图1所示。

而这些技术基本都依赖于搜索引擎对于用户日志的使用，通过对用户日志进行统计分析以及相关机器学习算法的使用从而得到相应结果。对于搜索引擎使用用户日志进行分析的这种方式，故传统搜索引擎在拓扑结构上如图2所示，

是一种单一中心节点的星状拓扑结构，以搜索引擎为中心节点，为使用它的用户提供服务并且收集用户日志，这种拓扑结构优势在于方便添加新的节点到整个拓扑中，但是，其缺点在于一旦中心节点发生故障，那么整个拓扑结构将无法正常使用，也就是说，当搜索引擎为中心节点为整个拓扑结构提供服务的过程中，搜索引擎在不同技术上的使用中所产生的偏差，必然会导致整个拓扑结构性能上随之的巨大改变。

当前搜索引擎虽然在检索社会科学类以及文字类信息上取得了巨大成功，但是在检索自然科学类的问题上依然存在很大缺陷[4]，考虑下表中的数学问题[5]，当在搜索引擎中搜索该数学问题时，其搜索结果很难满足用户需求，其主要原因在于自然科学类的问题很多设计到推断的过程，基于统计的传统方法很难涵盖到所有的信息。

Consider the functions f_n(x)＝sin ax

(n＝1,2,3,...,-π≤x≤π)as points of L².

Prove that the set of these points is closed and bounded,but notcompact.

综合信息检索在自然科学类检索过程中的缺陷以及目前这种单中心节点星状拓扑结构，可以看出，尤其当搜索自然科学类问题的过程中，搜索引擎的缺陷必然会导致整体的拓扑结构的性能降低。故解决这一问题已经十分的必要。

[参考文献]

[1]P.Boldi,F.Bonchi,C.Castillo,D.Donato,A.Gionis,and S.Vigna.Thequery-flow graph:model and applications.In Proceedings of the 17th ACMconference on Information and knowledge management,pages 609–618.ACM,2008.

[2]H.Duan and B.-J.P.Hsu.Online spelling correction for querycompletion.In Proceedings of the 20th international conference on World wideweb,pages 117–126.ACM,2011.

[3]T.T.Vu,D.Song,A.Willis,S.N.Tran,and J.Li.Improving searchpersonalisation with dynamic group formation.In Proceedings of the 37thinternational ACM SIGIR conference on Research&development in informationretrieval,pages 951–954.ACM,2014.

[4]P.Clark.Elementary school science and math tests as a driver forai:Take the aristo challenge.to appear,2015.

[5]W.Rudin.Principles of mathematical analysis,volume 3.McGraw-HillNew York,1964.

发明内容

针对现有技术中存在的问题，本发明提出一种基于聊天模块的信息检索方法，综合了web在线聊天技术以及聚类技术。

为了解决上述技术问题，本发明提出的一种基于聊天模块的信息检索方法，包括以下步骤：

步骤一、用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块，服务器端搜索引擎模块检索出符合搜索条件的文档；当用户提交了一个查询词后，搜索引擎计算产生满足查询词要求的相应结果作为检索结果；

步骤二、服务器端聚类引擎模块使用用户通过客户端提交的查询关键词进行在线聚类；不同用户在客户端提交希望查询的关键词的时候会产生许多关键词，服务器通过对这些查询关键词聚类，将这些查询词聚合成不同的类别，并生成一个相应的且全局唯一的类别编号；

步骤三、服务器端社交引擎模块根据由用户通过客户端提交的查询词以及服务器端聚类引擎模块产生的聚类结果订阅相应聊天频道；用户根据步骤二所生成的类别编号订阅与该类别编号对应的聊天频道，并且保持与该聊天频道的链接直到用户更改了查询词；当用户更改了查询词后，重复步骤三重新订阅相应的聊天频道；

步骤四、服务器将步骤一中的搜索引擎模块产生的检索结果返回给用户所使用的客户端，并且通过社交引擎模块使得用户所使用的客户端保持对于其查询词所对应的聊天频道的链接，允许用户与其它订阅相同频道的用户进行在线交流。

与现有技术相比，本发明的有益效果是：

本发明检索方法综合了web在线聊天以及聚类技术，在用户使用搜索引擎搜索过程中，对符合搜索条件的文档按照其与查询的关键字的相关度进行排序，同时将当前使用搜索引擎中的所有用户根据他们当前的查询词进行聚类，进而通过所得到的聚类类别分别订阅对应的聊天频道，让具有相同类别查询词的用户可以同其他使用相同类别查询词的用户进行在线的平等交流。传统搜索引擎在用户和搜索引擎中间构建了有中心节点的星状拓扑结构，并且以搜索引擎为中心节点；本发明在用户和搜索引擎中间构建了无中心节点的拓扑结构，在用户之间搭建起有效的沟通桥梁。通过让用户间进行在线的沟通，便于完成一些较难查询的问题并且增加检索效率。

附图说明

图1是传统信息检索的功能分析图；

图2是传统信息检索***用户与***关系的拓扑结构图；

图3是本发明一种基于聊天模块的信息检索方法的用户与***关系的拓扑结构图；

图4是本***的客户端与服务器整体的拓扑结构图；

图5是***模块拆分图；

图6是用户A使用***完成检索任务与用户B交流过程的截屏图；

图7是用户B使用***完成检索任务与用户A交流过程的截屏图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述，所描述的具体实施例仅对本发明进行解释说明，并不用以限制本发明。

本发明提出的一种基于聊天模块的信息检索方法，包括以下步骤：

步骤一、用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块，服务器端搜索引擎模块检索出符合搜索条件的文档；用户所使用的客户端指的是任何常用的浏览器，比如Firefox，IE，Chrome等,服务器端使用的搜索引擎模块通过提前对已有文档建立好倒排索引，通过对文档传统的TF-IDF值进行排序得到检索结果。

用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块，服务器端搜索引擎模块检索出符合搜索条件的文档，即当用户提交了一个查询词后，搜索引擎计算产生满足查询词要求的相应结果作为检索结果；

步骤二、服务器端聚类引擎模块使用用户通过客户端提交的查询关键词进行在线聚类；不同用户在客户端提交希望查询的关键词的时候会产生许多关键词，服务器通过对这些查询关键词聚类，将这些查询词聚合成不同的类别，并生成一个相应的类别编号，每个类别编号是全局唯一的，不与其他类重复的。

在具体实施过程中，采用现有的K-means聚类算法，但是本发明不局限于在实现过程中所使用的K-means算法。

K-means算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。算法的具体过程如下：

(1)从N个查询关键词随机选取K个文档作为质心

(2)对剩余的N-K个关键词测量其到每个质心的距离，并且把他归类到最近的质心。

(3)重新计算已经得到的各个类的质心

(4)迭代(2)-(3)步直至新的质心与原质心相等或小于指定阈值，算法结束。

其中，在计算查询关键词质心的过程中，采用词的词向量表示(词的词向量表示采用word2vector生成)。

举例来说，当用户提交了一个查询词后，搜索引擎会对截止到目前为止正在使用搜索引擎的所有用户所使用的查询词使用聚类算法，将这些查询词聚类，比如，对于“游泳”，“跑步”这些词分类到类1，代表体育类，并且生成一个相应的类别编号(每个类别编号是全局唯一的，不与其它类别重复)；对于“a+b＝3”，“4+8＝？”这类的查询词分类到类2，代表数学类等等。

步骤三、服务器端社交引擎模块根据由用户通过客户端提交的查询词以及服务器端聚类引擎模块产生的聚类结果订阅相应聊天频道；

用户根据步骤二所生成的类别编号订阅与该类别编号对应的聊天频道，并且保持与该聊天频道的链接直到用户更改了查询词；当用户更改了查询词后，重复步骤三重新订阅相应的聊天频道。

本发明的实现过程中使用了Redis这个开源的内存型数据库中Publish/Subscribe部分作为聊天频道的实现方法，当用户查询词被聚类为class1的时候，***通过Redis命令SUBSCRIBE class1来订阅class1聊天频道，并且通过PUBLISH class1hello发送hello这条消息给订阅该频道的其它用户。

图1展示了传统信息检索交互过程，当用户提交查询给搜索引擎后，搜素引擎根据相关技术，比如有向量空间模型计算文本相似度，根据TF-IDF算法计算文档权重等来计算出对应于用户提交查询应该返回的对应文档集，然后返回搜索结果给用户和客户端。如图2所示，传统的搜索引擎都是单纯的用户和搜索引擎之间的交互，从拓扑结构上来看，搜索引擎是中心节点，这种有中心节点的拓扑结果整个网络都强的依赖与中心的节点的可靠性，并不能在用户之间构成一个有效的沟通渠道。图3展示了在使用本发明后用户和搜索引擎之间的拓扑结构。整个***以用户为主体，搜索引擎模块以及社交引擎模块为用户提供了有效的支撑，整个网络的拓扑结构由传统的有中心节点的拓扑结果转换成了去中心节点的拓扑结构，在不同用户之间建立起来了有效的互动交流的渠道，使得整个检索过程不再强烈的依赖于检索结果。图4展现了整个***在运行过程中的流程，用户在客户端通过用户界面提交检索关键词到搜索引擎模块，搜索引擎模块返回相关文档，同时搜索关键词由聚类引擎进行聚类，聚类后的结果交由社交引擎进行处理，社交引擎帮助用户订阅不同的聊天频道，帮助用户建立一个到相应频道的长链接。图5展现在具体实施过程中所采用的具体工具以及整体实施过程中模块的划分。客户端主要使用bootstrap,jQuery来完成用户界面。Web服务器采用了python的Tornado框架。搜索引擎模块采用的了python的Whoosh工具包对已有的文档建立索引并提供搜索的支持。聚类引擎模块在实施过程中采用了K-means算法对用户提交的搜索词进行聚类。社交引擎模块采用了Redis数据库进行相应的支持，并且采用了WebSocket方式保持了用户的客户端与服务器的长链接。图6和图7展现了本发明在实现以后在不同用户之间的互动情况。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于聊天模块的信息检索方法，其特征在于，包括以下步骤：

步骤一、用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块，服务器端搜索引擎模块检索出符合搜索条件的文档；

当用户提交了一个查询词后，搜索引擎计算产生满足查询词要求的相应结果作为检索结果；

步骤二、服务器端聚类引擎模块使用用户通过客户端提交的查询关键词进行在线聚类；

不同用户在客户端提交希望查询的关键词的时候会产生许多关键词，服务器通过对这些查询关键词聚类，将这些查询词聚合成不同的类别，并生成一个相应的且全局唯一的类别编号；

用户根据步骤二所生成的类别编号订阅与该类别编号对应的聊天频道，并且保持与该聊天频道的链接直到用户更改了查询词；

当用户更改了查询词后，重复步骤三重新订阅相应的聊天频道；