CN108460099A - 一种基于聊天模块的信息检索方法 - Google Patents

一种基于聊天模块的信息检索方法 Download PDF

Info

Publication number
CN108460099A
CN108460099A CN201810101448.0A CN201810101448A CN108460099A CN 108460099 A CN108460099 A CN 108460099A CN 201810101448 A CN201810101448 A CN 201810101448A CN 108460099 A CN108460099 A CN 108460099A
Authority
CN
China
Prior art keywords
user
search engine
query word
search
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810101448.0A
Other languages
English (en)
Inventor
张程
张鹏
宋大为
李竞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810101448.0A priority Critical patent/CN108460099A/zh
Publication of CN108460099A publication Critical patent/CN108460099A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聊天模块的信息检索方法,综合了web在线聊天以及聚类技术。在用户使用搜索引擎搜索过程中,对符合搜索条件的文档按照其与查询的关键字的相关度进行排序,同时将当前使用搜索引擎中的所有用户根据当前的查询词进行聚类,进而通过所得到的聚类类别分别订阅对应的聊天频道,让具有相同类别查询词的用户可以同其他使用相同类别查询词的用户进行在线的平等交流。传统搜索引擎在用户和搜索引擎中间构建了有中心节点的星状拓扑结构,并且以搜索引擎为中心节点;本发明在用户和搜索引擎中间构建了无中心节点的拓扑结构,在用户之间搭建起有效的沟通桥梁。通过让用户间进行在线的沟通,便于完成一些较难查询的问题并且增加检索效率。

Description

一种基于聊天模块的信息检索方法
技术领域
本发明涉及一种信息检索方法,尤其涉及一种基于聊天模块的信息检索方法。
背景技术
信息检索是指从信息资源的集合中查找所需文献或者查找所需文献中包含的信息检索内容的过程。在现在社会中信息检索也是构建搜索引擎的基础技术,并且信息检索已经成为人们发现与获取知识的重要途径。如今,在用户进行信息检索的过程中,搜索引擎采用了查询补全[1],查询推荐[2],webpage ranking[3]等技术来提高信息检索的质量。其中,查询推荐更是可以极大的方便用户在信息检索过程中去完成他们的检索需求。不同搜索引擎在对于查询推荐的使用方法如图1所示。
而这些技术基本都依赖于搜索引擎对于用户日志的使用,通过对用户日志进行统计分析以及相关机器学习算法的使用从而得到相应结果。对于搜索引擎使用用户日志进行分析的这种方式,故传统搜索引擎在拓扑结构上如图2所示,
是一种单一中心节点的星状拓扑结构,以搜索引擎为中心节点,为使用它的用户提供服务并且收集用户日志,这种拓扑结构优势在于方便添加新的节点到整个拓扑中,但是,其缺点在于一旦中心节点发生故障,那么整个拓扑结构将无法正常使用,也就是说,当搜索引擎为中心节点为整个拓扑结构提供服务的过程中,搜索引擎在不同技术上的使用中所产生的偏差,必然会导致整个拓扑结构性能上随之的巨大改变。
当前搜索引擎虽然在检索社会科学类以及文字类信息上取得了巨大成功,但是在检索自然科学类的问题上依然存在很大缺陷[4],考虑下表中的数学问题[5],当在搜索引擎中搜索该数学问题时,其搜索结果很难满足用户需求,其主要原因在于自然科学类的问题很多设计到推断的过程,基于统计的传统方法很难涵盖到所有的信息。
Consider the functions fn(x)=sin ax
(n=1,2,3,...,-π≤x≤π)as points of L2.
Prove that the set of these points is closed and bounded,but notcompact.
综合信息检索在自然科学类检索过程中的缺陷以及目前这种单中心节点星状拓扑结构,可以看出,尤其当搜索自然科学类问题的过程中,搜索引擎的缺陷必然会导致整体的拓扑结构的性能降低。故解决这一问题已经十分的必要。
[参考文献]
[1]P.Boldi,F.Bonchi,C.Castillo,D.Donato,A.Gionis,and S.Vigna.Thequery-flow graph:model and applications.In Proceedings of the 17th ACMconference on Information and knowledge management,pages 609–618.ACM,2008.
[2]H.Duan and B.-J.P.Hsu.Online spelling correction for querycompletion.In Proceedings of the 20th international conference on World wideweb,pages 117–126.ACM,2011.
[3]T.T.Vu,D.Song,A.Willis,S.N.Tran,and J.Li.Improving searchpersonalisation with dynamic group formation.In Proceedings of the 37thinternational ACM SIGIR conference on Research&development in informationretrieval,pages 951–954.ACM,2014.
[4]P.Clark.Elementary school science and math tests as a driver forai:Take the aristo challenge.to appear,2015.
[5]W.Rudin.Principles of mathematical analysis,volume 3.McGraw-HillNew York,1964.
发明内容
针对现有技术中存在的问题,本发明提出一种基于聊天模块的信息检索方法,综合了web在线聊天技术以及聚类技术。
为了解决上述技术问题,本发明提出的一种基于聊天模块的信息检索方法,包括以下步骤:
步骤一、用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块,服务器端搜索引擎模块检索出符合搜索条件的文档;当用户提交了一个查询词后,搜索引擎计算产生满足查询词要求的相应结果作为检索结果;
步骤二、服务器端聚类引擎模块使用用户通过客户端提交的查询关键词进行在线聚类;不同用户在客户端提交希望查询的关键词的时候会产生许多关键词,服务器通过对这些查询关键词聚类,将这些查询词聚合成不同的类别,并生成一个相应的且全局唯一的类别编号;
步骤三、服务器端社交引擎模块根据由用户通过客户端提交的查询词以及服务器端聚类引擎模块产生的聚类结果订阅相应聊天频道;用户根据步骤二所生成的类别编号订阅与该类别编号对应的聊天频道,并且保持与该聊天频道的链接直到用户更改了查询词;当用户更改了查询词后,重复步骤三重新订阅相应的聊天频道;
步骤四、服务器将步骤一中的搜索引擎模块产生的检索结果返回给用户所使用的客户端,并且通过社交引擎模块使得用户所使用的客户端保持对于其查询词所对应的聊天频道的链接,允许用户与其它订阅相同频道的用户进行在线交流。
与现有技术相比,本发明的有益效果是:
本发明检索方法综合了web在线聊天以及聚类技术,在用户使用搜索引擎搜索过程中,对符合搜索条件的文档按照其与查询的关键字的相关度进行排序,同时将当前使用搜索引擎中的所有用户根据他们当前的查询词进行聚类,进而通过所得到的聚类类别分别订阅对应的聊天频道,让具有相同类别查询词的用户可以同其他使用相同类别查询词的用户进行在线的平等交流。传统搜索引擎在用户和搜索引擎中间构建了有中心节点的星状拓扑结构,并且以搜索引擎为中心节点;本发明在用户和搜索引擎中间构建了无中心节点的拓扑结构,在用户之间搭建起有效的沟通桥梁。通过让用户间进行在线的沟通,便于完成一些较难查询的问题并且增加检索效率。
附图说明
图1是传统信息检索的功能分析图;
图2是传统信息检索***用户与***关系的拓扑结构图;
图3是本发明一种基于聊天模块的信息检索方法的用户与***关系的拓扑结构图;
图4是本***的客户端与服务器整体的拓扑结构图;
图5是***模块拆分图;
图6是用户A使用***完成检索任务与用户B交流过程的截屏图;
图7是用户B使用***完成检索任务与用户A交流过程的截屏图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步详细描述,所描述的具体实施例仅对本发明进行解释说明,并不用以限制本发明。
本发明提出的一种基于聊天模块的信息检索方法,包括以下步骤:
步骤一、用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块,服务器端搜索引擎模块检索出符合搜索条件的文档;用户所使用的客户端指的是任何常用的浏览器,比如Firefox,IE,Chrome等,服务器端使用的搜索引擎模块通过提前对已有文档建立好倒排索引,通过对文档传统的TF-IDF值进行排序得到检索结果。
用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块,服务器端搜索引擎模块检索出符合搜索条件的文档,即当用户提交了一个查询词后,搜索引擎计算产生满足查询词要求的相应结果作为检索结果;
步骤二、服务器端聚类引擎模块使用用户通过客户端提交的查询关键词进行在线聚类;不同用户在客户端提交希望查询的关键词的时候会产生许多关键词,服务器通过对这些查询关键词聚类,将这些查询词聚合成不同的类别,并生成一个相应的类别编号,每个类别编号是全局唯一的,不与其他类重复的。
在具体实施过程中,采用现有的K-means聚类算法,但是本发明不局限于在实现过程中所使用的K-means算法。
K-means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。算法的具体过程如下:
(1)从N个查询关键词随机选取K个文档作为质心
(2)对剩余的N-K个关键词测量其到每个质心的距离,并且把他归类到最近的质心。
(3)重新计算已经得到的各个类的质心
(4)迭代(2)-(3)步直至新的质心与原质心相等或小于指定阈值,算法结束。
其中,在计算查询关键词质心的过程中,采用词的词向量表示(词的词向量表示采用word2vector生成)。
举例来说,当用户提交了一个查询词后,搜索引擎会对截止到目前为止正在使用搜索引擎的所有用户所使用的查询词使用聚类算法,将这些查询词聚类,比如,对于“游泳”,“跑步”这些词分类到类1,代表体育类,并且生成一个相应的类别编号(每个类别编号是全局唯一的,不与其它类别重复);对于“a+b=3”,“4+8=?”这类的查询词分类到类2,代表数学类等等。
步骤三、服务器端社交引擎模块根据由用户通过客户端提交的查询词以及服务器端聚类引擎模块产生的聚类结果订阅相应聊天频道;
用户根据步骤二所生成的类别编号订阅与该类别编号对应的聊天频道,并且保持与该聊天频道的链接直到用户更改了查询词;当用户更改了查询词后,重复步骤三重新订阅相应的聊天频道。
本发明的实现过程中使用了Redis这个开源的内存型数据库中Publish/Subscribe部分作为聊天频道的实现方法,当用户查询词被聚类为class1的时候,***通过Redis命令SUBSCRIBE class1来订阅class1聊天频道,并且通过PUBLISH class1hello发送hello这条消息给订阅该频道的其它用户。
步骤四、服务器将步骤一中的搜索引擎模块产生的检索结果返回给用户所使用的客户端,并且通过社交引擎模块使得用户所使用的客户端保持对于其查询词所对应的聊天频道的链接,允许用户与其它订阅相同频道的用户进行在线交流。
图1展示了传统信息检索交互过程,当用户提交查询给搜索引擎后,搜素引擎根据相关技术,比如有向量空间模型计算文本相似度,根据TF-IDF算法计算文档权重等来计算出对应于用户提交查询应该返回的对应文档集,然后返回搜索结果给用户和客户端。如图2所示,传统的搜索引擎都是单纯的用户和搜索引擎之间的交互,从拓扑结构上来看,搜索引擎是中心节点,这种有中心节点的拓扑结果整个网络都强的依赖与中心的节点的可靠性,并不能在用户之间构成一个有效的沟通渠道。图3展示了在使用本发明后用户和搜索引擎之间的拓扑结构。整个***以用户为主体,搜索引擎模块以及社交引擎模块为用户提供了有效的支撑,整个网络的拓扑结构由传统的有中心节点的拓扑结果转换成了去中心节点的拓扑结构,在不同用户之间建立起来了有效的互动交流的渠道,使得整个检索过程不再强烈的依赖于检索结果。图4展现了整个***在运行过程中的流程,用户在客户端通过用户界面提交检索关键词到搜索引擎模块,搜索引擎模块返回相关文档,同时搜索关键词由聚类引擎进行聚类,聚类后的结果交由社交引擎进行处理,社交引擎帮助用户订阅不同的聊天频道,帮助用户建立一个到相应频道的长链接。图5展现在具体实施过程中所采用的具体工具以及整体实施过程中模块的划分。客户端主要使用bootstrap,jQuery来完成用户界面。Web服务器采用了python的Tornado框架。搜索引擎模块采用的了python的Whoosh工具包对已有的文档建立索引并提供搜索的支持。聚类引擎模块在实施过程中采用了K-means算法对用户提交的搜索词进行聚类。社交引擎模块采用了Redis数据库进行相应的支持,并且采用了WebSocket方式保持了用户的客户端与服务器的长链接。图6和图7展现了本发明在实现以后在不同用户之间的互动情况。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (1)

1.一种基于聊天模块的信息检索方法,其特征在于,包括以下步骤:
步骤一、用户通过客户端输入希望查询的关键字提交到服务器端搜索引擎模块,服务器端搜索引擎模块检索出符合搜索条件的文档;
当用户提交了一个查询词后,搜索引擎计算产生满足查询词要求的相应结果作为检索结果;
步骤二、服务器端聚类引擎模块使用用户通过客户端提交的查询关键词进行在线聚类;
不同用户在客户端提交希望查询的关键词的时候会产生许多关键词,服务器通过对这些查询关键词聚类,将这些查询词聚合成不同的类别,并生成一个相应的且全局唯一的类别编号;
步骤三、服务器端社交引擎模块根据由用户通过客户端提交的查询词以及服务器端聚类引擎模块产生的聚类结果订阅相应聊天频道;
用户根据步骤二所生成的类别编号订阅与该类别编号对应的聊天频道,并且保持与该聊天频道的链接直到用户更改了查询词;
当用户更改了查询词后,重复步骤三重新订阅相应的聊天频道;
步骤四、服务器将步骤一中的搜索引擎模块产生的检索结果返回给用户所使用的客户端,并且通过社交引擎模块使得用户所使用的客户端保持对于其查询词所对应的聊天频道的链接,允许用户与其它订阅相同频道的用户进行在线交流。
CN201810101448.0A 2018-01-31 2018-01-31 一种基于聊天模块的信息检索方法 Pending CN108460099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810101448.0A CN108460099A (zh) 2018-01-31 2018-01-31 一种基于聊天模块的信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810101448.0A CN108460099A (zh) 2018-01-31 2018-01-31 一种基于聊天模块的信息检索方法

Publications (1)

Publication Number Publication Date
CN108460099A true CN108460099A (zh) 2018-08-28

Family

ID=63238547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810101448.0A Pending CN108460099A (zh) 2018-01-31 2018-01-31 一种基于聊天模块的信息检索方法

Country Status (1)

Country Link
CN (1) CN108460099A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590921A (zh) * 2021-08-04 2021-11-02 北京理工大学 一种基于互动社交的信息检索方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN105630940A (zh) * 2015-12-21 2016-06-01 天津大学 一种基于可读性指标的信息检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN105630940A (zh) * 2015-12-21 2016-06-01 天津大学 一种基于可读性指标的信息检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHENG ZHANG ET AL: "SECC:A Novel Search Engine Interface with Live Chat Channel", 《SIGIR"16 PROCEEDINOS OF THE 39TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590921A (zh) * 2021-08-04 2021-11-02 北京理工大学 一种基于互动社交的信息检索方法及***
CN113590921B (zh) * 2021-08-04 2024-05-10 北京理工大学 一种基于互动社交的信息检索方法及***

Similar Documents

Publication Publication Date Title
US6912521B2 (en) System and method for automatically conducting and managing surveys based on real-time information analysis
US6434549B1 (en) Network-based, human-mediated exchange of information
US8630627B2 (en) Method and apparatus for processing messages in a social network
US7421429B2 (en) Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
Chau et al. Design and evaluation of a multi-agent collaborative Web mining system
US5909679A (en) Knowledge-based moderator for electronic mail help lists
US8312049B2 (en) News group clustering based on cross-post graph
Fan et al. Genetic programming-based discovery of ranking functions for effective web search
US20060122994A1 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
Lin et al. Verifying the proximity and size hypothesis for self-organizing maps
US20110246457A1 (en) Ranking of search results based on microblog data
CN101496003A (zh) 社交网络中用户的兼容性评分
Liang et al. Web service matching by ontology instance categorization
CN108460099A (zh) 一种基于聊天模块的信息检索方法
Takeda et al. Discovery of shared topics networks among people: a simple approach to find community knowledge from WWW bookmarks
US20230334314A1 (en) Content recommendation method and apparatus, device, storage medium, and program product
CN115757935A (zh) 应用计算机智能的大数据推送方法及***
CN115203589A (zh) 基于Trans-dssm模型的向量搜索方法及***
CN111562990B (zh) 一种基于消息的轻量级无服务器计算方法
Sun et al. Research on question retrieval method for community question answering
Huang et al. Towards progressive and load balancing distributed computation: a case study on skyline analysis
Zhao et al. Folkrank++: an optimization of Folkrank tag recommendation algorithm integrating user and item information
Bogers et al. Expertise classification: Collaborative classification vs. automatic extraction
CN113590921B (zh) 一种基于互动社交的信息检索方法及***
Carter et al. Just-in-time information sharing architectures in multiagent systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828