CN106777191B - 一种基于搜索引擎的检索模式生成方法及装置 - Google Patents

一种基于搜索引擎的检索模式生成方法及装置 Download PDF

Info

Publication number
CN106777191B
CN106777191B CN201611207337.5A CN201611207337A CN106777191B CN 106777191 B CN106777191 B CN 106777191B CN 201611207337 A CN201611207337 A CN 201611207337A CN 106777191 B CN106777191 B CN 106777191B
Authority
CN
China
Prior art keywords
retrieval
retrieval information
list
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611207337.5A
Other languages
English (en)
Other versions
CN106777191A (zh
Inventor
庞伟
何晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201611207337.5A priority Critical patent/CN106777191B/zh
Publication of CN106777191A publication Critical patent/CN106777191A/zh
Application granted granted Critical
Publication of CN106777191B publication Critical patent/CN106777191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于搜索引擎的检索模式生成方法及装置,涉及互联网技术领域,通过将具有潜在检索模式的预料进行聚类,再对其挖掘所含有的检索模式,得到高纯净度的检索模式,从而提升用户的检索体验。本发明主要的技术方案为:对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。本发明主要用于为搜索引擎配置检索模式。

Description

一种基于搜索引擎的检索模式生成方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于搜索引擎的检索模式生成方法及装置。
背景技术
人们在使用Web搜索引擎,完成某一类检索需求时,往往依赖日常的生活用语习惯来构造检索模式,即query pattern。一个query pattern代表着一类检索信息query的集合,表达相同或相似的用户意图,比如询问距离的一个pattern:从#到#有多远,具体的检索信息有“从山西灵石到陕西华阴有多远”、“从霍山到英山有多远”、“从洛阳到少林寺有多远”、“从双井到牡丹园有多远”等等实例。这些pattern能够帮助理解用户的查询意图,pattern“从#到#有多远”可以用来识别query中的地点实体词,知道哪一个是起始地点、哪一个是结束地点,从而帮助搜索引擎检索到满足用户意图的结果。
在Web搜索引擎中保存了用户的检索日志,积累了海量的用户历史检索信息query,从中挖掘出来表达用户各类检索需求的query pattern,可以进一步分析用户查询意图,助益相关性计算,返给用户最相关的结果,从而改善用户的搜索体验。然而目前的query pattern挖掘方法是一种贪婪算法,逐个去掉query中的分词,再遍历语料,统计余下部分的共现频率,共现高频的就有可能是pattern。但是,这种方法所要求的时间复杂度高,并且所挖掘pattern中有杂质,导致在实际应用中并不能为用户匹配出最佳的检索结果。
发明内容
有鉴于此,本发明提供一种基于搜索引擎的检索模式生成方法及装置,通过将具有潜在检索模式的预料进行聚类,再对其挖掘所含有的检索模式,得到高纯净度的检索模式,从而提升用户的检索体验。
依据本发明的一个方面,提出了一种基于搜索引擎的检索模式生成方法,该方法包括:
对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;
利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;
从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。
依据本发明的另一个方面,提出了一种基于搜索引擎的检索模式生成装置,该装置包括:
处理单元,用于对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;
聚类单元,用于利用聚类算法将所述处理单元处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;
提取单元,用于从所述聚类单元得到的分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。
本发明所采用的一种基于搜索引擎的检索模式生成方法及装置,通过对搜索引擎保存的已有检索信息进行词向量表示,利用聚类算法将具有相似上下文信息的检索信息进行聚类,再从聚合在一起的检索信息中提取对应的检索模式。相对于现有的检索模式的挖掘方法,本发明所采用的方法通过对检索信息的预处理,可以有效的减少遍历语料的次数,通过聚类算法将具有潜在检索模式的检索信息进行聚类,在同一类的检索信息中进行挖掘,大幅提高了检索模式的纯净度,同时提高的检索模式的挖掘速率,从而提高到了创建检索模式的效率,使得搜索引擎在更新检索模式时能够快速完成,为使用搜索引擎的用户提供更佳的检索服务。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种基于搜索引擎的检索模式生成方法流程图;
图2示出了本发明实施例提出的对所获取的已有检索信息进行预处理的方法流程图;
图3示出了本发明实施例提出的对检索信息进行聚类生成分类检索信息列表的方法流程图;
图4示出了本发明实施例提出的从分类检索信息列表中提取对应检索模式的方法流程图;
图5示出了本发明实施例提出的一种基于搜索引擎的检索模式生成装置的组成框图;
图6示出了本发明实施例提出的另一种基于搜索引擎的检索模式生成装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于搜索引擎的检索模式生成方法,该方法主要应用搜索引擎中,针对用户的对某一类信息检索的需求,以检索模式为关联纽带匹配出相关性较高的网页作为检索结果。需要说明的是,本发明实施例中的检索模式是对已有的检索信息进行统计分析后得到的能够代表一类检索信息的模式化信息。由于搜索引擎中保存有用户的检索日志,累积了海量的用户历史检索信息,通过对这些检索信息进行有效的挖掘,就可以得到用于针对匹配一类信息检索的检索模式信息库中的检索模式。对于本发明实施例申城检索模式的具体步骤如图1所示,包括:
101、对所获取的已有检索信息进行预处理。
通过获取搜索引擎中保存的用户历史检索信息并对其进行整理,以便于后续步骤的文本分析。其中,预处理主要包括对检索信息逐条地进行分词,词性标注,以及对各个分词进行向量化表示等。经过处理后的检索信息是以词向量表示的检索信息。通过词向量的表示,可以实现分词之间相关或相似的计算,比如,通过欧氏距离来衡量分词之间的远近,或者是通过余弦相似度计算两个分词之间的相关性。
102、利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表。
该步骤是将对向量化的检索信息进行聚类,也就是将可能含有相似检索模式的检索信息聚合在一起。进行聚类操作的前提,是出于对检索模式在同类检索信息中具有共性的认知,一般的,同义词、近义词或同位词的上下文信息是相似的,而在用户检索信息中的上下文信息就包含有所要挖掘的检索模式,由于检索模式一般是通过词向量表示的形式加以保存,那么,相反的,通过分析检索信息的词向量表示,就可以总结出对应的检索模式。因此,本步骤中的核心就是如何将具有相似的上下文信息的检索信息聚类到一起。
一般的,检索信息都比较短小,因此,绝大所述的检索信息中都是以名词性词项为核心,围绕该词就基本可以确定检索信息中的上下文关系。所以,本发明实施例中,通过提取检索信息中的名词性词项,来分析这些词项的语义关系,即判断哪些名词性分词具有同义词、近义词或同位词的关系,将含有该关系分词的检索信息聚类到一起,再分析其中所具有的相似的上下文关系,即检索模式。
103、从分类检索信息列表中提取对应的检索模式。
上一步是将已有的检索信息通过聚类算法分为多个分类检索信息列表,每一个分类检索信息列表中存储有一类的检索信息。一般的,认为这一类的检索信息中会包含有同一类的检索模式,也就是根据检索信息中的非名词性分词的排序方式,来确定对应的检索模式。而在确定出的检索模式中含有的名词性分词的数量决定了该检索模式的阶数,阶数越高,说明用户检索的一类信息的关联计算的维度也就越大,对应得到的检索结果也就可能越满足用户的检索意图,从而提高检索准确性。
上述本发明实施例提供的一种基于搜索引擎的检索模式生成方法,通过对搜索引擎保存的已有检索信息进行词向量表示,利用聚类算法将具有相似上下文信息的检索信息进行聚类,再从聚合在一起的检索信息中提取对应的检索模式。相对于现有的检索模式的挖掘方法,本发明所采用的方法通过对检索信息的预处理,可以有效的减少遍历语料的次数,通过聚类算法将具有潜在检索模式的检索信息进行聚类,在同一类的检索信息中进行挖掘,大幅提高了检索模式的纯净度,同时提高的检索模式的挖掘速率,从而提高到了创建检索模式的效率,使得搜索引擎在更新检索模式时能够快速完成,为使用搜索引擎的用户提供更佳的检索服务。
进一步的,为了更加详细的说明上述的基于搜索引擎的检索模式生成方法在实际应用中的具体实现,特别是对检索信息的词向量表示过程以及检索模式的挖掘方法,以下实施例中将根据上述实施例中的步骤逐一进行详细说明,具体包括:
步骤101:对所获取的已有检索信息进行预处理。
本步骤中,对于检索信息的预处理主要是对所保存的已有检索信息进行的自然语言处理,其中,主要包括如下环节,如图2所示,包括:
201、将所获取的已有检索信息逐条添加到有第一检索信息列表中。
其中,在该第一检索信息列表中,每一行记录有一条检索信息,例如,表中的一行为“从霍山到英山有多远”。而这些检索信息都是搜索引擎记录的用户曾经检索过的检索信息。将该第一检索信息列表以文件的形式加以保存。需要说明的是,在向第一检索信息列表中添加检索信息时,不需要对检索信息进行去重处理。
202、对第一检索信息列表中的检索信息进行分词以及词性标注处理,从而得到第二检索信息列表和第三检索信息列表。
其中,将分词后的检索信息保存在第二检索信息列表中,将对分词标注有词性信息的检索信息保存在第三检索信息列表中。也就是说,第二检索信息列表所保存的检索信息与第一检索信息列表中相对应,而区别在于第二检索信息列表中的检索信息进行了分词处理,例如,在该表中的一行检索信息为“从霍山到英山有多远”。与此向类似的,第三检索信息列表中的检索信息是在第二检索信息列表中的内容基础上进行的词性标注,每行中记载了检索信息和词性标注的分词结果,例如,在该表中的一行检索信息为“从霍山到英山有多远从:p霍山:ns到:p英山:ns有:v多:m远:a”。下表示出了部分词性标注的对照表:
表1:部分词性标注对照表
n 名词 v 动词
nd 方位词 p 介词
nh 人名 a(adj) 形容词
nl 处所词 clas 量词
ns 地名 conj 连词
nt 时间词 ron 代词
nz 其他专名 num 数词
b 区别词 ques 疑问词
i 成语,习语 adv 副词
j 简称 echo 拟声词
203、利用文本深度表示模型word2vec对第二检索信息列表中的分词进行向量化表示,将向量化的分词存储在词向量文件中。
其中,文本深度表示模型word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP(Neuro-Linguistic Programming,神经语言程序学)相关的工作,比如聚类、找同义词、词性分析等。在使用word2vec对第二检索信息列表中的分词进行向量化表示时,该模型的中的K维向量空间可根据实际需要进行自定义设置,例如,设置K的值为300是,对应的word2vec的参数为“-cbow 1 -size 300 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 24-binary 0 -iter 15”。经过文本深度表示模型word2vec的处理后,第二检索信息列表中的分词以词向量的形式加以表示。同时,将这些分词的词向量保存在一个词向量文件中。
204、提取第三检索信息列表中词性标注为名词性的分词,并将该分词添加到分词列表中。
其中,分词列表中记录有分词以及所述分词在第三检索信息列表中出现的次数。例如,分词列表中的一行显示为:“霍山”,有180万行。此外,具有名词性的词性标注主要包括:n、nd、nh、nl、ns、nt、nz、b、i、j,具体的对照请参照上述的表一。
通过上述的预处理环节后,可以将所获取的已有检索信息处理为第一检索信息列表、第二检索信息列表、第三检索信息列表和分词列表,以及词向量文件。
步骤102:利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表。
本步骤中所执行的聚类操作是创建检索模式的核心步骤,其执行过程主要是获取检索信息中的名词性分词,再根据文本深度表示模型word2vec中的欧氏距离,选择这些词分词的邻近分词,并将含有这些分词或邻近分词的检索信息聚类到一起,得到一个分类检索信息列表。对此,具体的实现需要基于上述步骤中对检索信息进行的预处理结果,其详细步骤如图3所示,包括:
301、在词向量文件中查找分词列表中分词的向量值。
其中,所查找的分词是对分词列表中的每一个分词逐一地进行提取。
302、根据向量值计算分词列表中任意两个分词间的欧氏距离。
通过该步骤的计算就可以得到所提取的分词与该分词列表中其他分词的欧氏距离值。其中,欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。而关于具体的欧氏距离的计算过程本发明实施例不进行具体说明。
303、对分词列表中每个分词提取预置数量的邻近分词,组成分词组。
其中,邻近分词是指根据欧氏距离计算后,按照由近至远的排序选择的一组距离最近的分词。而预置数量的大小决定了分类检索信息列表中所含有的检索信息的具体数量,数量的大小又会影响到所提取的检索模式,因此,该预置数量的设定往往需要根据实际检索信息的数量而确定,一般为经验值。以上文中的“霍山”为例,与其欧氏距离较近的分词多为县级行政单位,如下表:
表2:霍山的近邻词项,根据word2vec的欧氏距离排序
霍山
泾县
广德
浦城
金寨
都昌
瑞昌
石城
桐梓
永修
宿松
涡阳
修水
繁昌
彭泽
沅江
此外,需要指出的是,所得到的分词组是对分词列表中的所有分词进行的分配。也就是说,一个分词经过分配后只出现在一个分词组中。
304、在第一检索信息列表中提取含有分词组中至少一个分词的检索信息。
根据得到的分词组,遍历第一检索信息列表中的所有检索信息,将含有该分词组中至少一个分词的检索信息进行复制并提取出来。
305、将提取的检索信息保存在一个分类检索信息列表中。
执行该步骤后得到的分类检索信息列表中记录有一批具有相似上下文的检索信息,如下表所示:
表3:一个分类检索信息列表中的部分检索信息内容
从青岛到徐州有多远
从河南周口到北京有多远
从海口到泰州有多远
从烟台到鞍山有多远
从砀山到蒙城有多远
从太康到夏邑有多远
从柘城到夏邑有多远
从霍山到英山有多远
从集宁市到兴和县有多远
需要指出的是,通过一组分词将得到对应的一个分类检索信息列表,通过对不同的分词组在第一检索信息列表中提取对应的检索信息,就会生成多个分类检索信息列表。
步骤103:从分类检索信息列表中提取对应的检索模式。
根据上述步骤102中得到的多个分类检索信息列表,本发明实施例中提取检索模式的具体流程如图4所示,包括:
401、通过FPGrowth算法逐一计算每个分类检索信息列表中的频繁项集合。
FPGrowth算法是韩家炜等人在2000年提出的关联分析算法,它采取如下的分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。FPGrowth算法主要分为两个步骤:FP-tree构建、递归挖掘FP-tree。FP-tree构建通过两次数据扫描,将原始数据中的事务压缩到一个FP-tree树,该FP-tree类似于前缀树,相同前缀的路径可以共用,从而达到压缩数据的目的。接着通过FP-tree找出每个项目的条件模式基、条件FP-tree,递归的挖掘条件FP-tree得到所有的频繁项集。对于具体的计算过程在本发明实施例中做详细说明。
在该步骤中,由于每个分类检索信息列表中各条检索信息中的名词性分词都是同义词、近义词或同位词等具有较高关联关系的分词,因此,检索信息具有相似的上下文,所对应提取的检索模式也属于同一类的检索模式。也就是说,针对一个分类检索信息列表计算出的频繁项集可能存在多个,对此,将得到的频繁项集以列表的形式加以保存,就得到了频繁项集合,该集合中包含有多个频繁项集,以及每个频繁项集多出现的频数。下表示例性地展示了一个分类检索信息列表经过计算后得到的部分频繁项集。
表4:频繁项集合中的部分频繁项集
频繁项集 频数
有、和、不同 1110
到、坐、车、从、去 196
到、从、远、多、有 2923
402、调整频繁项集中频繁项的顺序,生成分类检索信息列表对应的检索模式。
首先,由于FPGrowth算法所产生的频繁项集中的频繁项是无序的,因此,需要将无序的频繁项转换成有序的频繁项,一个有序的频繁项集就是一个检索模式。
具体的顺序转换过程包括:提取频繁项集中的一组频繁项,将这组频繁项代入分类检索信息列表中进行匹配,提取含有这一组频繁项的检索信息。需要指出的是,该检索信息中需要包含这组频繁项中的所有频繁项。之后,将所提取的检索信息中使用通用符替换所有非频繁项的分词,将含有通用符和这组频繁项的信息确定为分类检索信息列表所对应的检索模式,其中,含有通用符和这组频繁项的信息中的分词顺序是按照原检索信息中分词的顺序排列的。例如,设定通用符为“#”,频繁集“到、从、远、多、有”,进过匹配后得到的原始检索信息之一是“从霍山到英山有多远”,经过替换后生成的一个检索模式“从#到#有多远”,如果还匹配到另一个检索信息为“坐车从霍山到英山有多远”,经过替换后生成的另一个检索模式“#从#到#有多远”。可见,一个频繁项集中根据频繁项排序的不同就可以生成多个不同的检索模式。
其次,当一个频繁项集中产生过个不同的检索模式时,为了确保检索模式的代表性,在得到所有的检索模式后,将对所有的检索模式进行统计,将相同的检索模式进行合并,并累加合并的个数。根据预设的阈值,保留累加个数大于该阈值的检索模式,确定这些检索模式为有效、可用的检索模式。
在完成一个分类检索信息列表中所对应的检索模式的挖掘后,统计各个分类检索信息列表对应的检索模式,将其保存在检索模式信息库中,得到的检索模式以列表的形式加以展示,每个检索模式根据所替换的通用符的个数确定检索模式的阶数,下表示例性的展示了部分的检索模式,该表中的检索模式根据阶数的递增进行排序展示:
表5:检索模式信息库中的部分检索模式
Figure BDA0001190275500000111
Figure BDA0001190275500000121
以上详细说明了基于搜索引擎的检索模式生成方法在实际应用中的具体实现,作为实现上述方法的具体装置,本发明实施例还提供了一种基于搜索引擎的检索模式生成装置,如图5所示,该装置包括:
处理单元51,用于对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;
聚类单元52,用于利用聚类算法将所述处理单元处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;
提取单元53,用于从所述聚类单元得到的分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息。
进一步的,如图6所示,所述处理单元51包括:
第一处理模块511,用于将所获取的已有检索信息逐条添加到有第一检索信息列表中;
第二处理模块512,用于对所述第一处理模块511得到的第一检索信息列表中的检索信息进行分词以及词性标注处理,得到第二检索信息列表和第三检索信息列表,所述第二检索信息列表中保存有分词后的检索信息,所述第三检索信息列表中保存有对分词结果进行词性标注的检索信息;
第三处理模块513,用于利用文本深度表示模型word2vec对所述第二处理模块512得到的第二检索信息列表中的分词进行向量化表示,将所述向量化的分词存储在词向量文件中;
第四处理模块514,用于提取所述第二处理模块512得到的第三检索信息列表中词性标注为名词性的分词,将所述分词添加到分词列表中,所述分词列表中记录有分词以及所述分词在所述第三检索信息列表中出现的次数。
进一步的,如图6所示,所述聚类单元52包括:
查找模块521,用于在所述词向量文件中查找所述分词列表中分词的向量值;
计算模块522,用于根据所述查找模块521查询到的向量值计算所述分词列表中任意两个分词间的欧氏距离;
组合模块523,用于对所述分词列表中每个分词提取预置数量的邻近分词,组成分词组,所述邻近分词是根据所述计算模块522计算的欧氏距离进行由近至远排序得到的分词;
提取模块524,用于在所述第一检索信息列表中提取含有所述组合模块523组成的分词组中至少一个分词的检索信息;
存储模块525,用于将所述提取模块524提取的检索信息保存在一个分类检索信息列表中。
进一步的,如图6所示,所述提取单元53包括:
计算模块531,用于利用FPGrowth算法逐一计算每个分类检索信息列表中的频繁项集合,所述频繁项集合含有至少一个频繁项集;
生成模块532,用于调整所述计算模块531得到的频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式。
进一步的,如图6所示,所述生成模块532包括:
提取子模块5321,用于提取所述频繁项集中的一组频繁项;
匹配子模块5322,用于在所述分类检索信息列表中匹配含有所述提取子模块5321提取的一组频繁项的检索信息;
替换子模块5323,用于将所述匹配子模块5322得到的检索信息中非频繁项的分词替换为通用符;
确定子模块5324,用于将含有所述替换子模块5323替换的通用符和所述一组频繁项且按照所述检索信息中的分词排序排列的信息确定为所述分类检索信息列表对应的检索模式。
进一步的,如图6所示,所述生成模块532还包括:
计算子模块5325,用于统计所述确定子模块5324所生成的检索模式,计算所生成的相同检索模式的个数;
存储子模块5326,用于保留所述计算子模块5325计算的个数大于预置阈值的检索模式。
综上所述,本发明实施例所提供的一种基于搜索引擎的检索模式生成方法及装置,通过对搜索引擎保存的已有检索信息进行词向量表示,利用聚类算法将具有相似上下文信息的检索信息进行聚类,再从聚合在一起的检索信息中提取对应的检索模式。相对于现有的检索模式的挖掘方法,本发明所采用的方法通过对检索信息的预处理,可以有效的减少遍历语料的次数,通过聚类算法将具有潜在检索模式的检索信息进行聚类,在同一类的检索信息中进行挖掘,大幅提高了检索模式的纯净度,同时提高的检索模式的挖掘速率,从而提高到了创建检索模式的效率,使得搜索引擎在更新检索模式时能够快速完成,为使用搜索引擎的用户提供更佳的检索服务。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述云端服务器及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述云端服务器实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的云端服务器、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的云端服务器解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何云端服务器或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内连接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的云端服务器的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于搜索引擎的检索模式生成方法,其特征在于,所述方法包括:
对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;
利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;
从所述分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息;
所述对所获取的已有检索信息进行预处理包括:
将所获取的已有检索信息逐条添加到有第一检索信息列表中;
对所述第一检索信息列表中的检索信息进行分词以及词性标注处理,得到第二检索信息列表和第三检索信息列表,所述第二检索信息列表中保存有分词后的检索信息,所述第三检索信息列表中保存有对分词结果进行词性标注的检索信息;
利用文本深度表示模型word2vec对第二检索信息列表中的分词进行向量化表示,将所述向量化的分词存储在词向量文件中;
提取所述第三检索信息列表中词性标注为名词性的分词,将所述分词添加到分词列表中,所述分词列表中记录有分词以及所述分词在所述第三检索信息列表中出现的次数。
2.根据权利要求1所述的方法,其特征在于,所述利用聚类算法将处理后的检索信息进行聚类,得到多个分类检索信息列表包括:
在所述词向量文件中查找所述分词列表中分词的向量值;
根据所述向量值计算所述分词列表中任意两个分词间的欧氏距离;
对所述分词列表中每个分词提取预置数量的邻近分词,组成分词组,所述邻近分词是根据所述欧氏距离进行由近至远排序得到的分词;
在所述第一检索信息列表中提取含有所述分词组中至少一个分词的检索信息;
将所提取的检索信息保存在一个分类检索信息列表中。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述从所述分类检索信息列表中提取对应的检索模式包括:
利用FPGrowth算法逐一计算每个分类检索信息列表中的频繁项集合,所述频繁项集合含有至少一个频繁项集;
调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式。
4.根据权利要求3所述的方法,其特征在于,所述调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式包括:
提取所述频繁项集中的一组频繁项;
在所述分类检索信息列表中匹配含有所述一组频繁项的检索信息;
将所述检索信息中非频繁项的分词替换为通用符;
将含有通用符和所述一组频繁项且按照所述检索信息中的分词排序排列的信息确定为所述分类检索信息列表对应的检索模式。
5.根据权利要求4所述的方法,其特征在于,所述调整所述频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式还包括:
统计所生成的检索模式,计算所生成的相同检索模式的个数;
保留所述个数大于预置阈值的检索模式。
6.一种基于搜索引擎的检索模式生成装置,其特征在于,所述装置包括:
处理单元,用于对所获取的已有检索信息进行预处理,得到词向量表示的检索信息;
聚类单元,用于利用聚类算法将所述处理单元处理后的检索信息进行聚类,得到多个分类检索信息列表,所述分类检索信息列表中记录有相似上下文信息的检索信息;
提取单元,用于从所述聚类单元得到的分类检索信息列表中提取对应的检索模式,所述检索模式是能够代表一类检索信息的模式化信息;
所述处理单元包括:
第一处理模块,用于将所获取的已有检索信息逐条添加到有第一检索信息列表中;
第二处理模块,用于对所述第一处理模块得到的第一检索信息列表中的检索信息进行分词以及词性标注处理,得到第二检索信息列表和第三检索信息列表,所述第二检索信息列表中保存有分词后的检索信息,所述第三检索信息列表中保存有对分词结果进行词性标注的检索信息;
第三处理模块,用于利用文本深度表示模型word2vec对所述第二处理模块得到的第二检索信息列表中的分词进行向量化表示,将所述向量化的分词存储在词向量文件中;
第四处理模块,用于提取所述第二处理模块得到的第三检索信息列表中词性标注为名词性的分词,将所述分词添加到分词列表中,所述分词列表中记录有分词以及所述分词在所述第三检索信息列表中出现的次数。
7.根据权利要求6所述的装置,其特征在于,所述聚类单元包括:
查找模块,用于在所述词向量文件中查找所述分词列表中分词的向量值;
计算模块,用于根据所述查找模块查询到的向量值计算所述分词列表中任意两个分词间的欧氏距离;
组合模块,用于对所述分词列表中每个分词提取预置数量的邻近分词,组成分词组,所述邻近分词是根据所述计算模块计算的欧氏距离进行由近至远排序得到的分词;
提取模块,用于在所述第一检索信息列表中提取含有所述组合模块组成的分词组中至少一个分词的检索信息;
存储模块,用于将所述提取模块提取的检索信息保存在一个分类检索信息列表中。
8.根据权利要求6-7中任一项所述的装置,其特征在于,所述提取单元包括:
计算模块,用于利用FPGrowth算法逐一计算每个分类检索信息列表中的频繁项集合,所述频繁项集合含有至少一个频繁项集;
生成模块,用于调整所述计算模块得到的频繁项集中频繁项的顺序,生成所述分类检索信息列表对应的检索模式。
9.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
提取子模块,用于提取所述频繁项集中的一组频繁项;
匹配子模块,用于在所述分类检索信息列表中匹配含有所述提取子模块提取的一组频繁项的检索信息;
替换子模块,用于将所述匹配子模块得到的检索信息中非频繁项的分词替换为通用符;
确定子模块,用于将含有所述替换子模块替换的通用符和所述一组频繁项且按照所述检索信息中的分词排序排列的信息确定为所述分类检索信息列表对应的检索模式。
10.根据权利要求9所述的装置,其特征在于,所述生成模块还包括:
计算子模块,用于统计所生成的检索模式,计算所生成的相同检索模式的个数;
存储子模块,用于保留所述个数大于预置阈值的检索模式。
CN201611207337.5A 2016-12-23 2016-12-23 一种基于搜索引擎的检索模式生成方法及装置 Active CN106777191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611207337.5A CN106777191B (zh) 2016-12-23 2016-12-23 一种基于搜索引擎的检索模式生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611207337.5A CN106777191B (zh) 2016-12-23 2016-12-23 一种基于搜索引擎的检索模式生成方法及装置

Publications (2)

Publication Number Publication Date
CN106777191A CN106777191A (zh) 2017-05-31
CN106777191B true CN106777191B (zh) 2021-05-04

Family

ID=58919803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611207337.5A Active CN106777191B (zh) 2016-12-23 2016-12-23 一种基于搜索引擎的检索模式生成方法及装置

Country Status (1)

Country Link
CN (1) CN106777191B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
US11409754B2 (en) 2019-06-11 2022-08-09 International Business Machines Corporation NLP-based context-aware log mining for troubleshooting

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785631B2 (en) * 2012-03-16 2017-10-10 Entit Software Llc Identification and extraction of acronym/definition pairs in documents
CN104991955B (zh) * 2015-07-17 2018-06-12 安徽科大讯飞医疗信息技术有限公司 一种自动构建模板库的方法及***
CN105550291B (zh) * 2015-12-10 2019-05-31 百度在线网络技术(北京)有限公司 文本分类方法和装置
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与***

Also Published As

Publication number Publication date
CN106777191A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
JP6526329B2 (ja) ウェブページトレーニング方法及び装置、検索意図識別方法及び装置
CN106874292B (zh) 话题处理方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
Al-Zaidy et al. A machine learning approach for semantic structuring of scientific charts in scholarly documents
Usman et al. Urdu text classification using majority voting
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN111104801B (zh) 基于网址域名的文本分词方法、***、设备及介质
CN104216979B (zh) 中文工艺专利自动分类***及利用该***进行专利分类的方法
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
CN104537341A (zh) 人脸图片信息获取方法和装置
CN112633000B (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN106933878B (zh) 一种信息处理方法及装置
CN110928986A (zh) 法律证据的排序和推荐方法、装置、设备及存储介质
Jaman et al. Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN103942274A (zh) 一种基于lda的生物医疗图像的标注***及方法
CN106777191B (zh) 一种基于搜索引擎的检索模式生成方法及装置
CN111475607A (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN117149956A (zh) 一种文本检索方法、装置、电子设备及可读存储介质
CN104462439A (zh) 事件的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant