CN107665217A - 一种用于搜索业务的词汇处理方法及*** - Google Patents

一种用于搜索业务的词汇处理方法及*** Download PDF

Info

Publication number
CN107665217A
CN107665217A CN201610615378.1A CN201610615378A CN107665217A CN 107665217 A CN107665217 A CN 107665217A CN 201610615378 A CN201610615378 A CN 201610615378A CN 107665217 A CN107665217 A CN 107665217A
Authority
CN
China
Prior art keywords
phrase
search term
search
associational word
word dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610615378.1A
Other languages
English (en)
Inventor
陈亚
邓凯
李菁
程进兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Commerce Group Co Ltd
Original Assignee
Suning Commerce Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Commerce Group Co Ltd filed Critical Suning Commerce Group Co Ltd
Priority to CN201610615378.1A priority Critical patent/CN107665217A/zh
Publication of CN107665217A publication Critical patent/CN107665217A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种用于搜索业务的词汇处理方法及***,涉及互联网技术领域,能够提升基于联想词的搜索成交转换率。本发明包括:分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树;根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词;从所述联想词集合中提取指定数量的词组,并反馈至用户设备。本发明适用于改善搜索过程中联想词的准确率。

Description

一种用于搜索业务的词汇处理方法及***
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于搜索业务的词汇处理方法及***。
背景技术
在各大电子商务平台或者商业搜索平台所采用的搜索引擎中,大都提供了联想词展现的服务功能,主要是利用用户键入的字符、词组,帮助用户迅速补全搜索词或者进一步地扩展搜索词,以便用户快速完成搜索词的输入,以及通过所展现的联想词引导用户阅览运营商希望展示的搜索结果。
但在目前电子商务平台主要采用的搜索引擎中,难以对于组合方式较为复杂的字符(比如:英文与汉字的组合)进行有效识别,并且搜索结果更多的依赖运营商的人工干预,导致所展现的联想词难以准确对应用户的实际需要,以至于通过联想词找到用户的实际需要商品的准确率很低。因此基于联想词的搜索成交转换率低。
发明内容
本发明的实施例提供一种用于搜索业务的词汇处理方法及***,能够提升基于联想词的搜索成交转换率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供的方法,包括:分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树;根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词;从所述联想词集合中提取指定数量的词组,并反馈至用户设备。
结合第一方面,在第一方面的第一种可能的实现方式中,还包括:获取原始词组,并根据所述原始词组建立所述个性化联想词词库,所述原始词组包括从搜索数据库获取的热搜词、商品清单目录中记录的点击量高于阈值的目录词,和/或从人工维护的词库中提取的人工词。
结合第一方面,在第一方面的第二种可能的实现方式中,所述从所述联想词集合中提取指定数量的词组,包括:根据预设的关联规则,对所述联想词集合中词组按照关联程度由高至低的顺序排序;按照所述联想词集合中词组的排列结果,提取所述指定数量的词组。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合,包括:从基本联想词词库和个性化联想词词库中得到与所述搜索词完全匹配的词组、与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组;所述对所述联想词集合中词组按照关联程度由高至低的顺序排序,包括:在所述联想词集合中,将所述与所述搜索词完全匹配的词组按照关联程度高于所述与所述搜索词的前缀匹配的词组的顺序排列,并将所述与所述搜索词的前缀匹配的词组按照关联程度高于所述与所述搜索词的后缀匹配的词组的顺序排列。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述从基本联想词词库和个性化联想词词库中得到与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组,包括:根据所述搜索词的前缀树中表示中文,拼音或简拼的字符,从所述基本联想词词库和所述个性化联想词词库中得到与所述搜索词的前缀树匹配的词组;当从所述基本联想词词库和所述个性化联想词词库中得到的与所述搜索词的前缀树匹配的词组数量小于最低值时,采用所述搜索词的后缀树进行补充搜索。
结合第一方面的第一或第四种可能的实现方式,在第五种可能的实现方式中,还包括:对每个搜索词的前缀树和后缀树所在的节点进行预处理(pre-processing);和/或,对所述基本联想词词库和所述个性化联想词词库中的词组进行建立索引(indexing),并在每个节点存储相应的索引(index)。
结合第一方面,在第一方面的第六种可能的实现方式中,还包括:得到所述联想词集合后,对于所述联想词集合中任意两个词组,获取所述两个词组之间的相似度;根据所述两个词组之间的相似度判定所述两个词组是否相似,若是则作去重处理。
结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述根据所述两个词组之间的相似度判定所述两个词组是否相似,包括:若所述两个词组具有互不相同的分类标识,则判定所述两个词组互不相似;若所述两个词组中只有一个词组具有分类标识,且所述两个词组的名称信息匹配成功,则当所述两个词组之间的相似度大于0.87时,则判定所述两个词组相似;若所述两个词组都具有分类标识,且所述两个词组的名称信息匹配成功,则当所述两个词组之间的相似度大于0.8时,则判定所述两个词组相似。
第二方面,本发明的实施例提供的***,至少包括:线下模块、线上模块和存储模块:所述线上模块,用于分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树;并根据所述搜索词的前缀树和后缀树,从所述线下模块存储的基本联想词词库和个性化联想词词库中得到联想词集合,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词;并从所述联想词集合中提取指定数量的词组,并反馈至用户设备;所述线下模块,用于根据所述存储模块中存储的业务数据,建立并更新所述基本联想词词库和所述个性化联想词词库,所述业务数据至少包括:各搜索词的搜索频率和对应用户的搜索日志。
结合第二方面,在第二方面的第一种可能的实现方式中,所述线下模块,具体用于
获取原始词组,并根据所述原始词组建立所述个性化联想词词库,所述原始词组包括从搜索存储模块获取的热搜词、商品清单目录中记录的点击量高于阈值的目录词,和/或从人工维护的词库中提取的人工词;
所述线上模块,具体用于从基本联想词词库和个性化联想词词库中得到与所述搜索词完全匹配的词组、与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组;并在所述联想词集合中,将所述与所述搜索词完全匹配的词组按照关联程度高于所述与所述搜索词的前缀匹配的词组的顺序排列,并将所述与所述搜索词的前缀匹配的词组按照关联程度高于所述与所述搜索词的后缀匹配的词组的顺序排列;
所述线上模块,具体还用于根据预设的关联规则,对所述联想词集合中词组按照关联程度由高至低的顺序排序;并按照所述联想词集合中词组的排列结果,提取所述指定数量的词组;
所述线上模块,具体还用于根据所述搜索词的前缀树中表示中文,拼音或简拼的字符,从所述基本联想词词库和所述个性化联想词词库中得到与所述搜索词的前缀树匹配的词组;当从所述基本联想词词库和所述个性化联想词词库中得到的与所述搜索词的前缀树匹配的词组数量小于最低值时,采用所述搜索词的后缀树进行补充搜索;
所述线上模块,具体还用于在得到所述联想词集合后,对于所述联想词集合中任意两个词组,获取所述两个词组之间的相似度;并根据所述两个词组之间的相似度判定所述两个词组是否相似,若是则作去重处理。
本发明实施例提供的用于搜索业务的词汇处理方法及***,通过分析搜索词的前缀树和后缀树,实现了混合识别搜索词,以及对于用户的个性化偏好推荐相对应的联想词,且对于联想词提供一个更有效的排名和对热词的相关搜索结果数量的显示。以便于迅速帮助用户找到意图购买的商品,或确定其品类并给与搜索导向,提升用户找到意图商品的准确度并且降低搜索耗时,同时能够向用户推荐类似商品,提升基于联想词的搜索成交转换率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种用于执行本实施例方法流程的***架构示意图;
图2为本发明实施例提供的用于搜索业务的词汇处理方法的流程示意图;
图3为本发明实施例提供的一种具体实例示意图;
图4为本发明实施例提供的另一种具体实例示意图;
图5为本发明实施例提供的再一种具体实例示意图;
图6为本发明实施例提供的用于搜索业务的词汇处理***的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本实施例中的方法流程,具体可以在一种如图1所示的用于搜索业务的词汇处理***上执行,该***采用异步的设计模式其中包括:线下模块、线上模块和数据库。其中,线下模块主要用于联想词词典的建立,线上模块主要用于基于词典构建的查询模块,实现了线下与线上服务相互独立维护,比如线下模块的词典的更新或服务中断,并不影响线上模块的搜索查询功能,使得***性能不受影响。
本实施例中所揭示的线下模块以及线上模块,具体可以是服务器、工作站、超级计算机等设备,或者是由多个服务器组成的一种用于数据处理的服务器集群***。比如:线下模块具体以master-slaver集群的形式进行部署,每一个slaver服务器负责一部分的热词和目录词的更新。Master服务器负责汇总各个slaver服务器的更新状态,并控制向各个slaver发送请求。目前常用的基于单个服务器的更新词组更新方式过于缓慢,本实施例以master-slaver集群形式能够实现更快速更新热词,同时也便于通过目前的集群监控***实施监控。
本实施例中所揭示的数据库具体可以是一种Redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群***。
在本实施例中,线上模块具体用于接收用户设备发送的搜索词,在实际应用中,用户设备发送的搜索词主要由用户通过用户设备的输入设备比如:键盘、触摸屏、鼠标等输入用户设备。由线上模块分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树。再根据所述搜索词的前缀树和后缀树,从由线下模块维护的基本联想词词库和个性化联想词词库中得到联想词集合。之后从所述联想词集合中提取指定数量的词组,并反馈至用户设备。
数据库具体可以用于存储电子商务平台、在线购物平台等在日常运行中生成的每日高频搜索词、用户的搜索日志等,以及用于存储人工干预得到的人工词。
本实施例中所揭示的用户设备具体可以实做成单独一台装置,或整合于各种不同的媒体数据播放装置中,诸如机顶盒、移动电话、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、多媒体播放器、数字摄影机、个人数字助理(personaldigital assistant,简称PDA)、导航装置、移动上网装置(Mobile Internet Device,MID)或可穿戴式设备(Wearable Device)等。
本发明实施例提供一种用于搜索业务的词汇处理方法,如图2所示,包括:
S1、分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树。
S2、根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合。
其中,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词。在本实施例中,基本联想词词库可以根据每日高频搜索词、人工干预得到的人工词作为训练样本等训练生成;个性化联想词词库可以基于用户的搜索日志数据通过日志分析手段分析、提取和训练生成。
在本实施例中,“联想词”可以理解为通过诸如切词、找中心词、繁体简体转换、英文中文转换、拼音转换等预处理过程,从基本联想词词库和个性化联想词词库中得到的与搜索词匹配的词组。例如:如图3所示的,联想词是当用户通过用户设备登录网站进行搜索时,线上模块根据已经键入的部分搜索词产生一个下拉菜单,下拉菜单包括用户可能搜索的完整搜索词。下拉菜单中所显示的为从基本联想词词库和个性化联想词词库中得到联想词集合中提取的词组。具体的,可以通过线上模块优先联想个性化联想词词库中来源用户的搜索历史记录的联想词,并优先展示人工干预的联想词,从而向用户推荐更全面和更相关的产品。
S3、从所述联想词集合中提取指定数量的词组,并反馈至用户设备。
在本实施例中,从所述联想词集合中提取指定数量的词组的具体方式,包括:根据预设的关联规则,对所述联想词集合中词组按照关联程度由高至低的顺序排序。并按照所述联想词集合中词组的排列结果,提取所述指定数量的词组。例如:联想词集合包括从基本联想词词库和个性化联想词词库中提取的指定数量的词组比如:从基本联想词词库和个性化联想词词库中提取的得出最优的前20个(设定指定数量为20个)联想词,并对前20个联想词进行搜索结果数量提取,类目分析、质量分析,并保留质量最高的限定数量输出(比如设定的限定数量为10个),比如:线上模块在两个联想词库的基础上,改造联想词核心算法,得出最优的前20个联想词,再对线下搜索结果进行类目分析以及对线下搜索结果数量进行统计,从最优的前20个联想词中得出质量最高的10个联想词。
本发明实施例提供的用于搜索业务的词汇处理方法,通过分析搜索词的前缀树和后缀树,实现了混合识别搜索词,以及对于用户的个性化偏好推荐相对应的联想词,且对于联想词提供一个更有效的排名和对热词的相关搜索结果数量的显示。以便于迅速帮助用户找到意图购买的商品,或确定其品类并给与搜索导向,提升用户找到意图商品的准确度并且降低搜索耗时,同时能够向用户推荐类似商品。并最终提升基于联想词的搜索成交转换率。
在本实施例中,从所述根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合的具体方式,包括:
从基本联想词词库和个性化联想词词库中得到与所述搜索词完全匹配的词组、与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组。
具体的,对所述联想词集合中词组按照关联程度由高至低的顺序排序,可以理解为:在所述联想词集合中,将所述与所述搜索词完全匹配的词组按照关联程度高于所述与所述搜索词的前缀匹配的词组的顺序排列,并将所述与所述搜索词的前缀匹配的词组按照关联程度高于所述与所述搜索词的后缀匹配的词组的顺序排列。例如:与搜索词完全匹配的将优先推荐,前缀匹配的结果将其次推荐,后缀匹配的最后推荐,形成推荐的三级阶梯。如图3所示的,在最终显示的词组中,所推荐的10个联想词从不同角度为用户推荐与搜索词“面膜”相关的不同功能和特征的商品,从而基本能涵盖用户意图搜索的产品范围,同时也帮助用户明确了其意图搜索产品的类别、名称及品牌。
再例如:如图4所示的,在最终显示的词组中,后缀匹配的最后推荐,比如用户输入的搜索词“焦糖瓜子”或者“JT瓜子”,因商品数量少,则可以按照出现频率较高的后缀“瓜子”并继续联想,从而扩充联想词,尤其针对商品数量少的搜索词,能实现搜索词断词后继续联想。相对于现有方案,能够获取更多的推荐结果。并且,即便用户对意图搜索商品的名称仅有模糊概念或者所输入的搜索词不太准确的情况下,也能根据键入的混拼搜索词,根据与前缀、后缀的匹配进行推荐,从而快速引导用户找到所需商品。
其中,所述从基本联想词词库和个性化联想词词库中得到与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组,可以理解为:
根据所述搜索词的前缀树中表示中文,拼音或简拼的字符,从所述基本联想词词库和所述个性化联想词词库中得到与所述搜索词的前缀树匹配的词组。
当从所述基本联想词词库和所述个性化联想词词库中得到的与所述搜索词的前缀树匹配的词组数量小于最低值时,采用所述搜索词的后缀树进行补充搜索。例如:在如图5所示的线上模块中,通过主要搜索模块:对词库建立中文、拼音、简拼前缀树用于一般搜索,当搜索词数目不够时,采用后缀树数进行补充搜索。并通过分层排序模块:对于候选联想词,根据用户体验进行重排,其中,整体排序分为四层联想词,第一层为输入词前缀树完全匹配词,第二层为输入词的拼音前缀树完全匹配词,第三层为包含输入词的联想词,第四层为其他,如为补充联想词的简拼词等。排序按降序处理,联想词的排序按照搜索的次数进行降序排序,具体每一层的联想词按照权重的从大到小排序,比如:人工干预词的权重为最高,为人工设定的值乘以一个极大值,比如1000000。还通过补充搜索模块对于在主要搜索模块搜索不足的,会对搜索词进行分词,纠错,转化为拼音,简拼再进行补充查询搜索,直至候选的词数达到所述限定数量后输出。
在本实施例中,还包括:得到所述联想词集合后,对于所述联想词集合中任意两个词组,获取所述两个词组之间的相似度。并根据所述两个词组之间的相似度判定所述两个词组是否相似,若是则作去重处理。例如:通过如图5所示的去重模块,对于得到一定数目预期值的联想词,基于余弦相似度算法求取联想词的相似度分数,并根据相似度分数进行去重,所采用的余弦相似度算法(Cosin Similarity Function)主要包括:
获取两个词组之间的相似度分数similarity,
其中,A,B分别代表两个搜索词,Ai,Bi分别表示表示每个搜索词被切分之后的短词,其中,Ai,Bi的数值为:若被切分之后的短词存在则数值为1,不存在为0。对于A,B分词后的term是否存在于他们term的合集,假设对于A词,如果term存在,则A中的term值为1,否则为0。
具体的,所述根据所述两个词组之间的相似度判定所述两个词组是否相似,其判定规则可以包括但不限于:基于余弦相似度算法求取所述两个词组之间的相似度分数,其中:
若所述两个词组具有互不相同的分类标识,则判定所述两个词组互不相似。例如:分类标识具体为品牌标识,若两个词组具有相同的品牌标识,且品牌不匹配则为不相似。
若所述两个词组中只有一个词组具有分类标识,且所述两个词组的名称信息匹配成功,则当所述两个词组之间的相似度大于0.87时,则判定所述两个词组相似。例如:分类标识具体为品牌标识,若两个词组只有其中一个具有品牌标识,则产品名匹配成功,且相似度大于0.87则为相似。
若所述两个词组都具有分类标识,且所述两个词组的名称信息匹配成功,则当所述两个词组之间的相似度大于0.8时,则判定所述两个词组相似。例如:若两个词组都有品牌标识,且品牌及产品名均匹配成功,则相似度大于0.8为相似。
在本实施例中还提供一种用于联想词词库维护的具体方案,其中包括:
获取原始词组,并根据所述原始词组建立所述个性化联想词词库。
本实施例中,通过线下模块建立的个性化联想词词库中的原始词组包括从搜索数据库获取的热搜词、商品清单目录中记录的点击量高于阈值的目录词,和/或从人工维护的词库中提取的人工词。
在商品清单目录中,包括被分成多种类别的产品都会,产品依据类别粒度由大至小划分,比如:从更细分的类别为二级、三级的商品清单目录中提取点击量高于阈值的目录词,其中三级为手机,二级为移动通讯设备。
其中,具体可以从搜索数据库DB2(一种关系型数据库)提取原始词组,比如:原始词组从用户在在线购物平台、电子商务平台上产生的搜索日志中提取;以及通过大数据技术,在hadoop平台运行word count的map reduce job产生的用户的热搜词。并对所提取原始词组进行数据清理,包括:对从搜索日志获取的原生搜索词进行数据清理,使之更符合用户搜索意图。比如:通过NLP(自然语言处理)算法规则,以及对部分商户恶意进行的SEO(Search engine optimization,搜索引擎优化)产生的热门词进行去除。再对数据清理后的原始词组进行排序算分,包括对词组附加排序的分数,以及在电子商务平台和在线购物平台上的搜索结果数,排序的算分主要依据对应用户的搜索日志中搜索词的搜索次数。之后对排序算分后的词组进行分类预测,包括对于每个搜索词,结合在电子商务平台和在线购物平台上的搜索结果,通过语义分析算法以及人工维护的搜索词分类,产生对于原始词组的分类预测,从而帮助用户更精准的搜索。
进一步的,在本实施例中,还通过线下模块对每个搜索词的前缀树和后缀树所在的节点进行预处理(pre-processing),即执行查询流程并将查询流程执行后得到的结果预先存储,当***实际运行实时查询的时候不用再去做DFS(Depth-first search,深度优先搜索,是算法中遍历树的叶子节点的一种方式),可以直接调取预先存储的结果,使得在搜索时不用再进行DFS找到所有子叶节点,缩短了处理时间。并还可以通过线下模块对所述基本联想词词库和所述个性化联想词词库中的词组进行建立索引(indexing),对每个搜索词建立一个编号,以便于***编号查找和使用对应的搜索词,并在每个节点存储相应的索引(index)。从而节省节点的存储空间。
相对于现有的,仅通过单纯的拼音、英文或汉字进行搜索,且英文与汉字需要单独识别,而无法进行混合识别联想的方案,且联想词推荐结果较少,尤其是针对商品数量少的搜索词,由于无法进行混合识别联想导致进一步的扩展联想方案的效果较差,难以向用户推送较为准确的扩展搜索词。本实施例通过分析搜索词的前缀树和后缀树,实现了混合识别搜索词,以及对于用户的个性化偏好推荐相对应的联想词,且对于联想词提供一个更有效的排名和对热词的相关搜索结果数量的显示。以便于迅速帮助用户找到意图购买的商品,或确定其品类并给与搜索导向,提升用户找到意图商品的准确度并且降低搜索耗时,同时能够向用户推荐类似商品。并最终提升基于联想词的搜索成交转换率,提高用户体验。
本发明实施例还提供一种用于搜索业务的词汇处理***,如图6所示,至少包括:线下模块、线上模块和存储模块:
所述线上模块,用于分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树;并根据所述搜索词的前缀树和后缀树,从所述线下模块存储的基本联想词词库和个性化联想词词库中得到联想词集合,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词;并从所述联想词集合中提取指定数量的词组,并反馈至用户设备;
所述线下模块,用于根据所述存储模块中存储的业务数据,建立并更新所述基本联想词词库和所述个性化联想词词库,所述业务数据至少包括:各搜索词的搜索频率和对应用户的搜索日志。
所述存储模块具体可以是一种数据库。
在本实施例中,所述线下模块,具体用于获取原始词组,并根据所述原始词组建立所述个性化联想词词库,所述原始词组包括从搜索存储模块获取的热搜词、商品清单目录中记录的点击量高于阈值的目录词,和/或从人工维护的词库中提取的人工词;
所述线上模块,具体用于从基本联想词词库和个性化联想词词库中得到与所述搜索词完全匹配的词组、与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组;并在所述联想词集合中,将所述与所述搜索词完全匹配的词组按照关联程度高于所述与所述搜索词的前缀匹配的词组的顺序排列,并将所述与所述搜索词的前缀匹配的词组按照关联程度高于所述与所述搜索词的后缀匹配的词组的顺序排列;
所述线上模块,具体还用于根据预设的关联规则,对所述联想词集合中词组按照关联程度由高至低的顺序排序;并按照所述联想词集合中词组的排列结果,提取所述指定数量的词组;
所述线上模块,具体还用于根据所述搜索词的前缀树中表示中文,拼音或简拼的字符,从所述基本联想词词库和所述个性化联想词词库中得到与所述搜索词的前缀树匹配的词组;当从所述基本联想词词库和所述个性化联想词词库中得到的与所述搜索词的前缀树匹配的词组数量小于最低值时,采用所述搜索词的后缀树进行补充搜索;
所述线上模块,具体还用于在得到所述联想词集合后,对于所述联想词集合中任意两个词组,获取所述两个词组之间的相似度;并根据所述两个词组之间的相似度判定所述两个词组是否相似,若是则作去重处理。
本发明实施例提供的用于搜索业务的词汇处理***,通过分析搜索词的前缀树和后缀树,实现了混合识别搜索词,以及对于用户的个性化偏好推荐相对应的联想词,且对于联想词提供一个更有效的排名和对热词的相关搜索结果数量的显示。以便于迅速帮助用户找到意图购买的商品,或确定其品类并给与搜索导向,提升用户找到意图商品的准确度并且降低搜索耗时,同时能够向用户推荐类似商品。并最终提升基于联想词的搜索成交转换率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种用于搜索业务的词汇处理方法,其特征在于,包括:
分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树;
根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词;
从所述联想词集合中提取指定数量的词组,并反馈至用户设备。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取原始词组,并根据所述原始词组建立所述个性化联想词词库,所述原始词组包括从搜索数据库获取的热搜词、商品清单目录中记录的点击量高于阈值的目录词,和/或从人工维护的词库中提取的人工词。
3.根据权利要求1所述的方法,其特征在于,所述从所述联想词集合中提取指定数量的词组,包括:
根据预设的关联规则,对所述联想词集合中词组按照关联程度由高至低的顺序排序;
按照所述联想词集合中词组的排列结果,提取所述指定数量的词组。
4.根据权利要求3所述的方法,其特征在于,所述根据所述搜索词的前缀树和后缀树,从基本联想词词库和个性化联想词词库中得到联想词集合,包括:
从基本联想词词库和个性化联想词词库中得到与所述搜索词完全匹配的词组、与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组;
所述对所述联想词集合中词组按照关联程度由高至低的顺序排序,包括:在所述联想词集合中,将所述与所述搜索词完全匹配的词组按照关联程度高于所述与所述搜索词的前缀匹配的词组的顺序排列,并将所述与所述搜索词的前缀匹配的词组按照关联程度高于所述与所述搜索词的后缀匹配的词组的顺序排列。
5.根据权利要求4所述的方法,其特征在于,所述从基本联想词词库和个性化联想词词库中得到与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组,包括:
根据所述搜索词的前缀树中表示中文、拼音或简拼的字符,从所述基本联想词词库和所述个性化联想词词库中得到与所述搜索词的前缀树匹配的词组;
当从所述基本联想词词库和所述个性化联想词词库中得到的与所述搜索词的前缀树匹配的词组数量小于最低值时,采用所述搜索词的后缀树进行补充搜索。
6.根据权利要求1或5所述的方法,其特征在于,还包括:
对每个搜索词的前缀树和后缀树所在的节点进行预处理(pre-processing);
和/或,对所述基本联想词词库和所述个性化联想词词库中的词组进行建立索引(indexing),并在每个节点存储相应的索引(index)。
7.根据权利要求1所述的方法,其特征在于,还包括:
得到所述联想词集合后,对于所述联想词集合中任意两个词组,获取所述两个词组之间的相似度;
根据所述两个词组之间的相似度判定所述两个词组是否相似,若是则作去重处理。
8.根据权利要求7所述的方法,其特征在于,所述根据所述两个词组之间的相似度判定所述两个词组是否相似,包括:
若所述两个词组具有互不相同的分类标识,则判定所述两个词组互不相似;
若所述两个词组中只有一个词组具有分类标识,且所述两个词组的名称信息匹配成功,则当所述两个词组之间的相似度大于0.87时,则判定所述两个词组相似;
若所述两个词组都具有分类标识,且所述两个词组的名称信息匹配成功,则当所述两个词组之间的相似度大于0.8时,则判定所述两个词组相似。
9.一种用于搜索业务的词汇处理***,其特征在于,至少包括:线下模块、线上模块和存储模块;
所述线上模块,用于分析接收到的搜索词,并得到所述搜索词的前缀树和后缀树;并根据所述搜索词的前缀树和后缀树,从所述线下模块存储的基本联想词词库和个性化联想词词库中得到联想词集合,所述基本联想词词库至少包括搜索频率大于等于预设门限的搜索词,所述个性化联想词词库包括从对应用户的搜索日志中提取的搜索词;并从所述联想词集合中提取指定数量的词组,并反馈至用户设备;
所述线下模块,用于根据所述存储模块中存储的业务数据,建立并更新所述基本联想词词库和所述个性化联想词词库,所述业务数据至少包括:各搜索词的搜索频率和对应用户的搜索日志。
10.根据权利要求9所述的***,其特征在于,所述线下模块,具体用于获取原始词组,并根据所述原始词组建立所述个性化联想词词库,所述原始词组包括从搜索存储模块获取的热搜词、商品清单目录中记录的点击量高于阈值的目录词,和/或从人工维护的词库中提取的人工词;
所述线上模块,具体用于从基本联想词词库和个性化联想词词库中得到与所述搜索词完全匹配的词组、与所述搜索词的前缀树匹配的词组,和与所述搜索词的后缀树匹配的词组;并在所述联想词集合中,将所述与所述搜索词完全匹配的词组按照关联程度高于所述与所述搜索词的前缀匹配的词组的顺序排列,并将所述与所述搜索词的前缀匹配的词组按照关联程度高于所述与所述搜索词的后缀匹配的词组的顺序排列;
所述线上模块,具体还用于根据预设的关联规则,对所述联想词集合中词组按照关联程度由高至低的顺序排序;并按照所述联想词集合中词组的排列结果,提取所述指定数量的词组;
所述线上模块,具体还用于根据所述搜索词的前缀树中表示中文,拼音或简拼的字符,从所述基本联想词词库和所述个性化联想词词库中得到与所述搜索词的前缀树匹配的词组;当从所述基本联想词词库和所述个性化联想词词库中得到的与所述搜索词的前缀树匹配的词组数量小于最低值时,采用所述搜索词的后缀树进行补充搜索;
所述线上模块,具体还用于在得到所述联想词集合后,对于所述联想词集合中任意两个词组,获取所述两个词组之间的相似度;并根据所述两个词组之间的相似度判定所述两个词组是否相似,若是则作去重处理。
CN201610615378.1A 2016-07-29 2016-07-29 一种用于搜索业务的词汇处理方法及*** Pending CN107665217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610615378.1A CN107665217A (zh) 2016-07-29 2016-07-29 一种用于搜索业务的词汇处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610615378.1A CN107665217A (zh) 2016-07-29 2016-07-29 一种用于搜索业务的词汇处理方法及***

Publications (1)

Publication Number Publication Date
CN107665217A true CN107665217A (zh) 2018-02-06

Family

ID=61115793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610615378.1A Pending CN107665217A (zh) 2016-07-29 2016-07-29 一种用于搜索业务的词汇处理方法及***

Country Status (1)

Country Link
CN (1) CN107665217A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446316A (zh) * 2018-02-07 2018-08-24 北京三快在线科技有限公司 联想词的推荐方法、装置、电子设备及存储介质
CN109582155A (zh) * 2018-11-23 2019-04-05 北京字节跳动网络技术有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN109635076A (zh) * 2018-12-14 2019-04-16 平安城市建设科技(深圳)有限公司 线索管理方法、装置、终端及计算机可读存储介质
CN109739948A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN110597956A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111737986A (zh) * 2020-05-15 2020-10-02 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及***
CN113792209A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 搜索词生成方法、***及计算机可读存储介质
WO2022012205A1 (zh) * 2020-07-15 2022-01-20 华为技术有限公司 词补全方法和装置
CN115314737A (zh) * 2021-05-06 2022-11-08 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
CN115630154A (zh) * 2022-12-19 2023-01-20 竞速信息技术(廊坊)有限公司 一种面向大数据环境的动态摘要信息构建方法及***
US11947608B2 (en) 2020-05-15 2024-04-02 Shenzhen Sekorm Component Network Co., Ltd Search term recommendation method and system based on multi-branch tree

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063508A (zh) * 2011-01-10 2011-05-18 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法
CN103258023A (zh) * 2013-05-07 2013-08-21 百度在线网络技术(北京)有限公司 搜索候选词的推荐方法及搜索引擎
CN103631929A (zh) * 2013-12-09 2014-03-12 江苏金智教育信息技术有限公司 一种用于搜索的智能提示的方法、模块和***
CN105224554A (zh) * 2014-06-11 2016-01-06 阿里巴巴集团控股有限公司 推荐搜索词进行搜索的方法、***、服务器和智能终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063508A (zh) * 2011-01-10 2011-05-18 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法
CN103258023A (zh) * 2013-05-07 2013-08-21 百度在线网络技术(北京)有限公司 搜索候选词的推荐方法及搜索引擎
CN103631929A (zh) * 2013-12-09 2014-03-12 江苏金智教育信息技术有限公司 一种用于搜索的智能提示的方法、模块和***
CN105224554A (zh) * 2014-06-11 2016-01-06 阿里巴巴集团控股有限公司 推荐搜索词进行搜索的方法、***、服务器和智能终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李卫等: "基于全信息的网络文本信息去重算法研究", 《中国工人智能学会第11届全国学术年会论文集 (下册) 中国人工智能进展 2005[M]》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446316A (zh) * 2018-02-07 2018-08-24 北京三快在线科技有限公司 联想词的推荐方法、装置、电子设备及存储介质
CN110286775A (zh) * 2018-03-19 2019-09-27 北京搜狗科技发展有限公司 一种词库管理方法及装置
CN109582155B (zh) * 2018-11-23 2023-05-16 抖音视界有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN109582155A (zh) * 2018-11-23 2019-04-05 北京字节跳动网络技术有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN109635076A (zh) * 2018-12-14 2019-04-16 平安城市建设科技(深圳)有限公司 线索管理方法、装置、终端及计算机可读存储介质
CN109739948A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质
CN110597956A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN110597956B (zh) * 2019-09-09 2023-09-26 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111737986A (zh) * 2020-05-15 2020-10-02 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及***
US11947608B2 (en) 2020-05-15 2024-04-02 Shenzhen Sekorm Component Network Co., Ltd Search term recommendation method and system based on multi-branch tree
WO2022012205A1 (zh) * 2020-07-15 2022-01-20 华为技术有限公司 词补全方法和装置
CN115314737A (zh) * 2021-05-06 2022-11-08 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
CN113792209A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 搜索词生成方法、***及计算机可读存储介质
CN113792209B (zh) * 2021-08-13 2024-02-02 唯品会(广州)软件有限公司 搜索词生成方法、***及计算机可读存储介质
CN115630154A (zh) * 2022-12-19 2023-01-20 竞速信息技术(廊坊)有限公司 一种面向大数据环境的动态摘要信息构建方法及***

Similar Documents

Publication Publication Date Title
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及***
CN103488648B (zh) 一种多语种混合检索方法和***
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及***
US7739257B2 (en) Search engine
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN108846056A (zh) 一种科技成果评审专家推荐方法及装置
CN103927358A (zh) 文本检索方法及***
CN106708929B (zh) 视频节目的搜索方法和装置
KR20100113423A (ko) 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
CN103927339B (zh) 知识重组***和知识重组方法
CN101350027A (zh) 内容检索设备和内容检索方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索***
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
TW202111688A (zh) 基於人工智慧的商務智慧系統及其分析方法
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN102385597B (zh) 一种poi的容错搜索方法
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
JP2013029891A (ja) 抽出プログラム、抽出方法及び抽出装置
CN110245215B (zh) 一种文本检索方法和装置
CN108932247A (zh) 一种优化文本搜索的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180206

RJ01 Rejection of invention patent application after publication