CN107665220A - 一种用于搜索业务的处理方法及*** - Google Patents

一种用于搜索业务的处理方法及*** Download PDF

Info

Publication number
CN107665220A
CN107665220A CN201610617599.2A CN201610617599A CN107665220A CN 107665220 A CN107665220 A CN 107665220A CN 201610617599 A CN201610617599 A CN 201610617599A CN 107665220 A CN107665220 A CN 107665220A
Authority
CN
China
Prior art keywords
search
search term
user terminal
association
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610617599.2A
Other languages
English (en)
Inventor
陈亚
邓凯
李菁
程进兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Commerce Group Co Ltd
Original Assignee
Suning Commerce Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Commerce Group Co Ltd filed Critical Suning Commerce Group Co Ltd
Priority to CN201610617599.2A priority Critical patent/CN107665220A/zh
Publication of CN107665220A publication Critical patent/CN107665220A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种用于搜索业务的处理方法及***,涉及互联网技术领域,缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题。本发明包括:从指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。本发明适用于改进搜索词的反馈机制。

Description

一种用于搜索业务的处理方法及***
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于搜索业务的处理方法及***。
背景技术
随着在线购物平台所能够提供的产品的品类、数量的不断增加,用户搜索所需产品的准确度呈现下降趋势,以至于在每次的购物过程中,常常需要多次改变自己的搜索词才能找到自己真正需要的产品。
目前各大在线购物平台,主要采用搜索与推广相结合的方案,来优化用户的购物体验,比如:改进反馈给用户的搜索结果,并获取更多的相关商品反馈给用户;同时还通过广告推荐/推广、自动推出商品子版块等方式将商品信息向用户推送。但是,所反馈的搜索结果越多,以及广告推荐/推广的越多,或者商品的子版块越设越多,就需要用户端的设备消耗流量下载大量的文本、图片等数据,尤其是当一次搜索反馈的结果还不准确时,需要用户再次进行搜索操作,这样又进一步增加了流量的消耗。
另一方面,就用户键入的搜索词,目前也提供了展示同义词、或是相关联的搜索结果的方式,但是这类方式,主要还是由搜索服务提供商通过竞价排名的方式确定所展示的同义词以及相关联的搜索结果,依然不能满足用户对于一次搜索后的准确性的要求。
综上所述,目前的搜索改进方案,虽然通过扩充搜索反馈的结果,以及广告推荐、推广的手段,为用户提供了更加丰富的搜索结果,但是同时也增加了用户的数据流量的消耗,尤其是当一次搜索反馈的结果还不准确时,用户再次进行的搜索操作会进一步增加流量的消耗。
发明内容
本发明的实施例提供一种用于搜索业务的处理方法及***,能够缓减用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,并减少了流量的消耗。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供的方法,包括:从指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。
结合第一方面,在第一方面的第一种可能的实现方式中,还包括:在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。
结合第一方面,在第一方面的第二种可能的实现方式中,还包括:在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;利用所述订单数据,从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,并提高对应相同商品信息的搜索词之间的关联程度参数。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,包括:从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联。
结合第一方面,在第一方面的第四种可能的实现方式中,还包括:统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。
结合第一方面,在第一方面的第五种可能的实现方式中,所述根据所述用户终端发送的搜索词查询排序结果,包括:将所述用户终端发送的搜索词分成至少两个最小分析单元,其中,每个最小分析单元被赋予词属性,所述词属性包括特征词性和备选改写词;根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,并获取所符合的关联规则对应的排序结果。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,还包括:从数据源获取产品数据,所述数据源包括:仓库产品目录表、公共字库词库平台和开放电商资源平台;根据所述产品数据提取得到对应不同类别的产品信息的词库,其中,词库中产品信息的类别包括:产品名称、型号、品牌、颜色、材质、特质、风格、款式;对得到的词库中的词打上标签,并利用最大期望算法迭代增强打上标签的词,得到基本字典;所述将所述用户终端发送的搜索词分成至少两个最小分析单元,包括:利用所述基本字典中的词和所述词属性,通过所述隐马尔科夫模型,将所述用户终端发送的搜索词分成至少两个最小分析单元。
结合第一方面的第五或六种可能的实现方式,在第七种可能的实现方式中,所述根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,包括:获取各个最小分析单元之间的语义关系,并根据所述语义关系确定各个最小分析单元之间的语境规则;根据各个最小分析单元的词属性、所述语义关系和所述语境规则,确定所述至少两个最小分析单元所符合的关联规则。
第二方面,本发明的实施例提供的***,包括:离线模块、在线模块和存储模块,所述存储模块,用于存储搜索日志;所述离线模块,用于从所述存储模块存储的指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;所述在线模块,用于当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;并根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。
结合第二方面,在第二方面的第一种可能的实现方式中,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数;或者,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;并利用所述订单数据,从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联;并提高对应相同商品信息的搜索词之间的关联程度参数;或者,所述离线模块,还用于统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。
本发明实施例提供的用于搜索业务的处理方法及***,通过数据挖掘找到搜索日志中搜索词之间的关联,通过提供关键词建议的方式,为用户提供其他用户曾经使用过的相关搜索词,帮助用户找到需要的商品,从而缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,提高用户搜索体验,也减少了流量的消耗。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的***架构示意图;
图2为本发明实施例提供的用于搜索业务的处理方法的流程示意图;
图3a为本发明实施例提供的一种具体实例中的界面示意图;
图3b为本发明实施例提供的另一种具体实例中的界面示意图;
图4为本发明实施例提供的用于搜索业务的处理***的架构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本实施例中的方法流程,具体可以在一种如图1所示的用于搜索业务的处理***上执行,其中包括:离线模块、在线模块和数据库。本实施例中所揭示的离线模块以及在线模块,具体可以是服务器、工作站、超级计算机等设备,或者是由多个服务器组成的一种用于数据处理的服务器集群***。
数据库具体可以是一种Redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群***。
在本实施例中,离线模块具体可以用于从指定时间段内的搜索日志中提取搜索词,比如:提取并分析用户最近1周、1个月或者其他时间范围内生成的搜索日志,先通过预处理规则将所提取的搜索词规范成为可以正确处理的格式。再将所提取的搜索词按照关联程度排序,并将排序结果存储至数据库,比如存储在Redis数据库,以便线上模块通过访问、查询数据库读取排序结果。
在本实施例中,数据库具体可以用于存储***在运行过程中生成的搜索日志(比如:包括了用户终端在一个会话时间段内的连续发送的搜索词的搜索日志)、离线模块生成的排序结果、用户终端在下单过程中***产生的订单数据,其中订单数据包括订单所指向商品的商品信息等;所述数据源包括:存储在数据库的仓库产品目录表,所述数据库也可作为公共字库词库平台和开放电商资源平台的数据库,或者与公共字库词库平台和开放电商资源平台的数据库相连并进行数据交互。也可以是,离线模块在于数据库进行数据交互的同时,也与公共字库词库平台和开放电商资源平台的数据库相连并进行数据交互。
在本实施例中,在线模块具体可以实现为一种搜索服务器或者用于搜索服务的服务器集群,在线模块用于根据用户输入用户设备的搜索词,通过预处理规则将用户输入的搜索词规范成为可以正确处理的格式后,查询数据库得到关联搜索词集合,并将关联搜索词集合返回给用户设备。用户设备具体可以实做成单独一台装置,或整合于各种不同的媒体数据播放装置中,诸如机顶盒、移动电话、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、多媒体播放器、数字摄影机、个人数字助理(personal digitalassistant,简称PDA)、导航装置、移动上网装置(Mobile Internet Device,MID)或可穿戴式设备(Wearable Device)等。
本发明实施例提供一种用于搜索业务的处理方法,如图2所示,包括:
S1、从指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序。
其中,指定时间段可以根据具体的业务场景设定,在本实施例中并不限定为某一个固定不变的时间范围,例如:提取并分析用户最近1周、1个月、每个季度或者其他时间范围内生成的搜索日志;再例如:用户终端与在线模板的一个会话时间段可以作为所述指定时间段。
在本实施例中,搜索词具体可以理解为通过分析大量搜索过某产品的用户的搜索日志,经过统计得到的用于描述产品的词组,搜索词之间存在关联则表示一些产品之间存在的联系。
S2、当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果。
其中,对接收到用户终端发送的搜索词进行预处理后,查询数据库。并根据数据库中相关词数量的多少及质量的高低,查询并确定排序结果,其中,排序结果包括按照关联程度进行排序的词组。
在本实施例中,对接收到用户终端发送的搜索词进行的预处理,可以包括:若用户终端发送的搜索词为错别字,或者识别为无意义的词组,则在线模块可以根据在关联受欢迎程度较高的同音词,或者字形相近的词组,并自动纠错为这些同音词或者字形相近的词组,比如:输入搜索词“平果”后,在线模块可以根据在关联受欢迎程度较高的同音词,比如“苹果”并进行自动纠错。
S3、根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。
其中,在线模块可以智能去除关联搜索词集合中重复或相近的推荐词。需要说明的是,排序结果可以从一个Redis中调取,也可以从其它Redis中调用词组,并根据所确定的排序结果和相关词,得到关联搜索词集合并向用户设备反馈。例如:接收到用户终端发送的搜索词“XX牌”,查询数据库得到搜索词“XX牌”关联了“XX牌手机4S”、“XX牌手机3”、“XX牌手机2S”等表示“XX牌”手机的型号的词组,并且按照型号新旧排序。或者,从其它Redis中调用词组,在其它Redis中的排序结果为“XX牌平板”、“XX牌平板mini”,则可以得到包括指定数量的词组的关联搜索词集合,关联搜索词集合中各词组的顺序可以按照关联程度再次排序,比如:依次排列完成第一排序结果的词组(“XX牌手机4S”、“XX牌手机3”、“XX牌手机2S”)后,继续排列从其它Redis中调用词组(“XX牌平板”、“XX牌平板mini”)。在实际应用中,由于用户设备显示屏幕的大小,关联搜索词集合中词组的数量可以为5-7个,并如图3a所示的显示在用户设备所示界面的搜索框下方列表,或者如图3b所示的显示在用户设备所示界面的悬浮框中,或者采用其他的界面规划方案显示关联搜索词集合,以便于用户点击所显示的关联搜索词集合中词组。
本发明实施例提供的用于搜索业务的处理方法,通过数据挖掘找到搜索日志中搜索词之间的关联,通过提供关键词建议的方式,为用户提供其他用户曾经使用过的相关搜索词,帮助用户找到需要的商品,从而缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,提高用户搜索体验,也减少了流量的消耗。
在现有大部分的电子商务平台,以及在线购物平台中,主要采用的是基于用户的cookie和历史记录改善搜索结果的“个性化”搜索方案,这就需要针对每一个用户实时采集并维护cookie和历史记录,再改良并推送针对每一个用户的搜索结果,需要占用并消耗大量的网络资源,成本较高且难以普及至所有用户,往往是针对部分核心用户或者VIP用户推出的“个性化”搜索服务。并且由于这类“个性化”搜索方案,需要锁定每一个用户并进行实时跟踪、采集cookie和历史记录,使得用户的隐私存在被泄露的风险,对于用户来说安全性较差。相对于现有的“个性化”的搜索方案,
在本实施例中,在将所提取的搜索词按照关联程度排序之前,还包括:从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。例如:用户在一个会话时间段内的连续搜索词是有关联的,若将一个会话时间段设置为30分钟,则从三十分钟内的搜索日志中提取用户输入的搜索词,比如:在这30分钟内用户连续通过用户设备输入了“YY牌手机6s”、“YY牌手机6s plus”、“YY牌手机6s 16G”,则这几个搜索词存在会话相关性,离线模块可以提高这些搜索词之间的关联程度参数。
在本实施例中,提供一种对于关联程度进行量化的方式,即搜索词之间的关联程度参数的具体获取方式包括:
根据所记录的user session(用户会话)中出现的搜索词,通过统计搜索词的个数,以及每个搜索词出现的user session(用户会话)中同时出现的其他搜索词的个数,计算得出这个搜索词与其他搜索词的关联程度参数。例如:调取记录文件,记录文件包括在同一个user session(用户会话)中出现的搜索词,比如:记录文件包括user session1:{A牌冰箱,冰箱,B牌冰箱,双门冰箱}、user session2:{A牌冰箱,B牌冰箱}、user session3:{双门冰箱,A牌冰箱}。离线模块统计每个搜索词出现的次数,以及在一个user session(用户会话)内同时出现的其他搜索词的个数,并根据统计得到的结果进行计算关联程度参数,例如:A牌冰箱总共出现3次,B牌冰箱出现2次,而A牌冰箱和B牌冰箱一起出现的次数为2,则这两者的关联度为:一起出现次数/((A出现次数+B出现次数)/2),即2/((2+3)/2)=2/2.5=0.8,则得到A牌冰箱与B牌冰箱的关联程度参数=0.8。
可选的,在本实施例中,在将所提取的搜索词按照关联程度排序之前,还包括:读取所述指定时间段内的订单数据。并利用所述订单数据,从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,并提高对应相同商品信息的搜索词之间的关联程度参数。其中,订单数据具体可以是用户通过用户设备访问在线购物平台浏览商品并下单的过程中生成的数据,订单数据至少包括商品表示,还可以包括浏览信息、商品信息、物流信息等数据。
具体的,所述从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词的具体方式,包括:从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息。当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联。例如:一个或多个用户通过不同的搜索词进行搜索,最终点击或购买了相同的产品,比如A用户搜索“苹果6s金色”,在返回结果页面点击了产品ID为001的产品,用户B搜索“iphone 6s土豪金16G”,在返回结果页面同样点击了产品ID为001的产品,则上述搜索词具有点击相关性,是相关的。
进一步的,搜索词之间的关联程度参数还可以通过搜索词在其他方面的相关性联系和一些系数加成,比如:顶级热词加成、产品品类相同加成等。
可选的,在本实施例中还包括:统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词。并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。
离线模块通过自学习功能更新搜索词的排序结果,比如用户输入搜索词“苹果手机”,返回给用户设备的关联搜索词集合包括“iphone 6s plus 64G玫瑰金”、“苹果手机6s16G银色”、“iphone 6金色”。当统计到指定数量的用户在输入相同的搜索词,比如“苹果手机”之后又点击了关联搜索词集合中的词组的链接比如“iphone 6s plus 64G玫瑰金”的链接,则说明搜索“苹果手机”的用户可能更想搜索的是“iphone 6s plus 64G玫瑰金”,则对于被大量点击的关联搜索词集合中的词组在以后的算分过程中会得到进一步加分处理,使得其在排序结果中更加靠前,以及在返回的关联搜索词集合中的词组中更加靠前。
在本实施例中,搜索词具体由离线模块通过数据挖掘大量搜索过某产品的用户的搜索日志,找出用户搜索词之间的关联,并根据用户的搜索词给出若干个相关的词组(关联搜索词集合中的词组)供用户选择,即相对于现有的根据用户的个性化信息进行改进搜索结果并返回给用户的方案,本实施例返回给用户的还是词组,在优化搜索准确性的方面,避免了返回搜索结果时需要加载搜索结果、图片等大量数据,消耗流量大且反映慢的问题。由于返回给用户的词组是离线模块基于搜索词之间的关联关系排序得到,综合考虑用户的点击模式和会话中的共现模式生成备选的搜索词,着眼于分析用户反馈信息,挖掘各种搜索词之间的关联,在用户输入搜索词之后,推荐高质量的相关词组,引导用户进行搜索。从而向用户提供更加准确的搜索词,或者是更加符合用户搜索意图的搜索词,又或者是用户可能搜索完当前搜索词想要进行的下一次搜索的搜索词。使得推荐结果的相关性得到提升,能帮助用户进一步明确或缩小搜索目标和范围,缩短用户搜索时间。且在满足用户不同搜索需求的同时,帮助用户规范化搜索词,提高推荐和搜索准确率,从而提高点击购买转换率。
并且本实施例中,关联搜索词集合中的词组实质上由离线模块通过数据挖掘得到,且与用户设备进行数据交互的功能由在线模块承担,因此本实施例的***架构能够基于目前常用的业务***(比如:具备用于与用户进行数据交互的前端服务器和用于后台数据处理的后台服务器)布置,降低了使用成本。并且相对于现有技术,本实施例中不需锁定每一个用户并进行实时跟踪、采集cookie和历史记录,因此不需要占用过多的网络资源,也降低了用户的隐私被泄露的风险,提高安全性。
在本实施例中,还提供一种对搜索词进行分析的方法,基于中文自然语言处理技术,从不同信息源挖掘,分析数据生成分类以及相关词库,然后根据自然语言处理后的搜索词结果进行改写,深度语义理解、分析,并生成可以被不同电子商务平台,供应商使用的通用格式的结果。尤其是用于所述根据所述用户终端发送的搜索词查询排序结果,其中包括:
101,将所述用户终端发送的搜索词分成至少两个最小分析单元,其中,每个最小分析单元被赋予词属性,所述词属性包括特征词性和备选改写词。
102,根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,并获取所符合的关联规则对应的排序结果。
对于101,在本实施例中,可以通过挖掘和爬取产品数据,提取词库、建立词库之间对应关系,并生成基本字典,其中具体包括:从数据源获取产品数据,所述数据源包括:仓库产品目录表、公共字库词库平台和开放电商资源平台。例如:利用数据挖掘和网络爬虫技术,从仓库产品目录表,公共字库词库平台(互动百科)和开放电商资源平台(概括来说,可以说是公共的互联网络)挖掘出详细的产品数据。并根据所述产品数据提取得到对应不同类别的产品信息的词库,其中,词库中产品信息的类别包括:产品名称、型号、品牌、颜色、材质、特质、风格、款式。例如:通过机器学习和数据挖掘技术提取出相应地各类词库,主要词库有:产品名称、型号、品牌、颜色、材质、特质、风格、款式等。再对得到的词库中的词打上标签,并利用最大期望算法迭代增强打上标签的词,得到基本字典。具体的,使用隐马尔科夫模型(Hidden Markov Model)给词库中的词打上标签,并利用最大期望算法(Expectation-maximization algorithm)迭代增强,改善该模型,用这些词库作为中文自然语言处理和语义分析的基本字典。
所述将所述用户终端发送的搜索词分成至少两个最小分析单元的具体方式,包括:利用所述基本字典中的词和所述词属性,通过所述隐马尔科夫模型,将所述用户终端发送的搜索词分成至少两个最小分析单元。例如:利用基本词典中的词及其属性建立隐马尔科夫模型,将用户输入的原始搜索词分成多个最小分析单元,并且赋予每个最小分析单元特征词性、特征、可能的改写等属性,比如:用户输入‘10kg’,***会会自动识别为‘十公斤’,或者当用户输入‘篮色’,***检测到这并不是一个词并提醒可能的改写为‘蓝色’。
对于102,可以通过分析单元之间的关联、规律等解析出用户的搜索意愿。即所述根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,包括:
获取各个最小分析单元之间的语义关系,并根据所述语义关系确定各个最小分析单元之间的语境规则。并根据各个最小分析单元的词属性、所述语义关系和所述语境规则,确定所述至少两个最小分析单元所符合的关联规则。例如:
当出现字母时,首先将字母划分为产品型号,拼音,英文和单位。使用LALR(Look-Ahead Left Recursive)语法分析器判定型号和单位。使用词典查找判定拼音和英文。同时我们也使用LALR语法分析器分析词和词之间的语义关系,比如‘价格不超过五百元’。并结合语境,对词语进行语义分析,从而能够分辨出‘苹果’一词在‘苹果手机’和‘苹果馅饼’中不同的含义。在分词之后,从词库中找到各个词的属性,从而为各个词赋予不同的权重,使得***能够识别到‘三星手机’的侧重点在于‘手机’,而‘苹果手机壳’的侧重点在于‘壳’。
经过对搜索词的自然语言处理和分析,生成与搜索词相关的特征列表,该特征列表涵盖了搜索词的字面含义,从字面提取的属性以及隐藏的属性,比如:价格范围、颜色、材质、型号、品牌、改写等等。根据特征列表,搜索引擎可以更准确的对搜索词进行搜索并确定排序结果,还可给予关键属性更大的比重,从而改善搜索效果,提高召回率。
本发明实施例还提供一种用于搜索业务的处理***,如图4所示包括:离线模块、在线模块和存储模块,所述存储模块,用于存储搜索日志。
所述离线模块,用于从所述存储模块存储的指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序。
所述在线模块,用于当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;并根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。
具体的,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。
或者,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;并利用所述订单数据,从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联;并提高对应相同商品信息的搜索词之间的关联程度参数。
或者,所述离线模块,还用于统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。
本发明实施例提供的用于搜索业务的处理***,通过数据挖掘找到搜索日志中搜索词之间的关联,通过提供关键词建议的方式,为用户提供其他用户曾经使用过的相关搜索词,帮助用户找到需要的商品,从而缓减了用户多次改变自己的搜索词才能找到自己真正需要的产品的问题,提高用户搜索体验,也减少了流量的消耗。
其中,搜索词具体由离线模块通过数据挖掘大量搜索过某产品的用户的搜索日志,找出用户搜索词之间的关联,并根据用户的搜索词给出若干个相关的词组(关联搜索词集合中的词组)供用户选择,即相对于现有的根据用户的个性化信息进行改进搜索结果并返回给用户的方案,本实施例返回给用户的还是词组,在优化搜索准确性的方面,避免了返回搜索结果时需要加载搜索结果、图片等大量数据,消耗流量大且反映慢的问题。由于返回给用户的词组是离线模块基于搜索词之间的关联关系排序得到,综合考虑用户的点击模式和会话中的共现模式生成备选的搜索词,着眼于分析用户反馈信息,挖掘各种搜索词之间的关联,在用户输入搜索词之后,推荐高质量的相关词组,引导用户进行搜索。从而向用户提供更加准确的搜索词,或者是更加符合用户搜索意图的搜索词,又或者是用户可能搜索完当前搜索词想要进行的下一次搜索的搜索词。使得推荐结果的相关性得到提升,能帮助用户进一步明确或缩小搜索目标和范围,缩短用户搜索时间。且在满足用户不同搜索需求的同时,帮助用户规范化搜索词,提高推荐和搜索准确率,从而提高点击购买转换率。
并且本实施例中,关联搜索词集合中的词组实质上由离线模块通过数据挖掘得到,且与用户设备进行数据交互的功能由在线模块承担,因此本实施例的***架构能够基于目前常用的业务***(比如:具备用于与用户进行数据交互的前端服务器和用于后台数据处理的后台服务器)布置,降低了使用成本。并且相对于现有技术,本实施例中不需锁定每一个用户并进行实时跟踪、采集cookie和历史记录,因此不需要占用过多的网络资源,也降低了用户的隐私被泄露的风险,提高安全性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种用于搜索业务的处理方法,其特征在于,包括:
从指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;
当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;
根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。
2.根据权利要求1所述的方法,其特征在于,还包括:
在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数。
3.根据权利要求1所述的方法,其特征在于,还包括:
在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;
利用所述订单数据,从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,并提高对应相同商品信息的搜索词之间的关联程度参数。
4.根据权利要求3所述的方法,其特征在于,所述从所述指定时间段内的搜索日志中提取对应相同商品信息的搜索词,包括:
从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;
当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联。
5.根据权利要求1所述的方法,其特征在于,还包括:
统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;
根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。
6.根据权利要求1所述的方法,其特征在于,所述根据所述用户终端发送的搜索词查询排序结果,包括:
将所述用户终端发送的搜索词分成至少两个最小分析单元,其中,每个最小分析单元被赋予词属性,所述词属性包括特征词性和备选改写词;
根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,并获取所符合的关联规则对应的排序结果。
7.根据权利要求6所述的方法,其特征在于,还包括:
从数据源获取产品数据,所述数据源包括:仓库产品目录表、公共字库词库平台和开放电商资源平台;
根据所述产品数据提取得到对应不同类别的产品信息的词库,其中,词库中产品信息的类别包括:产品名称、型号、品牌、颜色、材质、特质、风格、款式;
对得到的词库中的词打上标签,并利用最大期望算法迭代增强打上标签的词,得到基本字典;
所述将所述用户终端发送的搜索词分成至少两个最小分析单元,包括:利用所述基本字典中的词和所述词属性,通过所述隐马尔科夫模型,将所述用户终端发送的搜索词分成至少两个最小分析单元。
8.根据权利要求6或7所述的方法,其特征在于,所述根据所述至少两个最小分析单元的词属性,确定所述至少两个最小分析单元所符合的关联规则,包括:
获取各个最小分析单元之间的语义关系,并根据所述语义关系确定各个最小分析单元之间的语境规则;
根据各个最小分析单元的词属性、所述语义关系和所述语境规则,确定所述至少两个最小分析单元所符合的关联规则。
9.一种用于搜索业务的处理***,其特征在于,包括:离线模块、在线模块和存储模块,所述存储模块,用于存储搜索日志;
所述离线模块,用于从所述存储模块存储的指定时间段内的搜索日志中提取搜索词,将所提取的搜索词按照关联程度排序;
所述在线模块,用于当接收到用户终端发送的搜索词后,根据所述用户终端发送的搜索词查询排序结果;并根据查询得到的排序结果确定关联搜索词集合,将所述关联搜索词集合向用户终端发送。
10.根据权利要求9所述的处理***,其特征在于,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,从所述指定时间段内的搜索日志中,提取所述用户终端在一个会话时间段内的连续发送的搜索词,并提高所述连续发送的搜索词之间的关联程度参数;
或者,所述离线模块,还用于在将所提取的搜索词按照关联程度排序之前,读取所述指定时间段内的订单数据;并利用所述订单数据,从所述指定时间段内的搜索日志中提取至少两个不同的搜索词,并获取在对应所述至少两个不同的搜索词的搜索操作后,点击操作或者下单操作所指向的商品信息;当指向相同的商品信息时,则判定所述至少两个不同的搜索词之间存在关联;并提高对应相同商品信息的搜索词之间的关联程度参数;
或者,所述离线模块,还用于统计指定数量的用户终端发送的选择消息,并得到所述关联搜索词集合中各搜索词被选择的次数,所述选择消息用于表示用户操作用户终端从所述关联搜索词集合中所选择的搜索词;并根据所述关联搜索词集合中各搜索词被选择的次数,更新所述排序结果。
CN201610617599.2A 2016-07-29 2016-07-29 一种用于搜索业务的处理方法及*** Pending CN107665220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617599.2A CN107665220A (zh) 2016-07-29 2016-07-29 一种用于搜索业务的处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617599.2A CN107665220A (zh) 2016-07-29 2016-07-29 一种用于搜索业务的处理方法及***

Publications (1)

Publication Number Publication Date
CN107665220A true CN107665220A (zh) 2018-02-06

Family

ID=61122155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617599.2A Pending CN107665220A (zh) 2016-07-29 2016-07-29 一种用于搜索业务的处理方法及***

Country Status (1)

Country Link
CN (1) CN107665220A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457427A (zh) * 2018-05-04 2019-11-15 拉萨经济技术开发区凯航科技开发有限公司 一种搜索语句处理方法
CN111488434A (zh) * 2019-01-25 2020-08-04 北京字节跳动网络技术有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN112163003A (zh) * 2020-10-14 2021-01-01 广州学而优信息技术有限公司 一种基于结构化数据的关联词语检索方法
WO2022088731A1 (zh) * 2020-11-02 2022-05-05 北京搜狗科技发展有限公司 一种数据处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN103279504A (zh) * 2013-05-10 2013-09-04 百度在线网络技术(北京)有限公司 一种基于歧义消解的搜索方法及装置
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和***
CN104166700A (zh) * 2014-08-01 2014-11-26 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN104679784A (zh) * 2013-12-03 2015-06-03 上海博科资讯股份有限公司 一种o2b智能搜索方法及***
CN104933100A (zh) * 2015-05-28 2015-09-23 北京奇艺世纪科技有限公司 关键词推荐方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN103279504A (zh) * 2013-05-10 2013-09-04 百度在线网络技术(北京)有限公司 一种基于歧义消解的搜索方法及装置
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和***
CN104679784A (zh) * 2013-12-03 2015-06-03 上海博科资讯股份有限公司 一种o2b智能搜索方法及***
CN104166700A (zh) * 2014-08-01 2014-11-26 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN104933100A (zh) * 2015-05-28 2015-09-23 北京奇艺世纪科技有限公司 关键词推荐方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457427A (zh) * 2018-05-04 2019-11-15 拉萨经济技术开发区凯航科技开发有限公司 一种搜索语句处理方法
CN111488434A (zh) * 2019-01-25 2020-08-04 北京字节跳动网络技术有限公司 输入联想词的推荐方法、装置、存储介质及电子设备
CN112163003A (zh) * 2020-10-14 2021-01-01 广州学而优信息技术有限公司 一种基于结构化数据的关联词语检索方法
WO2022088731A1 (zh) * 2020-11-02 2022-05-05 北京搜狗科技发展有限公司 一种数据处理方法及装置

Similar Documents

Publication Publication Date Title
US11023513B2 (en) Method and apparatus for searching using an active ontology
CN103853824B (zh) 一种基于深度语义挖掘的内文广告发布方法与***
CN103279557B (zh) 关联词登记装置、信息处理装置以及关联词登记方法
CN105164710B (zh) 用于提供搜索结果的方法和服务器
US8812505B2 (en) Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference
CN106909663B (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN109684538A (zh) 一种基于用户个人特征的推荐方法及推荐***
CN106682192A (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
US20110153595A1 (en) System And Method For Identifying Topics For Short Text Communications
US20090265307A1 (en) System and method for automatically producing fluent textual summaries from multiple opinions
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN103425714A (zh) 一种搜索方法和***
CN102906744A (zh) 无限浏览
CN109801119B (zh) 界面展示、信息提供、用户行为内容信息处理方法及设备
CN107665220A (zh) 一种用于搜索业务的处理方法及***
CN107562939A (zh) 垂直领域新闻推荐方法、装置及可读储存介质
CN105488221A (zh) 一种在搜索界面推荐查询词进行搜索的方法和***
CN105931082B (zh) 一种商品类目关键词提取方法和装置
CN105243058A (zh) 一种网页内容翻译方法及电子设备
CN105989125B (zh) 对无结果词进行标签识别的搜索方法和***
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN104503988A (zh) 搜索方法及装置
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN115760295A (zh) 一种基于近邻用户和评论信息的商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180206