CN110795613A - 商品搜索方法、装置、***及电子设备 - Google Patents

商品搜索方法、装置、***及电子设备 Download PDF

Info

Publication number
CN110795613A
CN110795613A CN201810789367.4A CN201810789367A CN110795613A CN 110795613 A CN110795613 A CN 110795613A CN 201810789367 A CN201810789367 A CN 201810789367A CN 110795613 A CN110795613 A CN 110795613A
Authority
CN
China
Prior art keywords
search
commodity
word
central
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810789367.4A
Other languages
English (en)
Other versions
CN110795613B (zh
Inventor
王浩
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810789367.4A priority Critical patent/CN110795613B/zh
Publication of CN110795613A publication Critical patent/CN110795613A/zh
Application granted granted Critical
Publication of CN110795613B publication Critical patent/CN110795613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了商品搜索***,商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。其中,商品搜索***中的搜索服务器接收客户端发送的针对用户指定搜索词的商品搜索请求,若搜索词是零少结果词,则通过中心词提取模型,提取搜索词的中心词,确定与中心词匹配的商品对象,向客户端回送商品对象,其中所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的模型。采用这种处理方式,使得通过中心词提取模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升中心词提取效率及准确率,提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。

Description

商品搜索方法、装置、***及电子设备
技术领域
本申请涉及搜索技术领域,具体涉及一种商品搜索***,商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。
背景技术
生鲜电商随着电子商务的发展大趋势而发展。在生鲜类商品搜索场景中,由于搜索词的选取、及生鲜类商品的业务特性等原因,经常出现无法搜索到商品或只能搜索到很少数量商品的问题,即搜索零少结果。为了避免出现搜索零少结果,需要对搜索词进行语义处理,确定其中心词,并根据中心词进行商品搜索,以提升搜索结果的召全率。
一种典型的搜索词的中心词确定方法是,通过人工走查或者日志排查的方式确定零少结果的搜索词(简称零少结果词),并由人工确定零少结果词的中心词。其中,人工走查方式,是指工作人员将搜索词提交至商品搜索引擎,通过搜索结果数量,人工确定零少结果词。例如,当工作人员输入搜索词“新鲜桔子”时,搜索结果数量小于3时,则人工确定该词是零少结果词,并由人工将该词的中心词标注为“桔子”。人工日志排查方式,是指基于搜索日志记录的历史搜索数据,确定零少结果词。
然而,在实现本发明过程中,发明人发现现有技术至少存在如下问题:1)由于通过人工方式确定搜索词的中心词,因此,导致处理效率较为低下,且不同工作人员因为所处环境不同或对语言的理解不同,导致人工提取的中心词存在偏差,不具备广泛适用性;2)由于根据人工确定的搜索词与中心词对应关系,确定零少结果搜索词的中心词,因此当该对应关系不包括用户输入的零少结果搜索词时,将无法确定中心词,进而无法提升搜索结果的召全率。综上所述,现有技术存在中心词提取效率低,中心词准确率低,搜索结果召全率低的问题。
发明内容
本申请提供商品搜索***,以解决现有技术存在的中心词提取效率低、中心词准确率低、搜索结果召全率低的问题。本申请另外搜索提供商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。
本申请提供一种商品搜索***,包括:
至少一个商品搜索服务器,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象;
所述客户端,用于向所述服务器发送所述商品搜索请求;接收并展示所述服务器回送的所述商品对象;
模型构建装置,用于获取商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集,并通过机器学习算法,从所述模型训练数据集中学习获得所述中心词提取模型。
可选的,所述模型构建装置,具体用于获取所述商品标题、所述中心词标注数据与商品类目之间的对应记录集,作为所述模型训练数据集。
可选的,还包括:
大数据处理装置,用于接收多个商品搜索服务器发送的历史搜索记录,根据获得的多个商品搜索服务器的历史搜索记录,生成历史搜索词、搜索次数与时间分区之间的历史搜索词统计数据集;获取所述时间分区在第一最近时间范围内的、搜索次数大于第一搜索次数阈值和/或搜索次数排在高位的、分词数量满足分词数量规则的历史搜索词,作为第一历史搜索词;获取与所述第一历史搜索词对应的商品标题,作为更新的商品标题;将所述第一历史搜索词作为所述更新的商品标题中被用户点击的商品标题的中心词标注数据;根据所述更新的商品标题和所述更新的商品标题的中心词标注数据,生成更新的模型训练数据集,将所述更新的模型训练数据集发送至所述模型构建装置;
所述模型构建装置,还用于若所述中心词提取模型的质量得分小于质量得分阈值,则基于所述中心词提取模型,从所述更新的模型训练数据集中学习获得更新的中心词提取模型;
所述商品搜索服务器,还用于将所述历史搜索记录发送至所述大数据处理装置。
可选的,所述大数据处理装置,还用于根据所述历史搜索记录,生成所述历史搜索词与商品召回数量之间的对应记录集;以及,将商品召回数量小于商品数量阈值的历史搜索词,作为第二历史搜索词,并获取通过所述中心词提取模型提取的所述第二历史搜索词的中心词、和中心词质量得分,生成所述第二历史搜索词、所述第二历史搜索词的中心词与所述中心词质量得分之间的对应记录集,作为模型评测数据集,将所述模型评测数据集发送至模型评测装置;
所述***还包括:
所述模型评测装置,用于根据所述模型评测数据集,确定所述中心词提取模型的所述质量得分。
可选的,还包括:
所述大数据处理装置,具体用于将所述商品召回数量小于所述商品数量阈值、且所述搜索次数大于第二搜索次数阈值、且所述时间分区在第二最近时间范围内的历史搜索词,作为所述第二历史搜索词。
可选的,所述大数据处理装置,还用于获取多个商品搜索服务器记录的历史搜索词与通过所述中心词提取模型提取的中心词之间的对应记录集,作为搜索词与中心词之间的对应关系集;以及,将所述搜索词与中心词之间的对应关系集回送至所述商品搜索服务器;
所述商品搜索服务器,具体用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则从所述搜索词与中心词之间的对应关系集中获取所述中心词,若未获取到所述中心词,则通过中心词提取模型,提取所述搜索词的中心词;以及,持久化存储所述搜索词与中心词之间的对应关系集。
可选的,所述商品搜索服务器,还用于将所述搜索词与中心词之间的对应关系集存储至高速分布式缓存设备中。
可选的,所述商品搜索服务器,还用于确定与所述搜索词匹配的商品对象。
可选的,所述商品搜索服务器,还用于生成所述搜索词、所述中心词、与所述搜索词匹配的商品对象、及与所述中心词匹配的商品对象之间的对应记录集,作为埋点日志;以及,将所述埋点日志发送至所述大数据处理装置;
所述大数据处理装置,还用于获取所述埋点日志,根据所述埋点日志生成搜索报表。
本申请还提供一种商品搜索方法,包括:
接收客户端发送的针对用户指定搜索词的商品搜索请求;
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;
确定与所述中心词匹配的商品对象;
向所述客户端回送所述商品对象。
可选的,还包括:
通过机器学习算法,根据商品标题、中心词标注数据和商品类目之间的对应记录集,生成所述中心词提取模型。
可选的,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。
可选的,还包括:
根据历史搜索记录,确定历史搜索词的搜索次数;
选取与所述搜索次数排在高位的历史搜索词匹配的商品标题,作为所述对应记录的所述商品标题。
可选的,所述根据历史搜索记录,确定历史搜索词的搜索次数,包括:
根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。
可选的,还包括:
根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;
将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。
可选的,还包括:
根据中心词标注规则,确定所述商品标题对应的所述中心词标注数据。
可选的,还包括:
通过大数据处理平台,从搜索前端服务集群搜集搜索日志,形成所述历史搜索记录。
可选的,还包括:
确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;
根据所述模型评测数据集,确定所述模型的质量得分。
可选的,所述商品召回数量小于商品数量阈值的历史搜索词包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;
所述方法还包括:
根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史搜索词的搜索次数;
从所述商品召回数量小于商品数量阈值的历史搜索词中选取所述搜索次数超过搜索次数阈值的历史搜索词。
可选的,还包括:
若所述模型质量得分小于质量阈值,则重新生成所述中心词提取模型。
可选的,在所述通过中心词提取模型,提取所述搜索词的中心词之前,还包括:
从中心词历史提取记录中获取所述中心词。
可选的,在所述通过中心词提取模型,提取所述搜索词的中心词之后,还包括:
将所述搜索词与所述中心词的对应记录存储至所述中心词历史提取记录中。
可选的,所述中心词历史提取记录存储在高速分布式缓存设备中。
可选的,还包括:
确定与所述搜索词匹配的商品对象。
本申请还提供一种商品搜索方法,包括:
向服务器发送针对用户指定搜索词的商品搜索请求;
接收所述服务器回送的商品对象;
展示所述商品对象;
所述商品对象采用如下步骤确定:
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;
确定与所述中心词匹配的所述商品对象。
本申请还提供一种中心词提取模型构建方法,包括:
确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;
通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
可选的,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。
可选的,所述商品标题采用如下步骤确定:
根据历史搜索记录,确定历史搜索词的搜索次数;
选取与所述搜索次数排在高位的历史搜索词匹配的商品标题。
可选的,所述根据历史搜索记录,确定历史搜索词的搜索次数,包括:
根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。
可选的,所述中心词标注数据采用如下步骤确定:
根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;
将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。
可选的,还包括:
确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;
根据所述模型评测数据集,确定所述模型的质量得分。
可选的,
所述商品召回数量小于商品数量阈值的历史搜索词包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;
所述方法还包括:
根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史搜索词的搜索次数;
从所述商品召回数量小于商品数量阈值的历史搜索词中选取所述搜索次数超过搜索次数阈值的历史搜索词。
可选的,还包括:
若所述模型质量得分小于质量阈值,则重新生成所述中心词提取模型。
可选的,所述确定商品标题与中心词标注数据之间的对应记录集,包括:
确定所述商品标题、所述中心词标注数据和商品类目之间的对应记录集。
本申请还提供一种商品搜索装置,包括:
请求接收单元,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;
中心词处理单元,用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;
第一商品对象确定单元,用于确定与所述中心词匹配的商品对象;
商品对象回送单元,用于向所述客户端回送所述商品对象。
本申请还提供一种商品搜索装置,包括:
请求发送单元,用于向服务器发送针对用户指定搜索词的商品搜索请求;
商品对象接收单元,用于接收所述服务器回送的商品对象;
商品对象展示单元,用于展示所述商品对象;
所述商品对象采用如下步骤确定:
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;
确定与所述中心词匹配的所述商品对象。
本申请还提供一种中心词提取模型构建装置,包括:
训练数据集确定单元,用于确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;
模型训练单元,用于通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现商品搜索方法的程序,该设备通电并通过所述处理器运行该商品搜索方法的程序后,执行下述步骤:接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现商品搜索方法的程序,该设备通电并通过所述处理器运行该商品搜索方法的程序后,执行下述步骤:向服务器发送针对用户指定搜索词的商品搜索请求;接收所述服务器回送的商品对象;展示所述商品对象;所述商品对象采用如下步骤确定:若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的所述商品对象。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现中心词提取模型构建方法的程序,该设备通电并通过所述处理器运行该中心词提取模型构建方法的程序后,执行下述步骤:确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的商品搜索***,通过接收客户端发送的针对用户指定搜索词的商品搜索请求,若所述搜索词是零少结果词,则通过中心词提取模型,提取所述搜索词的中心词,确定与所述中心词匹配的商品对象,向所述客户端回送所述商品对象,其中所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的模型;这种处理方式,使得通过中心词提取模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升中心词提取效率及准确率,提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。
附图说明
图1是本申请提供的一种商品搜索***的实施例的示意图;
图2本申请提供的一种商品搜索***的实施例的中心词提取模型示意图;
图3是本申请提供的一种商品搜索***的实施例的具体示意图;
图4是本申请提供的一种商品搜索***的实施例的具体示意图;
图5是本申请提供的一种商品搜索***的实施例的具体示意图;
图6本申请提供的一种商品搜索方法的实施例的流程图;
图7是本申请提供的一种商品搜索装置的实施例的示意图;
图8是本申请提供的一种电子设备的实施例的示意图;
图9是本申请提供的一种商品搜索方法的实施例的流程图;
图10是本申请提供的一种商品搜索装置的实施例的示意图;
图11是本申请提供的一种电子设备的实施例的示意图;
图12是本申请提供的一种中心词提取模型构建方法的实施例的流程图;
图13是本申请提供的一种中心词提取模型构建装置的实施例的示意图;
图14是本申请提供的一种电子设备的实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了一种商品搜索***,商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。在下面的实施例中逐一进行详细说明。
本申请提供的技术方案,其发明构思为:基于深度语义匹配模型提取搜索词的中心词,并通过自动化方式持续解决商品搜索领域存在的零少结果问题。由于使用深度学习的能力,且通过自动化方式能够高效准确持续处理搜索零少结果问题,即结合大数据与深度学习解决新零售领域的搜索零少结果问题,因此可以有效提升中心词提取效率及准确率,提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。
第一实施例
请参考图1,其为本申请的商品搜索***的结构图。所述***包括:至少一个商品搜索服务器1,客户端2,以及模型构建装置3。
商品搜索服务器1,又可称为商品搜索引擎,用于接收客户端2发送的针对用户指定搜索词的商品搜索请求;若所述搜索词是零少结果词,即与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的商品对象;向所述客户端2回送所述商品对象。
所述客户端2,用于向所述服务器发送所述商品搜索请求;接收并展示所述服务器回送的所述商品对象。
所述客户端包括但不限于移动通讯设备,即:通常所说的手机或者智能手机,还包括个人电脑、PAD、iPad等终端设备。
所述用户,包括生鲜电商的消费者。用户可在所述客户端2显示的商品搜索页面的商品搜索框,输入搜索词,点击搜索按钮,然后客户端2响应用户的搜索指令,向商品搜索服务器1发送针对用户指定搜索词的商品搜索请求。所述商品搜索请求,可包括所述搜索词。
在商品搜索服务器1接收客户端2发送的所示商品搜索请求后,如果确定搜索词是零少结果词,则通过基于深度语义匹配模型生成的中心词提取模型,提取搜索词的中心词。
例如,确定搜索词“新鲜桔子”为零少结果词,通过中心词提取模型自动提取出的中心词是“桔子”,而非“新鲜”,因为“桔子”与“新鲜桔子”之间的语义相似度高于“新鲜”与“新鲜桔子”之间的语义相似度。
在一个示例中,商品搜索服务器1,还用于确定与所述搜索词匹配的商品对象;若匹配的商品对象的数量小于所述商品数量阈值,则判定所述搜索词是零少结果词。
所述商品数量阈值,可根据业务需求进行设定,例如,设定为3个等等。
模型构建装置3,用于获取商品标题与中心词标注数据之间的第一对应记录集,并通过机器学习算法,从所述第一对应记录集中学习获得所述中心词提取模型。
所述中心词提取模型,可以基于深度语义匹配模型(Deep Structured SemanticModels,DSSM)及其变种构建,DSSM的变种包括但不限于:包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSSM等等。
DSSM是基于深度神经网络的一项建模技术,可以将具有成对关系的,不同类型的文本投射到一个共同的低维语义空间中,进而完成后续的机器学习任务。例如,具有成对关系的,不同类型的文本可以是词(queries)和句子(documents)。
在生鲜类商品搜索场景下,所述中心词提取模型可从生鲜类商品的商品标题与中心词之间的对应记录中学习获得。其中,商品标题作为句子,商品标题的中心词作为正样本,商品标题中的其他词(非中心词)作为负样本。训练数据中的商品标题可从商品库中提取获得,中心词可由人工和规则共同标注。
具体实施时,可先通过分词技术,对商品标题进行分词处理,并通过人工和规则共同标注中心词。
所述中心词的标注规则,包括但不限于:根据词性确定中心词的规则,例如,将名词作为中心词,将形容词和量词作为非中心词等等。
表1示出了一种包括商品标题、中心词标注数据和非中心词的模型训练数据。
Figure BDA0001733590380000111
表1、模型训练数据
在本实施例中,使用Tensorflow框架实现深度学习模型CDSSM,在图形处理器(Graphics Processing Unit GPU)机器上对CDSSM进行训练。训练任务是:商品标题分别与中心词和非中心词之间的相似度建模。训练集格式如下:
模型输入数据:[商品标题,一个中心词,多个非中心词]。
模型输出数据:中心词的标记(label)为1,非中心词的标记为0。
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习***,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的***。
在对所述中心词提取模型进行训练过程中,可采用深度学习的优化算法调整模型参数。深度学习的优化算法包括梯度下降,采用梯度下降方式更新模型参数,模型参数的更新可采用以下两种方式。
方式1、批梯度下降(Batch gradient descent)。该方式首先遍历全部训练数据集,计算一次损失函数,然后计算损失函数对模型各个参数的梯度,更新梯度。采用这种处理方法,每更新一次参数要遍历训练数据集里的所有样本,计算量开销大,计算速度慢,不支持在线学习。
方式2、随机梯度下降(stochastic gradient descent)。该方式每一个训练数据就算一次损失函数,然后求梯度更新参数。采用这种处理方法,速度比较快,但是收敛性能不太好,可能无法收敛到最优点。两次参数的更新也有可能互相抵消掉,造成目标函数震荡的比较剧烈。
为了克服上述两种方式的缺点,本实施例采用一种折中手段,即:小批的梯度下降(mini-batch gradient decent)。采用这种处理方法,将训练数据分为若干个批,按批来更新参数,使得一批中的一组训练数据共同决定了本次梯度的方向,下降起来就不容易跑偏,减少了随机性。另一方面,因为批的样本数与整个数据集相比小了很多,计算量也不是很大。
在本实施例中,商品标题作为句子,中心词作为正样本,其他词作为负样本,通过小批次(Mini Batch)的方式进行训练,损失函数使用交叉熵,一个批次(batch)由300条训练样本构成,最终训练完成花费12个小时,2000个batch,模型最终完成收敛,在开发测试集上达到最好的效果。
在一个示例中,模型构建装置3,具体用于获取所述商品标题、所述中心词标注数据与商品类目之间的对应记录集,作为所述第一对应记录集。采用这种处理方式,使得从商品标题、中心词与商品类目的对应记录中学习获得所述中心词提取模型。
如图2所示,在从商品标题、中心词与商品类目的对应记录中学习获得模型的情况下,所述中心词提取模型的输入数据包括商品标题、中心词标注数据和非中心词,输出数据不仅包括商品标题分别与中心词和非中心词的语义相似度,还包括商品类目。其中,商品类目可从商品库的商品类目属性中获得,由商家进行标注。
表2示出了一种包括商品标题、中心词、非中心词与商品类目的模型训练数据。
表2、模型训练数据
由图2可见,所述中心词提取模型包括:词嵌入层,卷积层,以及语义层,其中,词嵌入层将商品标题、中心词和非中心词转换为向量形式(词向量),然后通过卷积层降低特征维度,再通过语义层即全连接层得到商品类目的预测值、商品标题分别与中心词和非中心词之间的语义相似度。
所述商品标题,可以是从商品库中随机抽选的商品标题。然而,考虑到生鲜类商品具有季节性,某段时间销售的商品在一段时间后可能不再继续销售,例如,荔枝通常在5、6月份销售等等,因此,可根据近期销售的商品标题对所述中心词提取模型进行更新。采用这种处理方式,使得训练数据更加符合当前季节的商品销售情况,生成符合当前季节销售特点的中心词提取模型;因此,可以有效提升模型质量,进而提升搜索结果召全率,进而提升商品转化率。
在一个示例中,将最近一段时间内搜索次数排名靠前的历史搜索词对应的商品标题作为训练数据,例如,将最近两周的、搜索次数排名在前2000的历史搜索词对应的商品标题作为训练数据。
在另一个示例中,将最近一段时间内搜索次数排名靠前且搜索次数大于搜索次数阈值的历史搜索词对应的商品标题作为训练数据,例如,将最近两周的、搜索次数排名在前2000、且搜索次数大于10的历史搜索词对应的商品标题作为训练数据。这种处理方式,不仅可确保筛选出的商品标题是当前销售的商品,还能确保商品具有一定的搜索热度;因此,可以有效提升训练数据的数据质量。
在另一个示例中,将最近一段时间内搜索次数排名靠前的、且分词数量满足分词数量规则的历史搜索词对应的商品标题作为训练数据,并且将该历史搜索词作为被用户点击(浏览等)过的商品标题的中心词标注数据。
所述分词数量规则,是指搜索词包括的分词数量的规则,例如,假设分词数量规则为搜索词只包括一个分词,那么,搜索词“桔子”就是满足分词数量规则的词,且包括“桔子”二字的商品标题的中心词为“桔子”,而搜索词“新鲜桔子”并不满足该分词数量规则。
例如,搜索词为“桔子”,检索结果包括100个商品,其中80个商品被用户点击浏览过,因此,自动将“桔子”作为这80个商品的商品标题的中心词,另外20个商品的商品标题的中心词可有人工或规则共同标注。
本申请提供的***,通过将最近一段时间搜索次数排名靠前的、且分词数量满足分词数量规则的历史搜索词对应的商品标题作为训练数据,并且将该历史搜索词作为被用户点击过的商品标题的中心词标注数据;这种处理方式,不仅可确保筛选出的商品标题是当前销售的商品、且具有一定的搜索热度,还能根据用户行为自动为部分商品标题标注准确的中心词;因此,可以有效提升训练数据的数据质量,提升训练数据的生成效率。
由于本申请提供的***可包括多个商品搜索服务器1,商品搜索服务器1独立存储各自的搜索日志,搜索日志内记录了历史搜索记录,因此要根据搜索次数确定历史搜索词,就需要大数据计算平台的参与,将多个商品搜索服务器1的历史搜索记录汇聚在大数据计算平台进行数据计算。
请参考图3,其为本申请提供的一种商品搜索***实施例的具体示意图。在本实施例中,所述***还可包括大数据处理装置4。
大数据处理装置4,用于接收多个商品搜索服务器1发送的历史搜索记录,根据获得的多个商品搜索服务器1的历史搜索记录,生成历史搜索词、搜索次数与时间分区之间的对应记录集,作为所述历史搜索词统计数据集。
在需要生成训练数据时,先从大数据处理装置4存储的历史搜索词统计数据集中,过滤出最近一段时间(第一最近时间范围)内的搜索次数排名靠前(如排名在前2000)和/或搜索次数大于第一搜索次数阈值(如10次)的历史搜索词,再从过滤出的历史搜索词中,选取分词数量满足分词数量规则的历史搜索词,并通过分词数量满足分词数量规则的历史搜索词对应的商品倒排索引,确定这些历史搜索词对应的商品标题,再根据用户行为数据将这些历史搜索词作为被用户点击过的商品标题的中心词,由此可生成训练数据。
大数据处理装置4在生成更新的模型训练数据集后,将所述更新的模型训练数据集发送至所述模型构建装置3;所述模型构建装置3,还用于若所述中心词提取模型的质量得分小于质量得分阈值,则基于所述中心词提取模型,从所述更新的模型训练数据集中学习获得更新的中心词提取模型。
具体实施时,可将更新的中心词提取模型发布至各个商品搜索服务器1。
请参考图4,其为本申请提供的一种商品搜索***实施例的搜索日志汇聚至大数据处理装置的具体示意图。在本实施例中,商品搜索服务器1生成搜索日志,生成新增搜索日志的消息,并通过消息通道将消息汇聚至大数据处理装置4,从而在大数据处理装置4生成包括来自多个商品搜索服务器1的搜索日志的完整搜索日志表。
请参考图5,其为本申请提供的一种商品搜索***实施例的又一具体示意图。在本实施例中,所述***还包括:模型评测装置5。
所述大数据处理装置4还用于根据历史搜索记录,生成历史搜索词与商品召回数量(即与所述历史搜索词匹配的商品对象的数量)之间的对应记录;以及,将商品召回数量小于所述商品数量阈值的历史搜索词,作为第二历史搜索词,并获取通过所述中心词提取模型提取的所述第二历史搜索词的中心词、和中心词质量得分,生成所述第二历史搜索词、所述第二历史搜索词的中心词与所述中心词质量得分之间的对应记录集,作为模型评测数据集,将所述模型评测数据集发送至模型评测装置5。
所述模型评测数据集包括:零少结果的历史搜索词、通过所述模型提取的中心词和中心词质量得分。
所述大数据处理装置4,在汇聚各个商品搜索服务器1的搜索日志后,就可以从汇聚的搜索日志中过滤其中的零少结果日志,形成产出零少结果数据表,该表至少包括搜索词和搜索结果数量(召回数量),还可包括:搜索词页面浏览量(page view,PV)、搜索词独立访客数(Unique Visitor,UV)和时间分区(如某一天)。
表3示出了包括所有搜索词的搜索日志表,该表包括零少结果词的搜索数据,也包括非零少结果词的搜索数据。
Figure BDA0001733590380000161
表3、包括所有搜索词的搜索日志表
由表3可见,搜索词“上衣”达到商品数量阈值,因此为非零少结果词;而搜索词“红色上衣”未达到商品数量阈值,因此为非零少结果词;时间分区说明该搜索数据对应的时间,如在20180606这一天,用户输入10次“红色上衣”进行商品搜索,涉及2个用户。
表4示出了从表3过滤出的零少结果词的搜索数据。与表3相比,搜索词“上衣”被过滤掉。
Figure BDA0001733590380000162
表4、零少结果词的搜索数据表
本实施例选取搜索PV达到PV阈值的零少结果词,而排除用户很少使用的搜索PV小于PV阈值的零少结果词,其原因在于,通过模型提取中心词的搜索词,主要是搜索PV较大的零少结果词,这部分零少结果词的中心词提取质量的重要性远远大于搜索PV达到PV阈值的零少结果词的中心词提取质量,也就是说,对于模型质量评测而言,搜索PV达到PV阈值的零少结果词的价值显著大于搜索PV小于PV阈值的零少结果词;这种处理方式,既可以确保模型评测质量,又可以减少计算量和人工标注的工作量;因此,可以有效降低人工工作量,节约计算资源。
所述PV阈值,可根据业务需求确定。
对于零少结果词而言,搜索日志可记录两种召回结果,一种是在确定该搜索词是零少结果词之前,根据该搜索词本身进行商品搜索得到的第一召回结果,另一种是在根据第一召回结果确定该搜索词为零少结果词后,通过模型提取中心词,根据提取到的中心词进行商品搜索得到的第二召回结果。
大数据处理装置4,可根据搜索日志记录的第一召回结果确定搜索词是否为零少结果词;当确定该搜索词是否为零少结果词时,根据中心词提取数据表获取该词的中心词。
所述中心词质量,可以是好、不好或中心词和搜索词相同。其中好或不好可以由人工标注。
基于gbs(好、不好或中心词,good、bad、same)评测方法,随机抽样中心词提取结果。采用多人标注方式,对于每一个词的中心词使用good、bad、same进行标注。good表示中心词提取正确,bad表示中心词提取错误,same表示中心词与关键词相同。
所述大数据处理装置4生成模型评测数据集后,将所述模型评测数据集发送至模型评测装置5。所述模型评测装置5,用于根据所述模型评测数据集,确定所述中心词提取模型的质量得分。
所述中心词提取模型的正确率,可使用good/(good+bad)计算得出,多人标注可求平均值。例如,对于每个中心词提取结果,均由5个人给出5个评价,先对每个人求正确率,第一人80/100=0.8,第二个人0.7,所有人平均(0.8+0.7+…)/5=0.85。在得到最终正确率后,可根据业务经验判断该模型是否可用。
本申请提供的***,可以定期自动执行模型评测任务,如每个月一次等等。通过模型评测装置5对所述中心词提取模型的质量进行评测后,根据评测结果自动确定是否通过大数据处理装置4生成更新的模型训练集,并根据更新的模型训练集重新训练所述中心词提取模型。
在一个示例中,所述大数据处理装置4,还用于获取多个商品搜索服务器1记录的历史搜索词与通过所述中心词提取模型提取的中心词之间的对应记录集,形成搜索词与中心词之间的对应关系集,又称为搜索词改写表;以及,将搜索词改写表回送至所述商品搜索服务器1。
所述商品搜索服务器1,可将该搜索词改写表存储在数据库中,以及,若确定用户搜索词是零少结果词,则从该搜索词改写表中获取对应的中心词,若未获取到所述中心词,则通过中心词提取模型,提取所述搜索词的中心词。
具体实施时,为了提高该搜索词改写表的访问速度,可以将该表写入高速分布式缓存中。
相应的,商品搜索服务器1在所述通过中心词提取模型,提取所述搜索词的中心词之后,还可用于将所述搜索词与所述中心词的对应记录存储至所述搜索词改写表中。
在一个示例中,所述商品搜索服务器1,还用于生成所述搜索词、所述中心词、与所述搜索词匹配的商品对象、及与所述中心词匹配的商品对象之间的对应记录集;以及,将该对应记录集发送至所述大数据处理装置4;
所述大数据处理装置4,还用于获取该对应记录集,根据该对应记录集生成搜索报表。
从上述实施例可见,本申请实施例提供的商品搜索***,通过接收客户端发送的针对用户指定搜索词的商品搜索请求,若所述搜索词是零少结果词,则通过中心词提取模型,提取所述搜索词的中心词,确定与所述中心词匹配的商品对象,向所述客户端回送所述商品对象,其中所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的模型;这种处理方式,使得通过中心词提取模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升中心词提取效率及准确率,提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。
第二实施例
与上述的商品搜索***相对应,本申请还提供一种商品搜索方法。请参考图6,其为本申请提供的一种商品搜索方法实施例的流程图,该方法的执行主体商品搜索装置,又可称为商品搜索引擎,该装置通常部署于服务器,但并不局限于服务器,也可以是能够实现所述商品搜索方法的任何设备。
本申请提供的一种商品搜索方法包括:
步骤S601:接收客户端发送的针对用户指定搜索词的商品搜索请求。
所述客户端包括但不限于移动通讯设备,即:通常所说的手机或者智能手机,还包括个人电脑、PAD、iPad等终端设备。
所述用户,包括生鲜电商的消费者。用户可在所述客户端显示的商品搜索页面的商品搜索框,输入搜索词,点击搜索按钮,然后客户端响应用户的搜索指令,向商品搜索引擎发送针对用户指定搜索词的商品搜索请求。所述商品搜索请求,可包括所述搜索词。
步骤S603:若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词。
本申请提供的技术方案,当确定与所述搜索词匹配的商品对象的数量小于商品数量阈值(即确定搜索词是零少结果词)时,通过基于深度语义匹配模型(中心词提取模型)提取搜索词的中心词,例如,搜索词为“新鲜桔子”,通过中心词提取模型自动提取出的中心词是“桔子”,“桔子”与“新鲜桔子”之间的第一语义相似度高于“新鲜”与“新鲜桔子”之间的第二语义相似度。
要实施本申请提供的方法,先要通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的所述中心词提取模型。
所述中心词提取模型,可以基于深度语义匹配模型(Deep Structured SemanticModels,DSSM)及其变种构建,DSSM的变种包括但不限于CNN-DSSM,LSTM-DSSM等等。
DSSM是基于深度神经网络的一项建模技术,可以将具有成对关系的,不同类型的文本投射到一个共同的低维语义空间中,进而完成后续的机器学习任务。例如,具有成对关系的,不同类型的文本可以是词(queries)和句子(documents)。
在生鲜类商品搜索场景下,所述中心词提取模型可从生鲜类商品的商品标题与中心词之间的对应记录中学习获得,也可以从商品标题、中心词与商品类目之间的对应记录中学习获得。其中,商品标题作为句子,商品标题的中心词作为正样本,商品标题中的其他词(非中心词)作为负样本。商品标题可从商品库中提取获得,中心词可由人工和规则共同标注。
具体实施时,可通过分词技术,对商品标题进行分词处理,并通过人工和规则共同标注中心词。
所述中心词的标注规则,可以是根据词性确定中心词的规则,例如,将名词作为中心词,将形容词和量词作为非中心词等等。
在一个示例中,从商品标题与中心词的对应记录中学习获得所述中心词提取模型,在这种情况下,所述中心词提取模型的输入数据包括商品标题、中心词标注数据和非中心词。
具体实施时,可选取与搜索次数排在高位的历史搜索词匹配的商品标题作为模型训练数据中的商品标题,例如,选取搜索次数排名在前2000的历史搜索词召回的商品标题作为训练数据;这种处理方式,使得训练数据更具有应用价值;因此,可以有效提升训练数据的质量,从而提升模型质量。
要选取搜索次数排在高位的历史搜索词召回的商品标题作为训练数据,可采用如下步骤:1)通过大数据计算平台搜集搜索前端服务集群的搜索日志;2)根据历史搜索记录,确定历史搜索词的搜索次数;3)根据历史搜索词对应的搜索次数,从汇聚的搜索日志中过滤其中的搜索次数排在高位的历史搜索词;4)获取与所述搜索次数排在高位的历史搜索词匹配的商品标题;5)将获得的商品标题形成训练数据。
具体实施时,通过大数据计算平台搜集搜索前端服务集群的搜索日志,可采用如下方式实现:通过消息通道生成包括新增日志内容的消息,将各个搜索前端服务器的搜索日志汇聚在大数据计算平台,从而在大数据计算平台上生成搜索日志表。
考虑到生鲜类商品具有季节性,某段时间的搜索词在一段时间后可能不再适用,例如,荔枝通常在5、6月份销售等等,因此,所述根据历史搜索记录,确定历史搜索词的搜索次数的步骤,可包括如下子步骤:1)从所述历史搜索记录中提取最近时间范围的历史搜索记录,所述最近时间范围,可以是最近两周的时间范围等等;2)根据所述最近时间范围的历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。采用这种处理方式,使得训练数据更加符合当前季节的商品销售情况,生成符合当前季节商品销售情况的中心词提取模型;因此,可以有效提升模型质量,从而提升用户体验,进而提升商品转化率。
具体实施时,使用Tensorflow框架实现深度学习模型CDSSM,在图形处理器(Graphics Processing Unit GPU)机器上对CDSSM进行训练。训练任务是:搜索词与各个分词之间的相似度建模。训练集格式如下:
输入:[搜索词,一个中心词,多个非中心词]。
输出:中心词的标记(label)为1,非中心词的标记为0。
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习***,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的***。
深度学习的优化算法包括梯度下降,采用梯度下降方式更新参数,每次的参数更新有两种方式。
方式1、批梯度下降(Batch gradient descent)。该方式首先遍历全部训练数据集,计算一次损失函数,然后计算损失函数对模型各个参数的梯度,更新梯度。采用这种处理方法,每更新一次参数要遍历训练数据集里的所有样本,计算量开销大,计算速度慢,不支持在线学习。
方式2、随机梯度下降(stochastic gradient descent)。该方式每一个训练数据就算一次损失函数,然后求梯度更新参数。采用这种处理方法,速度比较快,但是收敛性能不太好,可能无法收敛到最优点。两次参数的更新也有可能互相抵消掉,造成目标函数震荡的比较剧烈。
为了克服上述两种方式的缺点,本实施例采用一种折中手段,即:小批的梯度下降(mini-batch gradient decent)。采用这种处理方法,将训练数据分为若干个批,按批来更新参数,使得一批中的一组训练数据共同决定了本次梯度的方向,下降起来就不容易跑偏,减少了随机性。另一方面,因为批的样本数与整个数据集相比小了很多,计算量也不是很大。
商品标题作为句子,中心词作为正样本,其他词作为负样本,通过小批次(MiniBatch)的方式进行训练,损失函数使用交叉熵,一个批次(batch)由300条训练样本构成,最终训练完成花费12个小时,2000个batch,模型最终完成收敛,在开发测试集上达到最好的效果。
在另一个示例中,从商品标题、中心词与商品类目的对应记录中学习获得所述中心词提取模型。在这种情况下,所述中心词提取模型的输入数据包括商品标题、中心词标注数据和非中心词,输出数据不仅包括商品标题分别与中心词和非中心词的语义相似度,还包括商品类目。其中,商品类目可从商品库的商品类目属性中获得。
由图2可见,所述中心词提取模型包括:词嵌入层,卷积层,以及语义层,其中,词嵌入层将商品标题、中心词和非中心词转换为向量形式(词向量),然后通过卷积层降低特征维度,再通过语义层即全连接层得到商品类目的预测值、商品标题分别与中心词和非中心词之间的语义相似度。
在一个示例中,本申请提供的方法,还包括如下步骤:1)确定模型评测数据集;所述模型评测数据包括:零少结果(即商品召回数量小于商品数量阈值)的历史搜索词、通过所述模型提取的中心词、中心词质量得分;2)根据所述模型评测数据集,确定所述模型的质量得分。
所述模型评测数据,可采用如下方式确定:1)搜集搜索前端服务集群的搜索日志;2)根据历史搜索词对应的商品召回数量,从汇聚的搜索日志中过滤其中的零少结果日志;3)获取搜索次数(搜索PV)达到PV阈值的零少结果日志;4)获取通过所述模型提取的所述零少结果词的中心词;5)根据零少结果词、中心词和中心词质量,形成模型评测数据。
1)搜集搜索前端服务集群的搜索日志。
在一个示例中,搜索前端服务集群生成搜索日志,通过消息通道生成包括新增日志内容的消息,将各个搜索前端服务器的搜索日志汇聚在大数据计算平台,从而在大数据计算平台上生成搜索日志表。
2)从汇聚的搜索日志中过滤其中的零少结果日志,形成产出零少结果数据表。
在将各个搜索前端服务器的搜索日志汇聚在一个计算平台后,就可以从汇聚的搜索日志中过滤其中的零少结果日志,形成产出零少结果数据表,该表至少包括搜索词和搜索结果数量(召回数量),还可包括:搜索词页面浏览量(page view,PV)、搜索词独立访客数(Unique Visitor,UV)和时间分区(如某一天)。
例如,搜索词“上衣”达到商品数量阈值,因此为非零少结果词;而搜索词“红色上衣”未达到商品数量阈值,因此为非零少结果词;时间分区说明该搜索数据对应的时间,如在20180606这一天,用户输入10次“红色上衣”进行商品搜索,涉及2个用户。
3)获取搜索PV达到PV阈值的零少结果词。
本实施例选取搜索PV达到PV阈值的零少结果词,而排除用户很少使用的搜索PV小于PV阈值的零少结果词,其原因在于,通过模型提取中心词的搜索词,主要是搜索PV较大的零少结果词,这部分零少结果词的中心词提取质量的重要性远远大于搜索PV达到PV阈值的零少结果词的中心词提取质量,也就是说,对于模型质量评测而言,搜索PV达到PV阈值的零少结果词的价值显著大于搜索PV小于PV阈值的零少结果词;这种处理方式,既可以确保模型评测质量,又可以减少计算量和人工标注的工作量;因此,可以有效降低人工工作量,节约计算资源。
所述PV阈值,可根据业务需求确定。
4)获取通过所述模型提取的所述零少结果词的中心词。
通过第3步获取的零少结果词可具有两种召回结果,一种是在确定该搜索词是零少结果词之前,根据该搜索词本身进行商品搜索得到的第一召回结果,另一种是在根据第一召回结果确定该搜索词为零少结果词后,通过模型提取中心词,根据提取到的中心词进行商品搜索得到的第二召回结果。
大数据计算平台可根据搜索日志记录的第一召回结果,可确定搜索词是否为零少结果词;当确定该搜索词是否为零少结果词时,根据中心词提取数据表获取该词的中心词。
5)根据零少结果词、中心词和中心词质量,形成模型评测数据。
所述中心词质量,可以是好、不好或中心词和搜索词相同。其中好或不好可以由人工标注。
基于gbs评测方法,随机抽样中心词提取结果。采用多人标注方式,对于每一个词的中心词使用good、bad、same进行标注。good表示中心词提取正确,bad表示中心词提取错误,same表示中心词与关键词相同。最终正确率使用good/(good+bad)计算得出,多人标注可求平均值。得到最终正确率,根据业务经验判断该模型是否可用。
例如,对于每个中心词提取结果,均由5个人给出5个评价,先对每个人求正确率,第一人80/100=0.8,第二个人0.7,所有人平均(0.8+0.7+…)/5=0.85。
在一个示例中,所述方法在所述通过中心词提取模型,提取所述搜索词的中心词之前,还包括如下步骤:从中心词历史提取记录中获取所述中心词。
所述中心词历史提取记录,可存储在高速分布式缓存设备中,以提升查询速度。
相应的,所述方法在所述通过中心词提取模型,提取所述搜索词的中心词之后,还可包括如下步骤:将所述搜索词与所述中心词的对应记录存储至所述中心词历史提取记录中。
在另一个示例中,所述方法还包括如下步骤:确定与所述搜索词匹配的商品对象;若匹配的商品数量小于商品数量阈值,则确定所述搜索词是零少结果词。
步骤S605:确定与所述中心词匹配的商品对象。
通过上一步骤确定所述搜索词的中心词后,就可以通过商品搜索引擎搜索与所述中心词匹配的商品对象。
步骤S607:向所述客户端回送所述商品对象。
通过上一步骤获得与所述中心词匹配的商品对象后,就可将其作为所述搜索词的检索结果回送至客户端,以便向用户展示搜索结果。
从上述实施例可见,本申请实施例提供的商品搜索方法,通过接收客户端发送的针对用户指定搜索词的商品搜索请求,若所述搜索词是零少结果词,则通过中心词提取模型,提取所述搜索词的中心词,确定与所述中心词匹配的商品对象,向所述客户端回送所述商品对象,其中所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的模型;这种处理方式,使得通过中心词提取模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。
第三实施例
在上述的实施例中,提供了一种商品搜索方法,与之相对应的,本申请还提供一种商品搜索装置。该装置是与上述方法的实施例相对应。
请参看图7,其为本申请的商品搜索装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种商品搜索装置,包括:
请求接收单元701,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;
中心词处理单元703,用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;
第一商品对象确定单元705,用于确定与所述中心词匹配的商品对象;
商品对象回送单元707,用于向所述客户端回送所述商品对象。
通过机器学习算法,根据商品标题、中心词标注数据和商品类目之间的对应记录集,生成所述中心词提取模型。
可选的,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。
可选的,还包括:
第一搜索次数确定单元,用于根据历史搜索记录,确定历史搜索词的搜索次数;
商品标题选取单元,用于选取与所述搜索次数排在高位的历史搜索词匹配的商品标题,作为所述对应记录的所述商品标题。
可选的,所述第一搜索次数确定单元,具体用于根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。
可选的,还包括:
商品标题确定单元,用于根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;
第一中心词标注单元,用于将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。
可选的,还包括:
第二中心词标注单元,用于根据中心词标注规则,确定所述商品标题对应的所述中心词标注数据。
可选的,还包括:
历史搜索记录获取单元,用于通过大数据处理平台,从搜索前端服务集群搜集搜索日志,形成所述历史搜索记录。
可选的,还包括:
模型评测数据集确定单元,用于确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;
模型评测单元,用于根据所述模型评测数据集,确定所述模型的质量得分。
可选的,所述商品召回数量小于商品数量阈值的历史搜索词包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;
所述装置还包括:
第二搜索次数确定单元,用于根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史搜索词的搜索次数;
历史搜索词确定单元,用于从所述商品召回数量小于商品数量阈值的历史搜索词中选取所述搜索次数超过搜索次数阈值的历史搜索词。
可选的,还包括:
中心词提取模型更新单元,用于若所述模型质量得分小于质量阈值,则重新生成所述中心词提取模型。
可选的,所述中心词处理单元包括:
中心词获取子单元,用于从中心词历史提取记录中获取所述中心词。
可选的,所述装置还包括:
中心词存储子单元,用于将所述搜索词与所述中心词的对应记录存储至所述中心词历史提取记录中。
可选的,所述中心词历史提取记录存储在高速分布式缓存设备中。
可选的,还包括:
第二商品对象确定单元,用于商品对象确定与所述搜索词匹配的商品对象。
第四实施例
请参考图8,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器801和存储器802;存储器,用于存储实现商品搜索方法的程序,该设备通电并通过所述处理器运行该商品搜索方法的程序后,执行下述步骤:接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象。
第五实施例
与上述的商品搜索方法相对应,本申请还提供一种商品搜索方法,该方法的执行主体包括但不限于个人电脑、服务器等设备。
请参考图9,其为本申请提供的一种商品搜索方法实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种商品搜索方法包括:
步骤S901:向服务器发送针对用户指定搜索词的商品搜索请求。
步骤S903:接收所述服务器回送的商品对象。
所述商品对象,采用如下步骤确定:1)若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;2)确定与所述中心词匹配的所述商品对象。
步骤S905:展示所述商品对象。
从上述实施例可见,本申请实施例提供的商品搜索方法,通过接收客户端发送的针对用户指定搜索词的商品搜索请求,若所述搜索词是零少结果词,则通过中心词提取模型,提取所述搜索词的中心词,确定与所述中心词匹配的商品对象,向所述客户端回送所述商品对象,其中所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的模型;这种处理方式,使得通过中心词提取模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。
第六实施例
在上述的实施例中,提供了一种商品搜索方法,与之相对应的,本申请还提供一种商品搜索装置。该装置是与上述方法的实施例相对应。
请参看图10,其为本申请的商品搜索装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种商品搜索装置,包括:
请求发送单元1001,用于向服务器发送针对用户指定搜索词的商品搜索请求;
商品对象接收单元1003,用于接收所述服务器回送的商品对象;
商品对象展示单元1005,用于展示所述商品对象;
所述商品对象采用如下步骤确定:
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;
确定与所述中心词匹配的所述商品对象。
第七实施例
请参考图11,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器1101和存储器1102;所述存储器,用于存储实现商品搜索方法的程序,该设备通电并通过所述处理器运行该商品搜索方法的程序后,执行下述步骤:向服务器发送针对用户指定搜索词的商品搜索请求;接收所述服务器回送的商品对象;展示所述商品对象;所述商品对象采用如下步骤确定:若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的所述商品对象。
第八实施例
与上述的商品搜索***相对应,本申请还提供一种中心词提取模型构建方法,该方法的执行主体包括但不限于个人电脑、服务器等设备。
请参考图12,其为本申请提供的一种中心词提取模型构建方法实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种中心词提取模型构建方法包括:
步骤S1201:确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集。
所述商品标题,可采用如下步骤确定:1)根据历史搜索记录,确定历史搜索词的搜索次数;2)选取与所述搜索次数排在高位的历史搜索词匹配的商品标题。
具体实施时,所述根据历史搜索记录,并确定历史搜索词的搜索次数的步骤,可采用如下方式:根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。
所述中心词标注数据,可采用如下步骤确定:1)根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;2)将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。
在一个示例中,所述确定商品标题与中心词标注数据之间的对应记录集,包括:确定所述商品标题、所述中心词标注数据和商品类目之间的对应记录集。
步骤S1203:通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。
在一个示例中,所述方法还包括如下步骤:1)确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;2)根据所述模型评测数据集,确定所述模型的质量得分。
具体实施时,所述商品召回数量小于商品数量阈值的历史搜索词,可包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;相应的,所述方法还可包括如下步骤:1)根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史搜索词的搜索次数;2)从所述商品召回数量小于商品数量阈值的历史搜索词中选取所述搜索次数超过搜索次数阈值的历史搜索词。
在一个示例中,所述方法还包括如下步骤:若所述模型质量得分小于质量阈值,则重新生成所述中心词提取模型。
从上述实施例可见,本申请实施例提供的中心词提取模型构建方法,通过确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集,并通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词;这种处理方式,使得从商品标题与中心词标注数据之间的对应记录集中自动学习获得中心词提取模型,以便利用该模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升中心词提取效率及准确度,进而提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。
第九实施例
在上述的实施例中,提供了一种中心词提取模型构建方法,与之相对应的,本申请还提供一种中心词提取模型构建装置。该装置是与上述方法的实施例相对应。
请参看图13,其为本申请的中心词提取模型构建装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种中心词提取模型构建装置,包括:
训练数据集确定单元1301,用于确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;
模型训练单元1303,用于通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
第十实施例
请参考图14,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器1401和存储器1402;所述存储器,用于存储实现中心词提取模型构建方法的程序,该设备通电并通过所述处理器运行该中心词提取模型构建方法的程序后,执行下述步骤:确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (40)

1.一种商品搜索***,其特征在于,包括:
至少一个商品搜索服务器,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象;
所述客户端,用于向所述服务器发送所述商品搜索请求;接收并展示所述服务器回送的所述商品对象;
模型构建装置,用于获取商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集,并通过机器学习算法,从所述模型训练数据集中学习获得所述中心词提取模型。
2.根据权利要求1所述的***,其特征在于,
所述模型构建装置,具体用于获取所述商品标题、所述中心词标注数据与商品类目之间的对应记录集,作为所述模型训练数据集。
3.根据权利要求1所述的***,其特征在于,还包括:
大数据处理装置,用于接收多个商品搜索服务器发送的历史搜索记录,根据获得的多个商品搜索服务器的历史搜索记录,生成历史搜索词、搜索次数与时间分区之间的历史搜索词统计数据集;获取所述时间分区在第一最近时间范围内的、搜索次数大于第一搜索次数阈值和/或搜索次数排在高位的、分词数量满足分词数量规则的历史搜索词,作为第一历史搜索词;获取与所述第一历史搜索词对应的商品标题,作为更新的商品标题;将所述第一历史搜索词作为所述更新的商品标题中被用户点击的商品标题的中心词标注数据;根据所述更新的商品标题和所述更新的商品标题的中心词标注数据,生成更新的模型训练数据集,将所述更新的模型训练数据集发送至所述模型构建装置;
所述模型构建装置,还用于若所述中心词提取模型的质量得分小于质量得分阈值,则基于所述中心词提取模型,从所述更新的模型训练数据集中学习获得更新的中心词提取模型;
所述商品搜索服务器,还用于将所述历史搜索记录发送至所述大数据处理装置。
4.根据权利要求3所述的***,其特征在于,
所述大数据处理装置,还用于根据所述历史搜索记录,生成所述历史搜索词与商品召回数量之间的对应记录集;以及,将商品召回数量小于商品数量阈值的历史搜索词,作为第二历史搜索词,并获取通过所述中心词提取模型提取的所述第二历史搜索词的中心词、和中心词质量得分,生成所述第二历史搜索词、所述第二历史搜索词的中心词与所述中心词质量得分之间的对应记录集,作为模型评测数据集,将所述模型评测数据集发送至模型评测装置;
所述***还包括:
所述模型评测装置,用于根据所述模型评测数据集,确定所述中心词提取模型的所述质量得分。
5.根据权利要求4所述的***,其特征在于,还包括:
所述大数据处理装置,具体用于将所述商品召回数量小于所述商品数量阈值、且所述搜索次数大于第二搜索次数阈值、且所述时间分区在第二最近时间范围内的历史搜索词,作为所述第二历史搜索词。
6.根据权利要求3所述的***,其特征在于,
所述大数据处理装置,还用于获取多个商品搜索服务器记录的历史搜索词与通过所述中心词提取模型提取的中心词之间的对应记录集,作为搜索词与中心词之间的对应关系集;以及,将所述搜索词与中心词之间的对应关系集回送至所述商品搜索服务器;
所述商品搜索服务器,具体用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则从所述搜索词与中心词之间的对应关系集中获取所述中心词,若未获取到所述中心词,则通过中心词提取模型,提取所述搜索词的中心词;以及,持久化存储所述搜索词与中心词之间的对应关系集。
7.根据权利要求6所述的***,其特征在于,
所述商品搜索服务器,还用于将所述搜索词与中心词之间的对应关系集存储至高速分布式缓存设备中。
8.根据权利要求1所述的***,其特征在于,
所述商品搜索服务器,还用于确定与所述搜索词匹配的商品对象。
9.根据权利要求1所述的***,其特征在于,
所述商品搜索服务器,还用于生成所述搜索词、所述中心词、与所述搜索词匹配的商品对象、及与所述中心词匹配的商品对象之间的对应记录集,作为埋点日志;以及,将所述埋点日志发送至所述大数据处理装置;
所述大数据处理装置,还用于获取所述埋点日志,根据所述埋点日志生成搜索报表。
10.一种商品搜索方法,其特征在于,包括:
接收客户端发送的针对用户指定搜索词的商品搜索请求;
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;
确定与所述中心词匹配的商品对象;
向所述客户端回送所述商品对象。
11.根据权利要求10所述的方法,其特征在于,还包括:
通过机器学习算法,根据商品标题、中心词标注数据和商品类目之间的对应记录集,生成所述中心词提取模型。
12.根据权利要求11所述的方法,其特征在于,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。
13.根据权利要求11所述的方法,其特征在于,还包括:
根据历史搜索记录,确定历史搜索词的搜索次数;
选取与所述搜索次数排在高位的历史搜索词匹配的商品标题,作为所述对应记录的所述商品标题。
14.根据权利要求13所述的方法,其特征在于,所述根据历史搜索记录,确定历史搜索词的搜索次数,包括:
根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。
15.根据权利要求13或14所述的方法,其特征在于,还包括:
根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;
将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。
16.根据权利要求13所述的方法,其特征在于,还包括:
根据中心词标注规则,确定所述商品标题对应的所述中心词标注数据。
17.根据权利要求13所述的方法,其特征在于,还包括:
通过大数据处理平台,从搜索前端服务集群搜集搜索日志,形成所述历史搜索记录。
18.根据权利要求11所述的方法,其特征在于,还包括:
确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;
根据所述模型评测数据集,确定所述模型的质量得分。
19.根据权利要求18所述的方法,其特征在于,
所述商品召回数量小于商品数量阈值的历史搜索词包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;
所述方法还包括:
根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史搜索词的搜索次数;
从所述商品召回数量小于商品数量阈值的历史搜索词中选取所述搜索次数超过搜索次数阈值的历史搜索词。
20.根据权利要求18所述的方法,其特征在于,还包括:
若所述模型质量得分小于质量阈值,则重新生成所述中心词提取模型。
21.根据权利要求10所述的方法,其特征在于,在所述通过中心词提取模型,提取所述搜索词的中心词之前,还包括:
从中心词历史提取记录中获取所述中心词。
22.根据权利要求20所述的方法,其特征在于,在所述通过中心词提取模型,提取所述搜索词的中心词之后,还包括:
将所述搜索词与所述中心词的对应记录存储至所述中心词历史提取记录中。
23.根据权利要求20所述的方法,其特征在于,所述中心词历史提取记录存储在高速分布式缓存设备中。
24.根据权利要求10所述的方法,其特征在于,还包括:
确定与所述搜索词匹配的商品对象。
25.一种商品搜索方法,其特征在于,包括:
向服务器发送针对用户指定搜索词的商品搜索请求;
接收所述服务器回送的商品对象;
展示所述商品对象;
所述商品对象采用如下步骤确定:
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;
确定与所述中心词匹配的所述商品对象。
26.一种中心词提取模型构建方法,其特征在于,包括:
确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;
通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
27.根据权利要求26所述的方法,其特征在于,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。
28.根据权利要求26所述的方法,其特征在于,所述商品标题采用如下步骤确定:
根据历史搜索记录,确定历史搜索词的搜索次数;
选取与所述搜索次数排在高位的历史搜索词匹配的商品标题。
29.根据权利要求28所述的方法,其特征在于,所述根据历史搜索记录,确定历史搜索词的搜索次数,包括:
根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。
30.根据权利要求28所述的方法,其特征在于,所述中心词标注数据采用如下步骤确定:
根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;
将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。
31.根据权利要求26所述的方法,其特征在于,还包括:
确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;
根据所述模型评测数据集,确定所述模型的质量得分。
32.根据权利要求31所述的方法,其特征在于,
所述商品召回数量小于商品数量阈值的历史搜索词包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;
所述方法还包括:
根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史搜索词的搜索次数;
从所述商品召回数量小于商品数量阈值的历史搜索词中选取所述搜索次数超过搜索次数阈值的历史搜索词。
33.根据权利要求31所述的方法,其特征在于,还包括:
若所述模型质量得分小于质量阈值,则重新生成所述中心词提取模型。
34.根据权利要求26所述的方法,其特征在于,所述确定商品标题与中心词标注数据之间的对应记录集,包括:
确定所述商品标题、所述中心词标注数据和商品类目之间的对应记录集。
35.一种商品搜索装置,其特征在于,包括:
请求接收单元,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;
中心词处理单元,用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;
第一商品对象确定单元,用于确定与所述中心词匹配的商品对象;
商品对象回送单元,用于向所述客户端回送所述商品对象。
36.一种商品搜索装置,其特征在于,包括:
请求发送单元,用于向服务器发送针对用户指定搜索词的商品搜索请求;
商品对象接收单元,用于接收所述服务器回送的商品对象;
商品对象展示单元,用于展示所述商品对象;
所述商品对象采用如下步骤确定:
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;
确定与所述中心词匹配的所述商品对象。
37.一种中心词提取模型构建装置,其特征在于,包括:
训练数据集确定单元,用于确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;
模型训练单元,用于通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
38.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现商品搜索方法的程序,该设备通电并通过所述处理器运行该商品搜索方法的程序后,执行下述步骤:接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象。
39.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现商品搜索方法的程序,该设备通电并通过所述处理器运行该商品搜索方法的程序后,执行下述步骤:向服务器发送针对用户指定搜索词的商品搜索请求;接收所述服务器回送的商品对象;展示所述商品对象;所述商品对象采用如下步骤确定:若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的所述商品对象。
40.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现中心词提取模型构建方法的程序,该设备通电并通过所述处理器运行该中心词提取模型构建方法的程序后,执行下述步骤:确定商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集;通过机器学习算法,从所述模型训练数据集中学习获得中心词提取模型,所述中心词提取模型用于提取搜索词的中心词。
CN201810789367.4A 2018-07-17 2018-07-17 商品搜索方法、装置、***及电子设备 Active CN110795613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810789367.4A CN110795613B (zh) 2018-07-17 2018-07-17 商品搜索方法、装置、***及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810789367.4A CN110795613B (zh) 2018-07-17 2018-07-17 商品搜索方法、装置、***及电子设备

Publications (2)

Publication Number Publication Date
CN110795613A true CN110795613A (zh) 2020-02-14
CN110795613B CN110795613B (zh) 2023-04-28

Family

ID=69424985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810789367.4A Active CN110795613B (zh) 2018-07-17 2018-07-17 商品搜索方法、装置、***及电子设备

Country Status (1)

Country Link
CN (1) CN110795613B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001228A (zh) * 2020-07-08 2020-11-27 上海品览数据科技有限公司 一种基于深度学习的视频监控仓库出入库计数***及方法
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备
WO2021244424A1 (zh) * 2020-06-01 2021-12-09 腾讯科技(深圳)有限公司 中心词提取方法、装置、设备及存储介质
CN113806628A (zh) * 2020-06-12 2021-12-17 电子湾有限公司 智能商品标题重写器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310343A (zh) * 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
CN103810198A (zh) * 2012-11-09 2014-05-21 阿里巴巴集团控股有限公司 一种商品信息的搜索方法及装置
CN105589954A (zh) * 2015-12-21 2016-05-18 北京奇虎科技有限公司 基于中心词确定搜索建议的方法及装置
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索***
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310343A (zh) * 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
CN103810198A (zh) * 2012-11-09 2014-05-21 阿里巴巴集团控股有限公司 一种商品信息的搜索方法及装置
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索***
CN105589954A (zh) * 2015-12-21 2016-05-18 北京奇虎科技有限公司 基于中心词确定搜索建议的方法及装置
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUN CHEN等: "An influence framework on product word-of-mouth (WoM) measurement" *
叶大枢;黄沛杰;邓振鹏;黄强;: "限定领域口语对话***中的商品属性抽取" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021244424A1 (zh) * 2020-06-01 2021-12-09 腾讯科技(深圳)有限公司 中心词提取方法、装置、设备及存储介质
CN113806628A (zh) * 2020-06-12 2021-12-17 电子湾有限公司 智能商品标题重写器
CN112001228A (zh) * 2020-07-08 2020-11-27 上海品览数据科技有限公司 一种基于深度学习的视频监控仓库出入库计数***及方法
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN110795613B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN109359244B (zh) 一种个性化信息推荐方法和装置
CN101404015B (zh) 自动生成词条层次
WO2017097231A1 (zh) 话题处理方法及装置
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN110532479A (zh) 一种信息推荐方法、装置及设备
US9390165B2 (en) Summarization of short comments
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
CN106649455A (zh) 一种大数据开发的标准化***归类、命令集***
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN109948121A (zh) 文章相似度挖掘方法、***、设备及存储介质
CN110795613B (zh) 商品搜索方法、装置、***及电子设备
US20140006369A1 (en) Processing structured and unstructured data
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN103309869A (zh) 数据对象的展示关键词推荐方法及***
CN112732995A (zh) 一种畜牧业新闻资讯推荐***
CN112685452B (zh) 企业案例检索方法、装置、设备和存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN117076770A (zh) 基于图计算的数据推荐方法、装置、存储价值及电子设备
Lo et al. An emperical study on application of big data analytics to automate service desk business process
CN109062551A (zh) 基于大数据开发命令集的开发框架
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、***及终端
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及***
CN113342844A (zh) 工业智能搜索***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant