CN108153792A - 一种数据处理方法和相关装置 - Google Patents
一种数据处理方法和相关装置 Download PDFInfo
- Publication number
- CN108153792A CN108153792A CN201611110268.6A CN201611110268A CN108153792A CN 108153792 A CN108153792 A CN 108153792A CN 201611110268 A CN201611110268 A CN 201611110268A CN 108153792 A CN108153792 A CN 108153792A
- Authority
- CN
- China
- Prior art keywords
- resource
- semantic primitive
- search
- participle
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据处理方法和相关装置,为了提高搜索体验,可以将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,提高了用户的搜索体验。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
背景技术
随着互联网技术的发展,利用互联网平台向用户提供资源的方式已经广泛应用。
用户若希望查看、获取某一种类的资源,可以在互联网平台上通过输入体现该资源特点的搜索词进行搜索,以希望从搜索结果中获取具有体现搜索词特点的资源。
发明内容
然而,有些时候当用户输入的搜索词数量较多或者搜索词不准确时,获取的搜索结果可能很少甚至没有,从而降低了用户的体验。可见,如何提高搜索体验是目前亟需解决的技术问题。
为了解决上述技术问题,本发明提供了一种数据处理方法和相关装置,可以有效的对该目标语义单元对应的搜索结果进行扩充的作用,从而提高了用户的搜索体验。
本发明实施例公开了如下技术方案:
第一方面,本发明提供了一种数据处理方法,所述方法包括:
获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;
将所述目标语义单元划分得到多个分词;
根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;
将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,在所述将所述目标语义单元划分得到多个分词之前,还包括:
若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,执行所述将所述目标语义单元划分得到多个分词的步骤。
可选的,第一分词为所述多个分词中任意一个分词,所述根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词,包括:
获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;
根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;
若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
可选的,在所述将从所述多个分词中确定出的核心词所对应的搜索结果作为所述目标语义单元的搜索结果之后,还包括:
若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;
将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:
若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,
若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。
可选的,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:
将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,
将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。
可选的,在所述将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果之前,还包括:
计算得到的扩充语义单元与所述目标语义单元之间的关联频率;
得到关联频率最高的前M个扩充语义单元;
根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;
将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。
可选的,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,还包括:
根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;
向所述客户端推荐所述待推荐资源。
可选的,所述根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源,包括:
获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。
可选的,还包括:
获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;
获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;
根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;
根据排序得分的高低对所述资源集合中的待排序资源进行排序。
可选的,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
可选的,第三资源为所述资源集合中的任意一个待排序资源,在所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分之前,包括:
根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;
若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;
根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;
所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分,包括:
根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。
可选的,所述根据所述第三资源的到期时间确定所述第三资源的加权分,包括:
根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;
根据所述用户获取过所述第三资源的次数计算次数加权部分;
根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。
第二方面,本发明提供了一种数据处理装置,所述装置包括获取单元、划分单元和确定单元:
所述获取单元,用于获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;
所述划分单元,用于将所述目标语义单元划分得到多个分词;
所述确定单元,用于根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;
所述确定单元还用于将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,触发所述划分单元。
可选的,第一分词为所述多个分词中任意一个分词,所述确定单元还用于获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
可选的,所述确定单元包括扩充子单元和确定子单元:
若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,所述扩充子单元,用于根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;
所述确定子单元,用于将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述扩充子单元,还用于若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。
可选的,所述扩充子单元还用于将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。
可选的,所述扩充子单元还用于计算得到的扩充语义单元与所述目标语义单元之间的关联频率;得到关联频率最高的前M个扩充语义单元;根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。
可选的,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,所述装置还包括推荐单元:
所述推荐单元,用于根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;向所述客户端推荐所述待推荐资源。
可选的,所述推荐单元还用于获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。
可选的,所述装置还包括资源获取单元、偏好获取单元、点击率确定单元、得分确定单元和排序单元:
所述资源获取单元,用于获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;
所述偏好获取单元,用于获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
所述点击率确定单元,用于根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;
所述得分确定单元,用于根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;
所述排序单元,用于根据排序得分的高低对所述资源集合中的待排序资源进行排序。
可选的,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
可选的,第三资源为所述资源集合中的任意一个待排序资源,所述得分确定单元还用于根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。
可选的,所述得分确定单元还用于根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;根据所述用户获取过所述第三资源的次数计算次数加权部分;根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。
第三方面,本发明提供了一种资源排序的方法,所述方法包括:
获取待排序资源的资源集合,所述待排序资源为互联网上提供的资源;
获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;
根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;
根据排序得分的高低对所述资源集合中的待排序资源进行排序。
可选的,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
可选的,第三资源为所述资源集合中的任意一个待排序资源,在所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分之前,包括:
根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;
若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;
根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;
所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分,包括:
根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。
可选的,所述根据所述第三资源的到期时间确定所述第三资源的加权分,包括:
根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;
根据所述用户获取过所述第三资源的次数计算次数加权部分;
根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。
第四方面,本发明提供了一种个性化导购框架,所述个性化导购框架包括在线计算模块和离线计算模块:
在线计算模块用于实时的商家行为分析,商品召回,个性化排序;
离线计算模块用于负责商家/服务特征更新,订购模型训练以及候选商品池计算。
可选的,所述个性化导购框架还用于进行实时偏好的识别、资源匹配的召回以及模型的排序。
由上述技术方案可以看出,为了提高搜索体验,可以将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,则可以确定这个分词与该目标语义单元实际携带的特征基本相符,或者说这个分词较能够体现出该目标语义单元的核心含义,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,从而提高了用户的搜索体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种为提高搜索体验对搜索语义单元进行处理的示意图;
图2为本发明实施例提供的一种数据处理方法的方法流程图;
图3为本发明实施例提供的一种核心词确定方法的方法流程图;
图4为本发明实施例提供的一种扩充语义单元的筛选方法的方法流程图;
图5为本发明实施例提供的一种资源排序方法的方法流程图;
图6为本发明实施例提供的一种服务平台的个性化框架示意图;
图7为本发明实施例提供的一种服务平台个性化场景展示效果图;
图8为本发明实施例提供的一种数据处理装置的装置结构图;
图9为本发明实施例提供的一种排序装置的装置结构图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。
在互联网平台上进行搜索时,有时候会因为输入搜索词的问题,导致搜索结果很少甚至搜索不到。例如在专门针对卖家的服务平台中,提供的资源主要是为方便卖家管理网络店铺、店铺中商品等的管理工具或服务工具,故服务平台中提供的资源数量相对于针对买家的购物平台(例如天猫商城)中提供的资源数量是非常少的,从而用户(例如卖家)在服务平台中搜索时出现没有搜索结果的可能性更大,导致了不好的搜索体验。
为此,本发明实施例提供了一种数据处理方法和相关装置,可以针对用于搜索的目标语义单元进行预先处理,以希望提高搜索结果中资源的数量,并保持资源的质量。本发明实施例中提出的目标语义单元可以理解为一个搜索语义单元,该搜索语义单元用于搜索,携带有标识希望获取到资源的相关特征,该搜索语义单元可以包括关键词、关键短语、或者关键短句等单个或任意多个组合的形式。本发明实施例中所提出的资源主要是指互联网中所提供的资源,该资源可以包括实体资源,也可以包括虚拟资源。实体资源可以是具有实体结构的物品,例如家电用品、衣物、化妆品等。虚拟资源可以是虚拟化的产品,例如游戏中的虚拟物品、游戏币、电子代金券等,虚拟资源还可以是一种服务性或管理性的资源,例如保洁人员所提供的上门清扫服务、网络店铺的管理服务等。与资源相关的特征还有类目,由于互联网上所提供的资源很多,为了方便用户浏览到或者搜索到所需的资源,节省用户时间,可以对互联网上所提供的资源进行分类,将具有相同属性的资源归为一个类目。类目可以理解为是对可以归为一类资源的总称,这一类目下的资源均具有至少一个相同的属性。例如“鞋子”可以作为一个类目,其中可以包括具有“鞋子”这一属性的各个资源,如运动鞋、休闲鞋、凉鞋、帆布鞋或者更为详细的各个品牌尺码的具体资源等。例如“帆布鞋”也可以作为一个类目,其中可以包括具有“帆布鞋”这一属性的各个资源,如a品牌帆布鞋、b品牌帆布鞋、加绒帆布鞋、高帮帆布鞋等具体资源。如何对资源进行归类以得到类目本本发明并不限定,可以根据划分精度进行归类,或者是根据具体要求进行归类。
通过对目标语义单元进行预先处理,可以从目标语义单元中划分出多个分词,例如图1所示,目标语义单元100并划分出x个分词200,之后,根据每个分词的搜索结果中资源所属类目为依据,从x个分词200中确定出能够体现目标语义单元100核心特征的y个核心词300,这y个核心词300均是从x个分词200中确定得到的,一般情况下,y的个数小于等于x的个数。
确定出核心词后,将根据这y个核心词300搜索得到的搜索结果400作为目标语义单元100的搜索结果,这里所述的“作为”并不是指将核心词的搜索结果代替仅根据目标语义单元搜索得到的原搜索结果500,而主要是指将核心词的搜索结果400作为目标语义单元的原搜索结果500的扩充,使得目标语义单元100扩充后的搜索结果中资源数量更多,而且保证了所扩充的资源也具有至少一部分目标语义单元所携带的相关特征,即所扩充资源与通过目标语义单元搜索得到的搜索结果中资源的相关性较高,从而提高了搜索体验。
可见,通过将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,则可以确定这个分词与该目标语义单元实际携带的特征基本相符,或者说这个分词较能够体现出该目标语义单元的核心含义,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,从而提高了用户的搜索体验。
图2为本发明实施例提供的一种数据处理方法的方法流程图,所述方法可以应用于服务器中,所述方法包括如下步骤:
S201:获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元。
举例说明,本步骤获取的目标语义单元可以是用户刚刚输入的、尚未得到搜索结果的搜索语义单元,也可以是历史搜索行为中所使用的搜索语义单元。针对刚刚输入的搜索语义单元的情况,可以通过图2的流程得到对应的核心词,并以核心词的搜索结果来扩充目标语义单元的搜索结果。针对历史搜索行为中的搜索语义单元的情况,可以通过图2的流程得到对应的核心词,并利用扩充后的目标语义单元的搜索结果来进行应用,例如资源推荐等,扩充的搜索结果可以丰富所推荐的资源。
在本发明实施例中,可以直接将获取的目标语义单元进行分词处理,也可以在提高计算效率的前提下,有选择的对目标语义单元进行分词处理。针对有选择的处理目标语义单元的情况,可以预先确定目标语义单元能够得到的搜索结果是否会影响用户搜索体验,而影响用户搜索体验的主要因素之一是搜到的资源数量太少,导致用户的选择性低。故可以通过一个目标语义单元的搜索结果中资源的数量直接判断出这个目标语义单元是否需要分词;或者,因为搜索时所使用的搜索语义单元的字符越长,所标识的特征一般来说会越多,那么同时具有这些特征的资源显然会很少甚至没有,故也可以通过一个目标语义单元的字符长度来判断这个目标语义单元是否需要分词。为此,本发明实施例提供了一种确定目标语义单元是否需要分词的判断机制,可选的,若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,执行S202。也就是说,在目标语义单元搜索得到的资源数量较少,或者目标语义单元的字符长度较长时,可以对该目标语义单元进行分词处理。
S202:将所述目标语义单元划分得到多个分词。
举例说明,可以以词义或词语结构为依据,对目标语义单元进行分词,例如一个目标语义单元为“女装鞋子”划分得到的分词可以包括“女装”和“鞋子”;一个目标语义单元为“商品标签收藏”划分得到的分词可以包括“商品”、“标签”和“收藏”。
S203:根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词。
举例说明,在确定出多个分词后,可以将这些分词作为关键词分别的进行单独搜索,得到使得每一个分词单独搜索时所得到的搜索结果。例如10个分词,单独根据分词1进行搜索得到一个搜索结果1,单独根据分词2进行搜索得到一个搜索结果2。
针对该多个分词中的任意一个分词,可以确定通过这个分词搜索到的资源的所属类目的数量,当数量较多时,代表通过这个分词可以搜索到各种不同类目的资源,相当于这个分词所标识的特征属于一种通用特征,在不同类目下的资源都可以具有这个分词所标识的特征。如果一个分词搜索到的资源的所属类目的数量较少,代表具有这个分词所标识特征的资源较为集中,有较大可能属于一个或几个类目下资源的特有特征。一般来说,通过目标语义单元希望能够搜索到具有较为特定特征的资源集合,而过于通用的特征可能不能很好的标识目标语义单元的核心含义,而具有一个分词所标识特征的资源较为集中时,这个分词可能可以很好的标识目标语义单元的核心含义,或者说,这个分词所标识的特征与该目标语义单元所标识的特征相关性很高。
还可以确定一个分词搜索到的资源所属类目与目标语义单元搜索到的资源所属类目之间的重合度。由于搜索得到资源所集中的类目可以展示出搜索这些资源所采用的搜索语义单元所标识的特定特征,例如搜索语义单元为“鞋子”,那么通过该搜索语义单元搜索得到的资源将大多集中在“鞋子”这一类目中。
故如果一个分词搜索到的资源所属类目中有很大比例都与目标语义单元搜索到的资源所属类目相同,代表这个分词所标识的特征与该目标语义单元所标识的特定特征比较相似,可以起到标识目标语义单元的核心含义,或者说,这个分词所标识的特征与该目标语义单元所标识的特征相关性很高。
可见,根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度这两个特征可以很明确的表示出一个分词是否能够标识出通过目标语义单元最希望能够搜索到的资源的特定特征,或者说,可以很明确的表示出一个分词所标识的特征与该目标语义单元所标识的特征相关性是否很高。
通过S203对分词的处理分析,可以从多个分词中确定出该目标语义单元的核心词,核心词也就是能够体现该目标语义单元核心含义的分词或者与该目标语义单元所标识的特征相关性很高的分词。
一个目标语义单元的核心词可以有一个或多个,核心词均是从这个目标语义单元所划分出的分词中确定得到的,例如一个目标语义单元划分出10个分词,分别是分词1至分词10,从这10个分词中确定出5个可以作为核心词的分词,分别是分词1至分词5。
S204:将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
举例说明,由于确定出的核心词所标识的特征与目标语义单元所标识的特征相似或相关性很高,故通过核心词搜索得到的资源与目标语义单元所携带的特征在一定程度上具有相关性,很有可能是通过目标语义单元进行搜索的用户所需要的资源。故将根据核心词搜索得到的搜索结果作为目标语义单元的搜索结果,既可以在仅通过目标语义单元搜索得到的搜索结果的基础上增加的资源数量,所增加资源也可以一定程度上体现出目标语义单元所标识的特征,故将这种包括核心词搜索得到的搜索结果和目标语义单元搜索得到的搜索结果的搜索结果进行展示时,不论从搜索结果中资源的数量还是质量都可以起到提高搜索体验的效果。
可见,通过将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,则可以确定这个分词与该目标语义单元实际携带的特征基本相符,或者说这个分词较能够体现出该目标语义单元的核心含义,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,从而提高了用户的搜索体验。
除了S203中提到的用于计算核心词的特征以外,为了提高计算精度,在通过划分出的多个分词确定核心词的过程中,还可以进一步参考分词在历史搜索行为中的相关参数。为了清楚说明,接下来以第一分词,即目标语义单元所划分的多个分词中任意一个分词为例进行描述。该多个分词中每一个分词均可按照该第一分词的处理方式进行核心词的计算和确定。
图3为本发明实施例提供的一种核心词确定方法的方法流程图,所述方法包括如下步骤:
S301:获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数。
举例说明,历史搜索行可以包括在互联网平台中曾经进行过的搜索行为,在历史搜索行为中,第一分词有可能被作为搜索语义单元进行过搜索。第一分词在历史搜索行为中用于搜索的次数可以标识第一分词的搜索热度,若第一分词用于搜索的次数较高,或者说搜索热度较高,可以表示第一分词是一个经常被用于搜索的搜索语义单元,经常被用于搜索可以体现出第一分词作为搜索语义单元的可靠性和有效性。
而根据第一分词搜索得到的资源的数量可以一定程度上反映第一分词的搜索质量,搜索到的资源数量越多,可以反映第一分词的搜索质量越好,若第一分词被确定为目标语义单元的核心词,那么第一分词可以为目标语义单元的搜索结果扩充更多的资源。
第一分词在历史搜索行为中与其他词共同出现的次数可以体现第一分词所标识特征的通用性,若第一分词在历史搜索行为的搜索语义单元中和大量不同的词同时出现,则反映第一分词过于通用,那么第一分词所标识的特征很可能是比较普遍的特征,那么这种第一分词将难以体现出目标语义单元所想体现的特定特征。若与第一分词同时出现在搜索语义单元中的其他词数量较少,相对于第一分词与其他词组成新的搜索语义单元的组合较少,那么第一分词所标识特征将主要体现在与其他词组成新的搜索语义单元所能搜索到的资源中,故第一分词所标识的特征相对较为特定。
可见,以上第一分词在历史搜索行为中用于搜索的次数、第一分词搜索得到的资源数量,以及第一分词在历史搜索行为中与其他词共同出现的次数可以一定程度上体现出第一分词所标识的特征是一个特定特征还是一个普遍特征,从而可以进一步提高确定核心词的精度。
S302:根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分。
举例说明,由于一般情况下,通过目标语义单元希望能够搜索到具有较为特定特征的资源,故在通过S301获取的特征进行核心词确定时,希望通过S301获取的特征将可能会标识普遍性特征的分词尽可能的排除掉,而保留可以标识特定特征的分词作为核心词。
本发明实施例还提供了一种具体计算核心词得分(score)的计算方式,如下式所示:
其中,query_cnt为第一分词在历史搜索行为中用于搜索的次数,可以是按照用户去重后的值,result_cnt为根据第一分词搜索得到的搜索结果中资源的数量,cate_entropy为在历史搜索行为中,根据所述第一分词搜索得到的搜索结果中资源所属类目的数量确定出的类目分布熵,adjoin_entropy为根据第一分词在历史搜索行为中与其他词共同出现的次数确定出的邻接熵,cate_match为根据第一分词搜索得到的搜索结果中资源的所属类目与根据目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度。
进一步的,
其中,pi=搜索到的i类目的资源数/搜索到的总资源数,n为搜索到资源所属类目的数量;
其中,pi=第一分词与第i个词在搜索语义单元中共同出现的次数/第一分词与其他词在搜索语义单元中共同出现的次数,n为与第一分词在搜索语义单元中共同出现的词的总数;
S303:若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
举例说明,当第一分词的核心词得分越高,反映了第一分词所标识的特征越不具有普遍性,所标识的特征与目标语义单元的相似性、相关性就越大。其中,N可以根据具体场景需求进行设置,也可以是固定值。
通过上述实施例可以看出,在确定目标语义单元的核心词过程中,在保证了从分词中确定出的核心词所标识的特征与目标语义单元所标识的特征具有较高相关性的前提下,进一步考虑了分词本身在历史搜索行为中的相关参数,从而提高了确定核心词的确定精度。
需要注意的是,核心词是从由目标语义单元划分得到的分词得到的,若目标语义单元本身的含义表达不清楚,会导致划分出的分词也难以确定出核心词来,或者确定出的核心词也难以搜索到相关资源,这种问题有可能是由于目标语义单元本身的问题导致,通过由目标语义单元所划分分词得到的核心词也难以解决这一问题。为此,本发明实施例还提供了一种对目标语义单元进行扩充的方案,以希望通过扩充得到的扩充语义单元所搜索到的搜索结果来扩充目标语义单元的搜索结果。故可选的,在执行完S204之后,可以判断目前的目标语义单元的搜索结果(通过核心词的搜索结果所扩充的搜索结果)中资源的数量是否小于预定阈值(第三阈值)。当搜索结果中资源数量较少时可以对目标语义单元进行扩充。
也就是说,若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,根据所述目标语义单元进行扩充,得到扩充语义单元。
将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
举例说明,扩充语义单元也属于搜索语义单元,根据目标语义单元扩充出的扩充语义单元可以是一个,也可以是多个。
在进行扩充时,主要是依据目标语义单元,例如根据目标语义单元搜索得到的各个资源。本发明根据目标语义单元是否能够搜索得到搜索结果提供了多种扩充的方式。接下来将以第一资源,即根据目标语义单元搜索得到的搜索结果中的任意一个资源为例进行说明。
例如针对根据目标语义单元能够搜索得到搜索结果的情况,若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元。这里的第一语义单元可以为一个搜索语义单元,且第一语义单元与目标语义单元不同。
举例说明,若根据目标语义单元和第一语义单元都能搜索到第一资源,那么目标语义单元和第一语义单元各自所标识的特征可以至少有一部分具有相关性,这一部分可以是第一资源均具有的特征,由第一语义单元搜索得到的资源与根据目标语义单元搜索得到的资源之间具有相关性的可能更高,故可以将与目标语义单元之间具有一定相关性的第一语义单元作为扩充语义单元。
或者,针对根据目标语义单元能够搜索得到搜索结果的情况,若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。
举例说明,还可以通过寻找与第一资源具有相似性的其他资源,例如第二资源,若第二资源可以通过第二语义单元搜索得到,那么可以确定目标语义单元和第二语义单元各自所标识的特征可以至少有一部分具有相关性,这一部分可以是第一资源和第二资源均具有的特征,由第二语义单元搜索得到的资源与根据目标语义单元搜索得到的资源之间具有相关性的可能更高,故可以将与目标语义单元之间具有一定相关性的第二语义单元作为扩充语义单元。
针对根据目标语义单元能够搜索得到搜索结果的情况或者无法搜索得到搜索结果的情况,可以将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元。
举例说明,编辑距离用于体现两个搜索语义单元之间字符组成上的接近程度,而字符组成相差较小(小于第四阈值)的情况下,两个搜索语义单元之间语义上的差异可能并不是很大,故可以将与目标语义单元之间具有一定语义相似性的第三语义单元作为扩充语义单元。
或者,针对根据目标语义单元能够搜索得到搜索结果的情况或者无法搜索得到搜索结果的情况,可以将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。
举例说明,通过语义相似性上的判断,例如通过word2vec语义分析技术的应用,可以确定两个搜索语义单元之间的语义或词义上的相似程度,两个词义相似度较小(小于第五阈值)的搜索语义单元所标识特征的相似性也应该较为接近,故可以将与目标语义单元之间具有一定语义相似性的第四语义单元作为扩充语义单元。
需要注意的是,如果通过扩充得到的扩充语义单元的数量较多,将扩充语义单元的搜索结果来扩充目标语义单元的搜索结果会导致扩充后的搜索结果中资源数量过多,反而会降低搜索体验,故可以在扩充目标语义单元的搜索结果之前对扩充语义单元进行筛选。如图4所示,所述方法包括如下步骤:
S401:计算得到的扩充语义单元与所述目标语义单元之间的关联频率。
举例说明,关联频率主要体现的是目标语义单元与扩充语义单元之间的关联程度,关联频率越高反映目标语义单元和扩充语义单元之间的关联程度越好,而关联程度可以体现出两个搜索语义单元所标识特征的相关性或相似性,故与目标语义单元的关联程度较好的扩充语义单元所标识的特征与目标语义单元所标识的特征相似性或相关性应该更高。
本发明实施例提出了一种通过搜索到的资源来判断两个搜索语义单元之间关联频率的方式,如果目标语义单元所能搜索到的资源中与扩充语义单元所能搜索到的资源中重复或者相关的资源数量较多,可以认为这两个搜索语义单元的关联频率较高,反之则关联频率较低。
S402:得到关联频率最高的前M个扩充语义单元。
通过关联频率的筛选,可以从已经得到的大量看出语义单元中筛选出一部分与目标语义单元关联频率较高的扩充语义单元。这里的M是一个正整数,对M的设置可以与具体场景需求相关,也可以与扩充出的扩充语义单元的数量相关。
S403:根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元。
举例说明,为了进一步提高扩充精度,还可以参考扩充语义单元的字符长度,与目标语义单元的字符长度相近的扩充语义单元所标识的特征与目标语义单元所标识的特征具有较高相关性、相似性的可能性越大。
扩充语义单元在历史搜索行为中被用于搜索的次数可以参见S301中针对第一分词在历史搜索行为中用于搜索的次数的相关描述,这里不再赘述。若扩充语义单元经常被用于搜索可以体现出该扩充语义单元作为搜索语义单元的可靠性和有效性。
扩充语义单元通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度可以参见S203中针对重合度的描述,这里不再赘述。较高的重合度可以体现扩充语义单元所标识的特征与目标语义单元所标识的特征相关性很高。
通过参考S403中提出的上述特征,可以进一步从M个扩充语义单元中筛选出L个具有字符长度与目标语义单元相近、用于搜索次数较多和重合度较高这三类特点之一或任意组合的扩充语义单元。这里的L可以是小于等于M的正整数。
S404:将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。
通过S401至S403的筛选,可以从较多数量的扩充语义单元中筛选出与目标语义单元相关性、相似性较高的一部分扩充语义单元,即这L个扩充语义单元,以这L个扩充语义单元的搜索结果来扩充目标语义单元的搜索结果既可以保证资源的质量,也可以保证资源的数量不会过多,从而进一步提高了搜索体验。
对于目标语义单元的搜索结果的扩充除了可以应用于实时的搜索结果展示以外,还可以有效的应用于资源推荐中。资源推荐可以理解为用户在没有进行搜索操作时,例如浏览资源的过程或者登入互联网平台时,向用户展示一些可能用户会感兴趣的、可能符合用户需求的资源,以希望提高用户获取这些推荐资源的可能性。
资源推荐一般需要用户登入,例如通过客户端连接服务器,如果这个用户通过目标语义单元进行过搜索,则可以根据这个用户的历史搜索行为对该用户进行资源推荐。
由于用户的需求和兴趣可能随时时间的推移发生变化,故在处理用户的历史搜索行为时,可以更多的考虑更能够体现这个用户的需求的近期搜索行为,这个近期具体是多少可以根据具体场景需求来定,例如一周内,一天内等。而较早的历史搜索行为对判断用户的当前需求的影响较小,可以不考虑,或者,在考虑时配置较小的权重。
根据上述思路,可以首先根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。核心词的确定可以参见图2、图3对应的实施例,这里不再赘述。
而确定出的待推荐资源可以是由核心词、搜索语义单元搜索得到的资源,也可以是与这些资源相似的、相关的资源。确定出待推荐资源后,便可以向所述客户端推荐这些待推荐资源。
除了可以使用近期搜索所使用的搜索语义单元和核心词来确定待推荐资源以外,还可以参考用户的实时偏好,这里所述的实时偏好可以包括实时资源偏好和实时类目偏好。用户的实时偏好可以直观的反映该用户近期或当前对资源的喜好和需求,实时偏好可以通过用户与资源的历史关联行为确定得出。其中,用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
用户与资源的历史关联行为可以包括用户所实施的与资源相关的操作,例如对资源的流量、点选、获取等,具体可以体现在将商品加入购物车、提交订单、收藏商品等上。可见,用户的这些与资源的历史关联行为显然与用户对资源的需求和喜好相关。
由于用户的需求和兴趣可能随时时间的推移发生变化,故处理用户与资源的历史关联行为的方式可以与处理用户的历史搜索行为类似,用户近期发生的与资源的历史关联行为更能够体现该用户当前的需求,而该用户较早时间发生的与资源的历史关联行为对判断用户的当前需求的影响较小。
故在确定待推荐资源之前,可以获取所述用户的实时偏好,并根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。
由于搜索结果中的资源数量在扩充后可能会较多,资源推荐时所推荐的资源数量也可能较多,若能够从较多数量的资源中选取出最有可能符合用户需求的并优先展示给用户,可以提高用户能够第一时间看到自己需要的资源的可能性。这样在资源搜索中,可以提高用户选择到所需资源的耗时,即缩短用户浏览搜索结果的时间,从而提高搜索体验,在资源推荐中,用户获取被推荐资源的可能性增加,也能提高资源推荐的效率。可见,如何将最有可能符合用户需求的资源优先展示给用户是目前亟需解决的问题。
接下来将在图2至图4所对应实施例的基础上,详细描述本发明实施例提供的资源排序方式。需要注意的是,图5所对应实施例也可以独立实施。
图5为本发明实施例提供的一种资源排序方法的方法流程图,所述方法包括如下步骤:
S501:获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源。
举例说明,这里需要进行排序处理的资源,或者说资源集合中的待排序资源可以是扩充后的目标语义单元的搜索结果,也可以是资源推荐时确定出的待推荐资源。也可以是互联网上所提供的资源。
S502:获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好。
举例说明,用户的实时偏好可以直观的反映该用户近期或当前对资源的喜好和需求,这里的实时偏好可以参见上述确定待推荐资源所采用实时偏好时的相关描述,这里不再赘述。
这里所述的用户可以是目标语义单元的输入者,也可以是需要被资源推荐的主体。或者说,通过图5所示实施例确定出的资源排序效果所展示的对象即是该用户。
S503:根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率(Click ValueRate,CVR)和点击通过率(Click-Through-Rate,CTR)。
举例说明,用户的特征除了可以包括反映用户自身特点的特征以外,还可以当用户为网络卖家时,包括网络卖家的网络店铺的相关特征,例如网络店铺所售卖商品的范围、特点等。通过将用户的特征与资源集合中各个待排序资源之间进行关联,可以生成交叉特征,交叉特征可以反映用户的特点或网络店铺的特点与资源的关联关系的强弱。需要注意的是,在计算一个待排序资源的CVR和CTR的过程中,还可以参考这个待排序资源自身的特征。
通过将该用户的特征、实时偏好,以及该特征与所述资源集合中一个待排序资源之间所形成的交叉特征输入到CVR/CTR预估模型中,可以得到这个待排序资源所对应的CVR和CTR,一个待排序资源的CVR或CTR越高,体现了这个待排序资源越有可能符合该用户的需求或喜好,越有可能被该用户点击查看、获取等。
通过改变向CVR/CTR预估模型中输入的交叉特征,可以得到不同待排序资源对应的CVR和CTR,从而可以最终获取所有待排序资源各自对应的CVR和CTR。
S504:根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分。
由于一个待排序资源对应的CVR和CTR可以体现这个待排序资源可能被该用户查看、获取的可能性,故可以根据一个待排序资源对应的CVR和CTR确定出这个待排序资源的排序得分。一般情况下,若一个待排序资源对应的CVR和CTR比较高,相应的会提升这个待排序资源对应的排序得分。一个待排序资源的排序得分越高,标识了这个待排序资源符合该用户需求、喜好的可能性越高,更可能被该用户查看、获取。
S505:根据排序得分的高低对所述资源集合中的待排序资源进行排序。
举例说明,可以将排序得分较高的排列在展示区域的优先位置,例如展示搜索结果的第一页,资源推荐区域中能够最先被用户看到或者最容易被用户看到的位置。
在计算一个待排序资源的排序得分时,除了可以参考这个待排序资源CVR和CTR,还可以参考这个待排序资源的其他参数。可选的,还可以参考待排序资源的特征值得分、加权分和多样性得分。接下来将以第三资源,即资源集合中的任意一个待排序资源为例,对如何计算待排序资源的排序得分进行说明。
第三资源的特征值得分可以是根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出的。这里的特征值可以是标识第三资源价值的参数,例如第三资源为一双鞋子,这双鞋子的销售价格可以是这个商品的特征值。而平均特征值可以标识第三资源所属类目中资源的平均价值,例如鞋子类目中所有鞋子的平均销售价格可以是这个类目的平均特征值。第三资源的特征值与平均特征值之间的差值可以体现第三资源的特征值是否容易被用户接受,例如若第三资源的特征值相对平均特征值过低或过高,被用户接受的可能性相对偏低。
若所述第三资源为具有周期时效性的资源,第三资源的加权分可以是根据所述第三资源的到期时间确定的。周期时效性的资源可以是指能够被用户在特定时段拥有的资源,例如一年有效期的杀毒软件,一年即是该杀毒软件的周期时效。当具有周期时效性的第三资源即将过期时,用户希望继续拥有第三资源的需求可能会较大,例如对即将过期的杀毒软件续费一年的行为。所以,可以根据第三资源的到期时间与当前时间之间的关系,来确定出第三资源的加权分。
本发明实施例提供了一种具体的计算加权分(R)的方式,可以根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;根据所述用户获取过所述第三资源的次数计算次数加权部分;根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。具体的计算可以如下式所示:
其中,T为到期时间,t为当前时间,m为该用户已经购买过第三资源的次数,α和β为定值。可以为时间加权部分,可以为次数加权部分。
第三资源的多样性得分可以是根据资源集合的待排序资源中属于第三资源所属类目的数量,以及资源集合的待排序资源所属类目的总数确定出的。多样性得分用于体现资源集合中待排序资源是否都集中在一个类目中,还是分散在多个类目中。在资源排序时,如果能够将不同类目的资源尽量全面的展示给用户,可以提供给用户更多的选择,相对于将属于同一个类目的资源集中的排列展示,可以为用户提供更好的排列体验。
在确定出第三资源的特征值得分、加权分和多样性得分后,结合第三资源的CTR和CVR,可以为第三资源计算出更为精确度的排序得分。本发明实施例提供了具体的计算排序得分(score)的方式,如下式所示:
score=w1*CTR+w2*CVR+w3*R+w4*P+w5*D
其中,w1至w5分别为CTR、CVR、R、P和D的权重值,P为特征值得分,D为多样性得分。各个权重值可以是定值,也可以根据不同的场景需求进行调整。
其中,多样性得分可以根据待排序资源的个数,以及待排序资源所属类目的个数计算得到,具体可以通过确定,其中K为待排序资源的总数,Ci是计算排序得分的资源所属类目的个数。
接下来以面向互联网商家的服务平台作为应用场景,进一步的说明本发明实施例所提供的技术方案如何应用于服务市场。
服务市场是面向淘系商家提供多样化服务的交易平台,目前覆盖淘系活跃卖家95%以上。其特点是:用户访问频次低,行为少,订购呈现周期性。原来的服务市场千人一面,不能很好匹配商家实际需求,导购效率较低。
为解决以上问题,我们设计了服务市场个性化框架,可以如图6所示,在个性化搜索和资源推荐的场景中取得了显著的效果。其中搜索点击率提升13%,空结果率降低468%;千次展示成交数提升15%;推荐点击提升90%,千次展示成交数提升267%,转化率比服务市场整体高71%。
个性化导购框架,所述个性化导购框架包括在线计算模块和离线计算模块:
在线计算模块用于实时的商家行为分析,商品召回,个性化排序;
离线计算模块用于负责商家/服务特征更新,订购模型训练以及候选商品池计算。
可选的,所述个性化导购框架还用于进行实时偏好的识别、资源匹配的召回以及模型的排序。
个性化导购框架可以服务市场,服务市场个性化框架可以分为在线计算和离线计算。
在线计算负责实时的商家行为分析(如图6中的对实时日志和实时行为的分析部分,以及实时偏好部分),商品召回(如图6中的推荐召回和搜索召回部分),个性化排序(如图6中的模型排序部分);离线部分负责商家/服务特征更新(如图6中的ODPS离线计算部分),订购模型训练(如图6中CTR/CVR模型和周期订购模型部分和机器训练平台部分)以及候选商品池计算(如图6中针对相似商品、搭配商品、类目优质、商家店铺特征、服务特征和交叉特征的ODPS离线计算部分以及机器学***台)。
其中至少有三部分需要着重说明。
1.实时偏好识别
服务市场的用户行为频次低,识别用户的实时偏好有助于更准确的匹配用户需求。实时偏好包括实时商品偏好和实时类目偏好两个维度,使用时间衰减累计+实时行为反馈调整的方式来构建用户实时偏好模型,流式框架JStorm聚合实时搜索、类目、点击、购买等行为日志到类目和商品维度,按时间衰减累计用户作用在各商品和类目的行为数,根据历史累计的数据选取TopN产生实时偏好。
2.匹配召回
服务市场搜索召回面临问题:搜索无结果、搜索结果相关性不高以及搜索结果不够优质。针对上述问题,使用核心词抽取和query扩展对原query进行语义分析和补充。包括:基于语义embedding对搜索词进行自适应分词和向量化表示;为保证核心词与原query语义相似,综合语义单元的类目分布熵、与原query的邻接熵,与原query类目匹配度进行核心词抽取;为了补充原query的语义描述,依据历史搜索点击、购买的行为相似性和语义相似性对原搜索词计算搜索扩展词。补充后的搜索词大幅降低了搜索无结果率,搜素点击率和转化率也得到明显提升。个性化推荐召回以实时商品偏好,实时类目偏好,近期搜索,历史订购商品为基础,配合相似商品,搭配商品,类目优质商品进行扩大召回,从而构建个性化推荐的优质多样的商品池。
3.模型排序
个性化推荐的模型排序部分负责对召回的商品池结合当前商家店铺和商家行为特征进行个性化排序,主要步骤是:1)拼接用户-商品pair对的特征,包括店铺特征,用户行为偏好特征,召回渠道特征,商品特征,以及其他交叉特征,输入CTR/CVR预估模型预测ctr和cvr分数;2)对满足订购模式的商品进行加权,如周期复购,优质商品有助于提升点击转化;3)结合业务目标,综合ctr预测、cvr预测、订购模式加权分、实时偏好、客单价、多样性分数、优质商品分数、搜索文本相似性进行重新排序。
通过将本发明实施例所提供的技术方案应用于该服务平台,使得用户在使用服务平台时,可以达到千人千面的效果,即基本上每一个用户在使用该服务平台时,服务平台向用户所展示的内容基本上都有一定区别,而且,当不同用户在使用相同搜索词在服务平台上进行搜索时,因为用户的偏好各有不同,故所搜索到的搜索结果也会有所区别。例如图7所示,不管是精选服务部分、同行在用部分还是猜你喜欢部分,都会根据用户的偏好进行有针对性的展示。
图8为本发明实施例提供的一种数据处理装置的装置结构图,所述装置包括获取单元801、划分单元802和确定单元803:
所述获取单元801,用于获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;
所述划分单元802,用于将所述目标语义单元划分得到多个分词;
所述确定单元803,用于根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;
所述确定单元803还用于将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,触发所述划分单元。
可选的,第一分词为所述多个分词中任意一个分词,所述确定单元还用于获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
可选的,所述确定单元包括扩充子单元和确定子单元:
若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,所述扩充子单元,用于根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;
所述确定子单元,用于将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述扩充子单元,还用于若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。
可选的,所述扩充子单元还用于将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。
可选的,所述扩充子单元还用于计算得到的扩充语义单元与所述目标语义单元之间的关联频率;得到关联频率最高的前M个扩充语义单元;根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。
可选的,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,所述装置还包括推荐单元:
所述推荐单元,用于根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;向所述客户端推荐所述待推荐资源。
可选的,所述推荐单元还用于获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。
可选的,图9为本发明实施例提供的一种排序装置的装置结构图,所述装置包括资源获取单元901、偏好获取单元902、点击率确定单元903、得分确定单元904和排序单元905:
所述资源获取单元901,用于获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;
所述偏好获取单元902,用于获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
所述点击率确定单元903,用于根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;
所述得分确定单元904,用于根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;
所述排序单元905,用于根据排序得分的高低对所述资源集合中的待排序资源进行排序。
可选的,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
可选的,第三资源为所述资源集合中的任意一个待排序资源,所述得分确定单元还用于根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。
可选的,所述得分确定单元还用于根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;根据所述用户获取过所述第三资源的次数计算次数加权部分;根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。
可见,为了提高搜索体验,可以将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,则可以确定这个分词与该目标语义单元实际携带的特征基本相符,或者说这个分词较能够体现出该目标语义单元的核心含义,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,从而提高了用户的搜索体验。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明的一种具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (28)
1.一种数据处理方法,其特征在于,所述方法包括:
获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;
将所述目标语义单元划分得到多个分词;
根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;
将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标语义单元划分得到多个分词之前,还包括:
若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,执行所述将所述目标语义单元划分得到多个分词的步骤。
3.根据权利要求1或2所述的方法,其特征在于,第一分词为所述多个分词中任意一个分词,所述根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词,包括:
获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;
根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;
若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
4.根据权利要求1所述的方法,其特征在于,在所述将从所述多个分词中确定出的核心词所对应的搜索结果作为所述目标语义单元的搜索结果之后,还包括:
若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;
将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
5.根据权利要求4所述的方法,其特征在于,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:
若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,
若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:
将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,
将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。
7.根据权利要求4至6任一项所述的方法,其特征在于,在所述将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果之前,还包括:
计算得到的扩充语义单元与所述目标语义单元之间的关联频率;
得到关联频率最高的前M个扩充语义单元;
根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;
将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。
8.根据权利要求1所述的方法,其特征在于,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,还包括:
根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;
向所述客户端推荐所述待推荐资源。
9.根据权利要求8所述的方法,其特征在于,所述根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源,包括:
获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。
10.根据权利要求1或4或8所述的方法,其特征在于,还包括:
获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;
获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;
根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;
根据排序得分的高低对所述资源集合中的待排序资源进行排序。
11.根据权利要求9或10所述的方法,其特征在于,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
12.根据权利要求10所述的方法,其特征在于,第三资源为所述资源集合中的任意一个待排序资源,在所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分之前,包括:
根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;
若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;
根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;
所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分,包括:
根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。
13.根据权利要求12所述的方法,其特征在于,所述根据所述第三资源的到期时间确定所述第三资源的加权分,包括:
根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;
根据所述用户获取过所述第三资源的次数计算次数加权部分;
根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。
14.一种数据处理装置,其特征在于,所述装置包括获取单元、划分单元和确定单元:
所述获取单元,用于获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;
所述划分单元,用于将所述目标语义单元划分得到多个分词;
所述确定单元,用于根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;
所述确定单元还用于将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
15.根据权利要求14所述的装置,其特征在于,若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,触发所述划分单元。
16.根据权利要求14或15所述的装置,其特征在于,第一分词为所述多个分词中任意一个分词,所述确定单元还用于获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
17.根据权利要求14所述的装置,其特征在于,所述确定单元包括扩充子单元和确定子单元:
若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,所述扩充子单元,用于根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;
所述确定子单元,用于将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
18.根据权利要求17所述的装置,其特征在于,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述扩充子单元,还用于若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。
19.根据权利要求17所述的装置,其特征在于,所述扩充子单元还用于将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。
20.根据权利要求17至19任一项所述的装置,其特征在于,所述扩充子单元还用于计算得到的扩充语义单元与所述目标语义单元之间的关联频率;得到关联频率最高的前M个扩充语义单元;根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。
21.根据权利要求14所述的装置,其特征在于,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,所述装置还包括推荐单元:
所述推荐单元,用于根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;向所述客户端推荐所述待推荐资源。
22.根据权利要求21所述的装置,其特征在于,所述推荐单元还用于获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。
23.根据权利要求14或17或21所述的装置,其特征在于,所述装置还包括资源获取单元、偏好获取单元、点击率确定单元、得分确定单元和排序单元:
所述资源获取单元,用于获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;
所述偏好获取单元,用于获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;
所述点击率确定单元,用于根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;
所述得分确定单元,用于根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;
所述排序单元,用于根据排序得分的高低对所述资源集合中的待排序资源进行排序。
24.根据权利要求22或23所述的装置,其特征在于,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。
25.根据权利要求23所述的装置,其特征在于,第三资源为所述资源集合中的任意一个待排序资源,所述得分确定单元还用于根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。
26.根据权利要求25所述的装置,其特征在于,所述得分确定单元还用于根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;根据所述用户获取过所述第三资源的次数计算次数加权部分;根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。
27.一种个性化导购框架,其特征在于,所述个性化导购框架包括在线计算模块和离线计算模块:
在线计算模块用于实时的商家行为分析,商品召回,个性化排序;
离线计算模块用于负责商家/服务特征更新,订购模型训练以及候选商品池计算。
28.根据权利要求27所述的个性化导购框架,其特征在于,所述个性化导购框架还用于进行实时偏好的识别、资源匹配的召回以及模型的排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611110268.6A CN108153792B (zh) | 2016-12-02 | 2016-12-02 | 一种数据处理方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611110268.6A CN108153792B (zh) | 2016-12-02 | 2016-12-02 | 一种数据处理方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108153792A true CN108153792A (zh) | 2018-06-12 |
CN108153792B CN108153792B (zh) | 2023-04-18 |
Family
ID=62468178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611110268.6A Active CN108153792B (zh) | 2016-12-02 | 2016-12-02 | 一种数据处理方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153792B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933672A (zh) * | 2019-02-12 | 2019-06-25 | 北京百度网讯科技有限公司 | 处理查询的方法、装置、电子设备和计算机可读存储介质 |
CN110427381A (zh) * | 2019-08-07 | 2019-11-08 | 北京嘉和海森健康科技有限公司 | 一种数据处理方法及相关设备 |
CN110910207A (zh) * | 2019-10-30 | 2020-03-24 | 苏宁云计算有限公司 | 一种提升商品推荐多样性的方法及*** |
CN110968691A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 司法热点确定方法及装置 |
CN111192657A (zh) * | 2018-11-15 | 2020-05-22 | 宁波方太厨具有限公司 | 一种基于用户行为热度的菜谱推荐方法 |
CN112765480A (zh) * | 2021-04-12 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 一种信息推送方法、装置及计算机可读存储介质 |
CN113065932A (zh) * | 2021-05-06 | 2021-07-02 | 北京京东振世信息技术有限公司 | 一种物品推荐方法和装置 |
CN113204697A (zh) * | 2021-04-29 | 2021-08-03 | 五八有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101019118A (zh) * | 2004-07-13 | 2007-08-15 | 谷歌股份有限公司 | 搜索结果中放置内容排序的个性化 |
US20090228482A1 (en) * | 2006-11-09 | 2009-09-10 | Huawei Technologies Co., Ltd. | Network search method, system and device |
CN103064838A (zh) * | 2011-10-19 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN103123632A (zh) * | 2011-11-21 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 搜索中心词确定方法及装置、搜索方法及搜索设备 |
CN103914533A (zh) * | 2014-03-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 推广搜索结果的展现方法和装置 |
CN105302810A (zh) * | 2014-06-12 | 2016-02-03 | 北京搜狗科技发展有限公司 | 一种信息搜索方法和装置 |
-
2016
- 2016-12-02 CN CN201611110268.6A patent/CN108153792B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101019118A (zh) * | 2004-07-13 | 2007-08-15 | 谷歌股份有限公司 | 搜索结果中放置内容排序的个性化 |
US20090228482A1 (en) * | 2006-11-09 | 2009-09-10 | Huawei Technologies Co., Ltd. | Network search method, system and device |
CN103064838A (zh) * | 2011-10-19 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 数据搜索方法和装置 |
CN103123632A (zh) * | 2011-11-21 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 搜索中心词确定方法及装置、搜索方法及搜索设备 |
CN103914533A (zh) * | 2014-03-31 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 推广搜索结果的展现方法和装置 |
CN105302810A (zh) * | 2014-06-12 | 2016-02-03 | 北京搜狗科技发展有限公司 | 一种信息搜索方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968691A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 司法热点确定方法及装置 |
CN111192657A (zh) * | 2018-11-15 | 2020-05-22 | 宁波方太厨具有限公司 | 一种基于用户行为热度的菜谱推荐方法 |
CN109933672A (zh) * | 2019-02-12 | 2019-06-25 | 北京百度网讯科技有限公司 | 处理查询的方法、装置、电子设备和计算机可读存储介质 |
CN110427381A (zh) * | 2019-08-07 | 2019-11-08 | 北京嘉和海森健康科技有限公司 | 一种数据处理方法及相关设备 |
CN110910207A (zh) * | 2019-10-30 | 2020-03-24 | 苏宁云计算有限公司 | 一种提升商品推荐多样性的方法及*** |
CN112765480A (zh) * | 2021-04-12 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 一种信息推送方法、装置及计算机可读存储介质 |
CN112765480B (zh) * | 2021-04-12 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 一种信息推送方法、装置及计算机可读存储介质 |
CN113204697A (zh) * | 2021-04-29 | 2021-08-03 | 五八有限公司 | 一种搜索方法、装置、电子设备及存储介质 |
CN113065932A (zh) * | 2021-05-06 | 2021-07-02 | 北京京东振世信息技术有限公司 | 一种物品推荐方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108153792B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108153792A (zh) | 一种数据处理方法和相关装置 | |
Ghose et al. | Modeling consumer footprints on search engines: An interplay with social media | |
CN110110181B (zh) | 一种基于用户风格和场景偏好的服装搭配推荐方法 | |
US10409821B2 (en) | Search result ranking using machine learning | |
CN104866474B (zh) | 个性化数据搜索方法及装置 | |
US8751430B2 (en) | Methods and system of filtering irrelevant items from search and match operations using emotional codes | |
CN111461841B (zh) | 物品推荐方法、装置、服务器及存储介质 | |
KR102219344B1 (ko) | 자동 광고 대행 서버, 자동으로 광고 매체를 위한 캠페인 정보를 생성하여 광고의 집행을 대행하는 방법 및 상기 방법을 실행하기 위한 컴퓨터 프로그램 | |
CN108182621A (zh) | 商品推荐方法及商品推荐装置、设备和存储介质 | |
KR101385700B1 (ko) | 동영상 관련 광고를 제공하는 방법 및 그 장치 | |
CN110428298A (zh) | 一种店铺推荐方法、装置及设备 | |
CN108122122A (zh) | 广告投放方法和*** | |
CN105740268A (zh) | 一种信息推送方法和装置 | |
CN109582876A (zh) | 旅游行业用户画像构造方法、装置和计算机设备 | |
CN110348930A (zh) | 业务对象数据处理方法、业务对象信息的推荐方法和装置 | |
CN110019943A (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
US20220245706A1 (en) | Methods and apparatuses for providing search results using embedding-based retrieval | |
CN110602532A (zh) | 实体物品推荐方法、装置、服务器及存储介质 | |
CN112488781A (zh) | 搜索推荐方法、装置、电子设备及可读存储介质 | |
CN115860870A (zh) | 一种商品推荐方法、***、装置及可读介质 | |
CN110765346B (zh) | 用户意图挖掘方法、装置以及设备 | |
Chatwin | An overview of computational challenges in online advertising | |
KR102538398B1 (ko) | 빅데이터 기반의 그룹 단위의 상품 추천 방법, 장치 및 시스템 | |
KR102518389B1 (ko) | 고객 빅데이터를 활용한 상품 추천 방법, 장치 및 시스템 | |
KR20220001616A (ko) | 통합 고객 식별자 생성을 기반으로 하는 고객 빅데이터 구축 방법, 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |