CN108733702B - 用户查询上下位关系提取的方法、装置、电子设备和介质 - Google Patents

用户查询上下位关系提取的方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN108733702B
CN108733702B CN201710260844.3A CN201710260844A CN108733702B CN 108733702 B CN108733702 B CN 108733702B CN 201710260844 A CN201710260844 A CN 201710260844A CN 108733702 B CN108733702 B CN 108733702B
Authority
CN
China
Prior art keywords
user query
natural result
candidate
pair
result set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710260844.3A
Other languages
English (en)
Other versions
CN108733702A (zh
Inventor
张俊浩
江雪
徐夙龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710260844.3A priority Critical patent/CN108733702B/zh
Publication of CN108733702A publication Critical patent/CN108733702A/zh
Application granted granted Critical
Publication of CN108733702B publication Critical patent/CN108733702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种用户查询上下位关系提取的方法、装置、电子设备和介质,能够在电商领域,进行上下位关系的用户查询的提取,从而为商品和广告的召回提供有效的支撑。该方法包括:构造候选用户查询对;利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果。

Description

用户查询上下位关系提取的方法、装置、电子设备和介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种用户查询上下位关系提取的方法、装置、电子设备和介质。
背景技术
上下位关系通常被当作一种词汇语义关系来研究。语义相似的词汇之间有着不同的关系类型,而上下位关系是指某个词汇的语义包含另一个词汇的语义,则语义被包含的词汇称为下位词,另一个词称为上位词。比如“动物”是“猫”的上位,“猫”是“动物”的下位。
在电商领域,用户的搜索用户查询(query,即用户的查询条件,通常为一个短句)通常是针对某产品的描述。用户查询之间也存在上下位关系,比如用户查询“苹果手机”是用户查询“智能手机”的下位,下位用户查询是上位用户查询的一个特化。当用户输入用户查询时,可以利用该用户查询的下位用户查询去检索商品和广告,检索到的商品或广告符合下位用户查询的语义,自然也符合上位用户查询的语义,检索结果对于用户来说是可以接受的。由此可以看出,在电商领域中,提取具有上下位关系的用户查询会对商品和广告的召回有较大的帮助。
现有技术中,针对上下位关系提取的研究主要包括如下几个方面:
针对词汇上下位关系提取的方法主要有:1.基于两个词汇在同一个句子里共现时的路径特征,利用模板或者分类器判断是否为上下位关系;2.基于词汇每次出现的上下文特征,包括基于分布式包含假设计算两个特征向量之间的有向包含程度,和基于两个词汇的上下文特征向量直接训练分类器。
在网页搜索领域,有较少的研究分析用户查询的上下位关系。用户查询相比词汇具有更丰富的语义,上位用户查询所含的多个词汇的语义在下位用户查询中必须有相似表达或者特化的表达。比如“三星大屏手机”与“三星大屏幕智能机”构成上下位关系,但“三星大屏手机”与“三星4G手机”不构成上下位关系。现有技术中针对用户查询上下位关系的提取的研究比较成熟的是通过分析用户的点击数据得到用户查询的上下位关系。在分析用户的点击数据时,涉及以下3个假设:1.如果两个用户查询相关,则两个用户查询对应的点击网页集合需要有交集或者存在相似性;2.如果用户查询qi是用户查询qj的上位,则qj的大部分点击网页与qi的点击网页相似,而qi的点击网页只有部分与qj的点击网页相似;3.如果用户查询是下位,则它的点击网页的内容上一致性更高。通过假设1生成候选上下位用户查询对,通过假设2可设计一个包含关系,通过假设3可设计一个用户查询的泛化程度,然后利用这两个指标设计阈值判断候选上下位用户查询对是否为真。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、在网页搜索领域和电商平台领域,用户查询会话中的上下文用户查询并不足以准确刻画用户查询的语义,同时用户查询之间不具有路径特征,因此基于词汇的上下位关系提取技术并不能直接适用于电商平台领域用户查询的上下位提取;
2、而目前网页搜索领域中,提取用户查询上下位关系时使用的特征较少,且在电商平台上严格的网页内容的一致性较难判断(例如商品页展示的商品的各种属性要一致才可判断内容的一致性)。由于缺乏针对电商平台这个特殊场景上的技术优化,因此很难在保证预测候选用户查询对为正时有较高准确率(分类器判断为正例的样本中真实为正例的比例)的情况下,同时有较高的真实正例的召回率(真实为正例的样本被分类器判断为正例的比例)。
发明内容
有鉴于此,本发明实施例提供一种用户查询上下位关系提取的方法、装置、电子设备和介质,能够在电商领域,进行上下位关系的用户查询的提取,从而为商品和广告的召回提供有效的支撑。
为实现上述目的,根据本发明的一个方面,提供了一种用户查询上下位关系提取的方法。
本发明实施例的一种用户查询上下位关系提取的方法包括:构造候选用户查询对;利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果。
可选地,构造候选用户查询对包括:对用户查询进行聚类;然后将类内用户查询两两组合,构成候选用户查询对。
可选地,对用户查询进行聚类包括:根据用户的Session数据构建图,其中,以用户查询作为图的节点,然后对在窗口内的共现次数超过预设阈值的用户查询节点进行连接作为图的边,边权为以下四个值的乘积:用户查询共现次数、用户查询进行切词后词汇集合的相似度、用户查询的embedding向量相似度、用户查询点击的自然结果集合的相似度;以及利用标签传播算法对图上的用户查询节点进行聚类。
可选地,所述观察指标包括以下一种或几种:观察指标一:上位用户查询展示的自然结果数大于下位用户查询展示的自然结果数;观察指标二:上位用户查询展示的自然结果集合包含下位用户查询展示的自然结果集合的程度,大于下位用户查询展示的自然结果集合包含上位用户查询展示的自然结果集合的程度;观察指标三:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询展示的自然结果集合包含关系置信度越高;观察指标四:上位用户查询点击的自然结果数大于下位用户查询点击的自然结果数;观察指标五:上位用户查询点击的自然结果集合包含下位用户查询点击的自然结果集合的程度,大于下位用户查询点击的自然结果集合包含上位用户查询点击的自然结果集合的程度;观察指标六:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询点击的自然结果集合包含关系置信度越高。
可选地,所述特征包括以下一种或几种:根据观察指标一设置的特征:候选用户查询对中的上位用户查询展示的自然结果数、候选用户查询对中的下位用户查询展示的自然结果数;根据观察指标二设置的特征:利用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec的计算结果的差值、利用不带权的balPrec的计算结果的差值;根据观察指标三设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果集合的不带权LIN分数,反映交集的比例;根据观察指标四设置的特征:候选用户查询对中的上位用户查询点击的自然结果数、候选用户查询对中的下位用户查询点击的自然结果数;根据观察指标五设置的特征:利用WeedsPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec的计算结果的差值、利用ClarkeDE的计算结果的差值、利用balPrec的计算结果的差值;根据观察指标六设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果集合的LIN分数,反映交集的比例;其它特征:特征a:用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度;特征b:用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度;特征a和特征b的计算结果的差值。
可选地,在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器还包括:在将从候选用户查询对中选取的预设数量的用户查询对进行人工标注之后,将所述预设数量的用户查询对按照预设比例划分为训练集、验证集和测试集;利用表示为特征向量的训练集,采用梯度提升决策树分类器训练分类器,然后利用表示为特征向量的验证集调整分类器的超参数;以及利用分类器判断测试集中的用户查询对是否符合上下位关系,然后计算准确率和召回率。
可选地,利用监督学习训练分类器还包括:利用梯度提升决策树分类器、随机森林分类器、支持向量机分类器中的一种或多种训练分类器。
为实现上述目的,根据本发明的另一方面,提供了一种用户查询上下位关系提取的装置。
本发明实施例的一种用户查询上下位关系提取的装置包括:候选模块,用于构造候选用户查询对;表示模块,用于利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;训练模块,用于在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;提取模块,用于利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果。
可选地,所述候选模块还用于:对用户查询进行聚类;然后将类内用户查询两两组合,构成候选用户查询对。
可选地,所述候选模块还用于:根据用户的Session数据构建图,其中,以用户查询作为图的节点,然后对在窗口内的共现次数超过预设阈值的用户查询节点进行连接作为图的边,边权为以下四个值的乘积:用户查询共现次数、用户查询进行切词后词汇集合的相似度、用户查询的embedding向量相似度、用户查询点击的自然结果集合的相似度;以及利用标签传播算法对图上的用户查询节点进行聚类。
可选地,所述观察指标包括以下一种或几种:观察指标一:上位用户查询展示的自然结果数大于下位用户查询展示的自然结果数;观察指标二:上位用户查询展示的自然结果集合包含下位用户查询展示的自然结果集合的程度,大于下位用户查询展示的自然结果集合包含上位用户查询展示的自然结果集合的程度;观察指标三:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询展示的自然结果集合包含关系置信度越高;观察指标四:上位用户查询点击的自然结果数大于下位用户查询点击的自然结果数;观察指标五:上位用户查询点击的自然结果集合包含下位用户查询点击的自然结果集合的程度,大于下位用户查询点击的自然结果集合包含上位用户查询点击的自然结果集合的程度;观察指标六:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询点击的自然结果集合包含关系置信度越高。
可选地,所述特征包括以下一种或几种:根据观察指标一设置的特征:候选用户查询对中的上位用户查询展示的自然结果数、候选用户查询对中的下位用户查询展示的自然结果数;根据观察指标二设置的特征:利用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec的计算结果的差值、利用不带权的balPrec的计算结果的差值;根据观察指标三设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果集合的不带权LIN分数,反映交集的比例;根据观察指标四设置的特征:候选用户查询对中的上位用户查询点击的自然结果数、候选用户查询对中的下位用户查询点击的自然结果数;根据观察指标五设置的特征:利用WeedsPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec的计算结果的差值、利用ClarkeDE的计算结果的差值、利用balPrec的计算结果的差值;根据观察指标六设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果集合的LIN分数,反映交集的比例;其它特征:特征a:用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度;特征b:用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度;特征a和特征b的计算结果的差值。
可选地,所述训练模块还用于:在将从候选用户查询对中选取的预设数量的用户查询对进行人工标注之后,将所述预设数量的用户查询对按照预设比例划分为训练集、验证集和测试集;利用表示为特征向量的训练集,采用梯度提升决策树分类器训练分类器,然后利用表示为特征向量的验证集调整分类器的超参数;以及利用分类器判断测试集中的用户查询对是否符合上下位关系,然后计算准确率和召回率。
可选地,所述训练模块还用于:利用梯度提升决策树分类器、随机森林分类器、支持向量机分类器中的一种或多种训练分类器。
为实现上述目的,根据本发明的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的用户查询上下位关系提取的方法。
为实现上述目的,根据本发明的又一方面,提供了一种计算机可读介质。
本发明实施例的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的用户查询上下位关系提取的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用了基于电商领域的特点,设计多维的特征,并通过多个特征来表征有向的用户查询对,进行有监督的二分类训练,从而可以帮助分类器学习到更准确的判断条件的技术手段,所以克服了现有技术中使用词汇上下位关系提取的局限性以及现有技术中网页搜索领域特征较少且难以判断的技术问题,进而达到了在保证预测候选用户查询对为正时有较高准确率的情况下同时有较高的真实正例的召回率,实现了准确提取电商领域用户查询上下位关系的技术效果,为电商领域中对商品和广告的召回提供较大的帮助;通过基于用户查询聚类的方式,对类内两两用户查询构成候选用户查询对,从而可以较为合理的构造候选用户查询对,减少人工标注的负担;通过针对电商环境下检索的网页是具体的商品页的特点,提出多个观察指标,从而可以将候选用户查询对表达为考虑以上多个观察指标的众多特征,从而有助于准确识别用户查询对是否为上下位关系;通过利用梯度提升决策树在训练集上训练分类器,并用学到的分类器对候选用户查询对以及后续新挖掘的候选用户查询对进行二分类的正负判决,从而可以获取准确的用户查询上下位提取结果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的用户查询上下位关系提取的方法的主要步骤的示意图;
图2是根据本发明实施例的用户查询上下位关系提取的装置的主要模块的示意图;
图3是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例提供了一种用于电商平台领域中用户查询的上下位关系提取的技术方案,具体涉及用户查询的语义理解,属于自然语言处理领域。为了克服现有技术的不足,本发明实施例的技术方案基于电商平台的特点,设计了新的特征,并通过多个特征来表征有向的用户查询对,进行有监督的二分类训练,从而学习到更准确的判决条件,在保证准确率的情况下可以有更高的召回率。该技术方案可以方便地用于电商环境下用户查询的上下位关系提取。
图1是根据本发明实施例的用户查询上下位关系提取的方法的主要步骤的示意图。
如图1所示,本发明实施例的一种用户查询上下位关系提取的方法主要包括如下步骤:
步骤S11:构造候选用户查询对。本步骤的构造候选用户查询对是将用户查询列表中的每个用户查询,抽取一些潜在地与每个用户查询可能构成下位关系的用户查询对。本发明实施例中可以对用户查询列表中的用户查询进行聚类,然后将类内用户查询两两组合的方式,构成候选用户查询对。
本发明实施例中的聚类可以但不限于是通过如下方式进行:根据用户的Session数据构建图,其中,以用户查询作为图的节点,然后对在窗口内的共现次数超过预设阈值的用户查询节点进行连接作为图的边,边权为以下四个值的乘积:用户查询共现次数、用户查询进行切词后词汇集合的相似度、用户查询的embedding向量相似度、用户查询点击的自然结果集合的相似度;以及利用标签传播算法对图上的用户查询节点进行聚类。
在步骤S11完成候选对的构造之后,从步骤S12开始处理。
步骤S12:利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量。在训练分类器之前,需要对任意用户查询对采用相同的数据表示方法进行表示。对于每个用户查询对,将它表达为特征空间的一个向量。如前所是,本发明的技术方案,基于电商平台的特点,设计了新的特征,并通过多个特征来表征有向的用户查询对。在本发明实施例中,可以针对真实电商环境下的六点观察指标(例如可以是六点,但不限于六点,可以是其中几点,也可以加入了其他观察指标),设计了一些能够帮助判断q2是否为q1下位的特征。
本发明实施例中的观察指标包括以下一种或几种:观察指标一:上位用户查询展示的自然结果数(即根据用户查询而展示出的非广告的商品的条数,以商品的SKU进行计数,相同商品不重复计算个数。其中,SKU是产品统一编号的简称,每种产品均对应有唯一的SKU号。因此,本发明实施例中,以商品的SKU代表自然结果,即自然结果数即为SKU数,自然结果集合即为SKU集合。故,下文在描述“用户查询展示的自然结果数”时以“用户查询展示的SKU数”代替)大于下位用户查询展示的SKU数;观察指标二:上位用户查询展示的SKU集合包含下位用户查询展示的SKU集合的程度,大于下位用户查询展示的SKU集合包含上位用户查询展示的SKU集合的程度;观察指标三:上位用户查询与下位用户查询展示的SKU集合重叠数量越大,上位用户查询展示的SKU集合包含关系置信度越高;观察指标四:上位用户查询点击的自然结果数(用户查询点击的自然结果数即根据用户查询得到的自然结果进行点击的具体商品页的个数,与前述“用户查询展示的自然结果数”同理,本发明实施例中,“点击的自然结果数”可表示为“点击的SKU数”,“点击的自然结果集合”可表示为“点击的SKU集合”)大于下位用户查询点击的SKU数;观察指标五:上位用户查询点击的SKU集合包含下位用户查询点击的SKU集合的程度,大于下位用户查询点击的SKU集合包含上位用户查询点击的SKU集合的程度;观察指标六:上位用户查询与下位用户查询展示的SKU集合重叠数量越大,上位用户查询点击的SKU集合包含关系置信度越高。
基于前述观察指标涉及的特征可以但不限于包括以下一种或几种:根据观察指标一设置的特征:候选用户查询对中的上位用户查询展示的SKU数、候选用户查询对中的下位用户查询展示的SKU数;根据观察指标二设置的特征:利用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的SKU集合包含候选用户查询对中的下位用户查询展示的SKU集合的程度、利用不带权的balPrec计算候选用户查询对中的上位用户查询展示的SKU集合包含候选用户查询对中的下位用户查询展示的SKU集合的程度;利用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的SKU集合包含候选用户查询对中的上位用户查询展示的SKU集合的程度、利用不带权的balPrec计算候选用户查询对中的下位用户查询展示的SKU集合包含候选用户查询对中的上位用户查询展示的SKU集合的程度;利用不带权的WeedsPrec的计算结果的差值、利用不带权的balPrec的计算结果的差值;根据观察指标三设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的SKU重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的SKU集合的不带权LIN分数,反映交集的比例;根据观察指标四设置的特征:候选用户查询对中的上位用户查询点击的SKU数、候选用户查询对中的下位用户查询点击的SKU数;根据观察指标五设置的特征:利用WeedsPrec计算候选用户查询对中的上位用户查询点击的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的上位用户查询点击的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的上位用户查询点击的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度,权重为点击次数;利用WeedsPrec计算候选用户查询对中的下位用户查询点击的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的下位用户查询点击的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的下位用户查询点击的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度,权重为点击次数;利用WeedsPrec的计算结果的差值、利用ClarkeDE的计算结果的差值、利用balPrec的计算结果的差值;根据观察指标六设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的SKU重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的SKU集合的LIN分数,反映交集的比例;其它特征:特征a:用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度;特征b:用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度;特征a和特征b的计算结果的差值。
前述设计好表示用户查询对的特征之后,就可以训练分类器。
步骤S13:在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器。具体过程可以包括:在将从候选用户查询对中选取的预设数量的用户查询对进行人工标注之后,将所述预设数量的用户查询对按照预设比例划分为训练集、验证集和测试集;利用表示为特征向量的训练集,采用梯度提升决策树分类器训练分类器,然后利用表示为特征向量的验证集调整分类器的超参数;以及利用分类器判断测试集中的用户查询对是否符合上下位关系,然后计算准确率和召回率。
其中,训练分类器可以是利用梯度提升决策树分类器、随机森林分类器、支持向量机分类器中的一种或多种训练分类器。
步骤S14:利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果。
上述描述中对本发明实施例的用户查询上下位关系提取的方法的主要步骤进行了说明。以下结合具体技术手段对该方法的具体流程进行详细说明。
具体提取用户查询上下位关系的流程如下:
第一步:得到候选用户查询对
对于用户查询列表里每个用户查询qi,我们首先从用户查询列表里抽取一些潜在的与qi可能构成下位关系的候选用户查询,构成不同的候选用户查询对(q1,q2),其中,q1是候选用户查询对中的上位用户查询,q2是候选用户查询对中的下位用户查询。可以通过有相同具体的商品页点击,或者使用点击包含关系超过一定的阈值等简单条件得到候选用户查询对。本发明实施例中,可以但不限于是基于用户查询聚类的方式,对类内两两用户查询构成候选用户查询对。较为合理的候选用户查询对,能减少人工标注的负担,因为有较多比例能够标记为正例。也可以对于任意的两两用户查询构成候选用户查询对。构造候选用户查询对的方法不影响数据的表示以及分类器在这样的数据表示下的分类性能。
前述聚类过程中,聚类规则如下:按照Session数据(该数据记录用户连续查询了哪些用户查询)统计用户查询的在窗口内共现次数,依据共现频次是否超过预设阈值给用户查询连边,构成以用户查询为节点的图。边权的设置为以下4个指标的乘积:用户查询共现次数,用户查询切词后词汇集合的相似度,用户查询的embedding向量相似度,用户查询点击SKU集合的相似度。构成图之后,利用标签传播算法对图上的节点(用户查询)进行聚类。
需要注意的是,基于用户查询聚类的方式得到候选用户查询对仅仅是得到候选对的一种方式,还有其他一些方式,这不影响后续的从候选对中用分类器判断用户查询是否是上下位的思路。
第二步:数据的表示/特征设计
在训练分类器之前,需要对任意用户查询对采用相同的数据表示方法进行表示。对于每个候选用户查询对(q1,q2),首先将它表达为特征空间的一个向量。
针对电商环境下检索的网页是具体的商品页(SKU)的特点,观察到候选用户查询对里真实上位用户查询相比真实下位用户查询,有如下特点:1.展示的SKU数更多,2.展示的SKU集合通常较多地包含真实下位用户查询展示的SKU,3.展示的SKU集合有较多重叠时,展示的SKU集合包含关系置信度更高,4.点击的SKU数更多,5.点击的SKU集合通常较多地包含真实下位用户查询点击的SKU,6.点击的SKU集合有较多重叠时,点击的SKU集合包含关系置信度更高。基于以上观察,我们将候选用户查询对表达为考虑以上特点的多个特征,再通过梯度提升决策树在训练集上训练模型,学到的模型对新挖掘的候选用户查询对进行二分类的正负判决。
本发明实施例中,根据上文所述的针对真实电商环境下的六点观察指标,设计了如下一些能够帮助判断q2是否为q1下位的特征。
基于观察指标一(上位用户查询展示的SKU数更多),设计:
特征1:q1展示的SKU数(如前所述,自然结果数是基于SKU的个数进行统计,展示的自然结果数是指用户在翻页的时候展示出来的SKU。q1展示的自然结果数是指q1查询下所有展示出来的SKU数量,同一个SKU不累计)
特征2:q2展示的SKU数
基于观察指标二(上位用户查询展示的SKU集合通常较多地包含真实下位用户查询展示的SKU),设计:
特征3:q1展示的SKU集合包含q2展示的SKU集合的程度,可以继续细分成2个特征:
特征3.1:利用不带权的WeedsPrec计算包含关系(具体计算公式见下文)
特征3.2:利用不带权的balPrec计算包含关系
特征4:q2展示的SKU集合包含q1展示的SKU集合的程度,可以继续细分成2个特征:
特征4.1:利用不带权的WeedsPrec计算包含关系
特征4.2:利用不带权的balPrec计算包含关系
特征5:特征3与特征4的差值,可以继续细分成2个特征:
特征5.1利用不带权的WeedsPrec计算包含关系,得到的差值
特征5.2利用不带权的balPrec计算包含关系,得到的差值
基于观察指标三(展示的SKU集合有较多重叠时,展示的SKU集合包含关系置信度更高),设计:
特征6:q1,q2展示的SKU重叠的数量
特征7:q1,q2展示的SKU集合的不带权LIN分数,反映交集的比例(具体计算公式见下文)
在观察指标三里,提出了2个特征:特征6为交集的大小,特征7为LIN计算的分数。对于LIN计算的分数:由下文的公式可以看出,由于不带权,LIN的分子就是交集的大小,而分母是两个集合大小之和。
基于观察指标三在进行特征6和特征7的设计是基于下列考虑:q1、q2展现SKU交集的数量比较少时,如果恰好q2本身展现的SKU数量较少,那么很可能q1展现SKU包含q2展现SKU的分数会偏高。而如果q1、q2展现SKU交集的数量比较多时,q1及q2本身展现的SKU数量就不会低,此时基于其他观察指标涉及的其他特征的计算结果存在较大偏差的情况出现的可能性就较低。引入基于观察指标三置信度的特征6、特征7,可以帮助后续的分类模型加以辨别那些由其它特征计算出的包含关系偏高但是包含关系不置信的样本(这些样本如果不加入置信度特征,容易误判为正例)。
例如,若其它特征计算得到的包含关系偏高时,而特征7的LIN分数很低,则表明候选用户查询对中下位用户查询的SKU集合比较小,或者候选用户查询对中下位用户查询的SKU集合比较大同时候选用户查询中上位用户查询的SKU集合巨大。再加上交集大小这个特征6,进行用户查询上下位关系判断的分类器模型就能区分到底是前者还是后者的情况,交集大的是后者,交集小是前者。
基于观察指标四(上位用户查询点击的SKU数更多),设计:
特征8:q1点击的SKU数
特征9:q2点击的SKU数
基于观察指标五(上位用户查询点击的SKU集合通常较多地包含真实下位用户查询点击的SKU),设计:
特征10:q1点击的SKU集合包含q2点击的SKU集合的程度,可以继续细分成3个特征:
特征10.1:利用WeedsPrec计算包含关系,权重为点击次数
特征10.2:利用ClarkeDE计算包含关系,权重为点击次数
特征10.3:利用balPrec计算包含关系,权重为点击次数
特征11:q2点击的SKU集合包含q1点击的SKU集合的程度,可以继续细分成3个特征:
特征11.1:利用WeedsPrec计算包含关系,权重为点击次数
特征11.2:利用ClarkeDE计算包含关系,权重为点击次数
特征11.3:利用balPrec计算包含关系,权重为点击次数
特征12:特征10与特征11的差值,可以继续细分成3个特征:
特征12.1:利用WeedsPrec计算包含关系,得到的差值
特征12.2:利用ClarkeDE计算包含关系,得到的差值
特征12.3:利用balPrec计算包含关系,得到的差值
基于观察指标六(点击的SKU集合有较多重叠时,点击的SKU集合包含关系置信度更高),设计:
特征13:q1,q2点击的SKU重叠的数量
特征14:q1,q2点击的SKU集合的LIN分数,反映交集的比例
另外,还可以设计一些其它的特征:
特征15:q1展示的SKU集合包含q2点击的SKU集合的程度,用不带权的WeedsPrec计算包含关系
特征16:q2展示的SKU集合包含q1点击的SKU集合的程度,用不带权的WeedsPrec计算包含关系
特征17:特征15与特征16的差值
前述特征设计过程中,计算公式如下所述,特征向量的包含关系计算公式:给定所有x的特征向量Fx,wx(f)为x在特征f上的权重,v包含u的程度:
Figure BDA0001274706230000191
Figure BDA0001274706230000192
Figure BDA0001274706230000193
包含关系置信度计算公式:
Figure BDA0001274706230000201
其中,以特征3.1的用不带权的WeedsPrec计算q1展示的SKU集合包含q2展示的SKU集合的程度的具体计算过程为例:
Figure BDA0001274706230000202
特征3.1反映的是用不带权的WeedsPrec计算q1展示的SKU集合包含q2展示的SKU集合的程度,假设q1展示的SKU集合为{SKU1,SKU2,SKU3,SKU4},由于不带权,其中各SKU权重为1,q2展示的SKU集合为{SKU1,SKU2,SKU9},由于不带权,其中各SKU权重为1,则WeedsPrec(q2,q1)=(SKU1权重+SKU2权重)/(SKU1权重+SKU2权重+SKU3权重+SKU4权重)=0.5。
前述特征设计中,特征1,2,8,9在一定程度上反映了用户查询本身的特化程度,而特征3,4,5,10,11,12,15,16,17反映了用户查询之间的语义包含程度,特征6,7,13,14反映了语义包含程度相关特征的置信程度。
综上,共设计了26个特征,因此,对于每个候选用户查询对(q1,q2),将它表示为26维的向量,向量的每一个维度对应一个特征,这个维度的取值对应这个候选用户查询对(q1,q2)在该特征上的取值。本发明技术方案中观察指标和特征,并不局限于本发明实施例的列举范围,实际应用本发明的用户查询对上下位关系提取的技术方案时,还可以根据实际观察需求添加或减少一些观察指标和特征。
第三步:训练
利用分类器判断候选用户查询对(q1,q2)是否符合上下位关系。以下为训练分类器的标准步骤。从候选用户查询对集合中抽取适当数量(此处适当数量表示如下含义:按标准的做法,先人工标住一批数据,用分类器训练,然后检验在验证集上的效果,如果训练集上训练的误差比较小,而在验证集上效果比较差,则说明训练数据不够多,需要继续抽取候选用户查询对进行人工标注)的用户查询对,进行人工标注,是否符合上下位关系。对于抽取的每个候选用户查询对(q1,q2),人工赋予一个标签,1表示q1是q2的上位,0表示q1不是q2的上位。标签用来指导分类器如何根据特征向量去判断是否符合上下位关系。然后将抽取的部分划分为适当比例的训练集、验证集、测试集。
将训练集和验证集里每对候选用户查询对表示为26维的特征向量,在训练集的特征向量上采用例如但不限于梯度提升决策树分类器(本发明实施例中并不限于梯度提升决策树分类器,还可以使用诸如随机森林、支持向量机等分类器)进行训练,在验证集上调整分类器的超参数,防止分类器在训练集上过拟合。
为了定量分析分类器在未观测到的样本上的分类性能,在测试集上用分类器判断是否符合上下位关系,然后计算准确率和召回率。
第四步:预测
在预测阶段,利用训练好的分类器去挖掘所有的符合上下位关系的用户查询对。首先,将剩余的未标注的候选用户查询对表示为26维的特征向量,通过训练好的梯度提升决策树预测未标注的用户查询对是否为正例,可以将预测为正的候选用户查询对与人工标注为正的用户查询对合起来作为本发明实施例的最终输出,即符合上下位关系的用户查询对。
根据前述本发明实施例电商领域中用户查询上下位关系提取的方法,在候选用户查询对里,通过训练好的梯度提升决策树模型预测正负,从而可以得到符合上下位关系的用户查询对作为输出。
发明人在实施本发明的技术方案进行用户查询对上下位关系提取的时候,通过在人工标注的338个训练集上训练,在200个验证集上调整负样本上采样的程度和模型超参数——树的数量和最大深度,在测试集上,预测为正的候选对里,准确率TP/(TP+NP)为93.2%,而召回率TP/(TP+FN)为36.6%。若仅利用特征其中一个特征,例如特征12.1,在验证集上调整阈值得到最大的准确率不及分类器在验证集上的93.2%的准确率,且此时在测试集上准确率为88.9%,召回率仅为7.1%。因此,实际应用中,为了保证准确率和召回率,可基于前述26个特征来表示一个候选用户查询对。若无需较高的准确率或召回率要求,则可以选择使用26个特征中的一个或多个特征进行候选用户查询对的特征向量表示。综上,本案实施例的用户查询上下位关系提取的方法可以实现在保证较高准确率的情况下,有较高的召回率。
根据本发明实施例的用户查询上下位关系提取的方法可以看出,因为采用了基于电商领域的特点,设计多维的特征,并通过多个特征来表征有向的用户查询对,进行有监督的二分类训练,从而可以帮助分类器学习到更准确的判断条件的技术手段,所以克服了现有技术中使用词汇上下位关系提取的局限性以及现有技术中网页搜索领域特征较少且难以判断的技术问题,进而达到了在保证预测候选用户查询对为正时有较高准确率的情况下同时有较高的真实正例的召回率,实现了准确提取电商领域用户查询上下位关系的技术效果,为电商领域中对商品和广告的召回提供较大的帮助;通过基于用户查询聚类的方式,对类内两两用户查询构成候选用户查询对,从而可以较为合理的构造候选用户查询对,减少人工标注的负担;通过针对电商环境下检索的网页是具体的商品页的特点,提出多个观察指标,从而可以将候选用户查询对表达为考虑以上多个观察指标的众多特征,从而有助于准确识别用户查询对是否为上下位关系;通过利用梯度提升决策树在训练集上训练分类器,并用学到的分类器对候选用户查询对以及后续新挖掘的候选用户查询对进行二分类的正负判决,从而可以获取准确的用户查询上下位提取结果。
图2是根据本发明实施例的用户查询上下位关系提取的装置的主要模块的示意图。
如图2所示,本发明实施例的一种用户查询上下位关系提取的装置20主要包括:候选模块201、表示模块202、训练模块203以及提取模块204。
其中,候选模块201用于构造候选用户查询对;表示模块202用于利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;训练模块203用于在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;提取模块204用于利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果。
其中,候选模块201还可用于:对用户查询进行聚类;然后将类内用户查询两两组合,构成候选用户查询对。
另外,所述候选模块201还可用于:根据用户的Session数据构建图,其中,以用户查询作为图的节点,然后对在窗口内的共现次数超过预设阈值的用户查询节点进行连接作为图的边,边权为以下四个值的乘积:用户查询共现次数、用户查询进行切词后词汇集合的相似度、用户查询的embedding向量相似度、用户查询点击的SKU集合的相似度;以及利用标签传播算法对图上的用户查询节点进行聚类。
本发明实施例中,观察指标可以但不限于包括以下一种或几种:观察指标一:上位用户查询展示的SKU数大于下位用户查询展示的SKU数;观察指标二:上位用户查询展示的SKU集合包含下位用户查询展示的SKU集合的程度,大于下位用户查询展示的SKU集合包含上位用户查询展示的SKU集合的程度;观察指标三:上位用户查询与下位用户查询展示的SKU集合重叠数量越大,上位用户查询展示的SKU集合包含关系置信度越高;观察指标四:上位用户查询点击的SKU数大于下位用户查询点击的SKU数;观察指标五:上位用户查询点击的SKU集合包含下位用户查询点击的SKU集合的程度,大于下位用户查询点击的SKU集合包含上位用户查询点击的SKU集合的程度;观察指标六:上位用户查询与下位用户查询展示的SKU集合重叠数量越大,上位用户查询点击的SKU集合包含关系置信度越高。
前述特征可以但不限于包括以下一种或几种:根据观察指标一设置的特征:候选用户查询对中的上位用户查询展示的SKU数、候选用户查询对中的下位用户查询展示的SKU数;根据观察指标二设置的特征:利用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的SKU集合包含候选用户查询对中的下位用户查询展示的SKU集合的程度、利用不带权的balPrec计算候选用户查询对中的上位用户查询展示的SKU集合包含候选用户查询对中的下位用户查询展示的SKU集合的程度;利用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的SKU集合包含候选用户查询对中的上位用户查询展示的SKU集合的程度、利用不带权的balPrec计算候选用户查询对中的下位用户查询展示的SKU集合包含候选用户查询对中的上位用户查询展示的SKU集合的程度;利用不带权的WeedsPrec的计算结果的差值、利用不带权的balPrec的计算结果的差值;根据观察指标三设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的SKU重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的SKU集合的不带权LIN分数,反映交集的比例;根据观察指标四设置的特征:候选用户查询对中的上位用户查询点击的SKU数、候选用户查询对中的下位用户查询点击的SKU数;根据观察指标五设置的特征:利用WeedsPrec计算候选用户查询对中的上位用户查询点击的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的上位用户查询点击的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的上位用户查询点击的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度,权重为点击次数;利用WeedsPrec计算候选用户查询对中的下位用户查询点击的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的下位用户查询点击的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的下位用户查询点击的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度,权重为点击次数;利用WeedsPrec的计算结果的差值、利用ClarkeDE的计算结果的差值、利用balPrec的计算结果的差值;根据观察指标六设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的SKU重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的SKU集合的LIN分数,反映交集的比例;另外,还可以包括一些其它特征,例如:特征a:用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的SKU集合包含候选用户查询对中的下位用户查询点击的SKU集合的程度;特征b:用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的SKU集合包含候选用户查询对中的上位用户查询点击的SKU集合的程度;特征a和特征b的计算结果的差值。
本发明实施例中,训练模块203还可用于:在将从候选用户查询对中选取的预设数量的用户查询对进行人工标注之后,将所述预设数量的用户查询对按照预设比例划分为训练集、验证集和测试集;利用表示为特征向量的训练集,采用梯度提升决策树分类器训练分类器,然后利用表示为特征向量的验证集调整分类器的超参数;以及利用分类器判断测试集中的用户查询对是否符合上下位关系,然后计算准确率和召回率。
此外,训练模块203还可用于:利用梯度提升决策树分类器、随机森林分类器、支持向量机分类器中的一种或多种训练分类器。
从以上描述可以看出,因为采用了基于电商领域的特点,设计多维的特征,并通过多个特征来表征有向的用户查询对,进行有监督的二分类训练,从而可以帮助分类器学习到更准确的判断条件的技术手段,所以克服了现有技术中使用词汇上下位关系提取的局限性以及现有技术中网页搜索领域特征较少且难以判断的技术问题,进而达到了在保证预测候选用户查询对为正时有较高准确率的情况下同时有较高的真实正例的召回率,实现了准确提取电商领域用户查询上下位关系的技术效果,为电商领域中对商品和广告的召回提供较大的帮助;通过基于用户查询聚类的方式,对类内两两用户查询构成候选用户查询对,从而可以较为合理的构造候选用户查询对,减少人工标注的负担;通过针对电商环境下检索的网页是具体的商品页的特点,提出多个观察指标,从而可以将候选用户查询对表达为考虑以上多个观察指标的众多特征,从而有助于准确识别用户查询对是否为上下位关系;通过利用梯度提升决策树在训练集上训练分类器,并用学到的分类器对候选用户查询对以及后续新挖掘的候选用户查询对进行二分类的正负判决,从而可以获取准确的用户查询上下位提取结果。
下面参考图3,其示出了适于用来实现本申请实施例的终端设备的计算机***300的结构示意图。图3示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,计算机***300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有***300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的***中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的主要步骤图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,主要步骤图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或主要步骤图中的每个方框、以及框图或主要步骤图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括候选模块、表示模块、训练模块以及提取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,候选模块还可以被描述为“构造候选用户查询对的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:构造候选用户查询对;利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果。
根据本发明实施例的技术方案,因为采用了基于电商领域的特点,设计多维的特征,并通过多个特征来表征有向的用户查询对,进行有监督的二分类训练,从而可以帮助分类器学习到更准确的判断条件的技术手段,所以克服了现有技术中使用词汇上下位关系提取的局限性以及现有技术中网页搜索领域特征较少且难以判断的技术问题,进而达到了在保证预测候选用户查询对为正时有较高准确率的情况下同时有较高的真实正例的召回率,实现了准确提取电商领域用户查询上下位关系的技术效果,为电商领域中对商品和广告的召回提供较大的帮助;通过基于用户查询聚类的方式,对类内两两用户查询构成候选用户查询对,从而可以较为合理的构造候选用户查询对,减少人工标注的负担;通过针对电商环境下检索的网页是具体的商品页的特点,提出多个观察指标,从而可以将候选用户查询对表达为考虑以上多个观察指标的众多特征,从而有助于准确识别用户查询对是否为上下位关系;通过利用梯度提升决策树在训练集上训练分类器,并用学到的分类器对候选用户查询对以及后续新挖掘的候选用户查询对进行二分类的正负判决,从而可以获取准确的用户查询上下位提取结果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种用户查询上下位关系提取的方法,其特征在于,包括:
构造候选用户查询对;
利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;
在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;
利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果;
其中,所述观察指标包括以下一种或几种:
观察指标一:上位用户查询展示的自然结果数大于下位用户查询展示的自然结果数;
观察指标二:上位用户查询展示的自然结果集合包含下位用户查询展示的自然结果集合的程度,大于下位用户查询展示的自然结果集合包含上位用户查询展示的自然结果集合的程度;
观察指标三:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询展示的自然结果集合包含关系置信度越高;
观察指标四:上位用户查询点击的自然结果数大于下位用户查询点击的自然结果数;
观察指标五:上位用户查询点击的自然结果集合包含下位用户查询点击的自然结果集合的程度,大于下位用户查询点击的自然结果集合包含上位用户查询点击的自然结果集合的程度;
观察指标六:上位用户查询与下位用户查询点击的自然结果集合的重叠数量越大,上位用户查询点击的自然结果集合包含关系置信度越高。
2.根据权利要求1所述的方法,其特征在于,构造候选用户查询对包括:
对用户查询进行聚类;
然后将类内用户查询两两组合,构成候选用户查询对。
3.根据权利要求2所述的方法,其特征在于,对用户查询进行聚类包括:
根据用户的Session数据构建图,其中,以用户查询作为图的节点,然后对在窗口内的共现次数超过预设阈值的用户查询节点进行连接作为图的边,边权为以下四个值的乘积:用户查询共现次数、用户查询进行切词后词汇集合的相似度、用户查询的embedding向量相似度、用户查询点击的自然结果集合的相似度;以及
利用标签传播算法对图上的用户查询节点进行聚类。
4.根据权利要求1所述的方法,其特征在于,所述特征包括以下一种或几种:
根据观察指标一设置的特征:候选用户查询对中的上位用户查询展示的自然结果数、候选用户查询对中的下位用户查询展示的自然结果数;
根据观察指标二设置的特征:利用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec的计算结果的差值、利用不带权的balPrec的计算结果的差值;
根据观察指标三设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果集合的不带权LIN分数,反映交集的比例;
根据观察指标四设置的特征:候选用户查询对中的上位用户查询点击的自然结果数、候选用户查询对中的下位用户查询点击的自然结果数;
根据观察指标五设置的特征:利用WeedsPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec的计算结果的差值、利用ClarkeDE的计算结果的差值、利用balPrec的计算结果的差值;
根据观察指标六设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果集合的LIN分数,反映交集的比例;
其它特征:特征a:用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度;特征b:用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度;特征a和特征b的计算结果的差值;
其中,给定所有x的特征向量Fx,wx(f)为x在特征f上的权重,v包含u的程度:
Figure FDA0002581591070000041
Figure FDA0002581591070000042
Figure FDA0002581591070000043
5.根据权利要求1所述的方法,其特征在于,在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器还包括:
在将从候选用户查询对中选取的预设数量的用户查询对进行人工标注之后,将所述预设数量的用户查询对按照预设比例划分为训练集、验证集和测试集;
利用表示为特征向量的训练集,采用梯度提升决策树分类器训练分类器,然后利用表示为特征向量的验证集调整分类器的超参数;以及
利用分类器判断测试集中的用户查询对是否符合上下位关系,然后计算准确率和召回率。
6.根据权利要求1所述的方法,其特征在于,利用监督学习训练分类器还包括:利用梯度提升决策树分类器、随机森林分类器、支持向量机分类器中的一种或多种训练分类器。
7.一种用户查询上下位关系提取的装置,其特征在于,包括:
候选模块,用于构造候选用户查询对;
表示模块,用于利用预先根据观察指标设置的特征,将所述候选用户查询对表示为特征向量;
训练模块,用于在对所述候选用户查询对中预设数量的用户查询对进行人工标注之后,利用监督学习训练分类器;
提取模块,用于利用训练好的分类器判断所述候选用户查询对中剩余的用户查询对是否符合上下位关系,输出符合上下位关系的用户查询对作为提取结果;
其中,所述观察指标包括以下一种或几种:
观察指标一:上位用户查询展示的自然结果数大于下位用户查询展示的自然结果数;
观察指标二:上位用户查询展示的自然结果集合包含下位用户查询展示的自然结果集合的程度,大于下位用户查询展示的自然结果集合包含上位用户查询展示的自然结果集合的程度;
观察指标三:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询展示的自然结果集合包含关系置信度越高;
观察指标四:上位用户查询点击的自然结果数大于下位用户查询点击的自然结果数;
观察指标五:上位用户查询点击的自然结果集合包含下位用户查询点击的自然结果集合的程度,大于下位用户查询点击的自然结果集合包含上位用户查询点击的自然结果集合的程度;
观察指标六:上位用户查询与下位用户查询展示的自然结果集合重叠数量越大,上位用户查询点击的自然结果集合包含关系置信度越高。
8.根据权利要求7所述的装置,其特征在于,所述候选模块还用于:
对用户查询进行聚类;
然后将类内用户查询两两组合,构成候选用户查询对。
9.根据权利要求8所述的装置,其特征在于,所述候选模块还用于:
根据用户的Session数据构建图,其中,以用户查询作为图的节点,然后对在窗口内的共现次数超过预设阈值的用户查询节点进行连接作为图的边,边权为以下四个值的乘积:用户查询共现次数、用户查询进行切词后词汇集合的相似度、用户查询的embedding向量相似度、用户查询点击的自然结果集合的相似度;以及
利用标签传播算法对图上的用户查询节点进行聚类。
10.根据权利要求7所述的装置,其特征在于,所述特征包括以下一种或几种:
根据观察指标一设置的特征:候选用户查询对中的上位用户查询展示的自然结果数、候选用户查询对中的下位用户查询展示的自然结果数;
根据观察指标二设置的特征:利用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度、利用不带权的balPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询展示的自然结果集合的程度;利用不带权的WeedsPrec的计算结果的差值、利用不带权的balPrec的计算结果的差值;
根据观察指标三设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询展示的自然结果集合的不带权LIN分数,反映交集的比例;
根据观察指标四设置的特征:候选用户查询对中的上位用户查询点击的自然结果数、候选用户查询对中的下位用户查询点击的自然结果数;
根据观察指标五设置的特征:利用WeedsPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的上位用户查询点击的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用ClarkeDE计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数、利用balPrec计算候选用户查询对中的下位用户查询点击的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度,权重为点击次数;利用WeedsPrec的计算结果的差值、利用ClarkeDE的计算结果的差值、利用balPrec的计算结果的差值;
根据观察指标六设置的特征:候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果重叠的数量、候选用户查询对中的上位用户查询,候选用户查询对中的下位用户查询点击的自然结果集合的LIN分数,反映交集的比例;
其它特征:特征a:用不带权的WeedsPrec计算候选用户查询对中的上位用户查询展示的自然结果集合包含候选用户查询对中的下位用户查询点击的自然结果集合的程度;特征b:用不带权的WeedsPrec计算候选用户查询对中的下位用户查询展示的自然结果集合包含候选用户查询对中的上位用户查询点击的自然结果集合的程度;特征a和特征b的计算结果的差值;
其中,给定所有x的特征向量Fx,wx(f)为x在特征f上的权重,v包含u的程度:
Figure FDA0002581591070000081
Figure FDA0002581591070000082
Figure FDA0002581591070000083
11.根据权利要求7所述的装置,其特征在于,所述训练模块还用于:
在将从候选用户查询对中选取的预设数量的用户查询对进行人工标注之后,将所述预设数量的用户查询对按照预设比例划分为训练集、验证集和测试集;
利用表示为特征向量的训练集,采用梯度提升决策树分类器训练分类器,然后利用表示为特征向量的验证集调整分类器的超参数;以及
利用分类器判断测试集中的用户查询对是否符合上下位关系,然后计算准确率和召回率。
12.根据权利要求7所述的装置,其特征在于,所述训练模块还用于:利用梯度提升决策树分类器、随机森林分类器、支持向量机分类器中的一种或多种训练分类器。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201710260844.3A 2017-04-20 2017-04-20 用户查询上下位关系提取的方法、装置、电子设备和介质 Active CN108733702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710260844.3A CN108733702B (zh) 2017-04-20 2017-04-20 用户查询上下位关系提取的方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710260844.3A CN108733702B (zh) 2017-04-20 2017-04-20 用户查询上下位关系提取的方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN108733702A CN108733702A (zh) 2018-11-02
CN108733702B true CN108733702B (zh) 2020-09-29

Family

ID=63933408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710260844.3A Active CN108733702B (zh) 2017-04-20 2017-04-20 用户查询上下位关系提取的方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN108733702B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968665B (zh) * 2019-11-08 2022-09-23 浙江工业大学 一种基于梯度增强决策树的上下位词关系识别方法
CN111288973B (zh) * 2020-01-23 2021-09-24 中山大学 海表流速获取方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699568A (zh) * 2013-11-16 2014-04-02 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法
CN104615724A (zh) * 2015-02-06 2015-05-13 百度在线网络技术(北京)有限公司 知识库的建立以及基于知识库的信息搜索方法和装置
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法
CN106569993A (zh) * 2015-10-10 2017-04-19 ***通信集团公司 一种挖掘领域术语间上下位关系的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292149A1 (en) * 2014-08-02 2016-10-06 Google Inc. Word sense disambiguation using hypernyms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699568A (zh) * 2013-11-16 2014-04-02 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法
CN104615724A (zh) * 2015-02-06 2015-05-13 百度在线网络技术(北京)有限公司 知识库的建立以及基于知识库的信息搜索方法和装置
CN106569993A (zh) * 2015-10-10 2017-04-19 ***通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Directional Distributional Similarity for Lexical Expansion;Lili Kotlerman et al.,;《Proceedings of the ACL-IJCNLP 2009 Conference Short Papers》;20090804;全文 *
开放域命名实体识别及其层次化类别获取;付瑞吉;《中国博士学位论文全文数据库信息科技辑》;20150115(第1期);第13-14、59-97页 *

Also Published As

Publication number Publication date
CN108733702A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
US20180181628A1 (en) Method and apparatus for providing information based on artificial intelligence
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
US20220318275A1 (en) Search method, electronic device and storage medium
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN113742450B (zh) 用户数据等级落标的方法、装置、电子设备和存储介质
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN114970553A (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN114742062A (zh) 文本关键词提取处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant