CN115757973A - 推荐***的排序方法、装置、设备及可读存储介质 - Google Patents

推荐***的排序方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115757973A
CN115757973A CN202211549152.8A CN202211549152A CN115757973A CN 115757973 A CN115757973 A CN 115757973A CN 202211549152 A CN202211549152 A CN 202211549152A CN 115757973 A CN115757973 A CN 115757973A
Authority
CN
China
Prior art keywords
data
feature data
feature
scale
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211549152.8A
Other languages
English (en)
Inventor
孙玉龙
张志勇
蒋兵兵
龙明康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211549152.8A priority Critical patent/CN115757973A/zh
Publication of CN115757973A publication Critical patent/CN115757973A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种推荐***的排序方法、装置、设备及可读存储介质。该方案中,先确定用户的特征数据,以及与用户对应的多个待推荐对象的特征数据;再构建特征数据对,每个特征数据对中包括用户的特征数据和一个待推荐对象的特征数据;然后,针对每个特征数据对,对特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对聚合后的特征数据进行处理得到特征数据对的置信度得分;最后,基于各特征数据对的置信度得分对多个待推荐对象进行排序。该方案中,针对每个特征数据对,对特征数据对进行多尺度局部邻域非线性聚合的方式,没有较强的归纳偏置,因此,可以避免出现由于较强的归纳偏置导致排序结果不满足用户需求的情况。

Description

推荐***的排序方法、装置、设备及可读存储介质
技术领域
本申请涉及推荐***技术领域,更具体的说,是涉及一种推荐***的排序方法、装置、设备及可读存储介质。
背景技术
随着社会科技的不断发展,和各行各业的快速发展,各行各业每天都有大量的信息产生,推荐***可以为用户实现个性化推荐,让用户可以从大量的信息中迅速获得对自己真正有用的信息。推荐***大致可以分为召回和排序两个阶段,其中召回阶段是从大量信息中选取部分用户大概率感兴趣的信息,排序阶段是对召回的信息按照用户可能感兴趣的程度,从高到低进行排序,展示给用户。
用户特征、待推荐对象的特征之间交叉对用户喜好某待推荐对象的概率有影响(比如,相同年龄段不同性别的用户喜好的手机样式不同,相同性别不同年龄段的用户喜好的手机样式不同),目前推荐***常用的排序方法是先对用户特征和待推荐对象的特征进行一阶或二阶的线性组合交叉,再对线性组合交叉后的特征进行处理得到排序结果。但是,对用户特征和待推荐对象的特征进行一阶或二阶的线性组合交叉的方式具有较强的归纳偏置,很可能导致排序结果不满足用户需求。
因此,如何提供一种推荐***的排序方法,避免出现由于较强的归纳偏置导致排序结果不满足用户需求的情况,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种推荐***的排序方法、装置、设备及可读存储介质。具体方案如下:
一种推荐***的排序方法,所述方法包括:
确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
可选地,所述确定特征数据,包括:
获取画像数据,所述画像数据包括所述用户的画像数据,以及,与所述用户对应的多个待推荐对象的画像数据;所述画像数据包括连续型数据、单值离散型数据和多值离散型数据;
对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,并对所述去长尾处理后的连续型数据进行归一化处理,得到归一化处理后的连续型数据;
对所述归一化处理后的连续型数据、所述单值离散型数据和所述多值离散型数据分别进行标准化处理,得到所述特征数据。
可选地,所述对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,包括:
对所述画像数据中的连续型数据进行开n次幂或取对数处理,得到去长尾处理后的连续型数据,所述n为大于等于2的整数。
可选地,所述对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分,包括:
将所述特征数据对输入预先训练的排序模型,所述排序模型对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;所述排序模型是以训练用特征数据对为训练样本,以训练用特征数据对的标签为样本标签,训练得到的。
可选地,所述排序模型包括特征拼接模块、多尺度局部邻域非线性聚合模块和置信度打分模块;
所述特征拼接模块将所述特征数据对中的用户的特征数据和一个所述待推荐对象的特征数据进行拼接,得到拼接后的特征数据;
所述多尺度局部邻域非线性聚合模块对所述拼接后的特征数据进行多尺度局部邻域非线性聚合,得到聚合后的特征数据;
所述置信度打分模块对所述聚合后的特征数据进行置信度打分,得到所述特征数据对的置信度得分。
可选地,所述多尺度局部邻域非线性聚合模块包括:依次级联的多个多尺度随机组合式卷积层;
每个多尺度随机组合式卷积层中包括多个卷积核,所述多个卷积核中,最小尺度为2,其余卷积核的尺度是从预设尺度列表中等间距选择确定的,所述预设尺度列表中每个尺度均为奇数,最小尺度为3,最大尺度为2int(N/4)-1,N为所述拼接后的特征数据的长度;
每个多尺度随机组合式卷积层的深度是基于N确定的。
可选地,每个卷积核在特征数据上遍历时,以预设概率保持正常卷积,其他情况进行随机卷积,所述正常卷积即为从特征数据的开始位置到结束位置顺序滑动卷积窗口,所述随机卷积即为每次中心特征不变,从中心特征以外的特征中随机选择其他特征。
可选地,所述置信度打分模块包括池化层和激活层,所述池化层与最后一个所述多尺度随机组合式卷积层连接,所述激活层与所述池化层连接。
一种推荐***的排序装置,所述装置包括:
特征数据确定单元,用于确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
特征数据对构建单元,用于基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
置信度得分确定单元,用于针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
排序单元,用于基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
可选地,所述特征数据确定单元,包括:
画像数据获取单元,用于获取画像数据,所述画像数据包括所述用户的画像数据,以及,与所述用户对应的多个待推荐对象的画像数据;所述画像数据包括连续型数据、单值离散型数据和多值离散型数据;
去长尾和归一化处理单元,用于对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,并对所述去长尾处理后的连续型数据进行归一化处理,得到归一化处理后的连续型数据;
标准化处理单元,用于对所述归一化处理后的连续型数据、所述单值离散型数据和所述多值离散型数据分别进行标准化处理,得到所述特征数据。
可选地,所述去长尾和归一化处理单元,具体用于:
对所述画像数据中的连续型数据进行开n次幂或取对数处理,得到去长尾处理后的连续型数据,所述n为大于等于2的整数。
可选地,所述置信度得分确定单元,具体用于:
将所述特征数据对输入预先训练的排序模型,所述排序模型对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;所述排序模型是以训练用特征数据对为训练样本,以训练用特征数据对的标签为样本标签,训练得到的。
可选地,所述排序模型包括特征拼接模块、多尺度局部邻域非线性聚合模块和置信度打分模块;
所述特征拼接模块将所述特征数据对中的用户的特征数据和一个所述待推荐对象的特征数据进行拼接,得到拼接后的特征数据;
所述多尺度局部邻域非线性聚合模块对所述拼接后的特征数据进行多尺度局部邻域非线性聚合,得到聚合后的特征数据;
所述置信度打分模块对所述聚合后的特征数据进行置信度打分,得到所述特征数据对的置信度得分。
可选地,所述多尺度局部邻域非线性聚合模块包括:依次级联的多个多尺度随机组合式卷积层;
每个多尺度随机组合式卷积层中包括多个卷积核,所述多个卷积核中,最小尺度为2,其余卷积核的尺度是从预设尺度列表中等间距选择确定的,所述预设尺度列表中每个尺度均为奇数,最小尺度为3,最大尺度为2int(N/4)-1,N为所述拼接后的特征数据的长度;
每个多尺度随机组合式卷积层的深度是基于N确定的。
可选地,每个卷积核在特征数据上遍历时,以预设概率保持正常卷积,其他情况进行随机卷积,所述正常卷积即为从特征数据的开始位置到结束位置顺序滑动卷积窗口,所述随机卷积即为每次中心特征不变,从中心特征以外的特征中随机选择其他特征。
可选地,所述置信度打分模块包括池化层和激活层,所述池化层与最后一个所述多尺度随机组合式卷积层连接,所述激活层与所述池化层连接。
一种推荐***的排序设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的推荐***的排序方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的推荐***的排序方法的各个步骤。
借由上述技术方案,本申请公开了一种推荐***的排序方法、装置、设备及可读存储介质。该方案中,先确定用户的特征数据,以及与用户对应的多个待推荐对象的特征数据;再构建特征数据对,每个特征数据对中包括用户的特征数据和一个待推荐对象的特征数据,特征数据对的数量与待推荐对象的数量相同;然后,针对每个特征数据对,对特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对聚合后的特征数据进行处理得到特征数据对的置信度得分;最后,基于各特征数据对的置信度得分对多个待推荐对象进行排序。该方案中,针对每个特征数据对,对特征数据对进行多尺度局部邻域非线性聚合的方式,没有较强的归纳偏置,因此,可以避免出现由于较强的归纳偏置导致排序结果不满足用户需求的情况。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种推荐***的排序方法的流程示意图;
图2为本申请实施例公开的一种确定特征数据的方法的流程示意图;
图3为本申请实施例公开的一种用户观看时长这一画像数据集通过可视化展示的示意图;
图4为本申请实施例公开的一种取根号去长尾处理后的用户观看时长这一画像数据集通过可视化展示的示意图;
图5为本申请实施例公开的一种取对数去长尾处理后的用户观看时长这一画像数据集通过可视化展示的示意图;
图6为本申请实施例公开的一种排序模型的结构示意图;
图7为本申请实施例公开的一种卷积核在特征数据上遍历的示意图;
图8为本申请实施例公开的一种推荐***的排序装置结构示意图;
图9为本申请实施例公开的一种推荐***的排序设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请的技术方案,本案发明人首先对现有技术中推荐***的排序算法进行简单介绍。
随着机器学习技术的发展,推荐***一般通过排序模型对待推荐对象进行排序。目前的排序模型(如FiBiNet模型、deepfm模型、wide&deep模型等)的结构一般都是特征交叉层+全连接层,其中特征交叉层对用户特征和待推荐对象的特征进行一阶或二阶的线性组合交叉,全连接层对线性组合交叉后的特征进行处理得到排序结果。但是,对用户特征和待推荐对象的特征进行一阶或二阶的线性组合交叉的方式具有较强的归纳偏置,这些排序模型很可能导致排序结果不满足用户需求。
另外,目前的排序模型在特征工程阶段,根据画像数据构建特征数据时,是直接对画像数据进行归一化和标准化,导致构建的特征数据不具备很好的区分度,进而导致排序模型鲁棒性较差。
例如,一些画像数据具有长尾现象,即,对于这些画像数据,其取值在整个数据集中分布是一种幂律分布,也就是大量数据集中在较小的取值,而样本正负关系与取值呈明显正相关性,这样会导致正样本和负样本分布不是均匀的,大多数正样本分布在较小的数值上,例如,某字段分值与正样本比例分布如下表所示:
分值范围 正样本比例
0-497 80%
498-1989 16%
1990-4475 3%
4476-7956 1%
7957-12432 0%
12433-17902 0%
17903-24367 0%
24368-31826 0%
31827-40280 0%
40281-50000 0%
从表中可以看出,正样本主要集中在1989以后,占据了96%,如果直接对该字段分值使用归一化,1989/50000=0.03978,也就是说大量正样本集中在狭小的区间[0,0.03978]内。由于正样本集中在狭小区间内,模型需要以0.03978区分正样本和负样本,如果模型稍微有个波动就会影响分类,这样的模型过于敏感不具备鲁棒性。
鉴于现有推荐***的排序方法存在的问题,本案发明人进行了深入研究,最终提出了一种推荐***的排序方法。
接下来,通过下述实施例对本申请提供的推荐***的排序方法进行介绍。
参照图1,图1为本申请实施例公开的一种推荐***的排序方法的流程示意图,该方法可以包括:
步骤S101:确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据。
在本申请中,与所述用户对应的多个待推荐对象可以是在推荐***的召回阶段得到的。作为一种可实施方式,在本申请中,可以基于画像数据确定特征数据,具体的,可以基于用户的画像数据确定用户的特征数据,基于多个待推荐对象的画像数据确定多个待推荐对象的特征数据,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
步骤S102:基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同。
步骤S103:针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分。
在本申请中,可以基于卷积神经网络实现对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对聚合后的特征数据进行处理得到特征数据对的置信度得分,具体实现将通过后面的实施例详细说明,此处不再展开描述。
步骤S104:基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
在本申请中,特征数据对的置信度得分用于表征用户对待推荐对象的感兴趣程度,置信度得分越高,说明用户对待推荐对象的感兴趣程度越高,排名越靠前,置信度得分越低,说明用户对待推荐对象的感兴趣程度越低,排名越靠后。
本实施例公开了一种推荐***的排序方法。该方案中,先确定用户的特征数据,以及与用户对应的多个待推荐对象的特征数据;再构建特征数据对,每个特征数据对中包括用户的特征数据和一个待推荐对象的特征数据,特征数据对的数量与待推荐对象的数量相同;然后,针对每个特征数据对,对特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对聚合后的特征数据进行处理得到特征数据对的置信度得分;最后,基于各特征数据对的置信度得分对多个待推荐对象进行排序。该方案中,针对每个特征数据对,对特征数据对进行多尺度局部邻域非线性聚合的方式,没有较强的归纳偏置,因此,可以避免出现由于较强的归纳偏置导致排序结果不满足用户需求的情况。
在本申请的另一个实施例中,对步骤S101确定特征数据的具体实现方式进行说明。
参照图2,图2为本申请实施例公开的一种确定特征数据的方法的流程示意图,该方法可以包括:
步骤S201:获取画像数据,所述画像数据包括所述用户的画像数据,以及,与所述用户对应的多个待推荐对象的画像数据;所述画像数据包括连续型数据、单值离散型数据和多值离散型数据。
在本申请中,画像数据可以分为短期画像数据和长期画像数据。用户的画像数据可以是通过结合用户的基础信息和行为数据构建得到的,与所述用户对应的多个待推荐对象的画像数据可以是通过结合多个待推荐对象的基础信息和行为数据构建得到的。
需要说明的是,连续型数据是取值为浮点型的数据,取值范围是连续区间上的。例如图像像素、热度、在线时长等。单值离散型数据是该字段只能取一个值,并且取值范围为枚举类型;例如性别,年龄等。多值离散型数据是同时可以有多个值,数量不限,取值范围是相同枚举类型;例如演员,商品成分等。
步骤S202:对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,并对所述去长尾处理后的连续型数据进行归一化处理,得到归一化处理后的连续型数据。
作为一种可实施方式,可以对所述画像数据中的连续型数据进行开n次幂处理,得到去长尾处理后的连续型数据,所述n为大于等于2的整数。
作为另一种可实施方式,可以对所述画像数据中的连续型数据进行取对数处理,得到去长尾处理后的连续型数据。
为便于理解,以用户观看时长这一连续型数据为例,对去长尾处理进行说明。
大多数时候被用户观看时长为10分钟左右,才能作为正样本,假设用户观看时长这一画像数据集通过可视化展示如图3所示,横坐标为时间(单位是4.5秒,方便展示),纵坐标为用户数。由于大部分用户集中在10分钟以内,也就是图1中0到133以内,如果直接使用归一化操作,例如除以1600,则133变成了0.083,而要在0到0.083区间内找到正负样本边界变得不那么容易。
假设对观看时长开2次幂(即取根号)进行去长尾处理,则取根号去长尾处理后的用户观看时长这一画像数据集通过可视化展示如图4所示,去长尾处理后,133开根号后为11.53,1600开平方后为40,然后归一化,133变成了0.2875;现在大多数正样本分布在0到0.2875之间,这要比0.083区分正负样本容易得多。
假设对观看时长取自然对数ln进行去长尾处理,则取对数去长尾处理后的用户观看时长这一画像数据集通过可视化展示如图5所示,去长尾处理后,ln(133)为4.89,而ln(1600)为7.38,做归一化处理后为大量正样本在0到0.66之间,这样区分度更高。
步骤S203:对所述归一化处理后的连续型数据、所述单值离散型数据和所述多值离散型数据分别进行标准化处理,得到所述特征数据。
在本申请中,对于不同类型的数据可以进行不同的标准化处理。
作为一种可实施方式,对于归一化处理后的连续型数据,可以通过使用线性变换的方式将其映射到E维空间,E的取值可以基于场景需求确定。对于所述单值离散型数据和所述多值离散型数据,可以通过嵌入层(在tensorflow或者pytorch都有对应的api)处理,具体的,可以用对应的编码索引与对应的权重矩阵行检索或者使用离散值的one-hot向量与权重矩阵相乘。
在本申请的前述实施例中提到可以基于卷积神经网络实现对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对聚合后的特征数据进行处理得到特征数据对的置信度得分,具体的,可以预先构建一个排序模型,以训练用特征数据对为训练样本,以训练用特征数据对的标签为样本标签,对其进行训练,基于训练好的排序模型,即可将所述特征数据对输入预先训练的排序模型,所述排序模型对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分。
需要说明的是,在本申请中,训练样本生成过程中可以采用如下策略:首先设置一个比较大的阈值和较小阈值,例如0.8;对于评分高于0.8的样本定为正样本。对于阈值低于0.2的定为负样本。然后用聚类的方式,找到正样本类中心和负样本类中心,对剩下的样本进行筛选。与正样本距离近的样本划分为正样本,与负样本距离近划分为负样本。这样做法是除噪。
在本申请的另一个实施例中,将对排序模型的结构进行详细说明。
参照图6,图6为本申请实施例公开的一种排序模型的结构示意图,该排序模型可以包括:特征拼接模块、多尺度局部邻域非线性聚合模块和置信度打分模块;
所述特征拼接模块将所述特征数据对中的用户的特征数据和一个所述待推荐对象的特征数据进行拼接,得到拼接后的特征数据;
所述多尺度局部邻域非线性聚合模块对所述拼接后的特征数据进行多尺度局部邻域非线性聚合,得到聚合后的特征数据;
所述置信度打分模块对所述聚合后的特征数据进行置信度打分,得到所述特征数据对的置信度得分。
作为一种可实施方式,所述多尺度局部邻域非线性聚合模块包括:依次级联的至少两个多尺度随机组合式卷积层;
每个多尺度随机组合式卷积层中包括多个(一般为5个到7个,太多不宜训练,模型臃肿)卷积核,所述多个卷积核中,最小尺度为2,因为1×1对特征聚合不起作用,又因为在嵌入层维度不做卷积操作(实验证明没什么效果),其余卷积核的尺度是从预设尺度列表中等间距选择确定的,所述预设尺度列表中每个尺度均为奇数,最小尺度为3,最大尺度为2int(N/4)-1,N为所述拼接后的特征数据的长度。
需要说明的是,理论上,卷积核最大尺度为拼接后的特征数据的长度。但是因为如果等于拼接后的特征数据的长度,则只能做一次卷积就把特征聚合了,而这种一次就聚合了所有特征的操作效果并没有多层聚合效果好(多层小尺寸感受野同大尺寸单层相当,但是效果却很优秀,因为多层非线性级联表示能力强于单层)。因此,在本申请的排序模型中,为了保证至少使用两层卷积层,对于拼接后的特征数据的长度N的数据,最大尺寸为int(N/2)。另外卷积奇数卷积核更容易做填充,所以都选用奇数。
另外,每个多尺度随机组合式卷积层的深度是基于N确定的。
作为一种可实施方式,每个多尺度随机组合式卷积层的深度与N需要满足公式Layers=int(logN+1)±1。
每个多尺度随机组合式卷积层中还要包括池化层(最大池化或平均池化),最后一个多尺度随机组合式卷积层中使用自适应池化到1×1,以便连接置信度打分模块。
需要说明的是,卷积操作具有较强的空间归纳偏置,卷积从特征数据上开始位置到结束位置,都是顺序滑动卷积窗口实现的。但是在推荐中,特征之间并没有前后关系。为了避免这种空间归纳偏置,本申请中,每个卷积核在特征数据上遍历时,以预设概率保持正常卷积,其他情况进行随机卷积,所述正常卷积即为从特征数据的开始位置到结束位置顺序滑动卷积窗口,所述随机卷积即为每次中心特征不变,从中心特征以外的特征中随机选择其他特征。
为便于理解,假设预设概率为α,则每个卷积核在特征数据上遍历时,以概率α保持正常卷积,以概率1-α进行随机卷积,具体如图7所示。
另外,需要说明的是,在目前各类神经网络模型中,以及算法人员构建神经网络过程,都是这样一个逻辑:卷积层+激活+池化;这成为一种普遍范式。但如果从数学角度来看,只要激活函数是单调函数,这种结构可以这样变换,结果不受影响:卷积层+池化+激活,即下面等式成立
max(σ(g(X)))=σ(max(g(X)))
上述等式的证明比较容易:
对于单调递增函数f,其定义域内任意x1<=x2,则,f(x1)<=f(x2)
对于其定义域采样n个数据a1,a2,…,an构成的集合X,其中a_max=max(a1,a2,…,an)
任意的ai∈{a1,a2,…,an},
则有ai<=a_max,则f(ai)<=f(a_max)
对于集合X每个元素的函数值构成集合Y
则Y={f(a1),f(a2),…,f(an)},Y_max表示集合Y中的最大值。即任意ai∈X则f(ai)∈Y,则有f(ai)<=Y_max
a_max∈X,f(a_max)∈Y,则f(a_max)<=Y_max
令a*=argmax(Y),即Y_max对应的a。
a*∈X,则a*<=a_max,则Y_max=f(a*)<=f(a_max)
所以f(a_max)=Y_max,则上面等式成立。
因此,对于单调激活函数(sigmoid、softplus等激活函数),将池化后再激活,远远比激活后再池化计算量小的多。
因此,作为一种可实施方式,所述置信度打分模块包括池化层和激活层,所述池化层与最后一个所述多尺度随机组合式卷积层连接,所述激活层与所述池化层连接。
下面对本申请实施例公开的推荐***的排序装置进行描述,下文描述的推荐***的排序装置与上文描述的推荐***的排序方法可相互对应参照。
参照图8,图8为本申请实施例公开的一种推荐***的排序装置结构示意图。如图8所示,该推荐***的排序装置可以包括:
特征数据确定单元11,用于确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
特征数据对构建单元12,用于基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
置信度得分确定单元13,用于针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
排序单元14,用于基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
作为一种可实施方式,所述特征数据确定单元,包括:
画像数据获取单元,用于获取画像数据,所述画像数据包括所述用户的画像数据,以及,与所述用户对应的多个待推荐对象的画像数据;所述画像数据包括连续型数据、单值离散型数据和多值离散型数据;
去长尾和归一化处理单元,用于对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,并对所述去长尾处理后的连续型数据进行归一化处理,得到归一化处理后的连续型数据;
标准化处理单元,用于对所述归一化处理后的连续型数据、所述单值离散型数据和所述多值离散型数据分别进行标准化处理,得到所述特征数据。
作为一种可实施方式,所述去长尾和归一化处理单元,具体用于:
对所述画像数据中的连续型数据进行开n次幂或取对数处理,得到去长尾处理后的连续型数据,所述n为大于等于2的整数。
作为一种可实施方式,所述置信度得分确定单元,具体用于:
将所述特征数据对输入预先训练的排序模型,所述排序模型对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;所述排序模型是以训练用特征数据对为训练样本,以训练用特征数据对的标签为样本标签,训练得到的。
作为一种可实施方式,所述排序模型包括特征拼接模块、多尺度局部邻域非线性聚合模块和置信度打分模块;
所述特征拼接模块将所述特征数据对中的用户的特征数据和一个所述待推荐对象的特征数据进行拼接,得到拼接后的特征数据;
所述多尺度局部邻域非线性聚合模块对所述拼接后的特征数据进行多尺度局部邻域非线性聚合,得到聚合后的特征数据;
所述置信度打分模块对所述聚合后的特征数据进行置信度打分,得到所述特征数据对的置信度得分。
作为一种可实施方式,所述多尺度局部邻域非线性聚合模块包括:依次级联的多个多尺度随机组合式卷积层;
每个多尺度随机组合式卷积层中包括多个卷积核,所述多个卷积核中,最小尺度为2,其余卷积核的尺度是从预设尺度列表中等间距选择确定的,所述预设尺度列表中每个尺度均为奇数,最小尺度为3,最大尺度为2int(N/4)-1,N为所述拼接后的特征数据的长度;
每个多尺度随机组合式卷积层的深度是基于N确定的。
作为一种可实施方式,每个卷积核在特征数据上遍历时,以预设概率保持正常卷积,其他情况进行随机卷积,所述正常卷积即为从特征数据的开始位置到结束位置顺序滑动卷积窗口,所述随机卷积即为每次中心特征不变,从中心特征以外的特征中随机选择其他特征。
作为一种可实施方式,所述置信度打分模块包括池化层和激活层,所述池化层与最后一个所述多尺度随机组合式卷积层连接,所述激活层与所述池化层连接。
参照图9,图9为本申请实施例提供的一种推荐***的排序设备的硬件结构框图,参照图9,推荐***的排序设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种推荐***的排序方法,其特征在于,所述方法包括:
确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
2.根据权利要求1所述的方法,其特征在于,所述确定特征数据,包括:
获取画像数据,所述画像数据包括所述用户的画像数据,以及,与所述用户对应的多个待推荐对象的画像数据;所述画像数据包括连续型数据、单值离散型数据和多值离散型数据;
对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,并对所述去长尾处理后的连续型数据进行归一化处理,得到归一化处理后的连续型数据;
对所述归一化处理后的连续型数据、所述单值离散型数据和所述多值离散型数据分别进行标准化处理,得到所述特征数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述画像数据中的连续型数据进行去长尾处理,得到去长尾处理后的连续型数据,包括:
对所述画像数据中的连续型数据进行开n次幂或取对数处理,得到去长尾处理后的连续型数据,所述n为大于等于2的整数。
4.根据权利要求1所述的方法,其特征在于,所述对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分,包括:
将所述特征数据对输入预先训练的排序模型,所述排序模型对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;所述排序模型是以训练用特征数据对为训练样本,以训练用特征数据对的标签为样本标签,训练得到的。
5.根据权利要求4所述的方法,其特征在于,所述排序模型包括特征拼接模块、多尺度局部邻域非线性聚合模块和置信度打分模块;
所述特征拼接模块将所述特征数据对中的用户的特征数据和一个所述待推荐对象的特征数据进行拼接,得到拼接后的特征数据;
所述多尺度局部邻域非线性聚合模块对所述拼接后的特征数据进行多尺度局部邻域非线性聚合,得到聚合后的特征数据;
所述置信度打分模块对所述聚合后的特征数据进行置信度打分,得到所述特征数据对的置信度得分。
6.根据权利要求5所述的方法,其特征在于,所述多尺度局部邻域非线性聚合模块包括:依次级联的多个多尺度随机组合式卷积层;
每个多尺度随机组合式卷积层中包括多个卷积核,所述多个卷积核中,最小尺度为2,其余卷积核的尺度是从预设尺度列表中等间距选择确定的,所述预设尺度列表中每个尺度均为奇数,最小尺度为3,最大尺度为2int(N/4)-1,N为所述拼接后的特征数据的长度;
每个多尺度随机组合式卷积层的深度是基于N确定的。
7.根据权利要求6所述的方法,其特征在于,每个卷积核在特征数据上遍历时,以预设概率保持正常卷积,其他情况进行随机卷积,所述正常卷积即为从特征数据的开始位置到结束位置顺序滑动卷积窗口,所述随机卷积即为每次中心特征不变,从中心特征以外的特征中随机选择其他特征。
8.根据权利要求6所述的方法,其特征在于,所述置信度打分模块包括池化层和激活层,所述池化层与最后一个所述多尺度随机组合式卷积层连接,所述激活层与所述池化层连接。
9.一种推荐***的排序装置,其特征在于,所述装置包括:
特征数据确定单元,用于确定特征数据,所述特征数据包括用户的特征数据,以及与所述用户对应的多个待推荐对象的特征数据;
特征数据对构建单元,用于基于所述特征数据,构建特征数据对,每个特征数据对中包括所述用户的特征数据和一个所述待推荐对象的特征数据,所述特征数据对的数量与所述待推荐对象的数量相同;
置信度得分确定单元,用于针对每个特征数据对,对所述特征数据对进行多尺度局部邻域非线性聚合得到聚合后的特征数据,并对所述聚合后的特征数据进行处理得到所述特征数据对的置信度得分;
排序单元,用于基于各特征数据对的置信度得分对所述多个待推荐对象进行排序。
10.一种推荐***的排序设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的推荐***的排序方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的推荐***的排序方法的各个步骤。
CN202211549152.8A 2022-12-05 2022-12-05 推荐***的排序方法、装置、设备及可读存储介质 Pending CN115757973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211549152.8A CN115757973A (zh) 2022-12-05 2022-12-05 推荐***的排序方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211549152.8A CN115757973A (zh) 2022-12-05 2022-12-05 推荐***的排序方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115757973A true CN115757973A (zh) 2023-03-07

Family

ID=85343268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211549152.8A Pending CN115757973A (zh) 2022-12-05 2022-12-05 推荐***的排序方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115757973A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117014500A (zh) * 2023-07-26 2023-11-07 中航信移动科技有限公司 一种推送信息类型的确定方法、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117014500A (zh) * 2023-07-26 2023-11-07 中航信移动科技有限公司 一种推送信息类型的确定方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US9348898B2 (en) Recommendation system with dual collaborative filter usage matrix
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
JP2018536937A (ja) プッシュ情報粗選択ソーティングの方法、デバイス、およびコンピュータ記憶媒体
CN113010778A (zh) 一种基于用户历史兴趣的知识图谱推荐方法和***
CN110046251A (zh) 社区内容风险评估方法及装置
CN115757973A (zh) 推荐***的排序方法、装置、设备及可读存储介质
CN112241920A (zh) 基于图神经网络的投融资机构评估方法、***及设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN112149285A (zh) 一种基于优化参数选择的滑坡预测方法
CN110929285B (zh) 一种隐私数据的处理方法及装置
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN112348188A (zh) 模型生成方法及装置、电子设备和存储介质
Khanzadi et al. A novel metric for digital image quality assessment using entropy-based image complexity
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN115730217A (zh) 模型的训练方法、物料的召回方法及装置
CN108170664B (zh) 基于重点关键词的关键词拓展方法和装置
CN115809889A (zh) 基于营销效果的智能客群筛选方法、***、介质及设备
CN103377381A (zh) 识别图像的内容属性的方法和装置
CN112561569B (zh) 基于双模型的到店预测方法、***、电子设备及存储介质
CN115375494A (zh) 理财产品推荐方法、装置、存储介质和设备
CN113284027A (zh) 团伙识别模型的训练方法、异常团伙识别方法及装置
CN113516524A (zh) 用于推送信息的方法和装置
CN113409106B (zh) 基于用户价值的商品推荐方法、装置、设备及存储介质
CN110489644B (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110046711B (zh) 一种模型特征剔除方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination