CN113139827A

CN113139827A - 用户个性化特征挖掘方法和***

Info

Publication number: CN113139827A
Application number: CN202010064343.XA
Authority: CN
Inventors: 姚默; 陈家伟; 王瑜
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-07-20

Abstract

本申请实施例提供了一种用户个性化特征挖掘方法，所述方法包括：获取用户历史广告行为数据；从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数；对所述展现数进行特征离散化处理以得到离散展现数；及将所述离散展现数与所述点击数结合以作为用户个性化特征，所述用户个性化特征用于训练CTR模型。本申请实施例通过离散化处理得到的离散展现树和点击数，作为用户个性化特征可以有效地提升CTR模型对用户点击行为的特征学习效率。

Description

用户个性化特征挖掘方法和***

技术领域

本申请实施例涉及特征挖掘领域，尤其涉及一种用户个性化特征挖掘方法、***、设备及计算机可读存储介质。

背景技术

CTR(Click Through Rate，点击率)模型用于预测投放广告所对应的广告点击率。传统的CTR模型通常会使用用户、广告、上下文等特征对用户的点击行为进行预测。虽然这些特征能够在一定程度上学习到用户的点击行为，但是也存在诸多弊端，例如：当广告和用户的数据量增多，而用户与广告交互行为较少时，会使得CTR模型无法高效地学习到用户的兴趣偏好。

因此，如何通过提升CTR模型对用户点击行为的特征学习效率，成为了当前要解决的技术问题之一。

发明内容

本申请实施例的目的是提供一种用户个性化特征挖掘方法、***、计算机设备及计算机可读存储介质，用于解决CTR模型对用户点击行为的特征学习效率低的技术问题。

本申请实施例的一个方面提供了一种用户个性化特征挖掘方法，获取用户历史广告行为数据；从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数；对所述展现数进行特征离散化处理以得到离散展现数；及将所述离散展现数与所述点击数结合以作为用户个性化特征，所述用户个性化特征用于训练CTR模型。

可选的，所述从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数包括：以预设时间为滑动时间窗口，统计所述滑动时间窗口内至少一个广告维度的展现数、点击数。

可选的，所述至少一个广告维度包括广告层级、广告行业、广告语义特征。

可选的，所述广告层级包括：账户ID、计划ID、单元ID及创意ID；所述广告行业包括：广告一级行业ID、广告二级行业ID；所述广告语义特征包括：广告创意标签、广告标题分词。

可选的，所述对所述展现数进行特征离散化处理以得到离散展现数包括：通过等频离散法对所述展现数进行特征离散化处理。

可选的，所述将所述离散展现数与所述点击数结合以作为用户个性化特征包括：将所述离散展现数与所述点击数结合，以“展现数-点击数”形式作为所述用户个性化特征。

可选的，所述方法还包括：将所述用户行为个性化特征加入CTR模型进行训练；通过所述训练之后的CTR模型提供广告点击率预测服务。

本申请实施例的一个方面又提供了一种用户个性化特征挖掘***，包括：获取模块，用于获取用户历史广告行为数据；提取模块，用于从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数；离散模块，用于对所述展现数进行特征离散化处理以得到离散展现数；及结合模块，用于将所述离散展现数与所述点击数结合以作为用户个性化特征。

本申请实施例的一个方面又提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现上述的用户个性化特征挖掘方法的步骤。

本申请实施例的一个方面又提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上述的用户个性化特征挖掘方法的步骤。

本申请实施例提供的用户个性化特征挖掘方法、***、设备及计算机可读存储介质，通过对从用户历史广告行为数据中得到的展现数进行特征离散化处理，并将通过特征离散化处理得到的离散展现数与从用户历史广告行为数据中得到的点击数结合以得到用户个性化特征。这种通过离散化处理得到的离散展现树和点击数作为用户个性化特征可以有效地提升CTR模型对用户点击行为的特征学习效率。

附图说明

图1示意性示出了根据本申请实施例的环境应用示意图；

图2示意性示出了根据本申请实施例一的用户个性化特征挖掘方法的流程图；

图3示意性示出了根据本申请实施例二的用户个性化特征挖掘方法的流程图；

图4示意性示出了根据本申请实施例三的用户个性化特征挖掘方法的流程图；

图5示意性示出了根据本申请实施例三的用户个性化特征挖掘方法中CTR模型进行训练的流程图；

图6示意性示出了根据本申请实施例四的用户个性化特征挖掘***的框图；以及

图7示意性示出了根据本申请实施例五的适于实现用户个性化特征挖掘方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请实施例，并不用于限定本申请实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1示意性示出了根据本申请实施例一的在线模型学习方法的环境应用示意图。在示例性的实施例中，计算机设备2可以通过网络6连接多个用户设备4。

所述计算机设备2可以用于特征挖掘、模型训练和/或广告点击率预测等操作。其中，特征挖掘，在于获取用户历史广告行为数据以及从所述用户历史广告行为数据中挖掘用户个性化特征；模型训练，用于根据特征挖掘操作得到的用户个性化特征进行训练，以得到最新的广告点击率预测模型；广告点击率预测操作，在于通过广告点击率预测模型提供给广告点击率预测服务。需要说明的是，如上所述，特征挖掘模型训练和广告点击率预测均在计算机设备2中执行，当然，也可以分布在不同设备中执行。

用户设备4可以是移动电话、平板个人计算机、机顶盒以及云端虚拟设备等。所述多个用户设备4用于呈现广告内容。这些用户设备可以广告主展示广告。

网络6可以因特网(Internet)、广域网(wide area network，WAN)、局域网等。

实施例一

图2示意性示出了根据本申请实施例一的用户个性化特征挖掘方法的流程图。本实施例可以被执行在计算机设备2中。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。

如图2所示，该用户个性化特征挖掘方法可以包括步骤S200～S204，其中：

步骤S200，获取用户历史广告行为数据。

用户历史广告行为数据，可以是用户观看广告行为数据、用户点击广告行为数据。所述用户历史广告行为数据可以通过互联网在用户访问过的历史数据中采集。

在一些实例中，用户在浏览网页或观看视频时，广告一般会以弹窗的形式或者是在用户观看视频间隙以视频的方式出现。不难理解，一般情况下用户并不希望看到过多的广告；其中，除了少数出现意外的点击情况(比如，用户对该广告并无兴趣，但在关闭广告时意外点进了广告)外，大多数的广告点击行为可以比较可客观的反映出用户对所观看的广告中呈现的内容是否有兴趣。

步骤S202，从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数。

每个广告可对应有多个广告维度。因此，在各个广告的历史广告行为数据中，包括各个广告维度分别对应的历史广告行为子数据；提取每个历史广告行为子数据的展现数、点击数。其中，所述展现数为向用户发布广告信息的总次数，所述点击数为用户点击向其发布的广告信息的次数。

步骤S204，对所述展现数进行特征离散化处理以得到离散展现数。

特征离散化处理是指将一个具有连续属性的值域划分为若干个离散区间，并使用不同的符号或整数值表示落在每个离散区间中的属性值；所述属性值用于表示该属性的数值，例如用于表示展现次数的展现数；所述每个离散区间中对应的符号或整数值对应多个属性值；其中，所述连续属性的值域是指该属性的取值是连续值而非离散值。所述离散展现数可以通过预设离散规则对所述展现数进行特征离散化处理得到；其中，所述展现数可以根据所述离散规则确定所述展现数对应离散区间，然后根据所述离散区间对应符号或整数值(这里通过整数值表示)确定所述展现数对应的离散展现数。

不难理解，由于广告对不同用户的广告展现次数存在差异，例如，不同的用户对携带有该广告的网页或视频的浏览或观看次数不同，这就导致广告对不同用户的展现次数会出现较大差异，使得广告的展现数的值域会比较广。如果直接将展现数作为训练模型的样本，就需要海量的样本，导致训练量增大，训练出的模型泛化能力较差。所以为了解决直接使用展现数作为训练模型的样本时导致模型训练量增大，且训练出的模型泛化能力较差的问题，本实施例需要对所述展现数进行特征离散化实现。例如，可以用1代表所有展现数在0-10的离散展现数，可以用2代表所有展现数在10-20的离散展现数，可以用3代表所有展现数在20-30的离散展现数，以此类推。

步骤S206，将所述离散展现数与所述点击数结合以作为用户个性化特征。

所述用户个性化特征是通过将所述离散展现数与所述点击数进行结合得到，所述用户个性化特征用于训练CTR模型。

不难理解，本实施例通过对从用户历史广告行为数据中得到的展现数进行特征离散化处理，并将通过特征离散化处理得到的离散展现数与从用户历史广告行为数据中得到的点击数结合以得到用户个性化特征。这种通过离散化处理得到的离散展现树和点击数作为用户个性化特征可以有效地提升CTR模型的泛化能力及对用户点击行为的特征学习效率。

实施例二

图3示意性示出了根据本申请实施例二的用户个性化特征挖掘方法的流程图。

如图3所示，该用户个性化特征挖掘方法可以包括步骤S300～S306，其中：

步骤S300，获取用户历史广告行为数据。

步骤S302，以预设时间为滑动时间窗口，统计所述滑动时间窗口内至少一个广告维度的展现数、点击数。

以预设时间为滑动时间窗口，将所述用户历史广告行为数据划分为多个用户历史广告行为分数据，其中，每个用户历史广告行为分数据对应一个滑动时间窗口。例如，某广告对用户投放历史时间为20天，以3天时间为一个滑动时间窗口，则可以将该广告所对应的所述用户历史广告行为数据分为18个滑动时间窗口。例如，某广告对用户投放历史时间对应的投放日期为2019年1月1日到2019年1月20日，那么以3天时间为一个滑动时间窗口，则第1个滑动时间窗口对应的时间段为2019年1月1日到2019年1月3日；第2个滑动时间窗口对应的时间段为2019年1月2日到2019年1月4日；第3个滑动时间窗口对应的时间段为2019年1月3日到2019年1月5日；依次类推，第18个滑动时间窗口对应的时间段为2019年1月18日到2019年1月20日；即，每天都会统计用户前三天的广告行为数据。不难理解，用户对广告的兴趣是会改变，但是目前的CTR模型在用户历史广告行为数据累积到一定程度时，对于用户近期广告行为数据的变化做出的调整会相对缓慢，使得CTR模型无法及时反映用户近期的兴趣变化。所以以预设时间为滑动时间窗口，将所述用户历史广告行为数据划分为多个用户历史广告行为分数据，可以让CTR模型较为迅速的反映对用户近期广告行为数据的变化。

所述历史广告行为分数据对应的广告可以包括一个或多个广告维度，所述历史广告行为分数据可以根据所述广告维度生成一个或多个历史广告行为子分数据；并提取每个历史广告行为子分数据的展现数、点击数，其中，每个历史广告行为子数据对应一个该广告的广告维度。

统计每个历史广告行为子分数据所对应的展现数、点击数。所述展现数为每个所述滑动时间窗口所对应的时间内向用户发布广告信息的总次数，所述点击数为每个所述滑动时间窗口所对应的时间内用户点击向其发布的广告信息的次数；其中，所述向用户发布广告信息的总次数和所述用户点击向其发布的广告信息的次数均可以基于所述历史广告行为子分数据分析得到。

在示例性的实施例中，所述至少一个广告维度包括广告层级、广告行业、广告语义特征。

所述广告维度可以包括广告层级、广告行业、广告语义特征。不同的广告维度有不同的广告投放策略，所述广告投放策略反过来可以该广告反馈的展现数、点击率，来调整所述广告投放策略。例如，某广告的第一广告维度对应的广告创意在投放后的反馈效果优于该广告的其他广告维度对应的广告创意在投放后的反馈效果，则可以加大该广告的所述第一广告维度所对应的广告创意的投放量。在本实施例中所述广告维度包括可以广告层级、广告行业、广告语义特征。通过从各个维度刻画用户对应的各个维度的特征，以此来更加全面的反映用户对广告的兴趣程度。

在示例性的实施例中，所述广告层级包括：账户ID、计划ID、单元ID及创意ID；所述广告行业包括：广告一级行业ID、广告二级行业ID；所述广告语义特征包括：广告创意标签、广告标题分词。

所述账户ID为一个根据待推广主体创建的广告推广账户；所述计划ID为一个广告的推广计划；所述单元ID为一个广告的推广单元；创意ID为一个广告的广告创意；其中，一个广告对应一个账户ID(Identity document账号)，例如，某个广告主可以根据一个或多个待推广主体创建一个广告推广账户甲；所述一个账户ID包括一个或多个计划ID，例如，所述广告推广账户甲可以创建推广计划A、推广计划B、推广计划C以及推广计划D等；所述一个计划ID可以包括一个或多个单元ID，例如，所述推广计划A可以创建推广单元1、推广单元2、推广单元3以及推广单元4等；所述一个单元ID可以包括一个或多个创意ID，例如，所述推广单元1中可以包括广告创意1、广告创意2、广告创意3以及广告创意4等。

步骤S304，通过等频离散法对所述展现数进行特征离散化处理。

等频离散法为特征离散化方法的一种，用于将具有连续属性的值域等分若干个离散区间，其中，每个离散区间的样本数相同。通过等频离散法对所述展现数进行特征离散化处理，为了使每个离散区间的样本数相同，所以需要预先获取所述广告的所述展现数对应的值域和配置一个预设阈值，其中，所述展现数对应的值域为所述广告在单位时间内可以展现的值域，例如，所述广告在3天内最多可以展现的次数为300，那么该广告的所述展现数对应的值域就为0-300，所述预设阈值为预先设定的一个数值；根据预设阈值将所述展现数对应的值域等分为多个离散区间，并为每个离散区间配置一个对应的等频离散展现数，其中，每个所述离散区间对应多个连续的所述展现数值。例如，可以将预设阈值设为30，所述可以用1代表所有展现数在0-30的离散展现数，可以用2代表所有展现数在30-60的离散展现数，可以用10代表所有展现数在270-300的离散展现数。本实施例通过等频离散法对所述展现数进行特征离散化处理，以此来避免由于长尾属性值的存在而造成部分区间样本个数极少并最终导致模型无法充分学习到部分属性值的权重。

步骤S306，将所述离散展现数与所述点击数结合，以“展现数-点击数”形式作为所述用户个性化特征。

为了更好地通过用户个性化特征刻画用户对于广告的兴趣程度，本实施例将离散化处理后的展现数与点击数结合为“展现数-点击数”的形式，以“展现数-点击数”作为用户个性化特征。所述用户个性化特征是通过将所述离散展现数与所述点击数进行结合得到，所述离散展现数与所述点击数的结合就是将所述离散展现数与所述点击数进行简单的结合。例如，所述离散展现数的数值为“3”，所述点击数的数值为“5”，那么所述离散展现数与所述点击数的结合得到的就是“3-5”，并将所述“3-5”作为用户个性化特征。不难理解，所述离散展现数或所述点击数的单独出现都无法准确地体现用户偏好，所以需要将所述离散展现数与所述点击数进行结合，以此作为用户个性化特征。以展现数为例，假设某个广告对某个用户的展现次数为20次，那么该用户点击了0次时描述的用户行为和点击了20次时描述的用户行为将会存在巨大的区别；前者说明该用户对该广告没有兴趣，而后者说明该用户对该广告存在浓厚的兴趣。即，在相同展现数下，不同的点击数可以体现用户对广告的兴趣程度，反之亦然。

实施例三

图4示意性示出了根据本申请实施例三的用户个性化特征挖掘方法的流程图。

步骤S400，获取用户历史广告行为数据。

步骤S402，从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数。

所述展现数为向用户发布广告信息的总次数，所述点击数为用户点击向其发布的广告信息的次数；其中，所述向用户发布广告信息的总次数和所述用户点击向其发布的广告信息的次数均可以基于所述历史广告行为数据分析得到

步骤S404，对所述展现数进行特征离散化处理以得到离散展现数。

特征离散化处理是指将一个具有连续属性的值域划分为若干个离散区间，并使用不同的符号或整数值表示落在每个离散区间中的属性值；所述属性值用于表示该属性的数值，例如用于表示展现次数的展现数；所述每个离散区间中对应的符号或整数值对应多个属性值；其中，所述连续属性的值域是指该属性的取值是连续值而非离散值。

步骤S406，将所述离散展现数与所述点击数结合以作为用户个性化特征。

所述用户个性化特征是通过将所述离散展现数与所述点击数进行结合得到，所述离散展现数与所述点击数的结合就是将所述离散展现数与所述点击数进行简单的结合。

步骤S408，将所述用户行为个性化特征加入CTR模型进行训练。

如图5所示，为方便理解，本实施例还提供了CTR模型进行训练的流程图。

在一些实施例中，将所述用户行为个性化特征作为训练样本输入到预先获取的CTR(Click Through Rate，点击率)模型中，通过所述用户行为个性化特征对所述CTR模型进行训练，以得到训练初始CTR模型。

进一步的，已预定时间频率多次获取用户当前广告行为数据，并根据广告用户当前广告行为数据得到用户当前行为个性化特征，将每次根据广告用户当前广告行为数据得到用户当前行为个性化特征输入到初始CTR模型进行迭代训练，以得到训练好的CTR模型。

步骤S410，通过所述训练之后的CTR模型提供广告点击率预测服务。

将通过所述用户行为个性化特征训练好的CTR模型用于广告点击率预测服务。例如，获取待预测点击率广告的目标广告历史行为数据，将所述目标广告历史行为数据输入到训练后的CTR模型中进行广告点击率预测，以得到所述待预测点击率广告对应的广告点击率的预测结果，根据所述预测结果对所述待预测点击率广告的展现策略进行修改，将修改了展现策略的待预测点击率广告对用户进行广告推送。

实施例四

图6示意性示出了根据本申请实施例四的用户个性化特征挖掘***的框图，该用户个性化特征挖掘***可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例各程序模块的功能。

如图6所示，该用户个性化特征挖掘***600可以包括获取模块610、提取模块620、离散模块630和结合模块640，其中：

获取模块610，用于获取用户历史广告行为数据。

提取模块620，用于从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数。

在示例性的实施例中，提取模块620，还用于：以预设时间为滑动时间窗口，统计所述滑动时间窗口内至少一个广告维度的展现数、点击数。

在示例性的实施例中，提取模块620，还用于：所述至少一个广告维度包括广告层级、广告行业、广告语义特征。

在示例性的实施例中，提取模块620，还用于：所述广告层级包括：账户ID、计划ID、单元ID及创意ID；所述广告行业包括：广告一级行业ID、广告二级行业ID；所述广告语义特征包括：广告创意标签、广告标题分词。

离散模块630，用于对所述展现数进行特征离散化处理以得到离散展现数。

在示例性的实施例中，离散模块630，还用于：通过等频离散法对所述展现数进行特征离散化处理。

结合模块640，用于将所述离散展现数与所述点击数结合以作为用户个性化特征。

在示例性的实施例中，所述用户个性化特征挖掘***600可以还包括：

训练模块650，用于将所述用户行为个性化特征加入CTR模型进行训练。

预测模块660，用于通过所述训练之后的CTR模型提供广告点击率预测服务。

实施例五

图7示意性示出了根据本申请实施例五的适于实现用户个性化特征挖掘方法的计算机设备的硬件架构示意图。本实施例中，计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是移动设备，平板设备，膝上型计算机、游戏设备、机顶盒、数字流设备、智能电视、电视盒、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集合群)等。如图7所示，计算机设备2至少包括但不限于：可通过***总线相互通信链接存储器710、处理器720、网络接口730。其中：

存储器710至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器710可以是计算机设备2的内部存储模块，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器710也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(SmartMedia Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器710还可以既包括计算机设备2的内部存储模块也包括其外部存储设备。本实施例中，存储器710通常用于存储安装于计算机设备2的操作***和各类应用软件，例如用户个性化特征挖掘方法的程序代码等。此外，存储器710还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器720在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器720通常用于控制计算机设备2的总体操作，例如执行与计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，处理器720用于运行存储器710中存储的程序代码或者处理数据。

网络接口730可包括无线网络接口或有线网络接口，该网络接口730通常用于在计算机设备2与其他计算机设备之间建立通信链接。例如，网络接口730用于通过网络将计算机设备2与外部终端相连，在计算机设备2与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(GlobalSystem of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图7仅示出了具有部件710-730的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器710中的用户个性化特征挖掘方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器720)所执行，以完成本发明。

实施例六

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的用户个性化特征挖掘方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例中的用户个性化特征挖掘方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集合中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集合成电路模块，或者将它们中的多个模块或步骤制作成单个集合成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用户个性化特征挖掘方法，其特征在于，所述方法包括：

获取用户历史广告行为数据；

从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数；

对所述展现数进行特征离散化处理以得到离散展现数；及

将所述离散展现数与所述点击数结合以作为用户个性化特征，所述用户个性化特征用于训练CTR模型。

2.如权利要求1所述的用户个性化特征挖掘方法，其特征在于，所述从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数包括：

以预设时间为滑动时间窗口，统计所述滑动时间窗口内至少一个广告维度的展现数、点击数。

3.如权利要求2所述的用户个性化特征挖掘方法，其特征在于，所述至少一个广告维度包括广告层级、广告行业、广告语义特征。

4.如权利要求3所述的用户个性化特征挖掘方法，其特征在于：

所述广告层级包括：账户ID、计划ID、单元ID及创意ID；

所述广告行业包括：广告一级行业ID、广告二级行业ID；

所述广告语义特征包括：广告创意标签、广告标题分词。

5.如权利要求1所述的用户个性化特征挖掘方法，其特征在于，所述对所述展现数进行特征离散化处理以得到离散展现数包括：

通过等频离散法对所述展现数进行特征离散化处理。

6.如权利要求1所述的用户个性化特征挖掘方法，其特征在于，所述将所述离散展现数与所述点击数结合以作为用户个性化特征包括：

将所述离散展现数与所述点击数结合，以“展现数-点击数”形式作为所述用户个性化特征。

7.如权利要求1所述的用户个性化特征挖掘方法，其特征在于，所述方法还包括：

将所述用户行为个性化特征加入CTR模型进行训练；

通过所述训练之后的CTR模型提供广告点击率预测服务。

8.一种用户个性化特征挖掘***，其特征在于，包括：

获取模块，用于获取用户历史广告行为数据；

提取模块，用于从所述历史广告行为数据中提取至少一个广告维度的展现数、点击数；

离散模块，用于对所述展现数进行特征离散化处理以得到离散展现数；及

结合模块，用于将所述离散展现数与所述点击数结合以作为用户个性化特征。

9.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1～7中任一项所述的用户个性化特征挖掘方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1～7中任一项所述的用户个性化特征挖掘方法的步骤。