CN108647990B

CN108647990B - 一种确定目标用户的方法、装置及电子设备

Info

Publication number: CN108647990B
Application number: CN201810297028.4A
Authority: CN
Inventors: 吴健君; 张鹏飞
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2022-06-03
Anticipated expiration: 2038-04-04
Also published as: CN108647990A

Abstract

本发明实施例提供了一种确定目标用户的方法、装置及电子设备，该方法包括：针对第一特征集合中的每个特征，计算具有该特征的种子用户样本第一占比和具有该特征的非种子用户样本第二占比；根据每个特征的第一占比和第二占比的大小关系，以及多个非种子用户样本，生成负样本集；然后将多个种子用户样本作为正样本集，通过正样本集和负样本集训练预设逻辑回归模型，再根据每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算非种子用户样本的样本值，最后，按照样本值从大到小的顺序，选择与目标用户数量的第一非种子用户样本对应的非种子用户作为目标用户。从而实现根据广告主提供的较少的种子用户，确定出合适的目标用户。

Description

一种确定目标用户的方法、装置及电子设备

技术领域

本发明涉及广告投放技术领域，特别是涉及一种确定目标用户的方法、装置及电子设备。

背景技术

目前，在网站中投放广告，作为一种商业模式，已经被各个大型互联网公司所使用，各个大型互联网公司都有其广告投放平台，广告主可以通过广告投放平台提交自己的广告需求，然后广告投放平台会根据广告主的广告需求寻找出目标用户，进而向该目标用户投放广告。

具体的，广告主在向广告平台发布广告需求时，会提供种子用户，广告平台通过该种子用户，寻找符合该广告需求的目标用户，进而向该目标用户投放与该广告需求对应的广告。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：当广告主提供的种子用户数量较少时，通过现有技术无法确定出合适的目标用户。

发明内容

本发明实施例的目的在于提供一种确定目标用户的方法、装置及电子设备，以实现根据广告主提供的较少的种子用户，确定合适的目标用户。具体技术方案如下：

在本发明实施例的一个方面，本发明实施例提供了一种确定目标用户的方法，该方法包括：

获取第一特征集合、多个种子用户样本和多个非种子用户样本；

针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比；

根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集；

获取多个种子用户样本，并将多个种子用户样本作为正样本集，获取正样本集的第一样本标签、正样本集中每个种子用户样本的第一特征向量、负样本集的第二样本标签和负样本集中每个非种子用户样本的第二特征向量，对预设逻辑回归模型进行训练，得到训练后的逻辑回归模型；

获取多个非种子用户样本中每个非种子用户样本的第三特征向量，并根据第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；

获取目标用户数量，在与多个非种子用户样本中，按照样本值从大到小的顺序，选择满足目标用户数量的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户。

可选的，在获取第一特征集合、多个种子用户样本和多个非种子用户样本之前，本发明实施例的一种确定目标用户的方法，还包括：

获取多个种子用户样本的第一特征和多个非种子用户样本的第二特征，并根据第一特征和第二特征，建立第一特征集合，其中，第一特征集合中的各个特征不重复。

可选的，在获取第一特征集合、多个种子用户样本和多个非种子用户样本之后，本发明实施例的一种确定目标用户的方法，还包括：

对第一特征集合中的每个特征进行编码，得到编码后的第一特征集合；

相应的，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，包括：

针对编码后的第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比。

可选的，根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集，包括：

针对第一特征集合中的每个特征，在该特征的第一占比小于第二占比时，将该特征添加至第二特征集合中，得到添加有多个特征的第二特征集合；

获取多个非种子用户样本的多个特征，在多个特征中，选择存在于第二特征集合中的第三特征，并在多个非种子用户样本中，选择与第三特征对应的非种子用户样本，生成负样本集。

针对第一特征集合中的每个特征，在第一占比大于第二时，将该特征添加至第三特征集合中，得到添加有多个特征的第三特征集合；

获取多个非种子用户样本的多个特征，在多个特征中，选择不存在于第三特征集合中的第四特征，并在多个非种子用户样本中，选择与第四特征对应的非种子用户样本，生成负样本集。

在本发明实施例的又一方面，本发明实施例还提供了一种确定目标用户的装置，该装置包括：

获取模块，用于获取第一特征集合、多个种子用户样本和多个非种子用户样本；

占比计算模块，用于针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比；

负样本集生成模块，用于根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集；

训练模块，用于获取多个种子用户样本，并将多个种子用户样本作为正样本集，获取正样本集的第一样本标签、正样本集中每个种子用户样本的第一特征向量、负样本集的第二样本标签和负样本集中每个非种子用户样本的第二特征向量，对预设逻辑回归模型进行训练，得到训练后的逻辑回归模型；

样本值计算模块，用于获取多个非种子用户样本中每个非种子用户样本的第三特征向量，并根据第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；

目标用户选择模块，用于获取目标用户数量，在与多个非种子用户样本中，按照样本值从大到小的顺序，选择满足目标用户数量的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户。

可选的，本发明实施例的一种确定目标用户的装置，还包括：

第一特征集合建立模块，用于获取多个种子用户样本的第一特征和多个非种子用户样本的第二特征，并根据第一特征和第二特征，建立第一特征集合，其中，第一特征集合中的各个特征不重复。

编码模块，用于对第一特征集合中的每个特征进行编码，得到编码后的第一特征集合；

相应的，占比计算模块，具体用于：

可选的，负样本集生成模块，包括：

第二特征集合生成子模块，用于针对第一特征集合中的每个特征，在该特征的第一占比小于第二占比时，将该特征添加至第二特征集合中，得到添加有多个特征的第二特征集合；

第一负样本集生成子模块，用于获取多个非种子用户样本的多个特征，在多个特征中，选择存在于第二特征集合中的第三特征，并在多个非种子用户样本中，选择与第三特征对应的非种子用户样本，生成负样本集。

可选的，负样本集生成模块，还包括：

第三特征集合生成子模块，用于针对第一特征集合中的每个特征，在第一占比大于第二时，将该特征添加至第三特征集合中，得到添加有多个特征的第三特征集合；

第二负样本集生成子模块，用于获取多个非种子用户样本的多个特征，在多个特征中，选择不存在于第三特征集合中的第四特征，并在多个非种子用户样本中，选择与第四特征对应的非种子用户样本，生成负样本集。

在本发明实施的又一方面，本发明实施例还提供了一种电子设备，该电子设备包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的一种确定目标用户的方法。

在本发明实施的又一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的一种确定目标用户的方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的一种确定目标用户的方法。

本发明实施例提供的一种确定目标用户的方法、装置及电子设备，在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，然后根据每个特征的第一占比和第二占比的大小关系，生成用于生成负样本集的第二特征集合或第三特征集合并生成负样本集；通过根据第一占比和第二占比的大小关系生成负样本集，使得可以采用该负样本集和正样本集训练预设逻辑回归模型，在得到训练后的逻辑回归模型后，可以通过多个非种子用户样本中每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；样本值越大，则说明越有可能成为目标用户，因此，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户，从而可以实现根据广告主提供的较少的种子用户，确定出合适的目标用户。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的一种确定目标用户的方法第一种实施方式的流程图；

图2为本发明实施例的一种确定目标用户的方法第二种实施方式的流程图；

图3为本发明实施例的一种确定目标用户的方法第三种实施方式的流程图；

图4为本发明实施例的一种确定目标用户的方法第四种实施方式的流程图；

图5为本发明实施例的一种确定目标用户的方法第五种实施方式的流程图；

图6为本发明实施例的一种确定目标用户的装置的结构示意图；

图7为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决现有技术存在的问题，本发明实施例提供了一种确定目标用户的方法、装置及电子设备，以实现根据广告主提供的较少的种子用户，确定合适的目标用户。进而向该目标用户投放与该广告需求对应的广告，提高广告投放效果。

下面，首先对本发明实施例的一种确定目标用户的方法进行说明，如图1所示，为本发明实施例的一种确定目标用户的方法第一种实施方式的流程图，在图1中，该方法可以包括：

S110，获取第一特征集合、多个种子用户样本和多个非种子用户样本。

其中，该第一特征集合可以是预先建立的保存有多个特征的特征集合，该特征可以包括：用户年龄、用户性别、用户所属城市、用户观影偏好等。该预先建立的特征集合可以是由对观看影片的历史用户进行特征分析得到的特征建立的特征集合。

在一些示例中，当广告主向广告投放平台发送广告需求时，可以同时向该广告投放平台发送种子用户样本，该广告投放平台在接收到广告主发送的种子用户样本后，可以触发应用本发明实施例的一种确定目标用户的方法的目标用户确定装置，该目标用户确定装置可以从上述的广告投放平台获取到多个种子用户样本。每个种子用户样本可以包括种子用户的标识信息、种子用户的特征、种子用户的特征向量等。

在一些示例中，上述的广告投放平台可以预先建立一个历史用户数据库，该历史用户数据库中可以保存有历史用户的标识信息、历史用户的特征信息等。上述的目标用户确定装置可以从该历史用户数据库中获取多个非种子用户样本。

在一些示例中，上述的广告投放平台可以在接收到广告主提供的种子用户信息后，判断种子用户信息中种子用户的数量是否小于预设种子用户阈值，在判断种子用户信息中种子用户的数量小于预设种子用户阈值时，触发上述的目标用户确定装置。

在一些示例中，当广告主向广告投放平台发送广告需求时，还可以同时向该广告投放平台发送种子用户的标识信息，上述的广告投放平台在接收到该种子用户的标识信息后，在预先建立的历史用户数据库中，查询与该标识信息对应的历史用户，并将与该标识信息对应的历史用户作为种子用户样本，将该历史用户数据库中，除与该标识信息对应的历史用户以外的历史用户作为非种子用户样本，发送至上述的目标用户确定装置，因此，上述的目标用户确定装置可以获取到多个种子用户样本和多个非种子用户样本。

在一种可能的实现方式中，上述的目标用户确定装置可以设置在上述的广告投放平台内部，也可以与上述的广告投放平台分别独立设置。

S120，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比。

具体的，上述的目标用户确定装置在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，可以针对该第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比。

例如，假设上述的目标用户确定装置获取到的第一特征集合为：{年龄：38、40、45、47、50，性别：男、女，所属城市：北京、广州、上海、天津}。获取到的多个种子用户样本为：用户样本1、用户样本2、用户样本3和用户样本4，获取到的多个非种子用户样本为：用户样本5、用户样本6、用户样本7、用户样本8、用户样本9和用户样本10。

其中，用户样本1的特征为：38、男、北京，用户样本2的特征为40、女、广州，用户样本3的特征为45、男、上海，用户样本4的特征为47、女、天津，用户样本5的特征为50、男、北京，用户样本6的特征为47、男、广州，用户样本7的特征为40、女、天津，用户样本8的特征为50、男、上海，用户样本9的特征为38、女、北京，用户样本10的特征为45、男、天津。

则上述的目标用户确定装置可以统计出具有特征“38”的种子用户样本为用户样本1，具有特征“38”的非种子用户样本为用户样本9。因此，可以计算出具有特征“38”的用户样本1在4个种子用户样本中的第一占比为25％，具有特征“38”的用户样本9在6个非种子用户样本中的第二占比为16.7％。依次类推，具有特征“男”的种子用户样本在4个种子用户样本中的第一占比为50％，具有特征“男”的非种子用户样本在6个非种子用户样本中的第二占比为66.7％。

通过本步骤，上述的目标用户确定装置可以计算出第一集合中的各个特征在多个种子用户样本中的第一占比和多个非种子用户样本中的第二占比。进而可以通过后续步骤筛选出负样本集。

S130，根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集。

在一些示例中，为了使用负样本集对预设的逻辑回归模型进行训练，在本步骤中，可以根据第一集合中每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合，再根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集。

具体的，当该特征的第一占比小于第二占比时，将该特征添加至第二特征集合，当该特征的第一占比大于第二占比时，将该特征添加至第三特征集合。

例如，假设上述的目标用户确定装置计算出的特征“38”的第一占比为25％，第二占比为16.7％，则可以生成包含有特征“38”的第三特征集合，计算出的特征“男”的第一占比为50％，第二占比为66.7％，则可以生成包含有特征“男”的第二特征集合。进而可以根据第三特征集合或第二特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集。

在一些示例中，上述的目标用户确定装置可以仅生成第二特征集合，或者仅生成第三特征集合。当仅生成第二特征集合时，上述的目标用户确定装置可以根据该第二特征集合，在在多个非种子用户样本中选择第一非种子用户样本，生成负样本集。

当仅生成第三特征集合时，上述的目标用户确定装置可以根据该第三特征集合，在在多个非种子用户样本中选择第一非种子用户样本，生成负样本集。

通过本发明实施例的一种确定目标用户的方法，生成负样本集，可以在后续步骤中，使用该负样本集对预设的逻辑回归模型进行训练，进而可以使用训练后的逻辑回归模型，寻找目标用户。

S140，获取多个种子用户样本，并将多个种子用户样本作为正样本集，获取正样本集的第一样本标签、正样本集中每个种子用户样本的第一特征向量、负样本集的第二样本标签和负样本集中每个非种子用户样本的第二特征向量，对预设逻辑回归模型进行训练，得到训练后的逻辑回归模型。

在一些示例中，上述的目标用户确定装置可以预先对正样本集设置一个第一样本标签，对负样本集设置一个第二样本标签，例如，该第一样本标签可以是1，第二样本标签可以是0，也可以是-1。

在一些示例中，上述的多个种子用户样本中可以包括每个种子用户样本的特征向量，多个非种子用户样本中可以包括每个非种子用户样本的特征向量。因此，上述的目标用户确定装置可以获取到正样本集中每个种子用户样本的第一特征向量，负样本集中每个非种子用户样本的第二特征向量。

在一些示例中，上述的预设逻辑回归模型可以是公式(1)所示的公式：

其中，g(x_i)＝w₀+w₁x_i1+…+w_jx_ij…+w_nx_in，x_ij表示第i个用户样本的第j个特征向量。i≥1，n≥j≥1，n≥1。P(y_k＝1|x_i)表示第i个用户样本的样本标签为1的概率，k＝1或0。第i个用户样本的样本标签为0的概率为公式(2)：

假设，上述的目标用户确定装置获取到的正样本集中种子用户样本和负样本集中非种子用户样本的总数为m，由于m个用户样本之间相互独立，因此，所有用户样本的联合分布为各个用户样本边缘分布的乘积，即公式(3)：

然后，上述的目标用户确定装置可以采用现有技术中计算最大似然估计的方法计算出g(x_i)中的各个参数：w₀,w₁,…,w_j,…,w_n，使得L(w)取得最大值。这里对计算最大似然估计的方法不作过多介绍。

在一些示例中，上述的目标用户确定装置可以将第一特征向量、第一样本标签、第二样本标签和第二特征向量代入上述公式(3)，计算出满足各个用户样本的参数：w₀,w₁,…,w_j,…,w_n。从而可以得到训练后的逻辑回归模型。

例如，假设，用户样本1、用户样本2、用户样本3、用户样本4为正样本集中的用户样本，用户样本5、用户样本6、用户样本8和用户样本10为负样本集中的用户样本，则上述的目标用户确定装置可以分别获取用户样本1的特征向量、用户样本2的特征向量、用户样本3的特征向量、用户样本4的特征向量，分别获取用户样本5的特征向量、用户样本6的特征向量、用户样本8的特征向量和用户样本10的特征向量。

然后通过正样本集中的用户样本1的特征向量、用户样本2的特征向量、用户样本3的特征向量、用户样本4的特征向量，负样本集中的用户样本5的特征向量、用户样本6的特征向量、用户样本8的特征向量和用户样本10的特征向量，对预设逻辑回归模型进行训练，即通过上述公式(3)计算出满足上述8个用户样本的参数：w₀,w₁,…,w_j,…,w_n，从而可以得到训练后的逻辑回归模型。

通过本发明实施例，将种子用户样本作为正样本集，将根据第二特征集合或第三特征集合，在多个非种子用户样本中选择的第一非种子用户样本作为负样本集，再采用正样本集和负样本集对预设逻辑回归模型进行训练，可以使得得到的训练后的逻辑回归模型能够区分出正样本和负样本。提高通过后续步骤选择目标用户的准确性。

S150，获取多个非种子用户样本中每个非种子用户样本的第三特征向量，并根据第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值。

在一些示例中，在训练后的第一逻辑回归模型中，P(y_k＝1|x_i)可以表示第i个用户样本的样本标签为1的概率，样本标签为1的概率越大，则可以说明越合适作为目标用户。

为了在多个非种子用户中寻找目标用户，上述的目标用户确定装置可以在得到训练后的逻辑回归模型后，可以获取该多个非种子用户样本中每个非种子用户样本的第三特征向理想，然后通过该第三特征向量和训练后的逻辑回归模型，计算该多个非种子用户样本中每个非种子用户样本的样本标签为1的概率，并将每个非种子用户样本的样本标签为1的概率作为该非种子用户样本的样本值，从而可以得到所有非种子用户样本的样本值。

例如，上述的目标用户确定装置在得到训练后的逻辑回归模型后，可以根据用户样本5的特征向量、用户样本6的特征向量、用户样本7的特征向量、用户样本8的特征向量、用户样本9的特征向量和用户样本10的特征向量，计算出用户样本5的样本标签为1的概率、用户样本6的样本标签为1的概率、用户样本7的样本标签为1的概率、用户样本8的样本标签为1的概率、用户样本9的样本标签为1的概率和用户样本10的样本标签为1的概率。然后将各自的样本标签为1的概率作为对应的样本值。因此，可以得到用户样本5的样本值、用户样本6的样本值、用户样本7的样本值、用户样本8的样本值、用户样本9的样本值和用户样本10的样本值。

S160，获取目标用户数量，在多个非种子用户样本中，按照样本值从大到小的顺序，选择满足目标用户数量的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户。

在一些示例中，广告主向广告投放平台发送的广告需求中可以包括目标用户数量，因此，上述的目标用户确定装置可以从广告投放平台中获取到目标用户数量。

具体的，上述的目标用户确定装置在获取到目标用户数量后，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，然后将与第一非种子用户样本对应的非种子用户作为目标用户。

例如，假设上述的目标用户确定装置计算出了非种子用户样本中用户样本5的样本值为0.65、用户样本6的样本值为0.3、用户样本7的样本值为0.55、用户样本8的样本值为0.4、用户样本9的样本值为0.75和用户样本10的样本值为0.2。在本步骤中，可以获取非种子用户样本的样本值，即：用户样本5的样本值、用户样本6的样本值、用户样本7的样本值、用户样本8的样本值、用户样本9的样本值和用户样本10的样本值。

再假设上述的目标用户数量为3，则上述的目标用户确定装置可以在上述的6个非种子用户样本中，按照样本值从大到小的顺序，选择样本值0.75、0.65和0.55，对应的用户样本分别为：用户样本9、用户样本5和用户样本7。

最后，可以确定出与用户样本9对应的非种子用户、与用户样本5对应的非种子用户和与用户样本7对应的非种子用户为目标用户。

在一些示例中，上述的目标用户确定装置在确定出目标用户后，可以将确定出的目标用户的标识信息发送给上述的广告投放平台，该广告投放平台可以向与该目标用户的标识信息对应的终端设备投放广告。

通过本发明实施例的一种目标用户确定方法，在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，然后根据每个特征的第一占比和第二占比的大小关系，生成用于生成负样本集的第二特征集合或第三特征集合并生成负样本集；通过根据第一占比和第二占比的大小关系生成负样本集，使得可以采用该负样本集和正样本集训练预设逻辑回归模型，在得到训练后的逻辑回归模型后，可以通过多个非种子用户样本中每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；样本值越大，则说明越有可能成为目标用户，因此，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户，从而可以实现根据广告主提供的较少的种子用户，确定出合适的目标用户。

在本发明实施例一种可选的实施例中，在图1所示的一种确定目标用户的方法的基础上，本发明实施例还提供了一种可能的实现方式，如图2所示，为本发明实施例的一种确定目标用户的方法第二种实施方式的流程图，在图2中，在S110，获取第一特征集合、多个种子用户样本和多个非种子用户样本之前，本发明实施例的一种确定目标用户的方法，还可以包括：

S170，获取多个种子用户样本的第一特征和多个非种子用户样本的第二特征，并根据第一特征和第二特征，建立第一特征集合。

其中，第一特征集合中的各个特征不重复。

在一些示例中，广告投放平台可以对观看影片的历史用户进行特征分析，或者对点击历史广告的历史用户进行特征分析，得到历史用户的特征，进而建立第一特征集合。

在一些示例中，当种子用户样本和非种子用户样本都是上述广告投放平台的历史用户数据库中的用户样本时，上述的目标用户确定装置可以首先从该历史用户数据库中获取种子用户样本的第一特征，从该历史用户数据库中获取非种子用户样本的第二特征，然后通过第一特征和第二特征建立第一特征集合。

例如，假设多个种子用户样本及对应的特征为：用户样本1、对应的特征为：38、男、北京，用户样本2、对应的特征为：40、女、广州，用户样本3、对应的特征为：45、男、上海，用户样本4、对应的特征为：47、女、天津，多个非种子用户样本及对应的特征为：用户样本5、对应的特征为：50、男、北京，用户样本6、对应的特征为：47、男、广州，用户样本7、对应的特征为：40、女、天津，用户样本8、对应的特征为：50、男、上海，用户样本9、对应的特征为：38、女、北京，用户样本10、对应的特征为：45、男、天津。

则上述的目标用户确定装置可以获取到第一特征为：38、40、45、47、男、女、北京、广州、上海、天津。第二特征为：38、40、45、47、50、男、女、北京、广州、天津、上海。

然后可以将第一特征和第二特征进行合并，对合并后的第一特征和第二特征进行去重处理，可以得到第一特征集合。

通过本发明实施例的一种确定目标用户的方法生成第一特征集合，可以降低第一特征集合中特征的数量，从而可以降低计算第一占比和第二占比的计算量，进而降低应用本发明实施例的一种确定目标用户的方法确定目标用户的时间开销。

在本发明实施例一种可选的实施例中，在图2所示的一种确定目标用户的方法的基础上，本发明实施例还提供了一种可能的实现方式，如图3所示，为本发明实施例的一种确定目标用户的方法第三种实施方式的流程图，在图3中，在S110，获取第一特征集合、多个种子用户样本和多个非种子用户样本之后，本发明实施例的一种确定目标用户的方法还包括：

S180，对第一特征集合中的每个特征进行编码，得到编码后的第一特征集合。

在一些示例中，为了降低第一特征集合中各个特征对硬件设备存储空间的占用，进一步降低应用本发明实施例的一种确定目标用户的方法确定目标用户的时间开销，上述的目标用户确定装置在获取到第一特征集合后，还可以对该第一特征集合中的每个特征进行编码，得到编码后的第一特征集合。

例如，假设，上述的目标用户确定装置获取到的第一特征集合为：{年龄{38、40、45、47、50}、性别{男、女}、所属城市{北京、广州、上海、天津}}，则可以使用***数字对该第一特征集合中的各个特征进行编码，将第一特征集合中的各个特征转换为包含***数字的第一特征集合：{1、2、3、4、5、6、7、8、9、10、11}。

在一些示例中，上述的目标用户确定装置还可以使用小写或大写英文字母对第一特征集合进行编码，得到编码后的特征集合：{a、b、c、d、e、f、g、h、i、j、k}。

相应的，上述的目标用户确定装置在对第一特征集合进行编码后，步骤S120，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，可以包括：

S121，针对编码后的第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比。

在一些示例中，上述的目标用户确定装置在对第一特征集合编码后，还可以采用与第一特征集合编码方式相同的编码方式，对多个种子用户样本的每个特征和多个非种子用户样本的每个特征进行编码。

通过对第一特征集合、多个种子用户样本的特征和多个非种子用户样本的特征进行编码，上述的目标用户确定装置在计算第一占比和第二占比时，可以使用编码后的特征计算第一占比和第二占比，从而可以降低特征对硬件设备存储空间的占用，进一步降低应用本发明实施例的一种确定目标用户的方法确定目标用户的时间开销。

在本发明实施例一种可选的实施例中，在图1所示的一种确定目标用户的方法的基础上，本发明实施例还提供了一种可能的实现方式，如图4所示，为本发明实施例的一种确定目标用户的方法第四种实施方式的流程图，在图4中，S130，根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集，可以包括：

S131，针对第一特征集合中的每个特征，在该特征的第一占比小于第二占比时，将该特征添加至第二特征集合中，得到添加有多个特征的第二特征集合。

在一些示例中，上述的目标用户确定装置，在根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合时，本发明实施例提供了两种可能的实现方式，在一种可能的实现方式中，当第一特征集合中的任一特征的第一占比小于第二占比时，可以将该任一特征添加至第二特征集合中，从而可以得到添加有多个特征的第二特征集合。

例如，假设上述的目标用户确定装置，计算出的特征“男”的第一占比为50％，第二占比为66.7％，则可以将该特征“男”添加至第二特征集合，计算出的特征“38”的第一占比为40％，第二占比为45％，则可以该特征“38”添加至第二特征集合，计算出的特征“北京”的第一占比为66％，第二占比为73％，则可以将该特征“北京”添加至第二特征集合等，从而可以得到添加有特征“38”、“男”以及“北京”的第二特征集合。

S132，获取多个非种子用户样本的多个特征，在多个特征中，选择存在于第二特征集合中的第三特征，并在多个非种子用户样本中，选择与第三特征对应的非种子用户样本，生成负样本集。

在得到添加有多个特征的第二特征集合后，为了对预设逻辑回归模型进行训练，上述的目标用户确定装置可以使用该第二特征集合对多个非种子用户样本中进行筛选，得到筛选结果，然后根据筛选结果生成负样本集。

具体的，上述的目标用户确定装置可以获取每个非种子用户样本的特征，然后判断该特征是否存在于第二特征集合，如果是，则获取与该特征对应的非种子用户样本。从而可以得到特征存在于第二特征集合中的多个非种子用户样本，然后使用该特征存在于第二特征集合中的多个非种子用户样本生成负样本集。

例如，假设第二特征集合为：“38”、“男”以及“北京”，用户样本5的特征、用户样本7的特征、用户样本8的特征以及用户样本10的存在于该第二特征集合，则上述的目标用户确定装置，可以获取该用户样本5、用户样本7、用户样本8以及用户样本10，并生成包括：用户样本5、用户样本7、用户样本8以及用户样本10的负样本集。

通过对一个特征的第一占比和第二占比进行比较，在第一占比小于第二占比时，可以说明该特征更倾向于负样本，因此，可以将该特征对应的非种子用户样本作为负样本集中的用户样本，进而可以使用生成的负样本集对预设逻辑回归模型进行训练，寻找目标用户。

在一些示例中，上述的目标用户确定装置在通过上述步骤S131得到第二特征集合时，该第二特征集合中可能存在属于种子用户样本的特征，若使用该第二特征集合生成负样本集，在根据该负样本集训练预设逻辑回归模型，会使得训练后的逻辑回归模型的精确度降低，进而降低寻找目标用户的精确度。

为了提高使用训练后的逻辑回归模型寻找目标用户的精确度，在图1所示的一种确定目标用户的方法的基础上，本发明实施例还提供了另一种可能的实现方式，以实现生成的负样本集中仅包括非种子用户样本的特征。

如图5所示，为本发明实施例的一种确定目标用户的方法第五种实施方式的流程图，在图5中，S130，根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集，可以包括：

S133，针对第一特征集合中的每个特征，在第一占比大于第二时，将该特征添加至第三特征集合中，得到添加有多个特征的第三特征集合。

在本发明实施例的另一种可能的实现方式中，当第一特征集合中的任一特征的第一占比大于第二占比时，说明该任一特征更倾向于正样本，可以将该任一特征添加至第三特征集合中，从而可以得到添加有多个特征的第三特征集合。

例如，假设上述的目标用户确定装置，计算出的特征“女”的第一占比为61％，第二占比为60％，则可以将该特征“女”添加至第三特征集合，计算出的特征“45”的第一占比为75％，第二占比为47％，则可以该特征“45”添加至第三特征集合，计算出的特征“广州”的第一占比为68％，第二占比为59％，则可以将该特征“广州”添加至第三特征集合等，从而可以得到添加有特征“45”、“女”以及“广州”的第三特征集合。

S134，获取多个非种子用户样本的多个特征，在多个特征中，选择不存在于第三特征集合中的第四特征，并在多个非种子用户样本中，选择与第四特征对应的非种子用户样本，生成负样本集。

在得到添加有多个特征的第三特征集合后，为了避免第二特征集合中可能存在属于种子用户样本的特征的情况，上述的目标用户确定装置可以使用第三特征集合对多个非种子用户样本进行筛选，得到筛选结果，然后根据筛选结果生成负样本集。

具体的，上述的目标用户确定装置可以获取每个非种子用户样本的特征，然后判断该特征是否存在于第三特征集合中，如果否，则获取与该特征对应的非种子用户样本，从而可以得到特征不存在于第三特征集合中的多个非种子用户样本，然后使用该特征不存在于第三特征集合中的多个非种子用户样本生成负样本集。

例如，假设第三特征集合为：“45”、“女”、“广州”，用户样本5的特征和用户样本8的特征不存在于第三特征集合，则上述的目标用户确定装置可以获取该用户样本5和用户样本8，并生成包括用户样本5和用户样本8的负样本集。

通过对一个特征的第一占比和第二占比进行比较，在第一占比大于第二占比时，可以说明该特征更倾向于正样本，因此，可以将该特征作为第三特征集合对多个非种子用户样本进行筛选，使得筛选后的多个非种子用户样本的特征不存在于第三特征集合中。在使用根据筛选后的结果生成的负样本集对预设逻辑回归模型进行训练后，可以提高训练后的逻辑回归模型的精确度，进而可以提高应用本发明实施例的一种确定目标用户的方法寻找目标用户的精确度。

相应于上述的方法实施例，本发明实施例还提供了一种确定目标用户的装置，如图6所示，为本发明实施例的一种确定目标用户的装置的结构示意图，在图6中，本发明实施例的一种确定目标用户的装置可以包括：

获取模块610，用于获取第一特征集合、多个种子用户样本和多个非种子用户样本；

占比计算模块620，用于针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比；

负样本集生成模块630，用于根据每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据第二特征集合或第三特征集合，在多个非种子用户样本中选择第一非种子用户样本，生成负样本集；

训练模块640，用于获取多个种子用户样本，并将多个种子用户样本作为正样本集，获取正样本集的第一样本标签、正样本集中每个种子用户样本的第一特征向量、负样本集的第二样本标签和负样本集中每个非种子用户样本的第二特征向量，对预设逻辑回归模型进行训练，得到训练后的逻辑回归模型；

样本值计算模块650，用于获取多个非种子用户样本中每个非种子用户样本的第三特征向量，并根据第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；

目标用户选择模块660，用于获取目标用户数量，在与多个非种子用户样本中，按照样本值从大到小的顺序，选择满足目标用户数量的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户。

通过本发明实施例一种确定目标用户的装置，在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，然后根据每个特征的第一占比和第二占比的大小关系，生成用于生成负样本集的第二特征集合或第三特征集合并生成负样本集；通过根据第一占比和第二占比的大小关系生成负样本集，使得可以采用该负样本集和正样本集训练预设逻辑回归模型，在得到训练后的逻辑回归模型后，可以通过多个非种子用户样本中每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；样本值越大，则说明越有可能成为目标用户，因此，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户，从而可以实现根据广告主提供的较少的种子用户，确定出合适的目标用户。

具体的，本发明实施例的一种确定目标用户的装置，还可以包括：

相应的，占比计算模块，具体用于：

具体的，负样本集生成模块630，包括：

具体的，负样本集生成模块630，还可以包括：

本发明实施例还提供了一种电子设备，如图7所示，为本发明实施例的一种电子设备的结构示意图，包括处理器710、通信接口720、存储器730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信，

存储器730，用于存放计算机程序；

处理器710，用于执行存储器730上所存放的程序时，实现如下步骤：

通过本发明实施例的一种电子设备，在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，然后根据每个特征的第一占比和第二占比的大小关系，生成用于生成负样本集的第二特征集合或第三特征集合并生成负样本集；通过根据第一占比和第二占比的大小关系生成负样本集，使得可以采用该负样本集和正样本集训练预设逻辑回归模型，在得到训练后的逻辑回归模型后，可以通过多个非种子用户样本中每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；样本值越大，则说明越有可能成为目标用户，因此，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户，从而可以实现根据广告主提供的较少的种子用户，确定出合适的目标用户。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种确定目标用户的方法。

通过本发明实施例的一种计算机可读存储介质，在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，然后根据每个特征的第一占比和第二占比的大小关系，生成用于生成负样本集的第二特征集合或第三特征集合并生成负样本集；通过根据第一占比和第二占比的大小关系生成负样本集，使得可以采用该负样本集和正样本集训练预设逻辑回归模型，在得到训练后的逻辑回归模型后，可以通过多个非种子用户样本中每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；样本值越大，则说明越有可能成为目标用户，因此，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户，从而可以实现根据广告主提供的较少的种子用户，确定出合适的目标用户。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种确定目标用户的方法。

通过本发明实施例的一种包含指令的计算机程序产品，在获取到第一特征集合、多个种子用户样本和多个非种子用户样本后，针对第一特征集合中的每个特征，计算具有该特征的种子用户样本在多个种子用户样本中的第一占比和具有该特征的非种子用户样本在多个非种子用户样本中的第二占比，然后根据每个特征的第一占比和第二占比的大小关系，生成用于生成负样本集的第二特征集合或第三特征集合并生成负样本集；通过根据第一占比和第二占比的大小关系生成负样本集，使得可以采用该负样本集和正样本集训练预设逻辑回归模型，在得到训练后的逻辑回归模型后，可以通过多个非种子用户样本中每个非种子用户样本的第三特征向量和训练后的逻辑回归模型，计算多个非种子用户样本中每个非种子用户样本的样本值；样本值越大，则说明越有可能成为目标用户，因此，可以在多个非种子用户样本中，按照样本值从大到小的顺序，选择与目标用户数量对应的第一非种子用户样本，并将与第一非种子用户样本对应的非种子用户作为目标用户，从而可以实现根据广告主提供的较少的种子用户，确定出合适的目标用户。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种确定目标用户的方法，其特征在于，所述方法包括：

针对所述第一特征集合中的每个特征，计算具有该特征的种子用户样本在所述多个种子用户样本中的第一占比和具有该特征的非种子用户样本在所述多个非种子用户样本中的第二占比；

根据所述每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据所述第二特征集合或所述第三特征集合，在所述多个非种子用户样本中选择第一非种子用户样本，生成负样本集；

获取所述多个种子用户样本，并将所述多个种子用户样本作为正样本集，获取所述正样本集的第一样本标签、所述正样本集中每个种子用户样本的第一特征向量、所述负样本集的第二样本标签和所述负样本集中每个非种子用户样本的第二特征向量，对预设逻辑回归模型进行训练，得到训练后的逻辑回归模型；

获取所述多个非种子用户样本中每个非种子用户样本的第三特征向量，并根据所述第三特征向量和所述训练后的逻辑回归模型，计算所述多个非种子用户样本中每个非种子用户样本的样本值；

获取目标用户数量，在与所述多个非种子用户样本中，按照所述样本值从大到小的顺序，选择满足所述目标用户数量的第一非种子用户样本，并将与所述第一非种子用户样本对应的非种子用户作为目标用户；

所述根据所述每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据所述第二特征集合或所述第三特征集合，在所述多个非种子用户样本中选择第一非种子用户样本，生成负样本集，包括：

针对所述第一特征集合中的每个特征，在该特征的所述第一占比小于所述第二占比时，将该特征添加至第二特征集合中，得到添加有多个特征的第二特征集合；获取所述多个非种子用户样本的多个特征，在所述多个特征中，选择存在于所述第二特征集合中的第三特征，并在所述多个非种子用户样本中，选择与所述第三特征对应的非种子用户样本，生成负样本集；

或

针对所述第一特征集合中的每个特征，在所述第一占比大于所述第二占比时，将该特征添加至第三特征集合中，得到添加有多个特征的第三特征集合；获取所述多个非种子用户样本的多个特征，在所述多个特征中，选择不存在于所述第三特征集合中的第四特征，并在所述多个非种子用户样本中，选择与所述第四特征对应的非种子用户样本，生成负样本集。

2.根据权利要求1所述的方法，其特征在于，在所述获取第一特征集合、多个种子用户样本和多个非种子用户样本之前，所述方法还包括：

获取所述多个种子用户样本的第一特征和所述多个非种子用户样本的第二特征，并根据所述第一特征和所述第二特征，建立所述第一特征集合，其中，所述第一特征集合中的各个特征不重复。

3.根据权利要求1所述的方法，其特征在于，在所述获取第一特征集合、多个种子用户样本和多个非种子用户样本之后，所述方法还包括：

对所述第一特征集合中的每个特征进行编码，得到编码后的第一特征集合；

相应的，所述针对所述第一特征集合中的每个特征，计算具有该特征的种子用户样本在所述多个种子用户样本中的第一占比和具有该特征的非种子用户样本在所述多个非种子用户样本中的第二占比，包括：

针对所述编码后的第一特征集合中的每个特征，计算具有该特征的种子用户样本在所述多个种子用户样本中的第一占比和具有该特征的非种子用户样本在所述多个非种子用户样本中的第二占比。

4.一种确定目标用户的装置，其特征在于，所述装置包括：

占比计算模块，用于针对所述第一特征集合中的每个特征，计算具有该特征的种子用户样本在所述多个种子用户样本中的第一占比和具有该特征的非种子用户样本在所述多个非种子用户样本中的第二占比；

负样本集生成模块，用于根据所述每个特征的第一占比和第二占比的大小关系，生成第二特征集合或第三特征集合；并根据所述第二特征集合或所述第三特征集合，在所述多个非种子用户样本中选择第一非种子用户样本，生成负样本集；

训练模块，用于获取所述多个种子用户样本，并将所述多个种子用户样本作为正样本集，获取所述正样本集的第一样本标签、所述正样本集中每个种子用户样本的第一特征向量、所述负样本集的第二样本标签和所述负样本集中每个非种子用户样本的第二特征向量，对预设逻辑回归模型进行训练，得到训练后的逻辑回归模型；

样本值计算模块，用于获取所述多个非种子用户样本中每个非种子用户样本的第三特征向量，并根据所述第三特征向量和所述训练后的逻辑回归模型，计算所述多个非种子用户样本中每个非种子用户样本的样本值；

目标用户选择模块，用于获取目标用户数量，在与所述多个非种子用户样本中，按照所述样本值从大到小的顺序，选择满足所述目标用户数量的第一非种子用户样本，并将与所述第一非种子用户样本对应的非种子用户作为目标用户；

所述负样本集生成模块，包括：

第二特征集合生成子模块，用于针对所述第一特征集合中的每个特征，在该特征的所述第一占比小于所述第二占比时，将该特征添加至第二特征集合中，得到添加有多个特征的第二特征集合；第一负样本集生成子模块，用于获取所述多个非种子用户样本的多个特征，在所述多个特征中，选择存在于所述第二特征集合中的第三特征，并在所述多个非种子用户样本中，选择与所述第三特征对应的非种子用户样本，生成负样本集；

或

所述负样本集生成模块，包括：

第三特征集合生成子模块，用于针对所述第一特征集合中的每个特征，在所述第一占比大于所述第二占比时，将该特征添加至第三特征集合中，得到添加有多个特征的第三特征集合；第二负样本集生成子模块，用于获取所述多个非种子用户样本的多个特征，在所述多个特征中，选择不存在于所述第三特征集合中的第四特征，并在所述多个非种子用户样本中，选择与所述第四特征对应的非种子用户样本，生成负样本集。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

第一特征集合建立模块，用于获取所述多个种子用户样本的第一特征和所述多个非种子用户样本的第二特征，并根据所述第一特征和所述第二特征，建立所述第一特征集合，其中，所述第一特征集合中的各个特征不重复。

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：

编码模块，用于对所述第一特征集合中的每个特征进行编码，得到编码后的第一特征集合；

相应的，所述占比计算模块，具体用于：

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-3任一所述的方法步骤。