CN112085040A

CN112085040A - 对象标签确定方法、装置和计算机设备

Info

Publication number: CN112085040A
Application number: CN201910505450.9A
Authority: CN
Inventors: 郑景耀; 张雨豪; 陈新杰; 刘洪�
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2020-12-15

Abstract

本申请涉及一种对象标签确定方法、装置和计算机设备，所述方法包括：获取待确定标签的目标对象；获取与所述目标对象相似的多个参考对象，获取各个所述参考对象分别对应的标签，作为参考标签；获取各个所述参考标签分别对应的标签影响度，所述标签影响度是根据所述参考标签对应的可能度计算得到的，通过将各个所述参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的所述参考标签为所述参考对象的标签的可能度；根据各个所述参考标签的标签影响度确定所述目标对象对应的目标标签。上述方法可以能够提高确定对象标签的效率以及准确度。

Description

对象标签确定方法、装置和计算机设备

技术领域

本申请涉及数据处理领域，特别是涉及对象标签确定方法、装置和计算机设备。

背景技术

随着数据处理技术的发展，在很多情况下都需要确定对象的标签，例如，在进行有监督的模型训练时，需要准备训练样本集进行模型训练，而训练样本集中的训练样本需要标注出正确的标签，这样才能训练得到准确的机器学习模型。目前，存在大量的无标签的对象或者标签错误的对象，需要人工逐一的进行标注，工作量非常大，且受人的主观性的影响大，导致确定对象标签的效率以及准确率低。

发明内容

基于此，有必要针对上述确定对象标签的效率以及准确率低的问题，提供一种对象标签确定方法、装置和计算机设备。

一种对象标签确定方法，所述方法包括：获取待确定标签的目标对象；获取与所述目标对象相似的多个参考对象，获取各个所述参考对象分别对应的标签，作为参考标签；获取各个所述参考标签分别对应的标签影响度，所述标签影响度是根据所述参考标签对应的可能度计算得到的，通过将各个所述参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的所述参考标签为所述参考对象的标签的可能度；根据各个所述参考标签的标签影响度确定所述目标对象对应的目标标签。

一种对象标签确定装置，所述装置包括：目标对象获取模块，用于获取待确定标签的目标对象；参考信息获取模块，用于获取与所述目标对象相似的多个参考对象，获取各个所述参考对象分别对应的标签，作为参考标签；标签影响度获取模块，用于获取各个所述参考标签分别对应的标签影响度，所述标签影响度是根据所述参考标签对应的可能度计算得到的，通过将各个所述参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的所述参考标签为所述参考对象的标签的可能度；目标标签确定模块，用于根据各个所述参考标签的标签影响度确定所述目标对象对应的目标标签。

在其中一些实施例中，计算所述参考标签对应的标签影响度的确定模块包括：相似度以及可能度获取单元，用于获取所述参考对象与所述目标对象的相似度，获取所述参考标签对应的可能度；标签影响度确定单元，用于根据所述相似度以及所述参考标签对应的可能度确定所述参考标签对应的标签影响度。

在其中一些实施例中，所述标签确定模型包括多个，所述标签影响度确定单元用于：综合各个所述标签确定模型输出的可能度统计得到所述参考标签对应的综合可能度；根据所述相似度以及所述参考标签对应的综合可能度确定所述参考标签对应的标签影响度。

在其中一些实施例中，所述目标标签确定模块包括：标签影响度统计单元，用于对相同的参考标签对应的标签影响度进行统计，得到各个标签类别分别对应的标签影响度统计值；目标标签确定单元，用于根据各个所述标签类别的标签影响度统计值，确定所述目标对象对应的目标标签。

在其中一些实施例中，所述目标标签确定单元用于：从各个所述标签类别对应的标签影响度统计值中筛选出最大的标签影响度统计值；当所述最大的标签影响度统计值大于预设阈值时，确定所述最大的标签影响度统计值对应的标签为所述目标对象对应的标签。

在其中一些实施例中，所述装置还包括：样本集合获取模块，用于获取样本集合，所述样本集合包括多个样本；训练模块，用于利用所述样本集合中的样本训练得到所述标签确定模型；所述目标对象获取模块用于：从所述样本集合中获取所述样本对应的对象，作为所述目标对象；所述装置还包括：更新模块，用于将所述样本的标签更新为所述目标对象对应的目标标签。

在其中一些实施例中，所述参考信息获取模块用于：将所述样本集合中的样本对应的特征输入到对象向量得到模型中，得到各个所述样本分别对应的向量，各个所述样本对应的向量组成向量集合；从所述向量集合中，获取与所述目标对象对应的向量相似的多个参考向量，将各个所述参考向量对应的对象作为所述参考对象。

在其中一些实施例中，所述目标对象为资源接收方，所述目标标签为资源接收方类型，所述装置还包括：资源转移数据集合获取模块，用于获取目标用户对应的资源转移数据集合，所述资源转移数据集合中的资源转移数据包括资源转移数值以及资源接收方；资源接收方类型得到模块，用于获取所述资源转移数据集合中的各个所述资源接收方对应的资源接收方类型；资源转移数值统计模块，用于统计各个所述资源接收方类型对应的资源转移数值，得到各个所述资源接收方类型分别对应的资源转移统计值；发送模块，用于向所述目标用户对应的终端发送所述资源接收方类型分别对应的资源转移统计值。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述对象标签确定方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述对象标签确定方法的步骤。

上述对象标签确定方法、装置、计算机设备和存储介质，通过获取与目标对象相似的多个参考对象，根据多个参考对象的参考标签的影响度确定目标对象的标签，参考对象的参考标签的影响度表示参考对象的参考标签对目标对象的标签的影响力的大小，而参考标签的影响度，是根据标签确定模型输出的参考标签的可能度得到的，标签确定模型输出的可能度能够反映参考对象的标签的准确度以及影响力，因此能够提高确定对象标签的效率以及准确度。

附图说明

图1为一些实施例中提供的对象标签确定方法的应用环境图；

图2为一些实施例中对象标签确定方法的流程图；

图3为一些实施例中计算参考标签对应的标签影响度的流程图；

图4为一些实施例中对象标签确定方法的流程图；

图5为一些实施例中获取与目标对象相似的多个参考对象的流程图；

图6为一些实施例中对象标签确定方法的流程图；

图7为一些实施例中展示资源接收方类型对应的资源转移统计值的示意图；

图8为一些实施例中利用对象标签确定装置对样本集进行修正的示意图；

图9为一些实施例中对象标签确定装置的结构框图；

图10为一些实施例中计算机设备的内部结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一标签称为第二标签，且类似地，可将第二标签称为第一标签。

图1为一些实施例中提供的对象标签确定方法的应用环境图，如图1所示，在该应用环境中，包括终端110以及服务器120。终端110可以向服务器120发送获取账单统计信息的请求，例如请求获取当月的消费账单，服务器120中可以存储各个资源接收方例如商店对应的标签，资源接收方例如商店对应的标签可以是服务器120根据本申请实施例提供的对象标签方法得到的，也可以是利用本申请实施例提供的对象标签方法对样本集的标签进行修正，根据修正后的样本集重新训练得到更准确的标签确定模型，再利用新的标签确定模型预测得到商店的标签。标签可以是指资源接收方对应的类型，例如商店的类型是餐饮店还是服饰店。服务器120根据资源接收方对应的类型统计出该用户在在各个方面的消费，例如食品上的消费、衣服上的消费以及交通上的消费，得到用户的消费账单。

本申请实施例提供的对象标签确定方法可以应用于对训练样本的标签进行确定，训练样本用于对模型进行训练，在很多情况下训练样本的标签是错误的，因此可以利用本申请实施例提供的方法确定样本的标签，再根据训练样本训练得到对应的模型。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110以及服务器120可以通过网络等通讯连接方式进行连接，本申请在此不做限制。

如图2所示，在一些实施例中，提出了一种对象标签确定方法，本实施例主要以该方法应用于上述图1中服务器120来举例说明。具体可以包括以下步骤：

步骤S202，获取待确定标签的目标对象。

具体地，对象是要确定标签的任何事物，可以是有形的也可以是无形的。例如可以是一部电影、一个人或者天气。标签是指对象所属的类别。例如，假设要预测今天的天气是什么，则可以将天气作为对象，天气对应的标签可以是下雨、出太阳或者阴天。假设要预测电影所属的类别，则可以将电影作为对象，电影对应的标签可以是悲剧、喜剧或者恐怖片。假设要预测商户的类型是什么则可以将商户作为对象，商户的标签可以是餐饮类或者服饰类。

在一些实施例中，需要确定标签的目标对象可以为一个或多个，“多个”是指至少两个。例如，在采用有监督的方法进行模型训练前，需要获取样本集合，可以将样本集合中的各个样本的对象作为目标对象。举个实际的例子，假设需要训练情感预测模型，以对文本进行分类，将文本分为悲观或者乐观的类别，则可以获取多个训练样本，一篇文章可以对应一个训练样本，训练样本包括文本的特征以及文本对应的类别即标签，但文本的标签可能是错误的，因此可以获取文本作为待确定标签的对象。

步骤S204，获取与目标对象相似的多个参考对象，获取各个参考对象分别对应的标签，作为参考标签。

具体地，参考对象是与目标对象相似的对象，参考对象的个数可以有多个，具体可以根据需要设置，例如可以有5个。参考标签是参考对象的标签，参考对象的标签是已经存在的。参考标签可以是参考对象原有的原始标签，如训练集中样本原有的标签。参考对象的标签可以是经过确认的正确的标签。例如，标签是用户的年龄段，则参考对象是已经确认了正确的年龄的对象。对象相似可以是指相似度大于预设相似度，也可以是指相似度排名在预设排名之前。相似度表示相似的程度，相似度越大，则越相似。

相似度的计算方法可以根据需要设置，可以用向量化算法得到对象对应的向量，在获取目标对象时，获取的可以是目标对象的向量，获取参考对象时，获取的可以是参考对象的向量，计算向量之间的相似度，作为对象之间的相似度。也可以使用近邻算法获取相似的对象，作为参考对象。近邻算法例如可以是K最近邻(KNN，K-Nearest Neighbor)算法，可以获取k个近邻对象。近邻算法可以根据向量的相似性，寻找相似的向量。为了提高获取近邻向量的速度，可以预先建立向量对应的索引，例如建立树型索引结构对向量进行分区以实现高效索引。如建立KD-树(k-dimensional Tree)。举个实际的例子，可以获取多个对象例如数千个对象分别对应的向量，根据向量建立KD-树(k-dimensional Tree)，当需要获取目标对象的近邻对象作为参考对象时，可以获取目标对象对应的向量，从KD-树(k-dimensional Tree)中获取目标对象对应的向量的近邻向量。

步骤S206，获取各个参考标签分别对应的标签影响度，标签影响度是根据参考标签对应的可能度计算得到的，通过将各个参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的参考标签为参考对象的标签的可能度。

具体地，标签确定模型是用于确定标签的机器学习模型，可以根据对象的特征确定对象的标签。例如可以是图片分类模型，可以是天气预测模型，具体采用的模型结构根据实际应用确定，例如可以是CNN(Convolutional Neural Networks，卷积神经网络)的模型，也可以是RNN(Recurrent Neural Network，循环神经网络)的模型。标签确定模型可以是预先训练得到的，可以采用有监督的算法，采用训练样本训练得到标签确定模型。对象特征是用于表示对象的特点的数据，例如，当需要预测天气时，天气的特征可以包括温度、湿度或者风向中一个或多个。当需要预测餐馆的类型，例如是属于快餐类还是非快餐类时，可以获取餐馆的特征可以包括食品的价格、交易主要集中的时间段以及人均消费等特征。当要对图片进行分类时，图片的特征可以是图像的颜色特征以及纹理特征等。

可能度用于表示可能的程度，可能度越大，则表示越有可能，可能度可以用概率值表示。可能度表示参考标签为参考对象的标签的可能性大小。例如，假设参考对象有3个，第一个对象的标签为a，第二个对象的标签为b，第三个对象的标签为c，则可以将第一个参考对象的特征输入到标签确定模型中，得到标签a的概率，将第二个参考对象的特征输入到标签确定模型中，得到标签b的概率，将第三个参考对象的特征输入到标签确定模型中，得到标签c的概率。

参考标签对应的标签影响度表示参考对象的参考标签对目标对象的标签的影响力的大小，影响度越大，则影响越大。可能度与标签影响度是正向相关的，可能度变大，标签影响度也变大。可以直接将可能度作为标签影响度。

在一些实施例中，标签确定模型可以有多个，可以将每个对象的特征分别输入到标签确定模型中，得到参考标签分别对应的可能度。例如，假设标签确定模型有三个，对于第一个对象，其参考标签为a，则可以将第一个对象的特征分别输入到标签确定模型中，得到第一个模型输出的参考标签a的可能度p1，第二个模型输出的参考标签a的可能度p2，第三个模型输出的参考标签a的可能度p3。

当标签确定模型有多个时，可以结合多个标签确定模型输出的参考标签的可能度得到参考标签对应的标签影响度。例如，对于第一个对象的标签a的标签影响度，可以是根据可能度p1、可能度p2以及可能度p3计算得到的。可以是将可能度p1、可能度p2以及可能度p3的均值作为标签影响度。

在一些实施例中，可以结合目标对象与参考对象的相似度以及可能度得到参考标签对应的标签影响度。例如，标签影响度可以是相似度与可能度的乘积。

其中，将特征输入标签确定模型中，得到可能度的步骤可以是在步骤S206之前预先完成的。例如，目标对象的参考对象是从对象集合中获取的，可以预先将对象集合中的各个对象的特征输入到标签确定模型中，得到对象集合中各个对象的标签的可能度，因此当从对象集合中得到参考对象时，可以直接获取参考对象的参考标签的可能度。

步骤S208，根据各个参考标签的标签影响度确定目标对象对应的目标标签。

具体地，得到参考标签的标签影响度后，可以从中选出标签影响度最大的标签作为目标对象的标签。也可以是选出标签影响度大于预设标签影响度的标签作为目标对象的标签。如果每个参考标签的标签影响度均小于预设标签影响度，则可以通过其他方法确定标签，或者将样本丢弃，不再确定该样本的标签。。

上述对象标签确定方法，通过获取与目标对象相似的多个参考对象，根据多个参考对象的参考标签的影响度确定目标对象的标签，参考对象的参考标签的影响度表示参考对象的参考标签对目标对象的标签的影响力的大小，而参考标签的影响度，是根据标签确定模型输出的参考标签的可能度得到的，标签确定模型输出的可能度能够反映参考对象的标签的准确度以及影响力，因此能够提高确定对象标签的效率以及准确度。

在一些实施例中，根据各个参考标签的标签影响度确定目标对象对应的目标标签包括：对相同的参考标签对应的标签影响度进行统计，得到各个标签类别分别对应的标签影响度统计值；根据各个标签类别的标签影响度统计值，确定目标对象对应的目标标签。

具体地，标签影响度统计值可以是标签影响度的平均值。多个参考对象中，可能存在参考标签相同的参考对象，因此可以对相同的参考标签对应的标签影响度进行统计，得到各个标签类别分别对应的标签影响度统计值，如果没有相同的，则可以将该参考对象的标签的标签影响度作为统计值。得到标签影响度统计值后，根据各个标签类别的标签影响度统计值，确定目标对象对应的目标标签。举个实际的例子，假设有四个参考对象，其中第一个参考对象以及第二个参考对象的参考标签相同，均为L1，第三个参考对象以及第四个参考对象的参考标签相同，均为L2。假设第一个参考对象的参考标签的标签影响度为0.5，第二个参考对象的参考标签的标签影响度为0.9，则L1这一个标签类别的标签影响度统计值为(0.5+0.9)/2＝0.7。假设第三个参考对象的参考标签的标签影响度为0.8，第四个参考对象的参考标签的标签影响度为0.7，则L2这一个标签类别的标签影响度统计值为(0.7+0.8)/2＝0.75。

在一些实施例中，可以从各个标签类别对应的标签影响度统计值中筛选出最大的标签影响度统计值；当最大的标签影响度统计值大于预设阈值时，确定最大的标签影响度统计值对应的标签为目标对象对应的标签。

具体地，预设阈值可以根据需要设置，例如0.6。当最大的标签影响度统计值大于预设阈值时，再确定最大的标签影响度统计值对应的标签为目标对象对应的标签，可以避免当标签影响度统计值较小时，即置信度不强时，也将该标签作为目标对象的标签的情况，提高得到的目标对象的目标标签的准确度。

举个实际的例子，假设目标对象为h1，参考对象有三个：h2、h3以及h4。h2以及h3对应的标签为a，h4对应的标签为b。假设计算得到h2中，a标签对应的标签影响度为0.6，计算得到h3中，a标签对应的标签影响度为0.8，计算得到h4中，b标签对应的标签影响度为0.5。则由于h2以及h3标签相同，则可以对h2以及h3中a标签的标签影响度进行求平均值计算，得到a标签这一个类别的标签影响度统计值为(0.6+0.8)/2＝0.7。而b标签只有一个标签影响度，为0.5，故b标签的标签影响度统计值为0.5，则最大的标签影响度统计值为0.7，假设预设阈值为0.6，则0.7大于0.6，将a标签作为目标对象对应的目标标签。

在一些实施例中，如图3所示，计算参考标签对应的标签影响度的步骤包括以下步骤：

步骤S302，获取参考对象与目标对象的相似度，获取参考标签对应的可能度。

具体地，参考对象与目标对象的相似度可以是在需要获取得到参考标签对应的标签影响度时计算的，也可以是在获取与目标对象相似的多个参考对象的步骤中已经计算得到的。计算相似度的算法例如可以是曼哈顿距离算法、欧式距离或者余弦相似度算法等，具体可以根据需要设置，得到相似度后，可以对相似度进行归一化处理，归一到0到1之间，归一化方法可以采用离差标准化方法(Min-Max Normalization)。可以获取参考对象以及目标对象对应的向量，计算向量之间的相似度，得到参考对象与目标对象的相似度。可能度可以是预先将参考对象的特征输入到标签确定模型中，由标签确定模型输出的参考标签为参考对象的标签的可能度。

在获取对象对应的向量时，可以采用向量化(embedding)算法，将对象向量化为一个V维的定长向量，来表征这个对象，其中维度V的取值依向量化算法而定。向量化算法可根据需要设置，例如对于文本可通过word2vec、fasttext或者bert(Bidirectional EncoderRepresentations from Transformers，来自变换器的双向编码器表征)得到对应的向量。对于图形、视频或者语音等对象的向量可通过node2vec以及其他深度神经网络模型得到。fasttext是facebook开源的一个词向量与文本分类工具。可以获取对象的特征，将特征输入到向量化模型中，得到对象对应的向量化表示。node2vec是一种对网络中的节点学习连续特征表达的框架。

步骤S304，根据相似度以及参考标签对应的可能度确定参考标签对应的标签影响度。

具体地，相似度与标签影响度是正向相关的，相似度变大，则标签影响度也变大。例如，标签影响度可以是相似度与可能度的乘积。也可以设置相似度与标签影响度的对应关系，可能度与标签影响度的对应关系。根据相似度得到第一标签影响度，根据可能度得到第二标签影响度。根据第一标签影响度以及第二标签影响度得到参考标签对应的标签影响度。例如第一标签影响度以及第二标签影响度之和为参考标签对应的标签影响度。

相似度与标签影响度的对应关系可以根据经验设置，例如可以设置当相似度为小于0.5时，对应的标签影响度为0。当相似度为大于0.5小于0.8时，对应的标签影响度为0.3。当相似度为大于0.8小于0.9时，对应的标签影响度为0.5。

在一些实施例中，标签确定模型包括多个，根据相似度以及参考标签对应的可能度确定参考标签对应的标签影响度包括：综合各个标签确定模型输出的可能度统计得到参考标签对应的综合可能度；根据相似度以及参考标签对应的综合可能度确定参考标签对应的标签影响度。

具体地，标签确定模型的个数可以根据需要设置，这些标签确定模型是不相同的模型，模型不同可以是指模型结构、参数配置或者模型训练的训练样本不同中的至少一个。例如，可以包括三个模型，分别是SVM(Support Vector Machine，支持向量机)模型、逻辑回归模型以及神经网络模型。得到每个标签确定模型输出的可能度后，,对每个参考标签对应的可能度进行统计，得到综合可能度，综合可能度可以是均值、中位数或者可能度之和。例如，对于第一个对象，参考标签为a，可以将第一个对象的特征分别输入到各个标签确定模型中，得到第一个模型输出的参考标签a的可能度p1，第二个模型输出的参考标签a的可能度p2，第三个模型输出的参考标签a的可能度p3，综合可能度可以是可能度p1、可能度p2以及可能度p3的均值。参考标签对应的标签影响度是根据相似度以及参考标签对应的综合可能度计算得到的，例如可以是相似度与综合可能度的乘积。

在一些实施例中，如图4所示，对象标签确定方法还可以包括以下步骤:

步骤S402，获取样本集合，样本集合包括多个样本。

具体地，样本集合中可以包括多个样本，例如可以包括10万个样本。样本是用于进行模型训练的。一个样本可以包括多个特征以及标签，例如，对于文本，可以将文本的关键词以及文本的作者作为文本的特征。对于视频，可以将视频的时长、导演名字以及关键词作为视频的特征。

步骤S404，利用样本集合中的样本训练得到标签确定模型。

具体地，可以采用有监督的训练方法进行模型训练。在进行训练时，将样本的特征输入到模型中，得到模型预测的标签，根据模型预测的标签与样本中实际的标签的差异计算得到损失值，利用梯度下降方法朝着损失值降低的方向调整模型参数。

在一些实施例中，用于确定参考对象的参考标签的可能度的标签确定模型也可以不是该样本集训练得到的，例如可以利用其他已确定标签为正确的样本组成的样本集进行模型的训练，得到标签确定模型。

在一些实施例中，在利用样本集合中的样本进行训练时，可以采用以K折交叉验证方法，将样本集划分为K份子样本集，每次训练，将其中的一份子样本集保留作为验证模型的测试样本集，其他K-1个样本集用来训练，交叉验证可以重复K次，直至每个子样本集都当作测试样本集，得到标签确定模型。

步骤S202即获取待确定标签的目标对象包括：从样本集合中获取样本对应的对象，作为目标对象。

具体地，在确定标签确定模型后，可以依次从样本集合中获取一个样本对应的对象，作为目标对象。也可以是批量的获取样本对应的对象，作为目标对象。

在一些实施例中，可以从样本集中获取参考对象，并将样本集中的样本原有的标签作为参考标签，这样，在获取得到样本集后，无需参考其他数据，也可以依靠获取得到的样本集对样本集中标签错误的样本进行纠正。因为样本集中的样本标签在一般情况下大部分都是正确的，只有一部分存在错误，因此可以依靠未修正前的样本集训练得到标签确定模型，获取样本集中目标样本的参考样本，再利用标签确定模型得到各个参考样本的标签的可能度，根据参考对象的标签的可能度计算得到标签影响度，利用标签影响度确定目标样本的标签，因此可以对样本集中标签错误的样本的标签进行修正，当样本集中的样本的标签修正完毕后，利用修正后的样本集重新训练得到标签确定模型，使得最终得到的标签确定模型更加准确。

对象标签确定方法还包括步骤S406:将样本的标签更新为目标对象对应的目标标签。

具体地，通过本实施例提供的方法确定了目标对象对应的标签后，可以将样本集中样本的标签更新为目标对象对应的目标标签。这样，可以利用目标对象标签，对样本集中的样本的标签进行修正，提高样本集中的样本标签的准确度。当更新了样本集的样本的标签后，可以利用样本集进行模型训练，得到更加准确的标签确定模型。例如，机器学习中的分类问题，通常是用有监督学习来完成的，进行了分类的样本则是有监督学习的基础和最为核心和重要的资产。通常分类样本中难免会存在标签错误。错误的标签，会产生错误的监督信号，从而误导模型的学习，最终往往会降低模型的学习效果。通常对样本的清洗和标签的修正，需要借助很多专家知识、领域知识，通过人工来对数据进行标注，才能修正有错误的样本。而通过本申请实施例提供的标签确定方法，可以依靠样本集本身的数据对样本集中标签错误的样本进行自动修正，从而提高样本的质量。

在一些实施例中，如图5所示，步骤S204即获取与目标对象相似的多个参考对象包括：

步骤S502，将样本集合中的样本对应的特征输入到对象向量得到模型中，得到各个样本分别对应的向量，各个样本对应的向量组成向量集合。

具体地，对象向量得到模型是用于对对象进行向量化表示的模型，例如对于文本可通过word2vec、fasttext或者bert(Bidirectional Encoder Representations fromTransformers，来自变换器的双向编码器表征)等模型得到目标对象对应的向量。对于图形、视频或者语音等对象的向量可通过node2vec以及其他深度神经网络等模型得到目标对象对应的向量。样本集中样本对应的向量组成向量集合。

步骤S504,从向量集合中，获取与目标对象对应的向量相似的多个参考向量，将各个参考向量对应的对象作为参考对象。

具体地，获取目标对象对应的向量，根据目标向量从向量集合中获取目标对象对应的向量相似的多个参考向量。在查找目标对象的向量的相似向量时，可以采用穷举查找的方法，即计算目标对象的向量与向量集合中每个向量之间的相似度，抽取出相似度排名在前的前N个向量或者相似度大于预设相似度的向量作为相似的向量。也可以使用近邻搜索算法检索目标对象的向量的相似内容向量。近邻算法可以根据向量的相似性，寻找与目标对象的向量相似的向量。近邻搜索算法可以包括faiss或者annoy等算法。Faiss是Facebook开源的针对聚类和相似性搜索的库，能够为稠密向量提供高效相似度搜索和聚类。Faiss能够创建索引对向量预处理,提高查询效率。Annoy是高维空间求近似最近邻的一个开源库。Annoy构建二叉树，可以通过随机挑选两个点，并使用垂直于这个点的等距离超平面将集合划分为两部分。

本申请实施例提供的方法可以用于对对象进行分类的各种场景中，以更好的进行数据管理。例如，可以应用于计算机的安全防护领域中，通过获取服务器接收的数据包，将数据包作为一个对象，实施本申请实施例提供的对象标签确定方法，得到的数据包的标签可以是安全或者不安全，如果确定数据包是不安全的，则可以丢弃该数据包或者对该数据包进行处理，去除数据包中不安全的数据。也可以用于对消费数据进行分类中，得到消费账单，使得消费者可以更好地了解自己的消费行为。

在一些实施例中，目标对象为资源接收方，目标标签为资源接收方类型，如图6所示，对象标签确定方法还包括：

步骤S602，获取目标用户对应的资源转移数据集合，资源转移数据集合中的资源转移数据包括资源转移数值以及资源接收方。

具体地，资源可以是实体资源也可以是虚拟资源。例如资源可以是货币，也可以是游戏币，资源也可以是股票。资源转移数值是指资源转移的数量，资源转移包括两方：资源转出方以及资源接收方。资源转出方是转出资源的一方，目标用户为资源转出方。资源接收方是接收资源的一方。资源转移数据集合中可以包括一条或多条资源转移数据。例如，目标用户对应的资源转移数据集合可以是目标用户在预设时间段内的资源转移数据集合，预设时间段例如可以是一个月。举个实际的例子，假设用户通过手机，在互联网平台购买A商家提供的食品，总价为15元，则会产生一条资源转移数据，包括资源接收方为A商家，资源转移数值为15元。

步骤S604，获取资源转移数据集合中的各个资源接收方对应的资源接收方类型。

具体地，资源接收方类型可以根据资源接收方提供的商品确定。商品可以是有形的例如可以是鞋子、衣服。商品也可以是无形的例如理发服务等。资源接收方类型是通过本申请实施例提供的对象标签确定方法确定的，将商家作为对象，实施本申请实施例提供对象标签确定方法，可以得到商家对应的类型。

步骤S606，统计各个资源接收方类型对应的资源转移数值，得到各个资源接收方类型分别对应的资源转移统计值。

具体地，资源转移统计值可以是资源的均值、平均值或者中位数中的一个或多个。对每个资源接收方类型对应的资源转移数据进行统计，得到各个资源接收方类型分别对应的资源转移统计值。例如，对食品类型的资源转移数值进行统计，得到食品的消费总额。对服饰类型的资源转移数值进行统计，得到服饰的消费总额

步骤S608，向目标用户对应的终端发送资源接收方类型分别对应的资源转移统计值。

具体地，得到资源接收方类型分别对应的资源转移统计值后，可以向目标用户对应的终端发送资源转移统计值，终端上可以展示资源接收方类型分别对应的资源转移统计值，以使得用户可以了解资源转移的情况。服务器可以是响应于终端的请求向终端发送资源接收方类型分别对应的资源转移统计值，可以是主动发送的，例如，可以是在每一个月的第一天发送上一个月用户的消费账单。消费账单上包括各个消费类型的支出。如图7所示。

在一些实施例中，以下以对样本集合中的样本的标签进行评估，以修正样本集中标签错误的样本为例，对本申请实施例提供的对象标签确定方法进行说明，包括以下步骤：

1、获取样本集。

具体地，样本集中可以有多个样本，例如1万个。一个样本可以包括对象的特征以及对象的参考标签，参考标签也可以称为原始标签，即样本原有的标签。样本集中部分样本的标签可能是错误的，需要进行纠正。假设样本有c个，则样本集合可以用C＝{c₁,c₂,c₃,…,c_c}表示,一个样本有一个标签，标签的取值集合可以表示为L＝{L₁,L₂,L₃,…,L_m},总共有n个标签，即一个样本的标签为这n个标签中的一个。

2、基于样本集的样本训练得到多个标签确定模型。

具体地，标签确定模型例如可以有n个，利用样本集对模型分别进行训练。在训练时，可以将样本集划分为预设份，例如10份，按照K折交叉验证算法的思想，每次训练时，取其中的一份作为测试集，则剩下的作为训练集，直到每份都做过测试集停止，得到标签确定模型。例如，标签确定模型可以有三个，可以分别为SVM模型、逻辑回归模型以及深度神经网络模型。

3、获取样本集中各个样本的特征，分别输入到多个标签确定模型中，得到各个对象的参考标签的可能度。

由于标签的取值可以有n种，因此，标签确定模型输出的可能度，还可以包括各个非参考标签的可能度。例如，对于一个样本，一个模型输出的可能度可以表示为P＝{p_m1,1,p_m1,2,p_m1,3,…,p_m1,n},例如p_m1,n表示模型m1输出的样本的标签为标签Ln的取值概率。当样本的标签为第3个时，则p_m1,3为对象的参考标签的可能度，其他为对象的非参考标签的可能度。

4、综合各个标签确定模型输出的可能度统计得到各个参考标签分别对应的综合可能度。

例如，样本c_h对应的综合可能度向量可以表示如公式(1)，其中m为模型个数，n为标签个数，p_mi,n表示模型mi对样本c_h在第n个标签的预测概率,h表示第h个样本，因此

表示样本c_h中，第一个标签对应的综合可能度，假设参考标签为第2个标签时，则参考标签对应的综合可能度为

5、将样本集合中的样本对应的特征输入到对象向量得到模型中，得到各个样本分别对应的向量，各个样本对应的向量组成向量集合。

可以使用向量化算法，获得每个样本的向量，这里一个样本对应的向量为对象对应的向量。

6、获取待确定标签的目标对象。

可以依次将样本集合中的一个样本或者多个样本作为待确定标签的样本，获取这一个样本对应的向量，作为目标对象的向量，即获取得到了目标对象的向量化表示。

7、从向量集合中，获取与目标对象对应的向量相似的多个参考向量，将各个参考向量对应的对象作为参考对象。

具体地，可以使用近邻计算方法，获取相似度最高的t个向量作为近邻向量，获取近邻向量对应的样本，作为参考样本。t例如可以为3。

8、获取各个参考标签分别对应的标签影响度。

由于步骤4中已经计算得到了综合可能度，因此可以获取参考对象与目标对象的相似度，根据相似度以及参考标签对应的综合可能度确定参考标签对应的标签影响度。

例如，样本c_i的t最近邻样本可以表

为NearestC＝{ner₁,ner₂,…,ner_t},ner_t表示第t个近邻样本，t个近邻样本的参考标签集合表示为

表示第t个近邻样本的标签。则近邻样本的参考标签对目标样本的标签的影响度的计算方法如公式(2)所示，

表示参考标签

对应的标签影响度，s_t表示目标样本与近邻集合中第t个样本间的相似度，I(x)为指示函数，该函数返回一个向量，向量特点是当近邻样本的标签Lner_t取第k个标签时，向量第k个位置为1，其余位置为0。“*”指叉乘，“·”指点乘。

指第t个近邻样本对应的综合可能度向量。由公式(2)可以看出，虽然根据公式(1)计算了样本的标签为各个标签的概率，但由于指示函数返回的向量是当近邻样本的标签Lner_t取第k个标签时，即参考标签为第k个时，向量第k个位置为1，其余位置为0，因此最终计算得到的是参考标签对应的影响度，而非参考标签对应的影响度均为0。

9、对相同的参考标签对应的标签影响度进行统计，得到各个标签类别对应的标签影响度统计值。

其中有些近邻样本具有相同标签，因此将近邻样本中，相同参考标签对应的标签影响度进行统计，得到各个标签类别对应的标签影响度统计值。

10、从各个标签类别对应的标签影响度统计值中筛选出最大的标签影响度统计值；当最大的标签影响度统计值大于预设阈值时，确定最大的标签影响度统计值对应的标签为目标对象对应的标签。

如图，如图8所示，获取样本集后，输入到对象标签确定装置中，通过对象标签确定装置对样本集的样本标签进行修正，可以得到修正后的样本集。

举个实际例子，假设根据步骤6得到要确定样本D的标签，根据步骤7得到样本D的近邻样本包括A、B以及C。而预先已经根据步骤4得到样本A、B、C的综合可能度向量，并假设样本的标签可以为L1，L2或者L3。

假设样本A的原始标签为L1，则指示函数返回的向量为(1,0,0)。根据步骤4得到样本A的综合可能度向量为(0.7,0.25,0.13),其中0.7表示样本A的标签为L1(即参考标签)的可能度，0.25表示样本A的标签为L2(即非参考标签)的可能度，0.13表示样本A的标签为L3(即非参考标签)的可能度。样本A与样本D的相似度为0.65。则根据公式(2)，得到近邻样本A的参考标签L1的标签影响度为0.65*(1,0，0)·(0.7,0.25,0.13)＝0.1625。

假设样本B的标签与A相同，也为L1,根据上述计算样本A的参考标签的标签影响度的方法，得到近邻样本B的参考标签L1的标签影响度为0.77。假设样本C的标签为L2,根据上述计算样本A的参考标签的标签影响度的方法，得到近邻样本C的参考标签L2的标签影响度为0.85。

则根据步骤9，近邻样本有两个的参考标签是相同的，对相同的参考标签L1的标签影响度进行统计，计算得到它们的均值为(0.1625+0.77)/2＝0.466。根据步骤10，由于参考标签L2的标签影响度统计值为0.85，大于参考标签L1的标签影响度统计值0.466，故0.85为最大的标签影响度统计值，判断0.85是否大于预设阈值，阈值取值范围可以为0到1之间，假设阈值为0.6，由于0.85大于0.6，故可以将参考标签L2作为样本D的标签。

如图9所示，在一些实施例中，提供了一种对象标签确定装置，该对象标签确定装置可以集成于上述的计算机设备120中，具体可以包括目标对象获取模块902、参考信息获取模块904、标签影响度获取模块906以及目标标签确定模块908。

目标对象获取模块902，用于获取待确定标签的目标对象。

参考信息获取模块904，用于获取与目标对象相似的多个参考对象，获取各个参考对象分别对应的标签，作为参考标签。

标签影响度获取模块906，用于获取各个参考标签分别对应的标签影响度，标签影响度是根据参考标签对应的可能度计算得到的，通过将各个参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的参考标签为参考对象的标签的可能度。

目标标签确定模块908，用于根据各个参考标签的标签影响度确定目标对象对应的目标标签。

上述对象标签确定装置，通过获取与目标对象相似的多个参考对象，根据多个参考对象的参考标签的影响度确定目标对象的标签，参考对象的参考标签的影响度表示参考对象的参考标签对目标对象的标签的影响力的大小，而参考标签的影响度，是根据标签确定模型输出的参考标签的可能度得到的，标签确定模型输出的可能度能够反映参考对象的标签的准确度以及影响力，因此能够提高确定对象标签的效率以及准确度。

在其中一些实施例中，计算参考标签对应的标签影响度的确定模块包括：

相似度以及可能度获取单元，用于获取参考对象与目标对象的相似度，获取参考标签对应的可能度。

标签影响度确定单元，用于根据相似度以及参考标签对应的可能度确定参考标签对应的标签影响度。

在其中一些实施例中，标签确定模型包括多个，标签影响度确定单元用于：

综合各个标签确定模型输出的可能度统计得到参考标签对应的综合可能度。

根据相似度以及参考标签对应的综合可能度确定参考标签对应的标签影响度。

在其中一些实施例中，目标标签确定模块908包括：

标签影响度统计单元，用于对相同的参考标签对应的标签影响度进行统计，得到各个标签类别分别对应的标签影响度统计值。

目标标签确定单元，用于根据各个标签类别的标签影响度统计值，确定目标对象对应的目标标签。

在其中一些实施例中，目标标签确定单元用于：

从各个标签类别对应的标签影响度统计值中筛选出最大的标签影响度统计值。

当最大的标签影响度统计值大于预设阈值时，确定最大的标签影响度统计值对应的标签为目标对象对应的标签。

在其中一些实施例中，对象标签确定装置还包括：

样本集合获取模块，用于获取样本集合，样本集合包括多个样本。

训练模块，用于利用样本集合中的样本训练得到标签确定模型。

目标对象获取模块902用于：

从样本集合中获取样本对应的对象，作为目标对象；

对象标签确定装置还包括：

更新模块，用于将样本的标签更新为目标对象对应的目标标签。

在其中一些实施例中，参考信息获取模块904用于：

将样本集合中的样本对应的特征输入到对象向量得到模型中，得到各个样本分别对应的向量，各个样本对应的向量组成向量集合。

从向量集合中，获取与目标对象对应的向量相似的多个参考向量，将各个参考向量对应的对象作为参考对象。

在其中一些实施例中，目标对象为资源接收方，目标标签为资源接收方类型，对象标签确定装置还包括：

资源转移数据集合获取模块，用于获取目标用户对应的资源转移数据集合，资源转移数据集合中的资源转移数据包括资源转移数值以及资源接收方。

资源接收方类型得到模块，用于获取资源转移数据集合中的各个资源接收方对应的资源接收方类型。

资源转移数值统计模块，用于统计各个资源接收方类型对应的资源转移数值，得到各个资源接收方类型分别对应的资源转移统计值。

发送模块，用于向目标用户对应的终端发送资源接收方类型分别对应的资源转移统计值。

图10示出了一些实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示，该计算机设备包括通过***总线连接的处理器、存储器以及网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现对象标签确定方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行对象标签确定方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，本申请提供的对象标签确定装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该对象标签确定装置的各个程序模块，比如，图9所示的目标对象获取模块902、参考信息获取模块904、标签影响度获取模块906以及目标标签确定模块908。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的对象标签确定方法中的步骤。

例如，图10所示的计算机设备可以通过如图9所示的对象标签确定装置中的目标对象获取模块902获取待确定标签的目标对象。通过参考信息获取模块904获取与目标对象相似的多个参考对象，获取各个参考对象分别对应的标签，作为参考标签。通过标签影响度获取模块906获取各个参考标签分别对应的标签影响度，标签影响度是根据参考标签对应的可能度计算得到的，通过将各个参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的参考标签为参考对象的标签的可能度。通过目标标签确定模块908根据各个参考标签的标签影响度确定目标对象对应的目标标签。。

在一些实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述对象标签确定方法的步骤。此处对象标签确定方法的步骤可以是上述各个实施例的对象标签确定方法中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述对象标签确定方法的步骤。此处对象标签确定方法的步骤可以是上述各个实施例的对象标签确定方法中的步骤。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对象标签确定方法，所述方法包括：

获取待确定标签的目标对象；

获取与所述目标对象相似的多个参考对象，获取各个所述参考对象分别对应的标签，作为参考标签；

获取各个所述参考标签分别对应的标签影响度，所述标签影响度是根据所述参考标签对应的可能度计算得到的，通过将各个所述参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的所述参考标签为所述参考对象的标签的可能度；

根据各个所述参考标签的标签影响度确定所述目标对象对应的目标标签。

2.根据权利要求1所述的方法，其特征在于，计算所述参考标签对应的标签影响度的步骤包括：

获取所述参考对象与所述目标对象的相似度，获取所述参考标签对应的可能度；

根据所述相似度以及所述参考标签对应的可能度确定所述参考标签对应的标签影响度。

3.根据权利要求2所述的方法，其特征在于，所述标签确定模型包括多个，所述根据所述相似度以及所述参考标签对应的可能度确定所述参考标签对应的标签影响度包括：

综合各个所述标签确定模型输出的可能度统计得到所述参考标签对应的综合可能度；

根据所述相似度以及所述参考标签对应的综合可能度确定所述参考标签对应的标签影响度。

4.根据权利要求1所述的方法，其特征在于，所述根据各个所述参考标签的标签影响度确定所述目标对象对应的目标标签包括：

对相同的参考标签对应的标签影响度进行统计，得到各个标签类别分别对应的标签影响度统计值；

根据各个所述标签类别的标签影响度统计值，确定所述目标对象对应的目标标签。

5.根据权利要求4所述的方法，其特征在于，所述根据各个所述标签类别的标签影响度统计值，确定所述目标对象对应的目标标签包括：

从各个所述标签类别对应的标签影响度统计值中筛选出最大的标签影响度统计值；

当所述最大的标签影响度统计值大于预设阈值时，确定所述最大的标签影响度统计值对应的标签为所述目标对象对应的标签。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本集合，所述样本集合包括多个样本；

利用所述样本集合中的样本训练得到所述标签确定模型；

所述获取待确定标签的目标对象包括：

从所述样本集合中获取所述样本对应的对象，作为所述目标对象；

所述方法还包括：

将所述样本的标签更新为所述目标对象对应的目标标签。

7.根据权利要求6所述的方法，其特征在于，所述获取与所述目标对象相似的多个参考对象包括：

将所述样本集合中的样本对应的特征输入到对象向量得到模型中，得到各个所述样本分别对应的向量，各个所述样本对应的向量组成向量集合；

从所述向量集合中，获取与所述目标对象对应的向量相似的多个参考向量，将各个所述参考向量对应的对象作为所述参考对象。

8.根据权利要求1所述的方法，其特征在于，所述目标对象为资源接收方，所述目标标签为资源接收方类型，所述方法还包括：

获取目标用户对应的资源转移数据集合，所述资源转移数据集合中的资源转移数据包括资源转移数值以及资源接收方；

获取所述资源转移数据集合中的各个所述资源接收方对应的资源接收方类型；

统计各个所述资源接收方类型对应的资源转移数值，得到各个所述资源接收方类型分别对应的资源转移统计值；

向所述目标用户对应的终端发送所述资源接收方类型分别对应的资源转移统计值。

9.一种对象标签确定装置，所述装置包括：

目标对象获取模块，用于获取待确定标签的目标对象；

参考信息获取模块，用于获取与所述目标对象相似的多个参考对象，获取各个所述参考对象分别对应的标签，作为参考标签；

标签影响度获取模块，用于获取各个所述参考标签分别对应的标签影响度，所述标签影响度是根据所述参考标签对应的可能度计算得到的，通过将各个所述参考对象对应的对象特征输入到预先训练得到的标签确定模型中，预测得到的所述参考标签为所述参考对象的标签的可能度；

目标标签确定模块，用于根据各个所述参考标签的标签影响度确定所述目标对象对应的目标标签。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至8中任一项权利要求所述对象标签确定方法的步骤。