CN114138976A

CN114138976A - 数据处理与模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN114138976A
Application number: CN202111493424.2A
Authority: CN
Inventors: 武思文; 许林丰; 许海洋; 许韩晨玺; 张巨岩; 杨德将
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-04

Abstract

本公开提供了一种数据处理与模型训练方法、装置、电子设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习技术领域。具体实现方案为：对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到所述每个文本数据的置信度；基于所述每个文本数据的置信度，得到所述目标类别对应的置信度统计数据；基于所述目标类别对应的置信度统计数据，得到所述目标用户的类别特征。利用本公开实施例，可以通过用户的文本数据属于目标类型的置信度来确定用户的类别特征，可以准确地挖掘用户的意图。

Description

数据处理与模型训练方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习技术领域，具体涉及一种数据处理与模型训练方法、装置、电子设备和存储介质。

背景技术

随着机器学***台上，将机器学习模型应用于商品上架、推荐、评分等场景；在运输行业，将机器学习模型应用于包裹配送、路径选择等场景。在这些场景中会产生大量的用户数据，对这些用户数据进行挖掘，有利于提升模型在实际业务中使用效果。

发明内容

本公开提供了一种数据处理与模型训练方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种数据处理方法，包括：

对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到所述每个文本数据的置信度；

基于所述每个文本数据的置信度，得到所述目标类别对应的置信度统计数据；

基于所述目标类别对应的置信度统计数据，得到所述目标用户的类别特征。

根据本公开的一方面，提供了一种模型训练方法，包括：

对第二文本数据集合中的每个文本数据进行类别标注，得到所述每个文本数据的类别信息；

基于所述每个文本数据和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练，得到所述每个类别对应的第一分类模型；其中，所述第一分类模型用于对文本数据进行针对所述分类模型对应的类别的二分类处理，得到所述文本数据的置信度。

根据本公开的另一方面，提供了一种数据处理装置，包括：

二分类模块，用于对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到所述每个文本数据的置信度；

置信度统计模块，用于基于所述每个文本数据的置信度，得到所述目标类别对应的置信度统计数据；

用户特征确定模块，用于基于所述目标类别对应的置信度统计数据，得到所述目标用户的类别特征。

根据本公开的另一方面，提供了一种模型训练装置，包括：

类别标注模块，用于对第二文本数据集合中的每个文本数据进行类别标注，得到所述每个文本数据的类别信息；

模型训练模块，用于基于所述每个文本数据和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练，得到所述每个类别对应的第一分类模型；其中，所述第一分类模型用于对文本数据进行针对所述分类模型对应的类别的二分类处理，得到所述文本数据的置信度。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到每个文本数据的置信度，并基于每个文本数据的置信度，得到目标类别对应的置信度统计数据，进而，基于目标类别对应的置信度统计数据，得到目标用户的类别特征。这样得到的类别特征能够反映目标用户在此目标类别上进行业务处理所具有特征，即本公开的技术能准确地挖掘出用户在某个指定类别上的意图。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开第一实施例的数据处理方法的流程图；

图2是本公开第二实施例的模型训练方法的流程图；

图3是本公开第三实施例的数据处理装置的结构框图；

图4是本公开第四实施例的数据处理装置的结构框图；

图5是本公开第五实施例的模型训练装置的结构框图；

图6是本公开第六实施例的模型训练装置的结构框图；

图7是实现本公开实施例的数据处理方法与模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本公开第一实施例的数据处理方法的流程图。如图1所示，该数据处理方法可以包括如下步骤：

S110，对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到每个文本数据的置信度；

S120，基于每个文本数据的置信度，得到目标类别对应的置信度统计数据；

S130，基于目标类别对应的置信度统计数据，得到目标用户的类别特征。

示例性地，目标用户可以是一个用户或多个用户，例如，某个年龄段的用户，某个地区的用户，某个过去时间段内在某个场景下的用户。

示例性地，第一文本数据集合是用于获取目标用户的类别特征的数据集。其可以包括多个文本数据，这些文本数据是在实际应用场景中产生与目标用户有关的文本数据。例如，在网上购物平台，目标用户在搜索商品时所产生的文本数据。再如，在搜索引擎中，目标用户在某个时间段内进行网上搜索时所产生的文本数据。第一文本数据集合也可以指定时间段内目标用户在一个或多个场景中进行相关活动所产生的文本数据。例如，在过去的三个月内，在过去的六个月内。

示例性地，目标类别可以包括疾病、药品、贷款、保险、消费、食品消费等。利用本公开实施例的方法，可以得到目标用户的每个类别的类别特征。

示例性地，置信度可以是文本数据的类别是目标类别的可能性。置信度越高，文本数据的类别是目标类别的可能性越高；置信度越低，文本数据的类别是目标类别的可能性越低。在置信度高于设定阈值的情况下，可以确定文本数据的类别是目标类别。在置信度低于设定阈值的情况下，可以确定文本数据的类别不是目标类别。

示例性地，置信度的统计数据可以包括：在多个置信度中的最大值、最小值、均值、中位数、方差、标准差等。还可以包括置信度高于设定阈值的文本数据的数量、置信度低于设定阈值的文本数据的数量等。

示例性地，在上述步骤S120中，所得的置信度的统计数据可以包括：在第一文本数据集合中，文本数据的置信度的最大值、最小值、均值和方差，以及置信度高于设定阈值的文本数据的数量。通过统计这些置信度数据，可以得到目标用户在目标类别上所反映出来的类别特征，能够真实地反映用户意图。

例如，在金融类别上，置信度高于0.8的文本数据的数量为10，而第一文本数据集合包括12个文本数据，则置信度高于0.8的比例是较高，这反映用户在金融类别上的倾向性较强，对金融更感兴趣。

示例性地，用户的类别特征包括每个类别的特征，其可以由置信度统计数据组成，例如，每个类别对应一个置信度特征向量，该置信度特征向量表示用户在这个类别上的类别特征。

在本公开实施例，充分利用目标用户提供的文本数据集合，针对目标类别，确定每个文本数据的置信度，进而利用置信度统计数据来挖掘文本数据中有关于目标用户的潜在信息，所得到的目标用户的类别特征能充分反应目标用户的真实意图。基于目标用户的类别特征对实际应用场景中的机器学习模型进行训练，有利于提高机器学习模型的精度。

在一些实施例中，可以利用目标类型对应的第一分类模型对文本数据进行二分类处理，得到文本数据的置信度。第一分类模型为已训练好的模型，例如该模型经训练后其精度满足设定要求。

在一些实施例中，也可以对目标用户的文本数据集合中的每个文本数据中的每个词语进行分析或计算，得到每个文本数据属于目标类别的置信度。

示例性地，在上述步骤S110中，对目标用户的文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到每个文本数据的置信度，包括：

对目标用户的第一文本数据集合中的每个文本数据进行分词；

基于每个文本数据中的每个词语的正样本率，确定每个文本数据中的每个词语的权重；

基于每个文本数据中的每个词语的语义和权重对每个文本数据进行针对目标类别的二分类处理，确定每个文本数据属于目标类别的置信度。

在本示例中，基于词语被搜索过的次数和第一文本数据集合中的总数据量，可以确定词语的正样本率。

示例性地，对于每个文本数据的每个词语的正样本率，可以按照以下示例来计算：

假设第一文本数据集合包括10个文本数据，对于文本数据A中的词语a，其被用户使用过或作为搜索词搜索过，可以认为1，其没有被用户使用过或作为搜索词搜索过，可以认为0。词语a在10个文本数据中被认为1的文本数据包括文本数据A和文本数据B，即认为是1的次数是2次，则词语a的正样本率为2/10＝20％。

示例性地，词语的正样本率越高，词语在文本数据中所占的权重就越高。在确定文本数据的每个词语的权重，除了依据每个词语的正样本率之外，还可以依据文本数据分词得到的词语的总数量。

在分词过程中，可以对介词、语气词等词语进行过滤。对于重复出现的词语可以去重，并可以依赖词语在文本数据的重复次数来进一步确定该词语的权重。

在得到文本数据的每个词语的语义和权重之后，可以对每个词语的语义进行映射，得到表征每个词语的语义的数值或向量。然后，将每个词语的权重与表征语义的数值或向量相乘，并求和得到文本数据的置信度。

在本示例中，利用每个文本数据中的每个词语的正样本率来确定每个词的权重，然后基于每个文本数据中的每个词语的语义和权重，可以得到每个文本数据的准确的置信度。由于词语的权重与每个词语被用户搜索或使用过的正样本率相关，进而结合这样的权重来确定文本数据的置信度，可以准确地反映用户在目标类别上的意图。

在一些实施例中，可以先将文本数据转换成文本句向量，再输入到目标类型对应的第一分类模型中，得到文本数据属于目标类型的置信度。

示例性地，上述基于每个文本数据中的每个词语的语义和权重对每个文本数据进行针对目标类别的二分类处理，确定每个文本数据属于目标类别的置信度，可以包括：

基于每个文本数据中的每个词语的语义和权重，将每个文本数据转换成文本句向量；

将每个文本数据对应的文本句向量输入到目标类别对应的第一分类模型中对每个文本数据进行针对目标类别的二分类处理，得到第一分类模型输出的每个文本数据属于目标类别的置信度。

其中，第一分类模型是目标类型对应的已训练好的模型，该模型的精度或者准确程度是满足设定条件的。

在本示例性中，采用训练好的分类模型对文本数据的类别进行识别，并输出文本数据属于目标类别的置信度，这种计算法一方面有利于提高确定文本数据的置信度的准确程度，另一方面能快速地输出大量的文本数据的置信度，有利于提高效率。

对于第一分类模型的训练，可以预先训练好，也可以在使用之前对其进行更新训练，或者在第一分类模型被使用完之后对其进行更新训练。还可以是每隔一段时间，或者达到设定条件时，对第一分类模型进行更新。设定条件可以包括设定的时间点或模型的精度低于设定的阈值等。

本公开实施例中，有多个类型，每个类别的第一分类模型均可以提前训练好，在需要调用目标类型对应的第一分类模型时，可以依据目标类型，调取出来即可。

图2是本公开第二实施例的模型训练方法的流程图。如图2所示，该模型训练方法可以包括：

S210，对第二文本数据集合中的每个文本数据进行类别标注，得到每个文本数据的类别信息；

S220，基于每个文本数据和每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练，得到每个类别对应的第一分类模型；其中，第一分类模型用于对文本数据进行针对分类模型对应的类别的二分类处理，得到文本数据的置信度。

其中，第二分类模型是未训练之前的模型，第一分类模型是已训练好的模型。

示例性地，第二文本数据集合是用于对第二分类模型进行训练的数据集。其可以包括多个文本数据，这些文本数据是在实际应用场景中产生与任意一个用户有关的文本数据。例如，在网上购物平台，用户在搜索商品时所产生的文本数据。再如，在搜索引擎中，用户在某个时间段内进行网上搜索时所产生的文本数据。第一文本数据集合也可以指定时间段内用户在一个或多个场景中进行相关活动所产生的文本数据。例如，在过去的三个月内，在过去的六个月内，过去一年内等。需要说明的是，第二文本数据集合并不针对某个特定用户的文本数据，其可以包括任意用户的文本数据。

文本数据的类别信息可以包括文本数据属于的类别，例如，金融、医学、视觉识别、动物、食品等类别。

在上述步骤S220的训练过程，将每个文本数据和每个文本数据的类别信息输入到第二分类模型中，第二分类模型输出每个文本数据的置信度；在每个文本数据的置信度的准确程度不满足设定条件的情况下，对第二分类模型的参数进行调整，并返回将每个文本数据和每个文本数据的类别信息输入到第二分类模型中，第二分类模型输出每个文本数据的置信度的步骤；在在每个文本数据的置信度的准确程度不满足设定条件的情况下，对第二分类模型的参数停止调整，将停止调整时的第二分类模型确定为第一分类模型。从而，完成模型的训练。

在本示例中，采用一个集合的数据对多个类别中的每个类别对应的分类模型进行训练，可以提高模型训练的分类精度，而且也能提高模型训练的速度。

在一些实施例中，可以先对部分文本数据进行标注，然后，再比较这部分文本数据与未标注的文本数据之间距离或相似度程度，以达到分类的效果，对于大量的文本数据来说，不仅能提高标注的准确程度，还能提高标注效率。

示例性地，在上述步骤S210中，对第二文本数据集合中的每个文本数据进行类别标注，得到每个文本数据的类别信息，可以包括：

对第二文本数据集合中的第一部分文本数据进行类别标注，得到第一部分文本数据的类别信息；

基于第一部分文本数据的类别信息，以及第一部分文本数据与第二文本数据集合中的第二部分文本数据之间的距离，对第二部分文本数据进行标注，得到第二部分文本数据的类别信息。

示例性地，可以随机地从第二文本数据集合中提取第一部分文本数据来进行类别标注，例如提取到的文本数据A和文本数据B，文本数据A的类别信息为类别D1，文本数据B的类别为类别D2。

第二部分文本数据为第二文本数据集合中暂未标注的数据。

对于类别D1，基于文本数据A与第二文本数据集合中的每个未标注的文本数据之间的距离的远近程度，可以确定每个未标注的文本数据属于类别D1的可能性。距离越近，未标注的文本数据属于类别D1的可能性越大。例如，距离大于设定阈值，可以确定该距离所对应的未标注的文本数据属于类别D1。

对于类别D2，基于文本数据据B与第二文本数据集合中的每个未标注的文本数据之间的距离的远近程度，可以确定每个未标注的文本数据属于类别D2的可能性。距离越近，未标注的文本数据属于类别D2的可能性越大。例如，距离大于设定阈值，可以确定该距离所对应的未标注的文本数据属于类别D2。

对于某一类别，例如第一类别，如果已标注第一类别的文本数据有多个，可以确定这些文本数据中的中心点，再计算该中心点与集合中的每个未标注的文本数据之间的距离。此距离的远程程度表征此距离对应的未标注的文本数据的类别是第一类别的可能性。

在一些实施例中，上述对部分文本数据进行类别标注也可以采用人工标注的方式，这样可以进一步提高标注的准确程度。

在一些实施例中，在对至少一个类别中的每个类别对应的第二分类模型分别进行训练之前，可以将第二文本数据集合中的每个文本数据转换成文本句向量，这样有利于提高模型的训练精度。

其中，将文本数据转换成文本句向量可以在对文本数据进行标注之前也可以在标注之后。

示例性地，在上述步骤S220中，基于每个文本数据和每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练，包括：

将第二文本数据集合中的每个文本数据转换成文本句向量；

基于文本句向量和每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练。

在一些实施例中，将文本数据转换成文本句向量的过程，可以包括：

基于每个文本数据中的每个词语的语义和权重，将每个文本数据转换成文本句向量。

在本示例中，该权重值可以预先设定，也可以基于每个词语在第二文本数据集合中的正样本率来确定。

示例性地，将文本数据转换成文本句向量的过程，可以包括：

对第二文本数据集合中的每个文本数据进行分词；

基于每个文本数据的每个词语的正样本率，确定每个文本数据中的每个词语的权重；

通过本公开实施例的模型训练方法所训练得到的第一分类模型可以应用于本公开实施例数据处理方法中来确定文本数据的置信度，有利于提高置信度的准确程度。

图3是本公开第三实施例的数据处理装置的结构框图。如图3所示，该处理装置可以包括：

二分类模块310，用于对目标用户的第一文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到所述每个文本数据的置信度；

置信度统计模块320，用于基于所述每个文本数据的置信度，得到所述目标类别对应的置信度统计数据；

用户特征确定模块330，用于基于所述目标类别对应的置信度统计数据，得到所述目标用户的类别特征。

图4是本公开第四实施例的数据处理装置的结构框图。如图4所示，数据处理装置所包括的二分类模块410、置信度统计模块420、用户特征确定模块430和上述实施例中的二分类模块310、置信度统计模块320、用户特征确定模块330的功能相同，在此不再详述。

在一些实施例中，如图4所示，所述二分类模块410包括：

分词单元411，用于对目标用户的第一文本数据集合中的每个文本数据进行分词；

权重确定单元412，用于基于所述每个文本数据中的每个词语的正样本率，确定所述每个文本数据中的每个词语的权重；

置信度确定单元413，用于基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理，确定所述每个文本数据属于目标类别的置信度。

在一些实施例中，所述置信度确定单元413用于：

基于所述每个文本数据中的每个词语的语义和权重，将所述每个文本数据转换成文本句向量；

将所述每个文本数据对应的文本句向量输入到目标类别对应的第一分类模型中对所述每个文本数据进行针对目标类别的二分类处理，得到所述第一分类模型输出的所述每个文本数据属于所述目标类别的置信度。

在一些实施例中，所述置信度统计数据包括：在所述第一文本数据集合中，文本数据的置信度的最大值、最小值、均值、方差值中的至少一者，和/或，置信度大于设定阈值的文本数据的数量。

图5是本公开第五实施例的模型训练装置的结构框图。如图5所示，该一种模型训练装置可以包括：

类别标注模块510，用于对第二文本数据集合中的每个文本数据进行类别标注，得到所述每个文本数据的类别信息；

模型训练模块520，用于基于所述每个文本数据和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练，得到所述每个类别对应的第一分类模型；其中，所述第一分类模型用于对文本数据进行针对所述分类模型对应的类别的二分类处理，得到所述文本数据的置信度。

图6是本公开第六实施例的模型训练装置的结构框图。如图6所示，模型训练装置包括类别标注模块610和模型训练模块620。其中，类别标注模块610、模型训练模块620和上述实施例中的类别标注模块510、模型训练模块520的功能相同，在此不再详述。

在一些实施例中，如图6所示，所述类别标注模块610包括：

第一标注单元611，用于对第二文本数据集合中的第一部分文本数据进行类别标注，得到所述第一部分文本数据的类别信息；

第二标注单元612，用于基于所述第一部分文本数据的类别信息，以及所述第一部分文本数据与所述第二文本数据集合中的第二部分文本数据之间的距离，对所述第二部分文本数据进行标注，得到所述第二部分文本数据的类别信息。

在一些实施例中，如图6所示，所述模型训练模块620包括：

向量转换单元621，用于将所述第二文本数据集合中的每个文本数据转换成文本句向量；

训练单元622，用于基于所述文本句向量和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种网络设备，可以包括本公开实施例中的电子设备。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如数据处理方法或模型训练方法。例如，在一些实施例中，数据处理方法和模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的数据处理方法和模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法和模型训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的方法，其中，所述对目标用户的文本数据集合中的每个文本数据进行针对目标类别的二分类处理，得到所述每个文本数据的置信度，包括：

基于所述每个文本数据中的每个词语的正样本率，确定所述每个文本数据中的每个词语的权重；

基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理，确定所述每个文本数据属于所述目标类别的置信度。

3.根据权利要求2所述的方法，其中，所述基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理，确定所述每个文本数据属于所述目标类别的置信度，包括：

4.根据权利要求1至3任一项所述的方法，其中，所述置信度统计数据包括：在所述第一文本数据集合中，文本数据的置信度的最大值、最小值、均值和方差值，以及置信度大于设定阈值的文本数据的数量。

5.一种模型训练方法，包括：

6.根据权利要求5所述的方法，其中，所述对第二文本数据集合中的每个文本数据进行类别标注，得到所述每个文本数据的类别信息，包括：

对第二文本数据集合中的第一部分文本数据进行类别标注，得到所述第一部分文本数据的类别信息；

基于所述第一部分文本数据的类别信息，以及所述第一部分文本数据与所述第二文本数据集合中的第二部分文本数据之间的距离，对所述第二部分文本数据进行标注，得到所述第二部分文本数据的类别信息。

7.根据权利要求5所述的方法，其中，所述基于所述每个文本数据和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练，包括：

将所述第二文本数据集合中的每个文本数据转换成文本句向量；

基于所述文本句向量和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练。

8.一种数据处理装置，包括：

9.根据权利要求8所述的装置，其中，所述二分类模块包括：

分词单元，用于对目标用户的第一文本数据集合中的每个文本数据进行分词；

权重确定单元，用于基于所述每个文本数据中的每个词语的正样本率，确定所述每个文本数据中的每个词语的权重；

置信度确定单元，用于基于所述每个文本数据中的每个词语的语义和权重对所述每个文本数据进行针对目标类别的二分类处理，确定所述每个文本数据属于所述目标类别的置信度。

10.根据权利要求9所述的装置，其中，所述置信度确定单元用于：

11.根据权利要求8至10任一项所述的装置，其中，所述置信度统计数据包括：在所述第一文本数据集合中，文本数据的置信度的最大值、最小值、均值和方差值，以及置信度大于设定阈值的文本数据的数量。

12.一种模型训练装置，包括：

13.根据权利要求12所述的装置，其中，所述类别标注模块包括：

第一标注单元，用于对第二文本数据集合中的第一部分文本数据进行类别标注，得到所述第一部分文本数据的类别信息；

第二标注单元，用于基于所述第一部分文本数据的类别信息，以及所述第一部分文本数据与所述第二文本数据集合中的第二部分文本数据之间的距离，对所述第二部分文本数据进行标注，得到所述第二部分文本数据的类别信息。

14.根据权利要求12所述的装置，其中，所述模型训练模块包括：

向量转换单元，用于将所述第二文本数据集合中的每个文本数据转换成文本句向量；

训练单元，用于基于所述文本句向量和所述每个文本数据的类别信息，对至少一个类别中的每个类别对应的第二分类模型分别进行训练。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。