CN117574146A

CN117574146A - 文本分类标注方法、装置、电子设备和存储介质

Info

Publication number: CN117574146A
Application number: CN202311528176.XA
Authority: CN
Inventors: 谢方敏; 周峰; 郭陟; 林昱榕
Original assignee: Guangzhou Fangzhou Information Technology Co ltd
Current assignee: Guangzhou Fangzhou Information Technology Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-20
Anticipated expiration: 2043-11-15
Also published as: CN117574146B

Abstract

本发明公开了一种文本分类标注方法、装置、电子设备和存储介质，包括：获取到已标注类别的丰富分类集合和稀疏分类集合，采用丰富分类集合和稀疏分类集合中的文本训练文本分类模型，将待标注文本输入文本分类模型中得到第一目标类别和概率，将概率小于概率阈值的待标注文本确定为目标待标注文本，响应人工标注操作确定待标注文本的第二目标类别为稀疏分类集合的类别时，将目标待标注文本添加到稀疏分类集合中，在稀疏分类集合中已标注文本的数量小于数量阈值时重训练文本分类模型，本发明无需人工筛选稀疏分类的文本，节省了大量人力，提高了人工标注的效率，提升稀疏分类的文本在已标注的总文本中的比例，使得所标注的文本分布均衡。

Description

文本分类标注方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本分类标注方法、装置、电子设备和存储介质。

背景技术

文本分类被广泛应用于内容相关的产品中，比如将语音转换为文本后，模型对所转换的文本的意图类别进行分类。

在训练模型时，需要对作为样本的文本进行分类并标注类别，以通过标注后的文本训练模型，然而，在对训练用的文本进行分类标注类别时，有些类别的样本量比较少，有些类别的样本比较多，导致所分类标注的文本在类别上分布不均衡，造成模型无法充分学习样本量少的类别的样本的特征，模型性能低，目前，为了解决样本分布不均衡，主要是通过人工从海量文本中筛选出样本量少的类别的文本进行标注，需要耗费大量人力，并且文本标注的效率低。

发明内容

本发明提供了一种文本分类标注方法、装置、电子设备和存储介质，以解决通过人工解决文本分布不均衡需要耗费大量人力筛选样本量少的文本进行标注，导致文本分类标注的效率低的问题。

第一方面，本发明提供了一种文本分类标注方法，包括：

获取多个文本分类集合，所述文本分类集合包括已标注类别的丰富分类集合和稀疏分类集合；

采用所述丰富分类集合和所述稀疏分类集合中的文本训练文本分类模型；

获取待标注文本集合，并将所述待标注文本集合中的待标注文本输入所述文本分类模型中，得到所述待标注文本的第一目标类别和概率；

确定目标待标注文本，并响应针对所述目标待标注文本的人工标注操作，确定所述待标注文本的第二目标类别，所述目标待标注文本至少包括概率小于预设概率阈值的待标注文本；

在所述第二目标类别为所述稀疏分类集合的类别时，将所述目标待标注文本添加到所述稀疏分类集合中；

判断所述稀疏分类集合中已标注文本的数量是否大于数量阈值；

若是，结束文本分类标注；

若否，返回采用所述丰富分类集合和所述稀疏分类集合中的文本训练文本分类模型的步骤。

第二方面，本发明提供了一种文本分类标注装置，包括：

文本分类集合获取模块，用于获取多个文本分类集合，所述文本分类集合包括已标注类别的丰富分类集合和稀疏分类集合；

文本分类模型训练模块，用于采用所述丰富分类集合和所述稀疏分类集合中的文本训练文本分类模型；

文本类别预测模块，用于获取待标注文本集合，并将所述待标注文本集合中的待标注文本输入所述文本分类模型中，得到所述待标注文本的第一目标类别和概率；

稀疏分类文本确定模块，用于确定目标待标注文本，并响应针对所述目标待标注文本的人工标注操作，确定所述待标注文本的第二目标类别，所述目标待标注文本至少包括概率小于预设概率阈值的待标注文本；

稀疏分类集合更新模块，用于在所述第二目标类别为所述稀疏分类集合的类别时，将所述目标待标注文本添加到所述稀疏分类集合中；

稀疏文本数量判断模块，用于判断所述稀疏分类集合中已标注文本的数量是否大于数量阈值，若是，执行文本分类结束模块，若否，返回文本分类模型训练模块；

文本分类结束模块，用于结束文本分类标注。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面所述的文本分类标注方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明第一方面所述的文本分类标注方法。

本发明在获取到已标注类别的丰富分类集合和稀疏分类集合后，采用丰富分类集合和稀疏分类集合中的文本训练文本分类模型，将待标注文本集合中的待标注文本输入文本分类模型中，得到待标注文本的第一目标类别和概率，并将概率小于预设概率阈值的待标注文本确定为目标待标注文本，目标待标注文本经人工标注第二目标类别后，在第二目标类别为稀疏分类集合的类别时，将目标待标注文本添加到稀疏分类集合中，在稀疏分类集合中已标注文本的数量小于数量阈值时，返回重训练文本分类模型，本发明由于采用丰富分类集合和稀疏分类集合训练文本分类模型，训练时所用的文本中丰富分类的文本的数量远大于稀疏分类的文本的数量，所训练的文本分类模型识别出丰富分类的文本的概率更高，亦即概率小于预设概率阈值的待标注文本为稀疏分类的文本的可能性更高，将概率小于预设概率阈值的待标注文本发送人工标注，相当于筛选出稀疏分类的文本发送人工标注，无需人工从大量待标注文本中查找、筛选稀疏分类的文本进行标注，节省了大量人力，提高了人工标注的效率，提升稀疏分类的文本在已标注的总文本中的比例，使得标注后的文本在各个类别中更为均衡，提升采用已标注文本所训练各种模型的性能。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种文本分类标注方法的流程图；

图2是本发明实施例二提供的一种文本分类标注方法的流程图；

图3是本发明实施例三提供的一种文本分类标注装置的结构示意图；

图4是本发明实施例四提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种文本分类标注方法的流程图，本实施例可适用于文本分类标注的情况，该方法可以由文本分类标注装置来执行，该文本分类标注装置可以采用硬件和/或软件的形式实现并配置于电子设备中，如图1所示，该文本分类标注方法包括：

S101、获取多个文本分类集合，文本分类集合包括已标注类别的丰富分类集合和稀疏分类集合。

本实施例用于对训练模型所需要的文本进行分类并标注类别，示例性的，分类标注可以是指识别文本的意图类别、评论分类以及对话质检等。比如，在药品销售场景下，文本分类的应用场景可以是用户咨询意图识别、评论分类、对话质检等，具体的，文本的类别可以包括问题咨询、产品问题反馈、物流问题反馈、客服服务反馈、产品效果反馈等多个大类别，每个大类别下还可以细分小类，比如，问题咨询大类下还可以包括疾病知识咨询、药品知识咨询等。

文本分类标注后的文本可以用于训练各种模型，比如用于训练对话机器人等，为使得所训练的模型能够学习到真实场景下文本的特征，通常是在药品销售APP上设置埋点采集文本，由于文本具有不均衡的特性，经过分类标注后所获得多个文本分类集合包括丰富分类集合和稀疏分类集合，其中，丰富分类集合可以是指真实场景下某个类别的文本数量大于第一阈值的文本的集合，稀疏分类集合可以是指真实场景下某个类别的文本数量小于第二阈值的文本的集合，比如，获取多个批次的文本后在分类模型的辅助下进行分类标注，分类标注得到10个文本分类集合，其中8个文本分类集合中已标注的文本的数量均大于5000个，其中2个文本分类集合中已标注的文本的数量小于100个，则10个文本分类集合中包括8个丰富分类集合和2个稀疏分类集合。

当然，所获取的多个文本分类集合也可以是人工分类标注少量批次(比如1个批次)的文本后所输入的文本分类集合，本实施例对获取多个文本分类集合的方式不作限制。

S102、采用丰富分类集合和稀疏分类集合中的文本训练文本分类模型。

本实施例中，可以训练文本分类模型对待标注文本分类后辅助人工标注，具体的，可以采用丰富分类集合和稀疏分类集合中的已标注文本作为训练样本，所标注的类别作为标签值训练文本分类模型，该分类模型可以预测所输入文本的类别。

在一个示例中，文本分类模型在输入待标注文本时可以输出一个文本对，该文本对包括所输入的待标注文本和已标注文本，以及一个相似度，该相似度表示待标注文本和已标注文本属于同一个类别的概率，以辅助人工标注时方便标注人员确定是否将已标注文本的类别标注为待标注文本的类别。

在另一个实施例中，文本分类模型在输入待标注文本时可以输出该待标注文本属于各个类别的概率，以辅助人工标注时方便标注人员确定是否将概率最高的类别标注为待标注文本的类别。

在又一个实施例中，所训练的文本分类模型可以是一个，也可以是两个或者多个，以通过多个文本分类模型的预测结果确定待标注文本的类别，提高文本分类标注的准确度。

S103、获取待标注文本集合，并将待标注文本集合中的待标注文本输入文本分类模型中，得到待标注文本的第一目标类别和概率。

在本实施例中，在对每个批次的文本进行标注后，当存在稀疏分类集合时，为了使得稀疏分类集合中的文本足够多，需要继续获取新的待标注文本集合，以从所获取的待标注文本集合中筛选出属于稀疏分类的文本进行标注。具体的，可以将待标注文本集合中的待标注文本输入至少一个文本分类模型中，得到待标注文本的第一目标类别和概率。

S104、确定目标待标注文本，并响应针对目标待标注文本的人工标注操作，确定待标注文本的第二目标类别，目标待标注文本至少包括概率小于预设概率阈值的待标注文本。

由于文本分类模型采用丰富分类集合和稀疏分类集合中的文本进行训练，训练时丰富分类的文本的数量远大于稀疏分类的文本的数量，使得文本分类模型识别丰富分类的待标注文本的准确度更高，识别稀疏分类的待标注文本的准确度较低，在将待标注文本输入文本分类模型后，若第一目标类别的概率大于概率阈值，比如大于0.75，则可以认为该待标注文本是丰富分类文本的可能性更高，可以从待标注文本集合中剔除掉第一目标类别的概率大于概率阈值的文本，剩下的待标注文本中属于稀疏分类的待标注文本的比例提高，可以将剩下的待标注文本确定为目标待标注文本，将目标待标注文本发送到人工审核标注，人工审核标注操作后，可以确定目标待标注文本的第二目标类别。

S105、在第二目标类别为稀疏分类集合的类别时，将目标待标注文本添加到稀疏分类集合中。

如果人工审核标注后，目标待标注文本的第二目标类别为稀疏分类集合的类别时，确定该目标待标注文本为稀疏分类的文本，将该目标待标注文本添加到稀疏分类集合中，以增加稀疏分类集合中文本的数量，从而实现了从待标注文本集合中剔除丰富分类的待标注文本，得到属于稀疏分类可能性高的目标待标注文本送人工标注，人工标注时能够标注到更多的稀疏分类的文本，以快速提高稀疏分类集合中文本的数量，提高人工标注文本的效率。

S106、判断稀疏分类集合中已标注文本的数量是否大于数量阈值。

在对待标注文本集合中的文本进行标注后，可以将每个稀疏分类集合中已标注文本的数量与数量阈值进行比较，以确定稀疏分类集合中文本的数量是否已足够，若稀疏分类集合中已标注文本的数量大于数量阈值，确定稀疏分类集合中已标注文本的数量已足够用于训练，可以执行S107，以结束文本分类标注，若稀疏分类集合中已标注文本的数量小于数量阈值，确定稀疏分类的文本较少，可以返回S102重训练文本分类模型，并重新获取待标注文本集合后继续筛选出稀疏分类的文本进行人工标注。

S107、结束文本分类标注。

当稀疏分类集合中已标注文本的数量大于数量阈值，确定稀疏分类集合和丰富分类集合中已标注文本的数量已足够用于训练，可以结束文本分类标注，采用稀疏分类集合和丰富分类集合中已标注文本训练所需的业务模型，比如训练对话机器人、评论分类模型等。

本发明在获取到已标注类别的丰富分类集合和稀疏分类集合后，采用丰富分类集合和稀疏分类集合中的已标注文本训练文本分类模型，将待标注文本集合中的待标注文本输入文本分类模型中，得到待标注文本的第一目标类别和概率，并将概率小于预设概率阈值的待标注文本确定为目标待标注文本，目标待标注文本经人工标注后，在第二目标类别为稀疏分类集合的类别时，将目标待标注文本添加到稀疏分类集合中，在稀疏分类集合中已标注文本的数量小于数量阈值时，返回重训练文本分类模型，本发明由于采用丰富分类集合和稀疏分类集合训练文本分类模型，训练时所用的文本中丰富分类的文本的数量远大于稀疏分类的文本的数量，所训练的文本分类模型识别出丰富分类的文本的概率更高，亦即概率小于预设概率阈值的待标注文本为稀疏分类的文本的可能性更高，将概率小于预设概率阈值的待标注文本发送人工标注，相当于筛选出稀疏分类的文本发送人工标注，无需人工从大量待标注文本中查找、筛选稀疏分类的文本，节省了大量人力，提高了人工标注的效率，提升稀疏分类的文本在已标注的总文本中的比例，使得标注后的文本在各个类别中更为均衡，提升采用已标注文本所训练各种模型的性能。

实施例二

图2为本发明实施例二提供的一种文本分类标注方法的流程图，本发明实施例在上述实施例一的基础上进行优化，如图2所示，该文本分类标注方法包括：

S201、获取多个文本分类集合，文本分类集合包括已标注类别的丰富分类集合和稀疏分类集合。

在一个实施例中，可以先获取真实场景的文本，通过模型辅助人工对多批次真实场景的文本进行分类标注，得到多个文本分类集合，并且由于在真实场景下，丰富分类的文本较多，稀疏分类的文本较少，多个文本分类集合包括丰富分类集合和稀疏分类集合，其中，丰富分类集合可以是指真实场景下某个类别的文本数量大于第一阈值的文本的集合，稀疏分类集合可以是指真实场景下某个类别的文本数量小于第二阈值的文本的集合，第一阈值和第二阈值可以根据实际情况设定。

在一个实施例中，当稀疏文本分类集合中的文本数量过少时，可以通过预置的文本生成模型为稀疏分类集合生成示例文本，并对示例文本标注后添加到稀疏分类集合中。具体的，文本生成模型可以是现有的语言生成模型，以在输入文本类别后输出相应的文本，比如，可以在输入“咨询疾病或药品知识的常见问法”时，输出“这种药的性状是怎样的，感觉跟我想的不一样？”、“这种药为什么味道这么大？”，并将文本生成模型所生成的文本送人工审核后添加到稀疏分类集合中，以增加稀疏分类集合中文本的数量，避免稀疏分类集合中文本过少不利于分类模型训练。

S202、采用丰富分类集合和稀疏分类集合构建第一样本集和第二样本集，第一样本集包括已标注文本和已标注文本的类别标签值，第二样本集包括文本对和文本对的标签值，文本对包括类别相同的文本构成的文本对和类别不相同的文本构成的文本对。

本实施例的分类模型可以包括第一分类模型和第二分类模型，其中，第一分类模型用于输出所输入的文本属于各个类别的概率，第二分类模型用于输出包含所输入文本的文本对，该文本对还包括已标注文本。

为了训练第一分类模型和第二分类模型，可以采用丰富分类集合和稀疏分类集合构建第一样本集和第二样本集，其中，可以采用丰富分类集合和稀疏分类集合中的已标注文本构建第一样本集，该第一样本集中已标注文本的类别为类别标签值，采用丰富分类集合和稀疏分类集合中同一分类集合的任意两个文本构成文本对，该文本对的标签值为1，表示文本对中两个文本的类别相同，采用丰富分类集合和稀疏分类集合中不同分类集合的任意两个文本构成文本对，该文本对的标签值为0，表示文本对中两个文本的类别不相同，将文本对作为第二样本集。

S203、采用第一样本集训练第一分类模型，以及采用第二样本集训练第二分类模型。

本实施例的第一分类模型用于输出文本属于各个类别的概率，在训练时，可以在第一样本集中随机提取文本输入第一分类模型中预测文本所属分类的概率，根据概率和文本的类别标签值计算损失率，判断是否满足停止训练条件，若是，确定第一分类模型完成训练，若否，根据损失率调整第一分类模型的模型参数，返回在第一样本集中随机提取文本输入第一分类模型中预测文本所属类别的概率的步骤，其中计算损失值时可以采用交叉熵、均方差等损失函数，调整模型参数时可以采用梯度下降法，具体可参考现有模型训练方法，在此不再详述。

本实施例的第二分类模型用于输出文本对，在训练时，在第二样本集中随机提取文本对输入第二分类模型中预测文本对中的两个文本属于同一个类别的概率，根据概率和文本对的标签值计算损失率，判断是否满足停止训练条件，若是，确定第二分类模型完成训练，若否，根据损失率调整第二分类模型的模型参数，返回在第二样本集中随机提取文本对输入第二分类模型中预测文本对中的两个文本属于同一个类别的概率的步骤，其中计算损失值时可以采用交叉熵、均方差等损失函数，调整模型参数时可以采用梯度下降法，具体可参考现有模型训练方法，在此不再详述。

在另一个可选实施例中，还可以采用丰富分类集合和稀疏分类集合构建测试样本，采用测试样本对训练后的第一分类模型和第二分类模型进行测试，以确定第一分类模型和第二分类模型的精度，在精度达到预设精度时，执行S204，否则对第一分类模型和第二分类模型继续训练。

S204、获取待标注文本集合，将待标注文本集合中的待标注文本分别输入第一分类模型和第二分类模型中，得到每个待标注文本属于每个类别的第一概率和第二概率。

在训练第一分类模型和第二分类模型后，可以将待标注文本集合中的待标注文本输入第一分类模型和第二分类模型中，得到每个待标注文本属于每个类别的第一概率和第二概率。

示例性的，待标注文本A输入第一分类模型后，得到待标注文本A属于类别class1、class2、class3的第一概率分别为pro11、pro12、pro13，待标注文本A输入第二分类模型后，待标注文本A与类别class1的文本B1属于同一类别的概率为pro21、待标注文本A与类别class2的文本B2属于同一类别的概率为pro22、待标注文本A与类别class3的文本B3属于同一类别的概率为pro23。

S205、针对每个类别，计算第一概率与预置的第一权重的第一乘积，以及计算第二概率与预置的第二权重的第二乘积，第一权重为第一分类模型的权重，第二权重为第二分类模型的权重。

具体的，本实施例可以为各个分类模型设置权重，以分类模型包括第一分类模型和第二分类模型作为示例，对于每个类别，可以计算第一概率与第一分类模型的第一权重的第一乘积，以及计算第二概率与第二分类模型的第二权重的第二乘积。

S206、计算第一乘积与第二乘积的和值，得到每个待标注文本属于每个类别的概率。

以待标注文本A属于类别class1、class2、class3的第一概率分别为pro11、pro12、pro13作为示例，以及以待标注文本A输入第二分类模型后，待标注文本A与类别class1的文本B1属于同一类别的概率为pro21、待标注文本A与类别class2的文本B2属于同一类别的概率为pro22、待标注文本A与类别class3的文本B3属于同一类别的概率为pro23作为示例：

待标注文本A属于类别class1的概率为：pro11×w1+pro21×w2；

待标注文本A属于类别class2的概率为：pro12×w1+pro22×w2；

待标注文本A属于类别class1的概率为：pro13×w1+pro23×w2；

其中，w1为第一分类模型的权重，w2为第二分类模型的权重。

S207、将概率最大的类别确定为待标注文本的第一目标类别，以及将概率最大的类别的概率确定为待标注文本属于第一目标类别的概率。

在确定待标注文本属于各个类别的概率后，可以将概率最大的类别确定为第一目标类别，相应的概率为第一目标类别的概率。

S208、确定概率小于第一概率阈值的第一待标注文本。

在确定待标注文本的第一目标类别后，确定出第一目标类别的概率小于第一概率阈值的第一待标注文本，比如，确定出概率小于0.65的待标注文本作为第一待标注文本，由于第一样本集和第二样本集中丰富分类的文本数量大于稀疏分类的文本数量，第一分类模型和第二分类模型识别丰富分类的待标注文本的准确度更高，识别稀疏分类的待标注文本的准确度更低，即将待标注文本输入文本分类模型后，若第一目标类别的概率大于概率阈值，比如大于0.65，则可以认为该待标注文本是丰富分类文本的可能性更高，可以从待标注文本集合中剔除掉第一目标类别的概率大于概率阈值的文本，剩下的待标注文本中属于稀疏分类的待标注文本的比例提高，可以将剩下的待标注文本确定为第一待标注文本。

S209、确定概率大于第二概率阈值的第二待标注文本，并从第二待标注文本中确定出第一目标类别为稀疏分类集合对应的类别的第三待标注文本，第二概率阈值大于第一概率阈值。

随着对多个批次的待标注文本集合进行标注后，稀疏分类集合中文本的数量增加，分类模型识别稀疏分类的文本的类别的准确度进一步提高，可以确定出概率大于第二概率阈值的第二待标注文本，比如确定出概率大于0.9的第二待标注文本，该第二待标注文本包括丰富分类和稀疏分类的文本，进一步从第二待标注文本中确定出第一目标类别为稀疏分类集合对应的类别的第三待标注文本，以剔除掉丰富分类的文本。

S210、将第一待标注文本和/或第三待标注文本确定为目标待标注文本。

通过S208和S209确定的第一待标注文本和第三待标注文本为稀疏分类的文本的可能性较高，可以将第一待标注文本和/或第三待标注文本确定为目标待标注文本，以从待标注文本集合中剔除丰富分类的待标注文本，将目标待标注文本发送人工标注后，可以提高稀疏分类文本在人工所标注的总文本中的比例。

S211、响应针对目标待标注文本的人工标注操作，确定待标注文本的第二目标类别。

将目标待标注文本发送到人工审核标注，人工审核标注操作后，可以接收到人工标注操作，响应该人工标注操作，确定目标待标注文本的第二目标类别。

S212、在第二目标类别为稀疏分类集合的类别时，将目标待标注文本添加到稀疏分类集合中。

S213、判断稀疏分类集合中已标注文本的数量是否大于数量阈值。

在对待标注文本集合中的文本进行标注后，可以将每个稀疏分类集合中已标注文本的数量与数量阈值进行比较，以确定稀疏分类集合中文本的数量是否已足够，若稀疏分类集合中已标注文本的数量大于数量阈值，确定稀疏分类集合中已标注文本的数量已足够用于训练，可以执行S214，以结束文本分类标注，若稀疏分类集合中已标注文本的数量小于数量阈值，确定稀疏分类的文本较少，可以返回S202重训练文本分类模型，并重新获取待标注文本集合后继续筛选出稀疏分类的文本进行人工标注。

S214、结束文本分类标注。

本实施例在获取到丰富分类集合和稀疏分类集合后，采用丰富分类集合和稀疏分类集合构建第一样本集和第二样本集，采用第一样本集训练第一分类模型，以及采用第二样本集训练第二分类模型，获取待标注文本集合，分别将待标注文本集合中的待标注文本输入第一分类模型和第二分类模型中，得到每个待标注文本属于每个类别的第一概率和第二概率，并根据第一概率、第二概率以及第一分类模型和第二分类模型的权重计算每个待标注文本属于每个类别的概率，将概率最大的类别确定为第一目标类别，并确定第一目标类别的概率小于第一概率阈值的第一待标注文本，确定概率大于第二概率阈值的第二待标注文本，并从第二待标注文本中确定出第一目标类别为稀疏分类集合对应的类别的第三待标注文本，将第一待标注文本和第三待标注文本确定为目标待标注文本发送人工审核标注，以从待标注文本集合中剔除丰富分类的待标注文本，将目标待标注文本发送人工标注后，可以提高稀疏分类文本在人工所标注的总文本中的比例，无需人工从大量待标注文本中查找、筛选稀疏分类的文本，节省了大量人力，提高了人工标注的效率，提升稀疏分类的文本在已标注的总文本中的比例，使得标注后的文本在各个类别中更为均衡，提升采用已标注文本所训练各种模型的性能。

进一步的，通过第一分类模型和第二分类模型对待标注文本进行分类，并通过权重加权求和计算待标注文本属于各个类别的概率，将概率最大的类别确定为待标注文本的第一目标类别，可以提高待标注文本分类的准确度，能够准确筛选出稀疏分类的待标注文本送人工标注。

更进一步的，随着多次重训练后分类模型的准确度提升，除了筛选出概率小于第一概率阈值的第一待标注文本送人工标注，还筛选出概率大于第二概率阈值并且类别为稀疏分类集合对应的类别的第三待标注文本，可以在分类标注后期分类模型的准确度提升后，将类别属于稀疏分类的概率高的文本送人工标注，进一步提高稀疏分类的文本的标注效率。

实施例三

图3为本发明实施例三提供的一种文本分类标注装置的结构示意图。如图3所示，该文本分类标注装置包括：

文本分类集合获取模块301，用于获取多个文本分类集合，所述文本分类集合包括已标注类别的丰富分类集合和稀疏分类集合；

文本分类模型训练模块302，用于采用所述丰富分类集合和所述稀疏分类集合中的文本训练文本分类模型；

文本类别预测模块303，用于获取待标注文本集合，并将所述待标注文本集合中的待标注文本输入所述文本分类模型中，得到所述待标注文本的第一目标类别和概率；

稀疏分类文本确定模块304，用于确定目标待标注文本，并响应针对所述目标待标注文本的人工标注操作，确定所述待标注文本的第二目标类别，所述目标待标注文本至少包括概率小于预设概率阈值的待标注文本；

稀疏分类集合更新模块305，用于在所述第二目标类别为所述稀疏分类集合的类别时，将所述目标待标注文本添加到所述稀疏分类集合中；

稀疏文本数量判断模块306，用于判断所述稀疏分类集合中已标注文本的数量是否大于数量阈值，若是，执行文本分类结束模块，若否，返回文本分类模型训练模块；

文本分类结束模块307，用于结束文本分类标注。

可选的，还包括：

示例文本生成模块，用于通过预置的文本生成模型为所述稀疏分类集合生成示例文本，并对所述示例文本标注后添加到所述稀疏分类集合中。

可选的，所述文本类别预测模块303包括：

文本输入单元，用于将待标注文本集合中的待标注文本分别输入所述第一分类模型和所述第二分类模型中，得到每个待标注文本属于每个类别的第一概率和第二概率；

第一计算单元，用于针对每个类别，计算所述第一概率与预置的第一权重的第一乘积，以及计算所述第二概率与预置的第二权重的第二乘积，所述第一权重为所述第一分类模型的权重，所述第二权重为所述第二分类模型的权重；

第二计算单元，用于计算所述第一乘积与所述第二乘积的和值，得到每个待标注文本属于每个类别的概率；

第一目标类别和概率确定单元，用于将概率最大的类别确定为所述待标注文本的第一目标类别，以及将概率最大的类别的概率确定为所述待标注文本属于第一目标类别的概率。

可选的，稀疏分类文本确定模块304包括：

第一待标注文本确定单元，用于确定概率小于第一概率阈值的第一待标注文本；

第三待标注文本确定单元，用于确定概率大于第二概率阈值的第二待标注文本，并从所述第二待标注文本中确定出第一目标类别为所述稀疏分类集合对应的类别的第三待标注文本，所述第二概率阈值大于所述第一概率阈值；

目标待标注文本确定单元，用于将所述第一待标注文本和/或所述第三待标注文本确定为目标待标注文本。

可选的，所述文本分类模型包括第一分类模型和第二分类模型，文本分类模型训练模块302包括：

样本集构建单元，用于采用所述丰富分类集合和稀疏分类集合构建第一样本集和第二样本集，所述第一样本集包括已标注文本和所述已标注文本的类别标签值，所述第二样本集包括文本对和文本对的标签值，所述文本对包括类别相同的文本构成的文本对和类别不相同的文本构成的文本对；

第一分类模型训练单元，用于采用所述第一样本集训练第一分类模型；

第二分类模型训练单元，用于采用所述第二样本集训练第二分类模型。

可选的，第一分类模型训练单元包括：

类别预测子单元，用于在第一样本集中随机提取文本输入第一分类模型中预测所述文本所属类别的概率；

第一损失率计算子单元，用于根据所述概率和所述文本的类别标签值计算损失率；

第一训练条件判断子单元，用于判断是否满足停止训练条件，若是，执行第一分类模型完成训练确定子单元，若否，执行第一分类模型参数调整子单元；

第一分类模型完成训练确定子单元，用于确定所述第一分类模型完成训练；

第一分类模型参数调整子单元，用于根据所述损失率调整所述第一分类模型的模型参数，返回类别预测子单元。

可选的，第一分类模型训练单元包括：

文本对预测子单元，用于在第二样本集中随机提取文本对输入第二分类模型中预测所述文本对中的两个文本属于同一个类别的概率；

第二损失率计算子单元，用于根据所述概率和所述文本对的标签值计算损失率；

第二训练条件判断子单元，用于判断是否满足停止训练条件，若是，执行第二分类模型完成训练确定子单元，若否，执行第二分类模型的模型参数调整子单元；

第二分类模型完成训练确定子单元，用于确定所述第二分类模型完成训练；

第二分类模型的模型参数调整子单元，用于根据所述损失率调整所述第二分类模型的模型参数，返回文本对预测子单元。

本发明实施例所提供的文本分类标注装置可执行本发明任意实施例所提供的文本分类标注方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器(ROM)42、随机访问存储器(RAM)43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序，来执行各种适当的动作和处理。在RAM 43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理，例如文本分类标注方法。

在一些实施例中，文本分类标注方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时，可以执行上文描述的文本分类标注方法的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本分类标注方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本分类标注方法，其特征在于，包括：

采用所述丰富分类集合和所述稀疏分类集合中的训练文本分类模型；

若是，结束文本分类标注；

2.如权利要求1所述的方法，其特征在于，在采用所述丰富分类集合和所述稀疏分类集合中的文本训练文本分类模型之前，还包括：

通过预置的文本生成模型为所述稀疏分类集合生成示例文本，并对所述示例文本标注后添加到所述稀疏分类集合中。

3.如权利要求1所述的方法，其特征在于，所述文本分类模型包括第一分类模型和第二分类模型，将所述待标注文本集合中的待标注文本输入所述文本分类模型中，得到所述待标注文本的第一目标类别和概率，包括：

将待标注文本集合中的待标注文本分别输入所述第一分类模型和所述第二分类模型中，得到每个待标注文本属于每个类别的第一概率和第二概率；

针对每个类别，计算所述第一概率与预置的第一权重的第一乘积，以及计算所述第二概率与预置的第二权重的第二乘积，所述第一权重为所述第一分类模型的权重，所述第二权重为所述第二分类模型的权重；

计算所述第一乘积与所述第二乘积的和值，得到每个待标注文本属于每个类别的概率；

将概率最大的类别确定为所述待标注文本的第一目标类别，以及将概率最大的类别的概率确定为所述待标注文本属于第一目标类别的概率。

4.如权利要求1所述的方法，其特征在于，确定目标待分类文本，包括：

确定概率小于第一概率阈值的第一待标注文本；

确定概率大于第二概率阈值的第二待标注文本，并从所述第二待标注文本中确定出第一目标类别为所述稀疏分类集合对应的类别的第三待标注文本，所述第二概率阈值大于所述第一概率阈值；

将所述第一待标注文本和/或所述第三待标注文本确定为目标待标注文本。

5.如权利要求1-4任一项所述的方法，其特征在于，所述文本分类模型包括第一分类模型和第二分类模型，采用所述丰富分类集合和所述稀疏分类集合中的已标注文本训练文本分类模型，包括：

采用所述丰富分类集合和稀疏分类集合构建第一样本集和第二样本集，所述第一样本集包括已标注文本和所述已标注文本的类别标签值，所述第二样本集包括文本对和文本对的标签值，所述文本对包括类别相同的文本构成的文本对和类别不相同的文本构成的文本对；

采用所述第一样本集训练第一分类模型；

采用所述第二样本集训练第二分类模型。

6.如权利要求5所述的方法，其特征在于，采用所述第一样本集训练第一分类模型，包括：

在第一样本集中随机提取文本输入第一分类模型中预测所述文本所属类别的概率；

根据所述概率和所述文本的类别标签值计算损失率；

判断是否满足停止训练条件；

若是，确定所述第一分类模型完成训练；

若否，根据所述损失率调整所述第一分类模型的模型参数，返回在第一样本集中随机提取文本输入第一分类模型中预测所述文本所属类别的概率的步骤。

7.如权利要求5所述的方法，其特征在于，采用所述第二样本集训练第二分类模型，包括：

在第二样本集中随机提取文本对输入第二分类模型中预测所述文本对中的两个文本属于同一个类别的概率；

根据所述概率和所述文本对的标签值计算损失率；

判断是否满足停止训练条件；

若是，确定所述第二分类模型完成训练；

若否，根据所述损失率调整所述第二分类模型的模型参数，返回在第二样本集中随机提取文本对输入第二分类模型中预测所述文本对中的两个文本属于同一个类别的概率的步骤。

8.一种文本分类标注装置，其特征在于，包括：

文本分类结束模块，用于结束文本分类标注。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本分类标注方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文本分类标注方法。