CN111078877B

CN111078877B - 数据处理、文本分类模型的训练、文本分类方法和装置

Info

Publication number: CN111078877B
Application number: CN201911235575.0A
Authority: CN
Inventors: 马良庄
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-03-21
Anticipated expiration: 2039-12-05
Also published as: CN111078877A

Abstract

本说明书实施例提供一种数据处理方法和装置、文本分类模型的训练方法和装置，以及文本分类方法和装置，将第一待处理文本信息划分为N组，根据其中N‑1组训练文本信息训练第一文本分类模型，并通过所述第一文本分类模型对剩余第一待处理文本信息进行预测，获取所述剩余第一待处理文本信息的预测类别，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤，以从所述剩余第一待处理文本信息中获取训练文本信息。通过本说明书实施例方案，能够从大量的第一待处理文本信息中自动过滤掉低质量数据，得到高质量的训练数据，通过该训练数据来训练文本分类模型，能够提高模型的分类准确性。

Description

数据处理、文本分类模型的训练、文本分类方法和装置

技术领域

本说明书涉及人工智能技术领域，尤其涉及数据处理方法和装置、文本分类模型的训练方法和装置，以及文本分类方法和装置。

背景技术

在日常应用中，常常需要对一些文本信息进行分类。例如，在智能机器人客服应用场景中，用户可以向智能机器人客服发送文本信息，该文本信息可以是与账户操作相关的文本信息，例如：“如何注册账户”或者“如何为账户绑定手机号”等；也可以是与订单相关的文本信息，例如：“如何取消订单”或者“取消订单退款处理时效是多久”等；还可以是其他类型的文本信息。为了提高智能机器人客服的应答效率，需要对此类文本信息进行分类。因此，有必要提高文本信息分类的准确性。

发明内容

基于此，本说明书实施例提供了数据处理方法和装置、文本分类模型的训练方法和装置，以及文本分类方法和装置。

根据本说明书实施例的第一方面，提供一种数据处理方法，所述方法包括：

将第一待处理文本信息划分为N组，N为正整数；

采用N-1组第一待处理文本信息训练第一文本分类模型；

通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测，获取所述剩余第一待处理文本信息的预测类别，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤，以从所述剩余第一待处理文本信息中获取训练文本信息。

根据本说明书实施例的第二方面，提供一种文本分类模型的训练方法，所述方法还包括：

获取训练文本信息及其真实类别；

根据所述训练文本信息及其真实类别对第二文本分类模型进行训练；

其中，所述训练文本信息基于任一实施例所述的数据处理方法获取。

根据本说明书实施例的第三方面，提供一种文本分类方法，所述方法包括：

获取第二待处理文本信息；

通过预先训练的第二文本分类模型对所述第二待处理文本信息进行分类，获取所述第二待处理文本信息的类别；

其中，所述第二文本分类模型基于任一实施例所述的文本分类模型的训练方法训练得到。

根据本说明书实施例的第四方面，提供一种数据处理装置，所述装置包括：

划分模块，用于将第一待处理文本信息划分为N组，N为正整数；

第一训练模块，用于采用N-1组第一待处理文本信息训练第一文本分类模型；

过滤模块，用于通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测，获取所述剩余第一待处理文本信息的预测类别，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤，以从所述剩余第一待处理文本信息中获取训练文本信息。

根据本说明书实施例的第五方面，提供一种文本分类模型的训练装置，所述装置还包括：

第一获取模块，用于获取训练文本信息及其真实类别；

第二训练模块，用于根据所述训练文本信息及其真实类别对第二文本分类模型进行训练；

其中，所述训练文本信息基于任一实施例所述的数据处理装置获取。

根据本说明书实施例的第六方面，提供一种文本分类装置，所述装置包括：

第二获取模块，用于获取第二待处理文本信息；

分类模块，用于通过预先训练的第二文本分类模型对所述第二待处理文本信息进行分类，获取所述第二待处理文本信息的类别；

其中，所述第二文本分类模型基于任一实施例所述的文本分类模型的训练装置训练得到。

根据本说明书实施例的第七方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本说明书实施例的八方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

应用本说明书实施例方案，将第一待处理文本信息划分为N组，根据其中N-1组训练文本信息训练第一文本分类模型，并通过所述第一文本分类模型对剩余第一待处理文本信息进行预测，获取所述剩余第一待处理文本信息的预测类别，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤，以从所述剩余第一待处理文本信息中获取训练文本信息。通过本说明书实施例方案，能够从大量的第一待处理文本信息中自动过滤掉低质量数据，得到高质量的训练数据，通过该训练数据来训练文本分类模型，能够提高模型的分类准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书一实施例的数据处理方法流程图。

图2是本说明书一实施例的数据过滤过程的示意图。

图3是本说明书一实施例的文本分类模型的训练方法流程图。

图4是本说明书一实施例的文本分类方法流程图。

图5是本说明书一实施例的数据处理装置的框图。

图6是本说明书一实施例的文本分类模型的训练装置的框图。

图7是本说明书一实施例的文本分类装置的框图。

图8是本说明书一实施例的用于实施本说明书实施例方法的计算机设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，本说明书实施例提供一种数据处理方法，所述方法可包括：

步骤S102：将第一待处理文本信息划分为N组，N为正整数；

步骤S104：采用N-1组第一待处理文本信息训练第一文本分类模型；

步骤S106：通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测，获取所述剩余第一待处理文本信息的预测类别，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤，以从所述剩余第一待处理文本信息中获取训练文本信息。

本说明书实施例中的各步骤可由位于服务器端的智能机器人客服来执行。对于步骤S102，所述第一待处理文本信息可以由用户通过客户端发送给智能机器人客服。用户可以在客户端上输入第一待处理文本信息，客户端可以将该第一待处理文本信息发送给智能机器人客服。其中，客户端可以是安装在智能手机、平板电脑或者台式电脑等电子设备上的应用程序。例如，可以是淘宝、网商银行或者支付宝等应用程序。用户在所述客户端上输入的第一待处理文本信息可以是与账户操作相关的文本信息，例如：“如何注册账户”或者“如何为账户绑定手机号”等；也可以是与订单相关的文本信息，例如：“如何取消订单”或者“取消订单退款处理时效是多久”等；还可以是其他类型的文本信息。

在一些实施例中，用户还可以向所述客户端发送其他格式的信息，所述其他格式是文本以外的格式。所述客户端在接收到所述其他格式的信息之后，可以从中提取出第一待处理文本信息，然后发送给智能机器人客服。例如，当所述其他格式为图片格式时，可以通过OCR(Optical Character Recognition，光学字符识别)技术从图片中识别出第一待处理文本信息。进一步地，对于接收到或者提取出的第一待处理文本信息，还可以从所述文本信息中过滤掉停用词，然后将过滤后的第一待处理文本信息发送给智能机器人客服。

智能机器人客服可以将接收到的多条第一待处理文本信息划分为N组，划分出的N组第一待处理文本信息的数据量可以完全相等，也可以部分相等或者完全不相等，本说明书对此不做限制。一般来说，N-1组第一待处理文本信息的数据量比另外一组第一待处理文本信息的数据量大，这样，可以提高数据过滤的准确性。例如，N-1组第一待处理文本信息中共包括100条数据，另外1组第一待处理文本信息中包括30条数据。

对于步骤S104，可以从N组第一待处理文本信息中选出N-1组作为训练数据来训练第一文本分类模型。第一文本分类模型可以是各种类别的文本分类模型，例如，神经网络模型、决策树模型、贝叶斯分类器等，本公开对此不做限定。

对于步骤S106，可以将步骤S104中未选中的一组第一待处理文本信息(即，剩余第一待处理文本信息)作为待验证数据，通过步骤S104中训练出的第一文本分类模型来预测所述剩余第一待处理文本信息的类别，然后，根据所述剩余第一待处理文本信息的预测类别与真实类别之间的相似性对所述测试文本信息进行过滤，能够从剩余第一待处理文本信息中自动过滤掉低质量数据。其中，文本信息的质量的高低是指所述文本信息的真实类别的准确性，准确性高的文本信息即为质量较高的文本信息，准确性低的文本信息即为质量较低的文本信息。

在一般情况下，第一待处理文本信息中大部分数据都是质量较高的数据，只有少部分数据是质量较低的数据，因此，通过将大部分第一待处理文本信息作为训练文本信息而训练出的模型一般而言进行数据预测的准确性较高，而采用该模型对剩余第一待处理文本信息进行预测，如果得到的预测类别与剩余第一待处理文本信息的真实类别相似性较小，则认为是剩余第一待处理文本信息本身的质量较低导致的。本说明书一实施例的数据过滤过程的示意图如图2所示。

在一些实施例中，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤的步骤包括：确定所述剩余第一待处理文本信息的预测类别与真实类别的相似度；若所述剩余第一待处理文本信息的相似度小于预设的相似度阈值，将所述剩余第一待处理文本信息过滤掉。

在一些实施例中，若所述剩余第一待处理文本信息的预测类别与真实类别相同，则判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度不小于所述似度阈值；若所述剩余第一待处理文本信息的预测类别与真实类别不同，则判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度小于所述似度阈值。

在另一些实施例中，每条剩余第一待处理文本信息的真实类别包括所述剩余第一待处理文本信息所属的置信度最大的N(N大于或等于M)种类别。确定所述剩余第一待处理文本信息的预测类别与真实类别的相似度的步骤包括：判断所述第一文本分类模型对所述剩余第一待处理文本信息的预测类别是否在所述剩余第一待处理文本信息的置信度最大的前M种真实类别中；若不在，判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度小于所述相似度阈值。

假设所述剩余第一待处理文本信息是“如何为账户绑定手机号”，该剩余第一待处理文本信息属于“账户操作”类别的置信度为0.7，属于“账户安全”类别的置信度为0.5，属于“账户协议”类别的置信度为0.4，属于“售后”类别的置信度为0.2。假设M＝3，那么，当所述剩余第一待处理文本信息的预测类别为“账户操作”类别、“账户安全”类别和“账户协议”的任意一者，则判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度不小于所述相似度阈值；反之，判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度小于所述相似度阈值。

应当说明的是，所述第一文本分类模型输出的预测类别可以是所述剩余第一待处理文本信息的类别名称，也可以是用于唯一标识所述剩余第一待处理文本信息的类别的其他标识信息，例如，该类别的ID号。在通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测之前，可以先对所述剩余第一待处理文本信息进行向量化处理，例如，可采用word2vec技术将所述剩余第一待处理文本信息转换为向量，当然，也可以采用其他方式进行转换，本说明书对此不做限制。然后，将所述向量作为所述第一文本分类模型的输入，由所述第一文本分类模型输出所述预测类别的ID号。

在一些实施例中，在根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤之后，所述方法还包括：重新选择N-1组第一待处理文本信息，并返回采用N-1组第一待处理文本信息训练第一文本分类模型的步骤，直到N组第一待处理文本信息均完成过滤。

例如，假设共包括3组第一待处理文本信息，则可以先通过第2组第一待处理文本信息和第3组第一待处理文本信息训练第一文本分类模型(称为模型1)，并通过模型1对第1组第一待处理文本信息进行过滤，得到第1组第一待处理文本信息中的训练文本信息。然后，可以通过第1组第一待处理文本信息和第3组第一待处理文本信息训练第一文本分类模型(称为模型2)，并通过模型2对第2组第一待处理文本信息进行过滤，得到第2组第一待处理文本信息中的训练文本信息。最后，可以通过第1组第一待处理文本信息和第2组第一待处理文本信息训练第一文本分类模型(称为模型3)，并通过模型3对第3组第一待处理文本信息进行过滤，得到第3组第一待处理文本信息中的训练文本信息。通过重复上述数据划分、模型训练以及类别预测的过程，从而对每组第一待处理文本信息进行过滤，得到全部第一待处理文本信息中的训练文本信息。

应当说明的是，在将第一待处理文本信息划分为N组时，每组数据中可以有重叠的部分。例如，假设第一待处理文本信息的序号为1至50，则可以将序号为1至30的第一待处理文本信息划分为第一组，将序号为11至40的第一待处理文本信息划分为第二组，将序号为21至50的第一待处理文本信息划分为第三组。对于每条剩余第一待处理文本信息，可根据判定所述剩余第一待处理文本信息为需要过滤的文本信息的次数输出所述剩余第一待处理文本信息为需要过滤的文本信息的置信度。判定所述剩余第一待处理文本信息为需要过滤的文本信息的次数越多，所述剩余第一待处理文本信息为需要过滤的文本信息的置信度越高。

接着上面的例子，假设模型1、模型2和模型3均判定某条剩余第一待处理文本信息(称为文本信息A)需要过滤，则输出文本信息A需要过滤的置信度为置信度1(例如，0.8)；假设模型1、模型2和模型3中的两者判定文本信息A需要过滤，则输出文本信息A需要过滤的置信度为置信度2(例如，0.6)，以此类推。可以设定一个置信度阈值，若判定某条剩余第一待处理文本信息需要过滤的置信度大于该置信度阈值，则将该剩余第一待处理文本信息过滤掉。

如图3所示，本说明书实施例还提供一种文本分类模型的训练方法，所述方法还包括：

步骤S301：获取训练文本信息及其真实类别；

步骤S302：根据所述训练文本信息及其真实类别对第二文本分类模型进行训练；

其中，所述训练文本信息基于任一实施例所述的数据处理方法获取，此处不再赘述。

如图4所示，本说明书实施例还提供一种文本分类方法，所述方法包括：

步骤S401：获取第二待处理文本信息；

步骤S402：通过预先训练的第二文本分类模型对所述第二待处理文本信息进行分类，获取所述第二待处理文本信息的类别；

其中，所述第二文本分类模型基于任一实施例所述的文本分类模型的训练方法训练得到，此处不再赘述。

由于训练文本信息均为质量较高的第一待处理文本信息，从而保证了训练出的第二文本分类模型质量较高(即，分类准确性较高)。这里的第二文本分类模型与第一文本分类模型可以是相同的模型，也可以是不同的模型，本说明书对此不做限定。所述第二待处理文本信息也可以是由用户通过客户端发送给智能机器人客服的文本信息，例如：“如何注册账户”或者“如何取消订单”等。第二待处理文本信息的实施例与第一待处理文本信息的实施例类似，此处不再赘述。

如图5所示，是本说明书一个实施例的数据处理装置的框图，所述装置可包括：

划分模块502，用于将第一待处理文本信息划分为N组，N为正整数；

第一训练模块504，用于采用N-1组第一待处理文本信息训练第一文本分类模型；

过滤模块506，用于通过所述第一文本分类模型对剩余第一待处理文本信息的类别进行预测，获取所述剩余第一待处理文本信息的预测类别，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤，以从所述剩余第一待处理文本信息中获取训练文本信息。

上述数据处理装置中各个模块的功能和作用的实现过程具体详情见上述数据处理方法中对应步骤的实现过程，在此不再赘述。

如图6所示，是本说明书一个实施例的文本分类模型的训练装置，所述装置还包括：

第一获取模块602，用于获取训练文本信息及其真实类别；

第二训练模块604，用于根据所述训练文本信息及其真实类别对第二文本分类模型进行训练；

上述文本分类模型的训练装置中各个模块的功能和作用的实现过程具体详情见上述文本分类模型的训练方法中对应步骤的实现过程，在此不再赘述。

如图7所示，是本说明书一个实施例的文本分类装置，所述装置包括：

第二获取模块702，用于获取第二待处理文本信息；

分类模块704，用于通过预先训练的第二文本分类模型对所述第二待处理文本信息进行分类，获取所述第二待处理文本信息的类别；

上述文本分类装置中各个模块的功能和作用的实现过程具体详情见上述文本分类方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本说明书装置所在计算机设备的一种硬件结构图，除了图8所示的处理器802、内存804、网络接口806、以及非易失性存储器808之外，实施例中装置所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

相应地，本说明书实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种数据处理方法，所述方法包括：

将第一待处理文本信息划分为N组，N为正整数；

采用N-1组第一待处理文本信息训练第一文本分类模型；

2.根据权利要求1所述的方法，在根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤之后，所述方法还包括：

重新选择N-1组第一待处理文本信息，并返回采用N-1组第一待处理文本信息训练第一文本分类模型的步骤，直到N组第一待处理文本信息均完成过滤。

3.根据权利要求1所述的方法，所述第一待处理文本信息被划分为数据量相等的N组。

4.根据权利要求1所述的方法，根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤的步骤包括：

确定所述剩余第一待处理文本信息的预测类别与真实类别的相似度；

若所述剩余第一待处理文本信息的相似度小于预设的相似度阈值，将所述剩余第一待处理文本信息过滤掉。

5.根据权利要求4所述的方法，确定所述剩余第一待处理文本信息的预测类别与真实类别的相似度的步骤包括：

判断所述第一文本分类模型对所述剩余第一待处理文本信息的预测类别是否在所述剩余第一待处理文本信息的置信度最大的前M种真实类别中；

若不在，判定所述剩余第一待处理文本信息的预测类别与真实类别的相似度小于所述相似度阈值。

6.一种文本分类模型的训练方法，所述方法还包括：

获取训练文本信息及其真实类别；

其中，所述训练文本信息基于权利要求1至5任意一项所述的数据处理方法获取。

7.一种文本分类方法，所述方法包括：

获取第二待处理文本信息；

其中，所述第二文本分类模型基于权利要求6所述的文本分类模型的训练方法训练得到。

8.一种数据处理装置，所述装置包括：

9.一种文本分类模型的训练装置，所述装置还包括：

第一获取模块，用于获取训练文本信息及其真实类别；

其中，所述训练文本信息基于权利要求8所述的数据处理装置获取。

10.一种文本分类装置，所述装置包括：

第二获取模块，用于获取第二待处理文本信息；

其中，所述第二文本分类模型基于权利要求9所述的文本分类模型的训练装置训练得到。

11.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至7任意一项所述的方法。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7任意一项所述的方法。