CN111143552B

CN111143552B - 文本信息的类别预测方法和装置、服务器

Info

Publication number: CN111143552B
Application number: CN201911236894.3A
Authority: CN
Inventors: 马良庄
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-06-27
Anticipated expiration: 2039-12-05
Also published as: CN111143552A

Abstract

本说明书实施例提供一种文本信息的类别预测方法和装置、服务器，通过采用多个第一文本分类模型对待处理文本信息进行预测，再融合各个第一文本分类模型输出的第一预测类别，以获取所述待处理文本信息的真实类别。由于各个第一文本分类模型中的至少一者为欠拟合模型，因此，通过包含欠拟合模型的多个第一文本分类模型来代替原有的单个文本分类模型，使得欠拟合模型能够对最终的预测结果进行约束，提高了模型的泛化能力，从而提高了分类结果的准确性。

Description

文本信息的类别预测方法和装置、服务器

技术领域

本说明书涉及人工智能技术领域，尤其涉及文本信息的类别预测方法和装置、服务器。

背景技术

在日常应用中，常常需要对一些文本信息进行分类。例如，在智能机器人客服应用场景中，用户可以向智能机器人客服发送文本信息，该文本信息可以是与账户操作相关的文本信息，例如：“如何注册账户”或者“如何为账户绑定手机号”等；也可以是与订单相关的文本信息，例如：“如何取消订单”或者“取消订单退款处理时效是多久”等；还可以是其他类型的文本信息。为了提高智能机器人客服的应答效率，需要对此类文本信息进行分类。因此，有必要提高文本信息分类的准确性。

发明内容

基于此，本说明书实施例提供了文本信息的类别预测方法和装置、服务器。

根据本说明书实施例的第一方面，提供一种文本信息的类别预测方法，所述方法包括：

接收待处理文本信息；

分别采用预先训练的多个第一文本分类模型对所述待处理文本信息进行预测，获取各个第一文本分类模型输出的第一预测类别；其中，各个第一文本分类模型中的至少一者为欠拟合模型；

根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别。

根据本说明书实施例的第二方面，提供一种文本信息的类别预测装置，所述装置包括：

接收模块，用于接收待处理文本信息；

第一预测模块，用于分别采用预先训练的多个第一文本分类模型对所述待处理文本信息进行预测，获取各个第一文本分类模型输出的第一预测类别；其中，各个第一文本分类模型中的至少一者为欠拟合模型；

第二预测模块，用于根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别。

根据本说明书实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本说明书实施例的四方面，提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

应用本说明书实施例方案，通过采用多个第一文本分类模型对待处理文本信息进行预测，再融合各个第一文本分类模型输出的第一预测类别，以获取所述待处理文本信息的真实类别。由于各个第一文本分类模型中的至少一者为欠拟合模型，因此，通过包含欠拟合模型的多个第一文本分类模型来代替原有的单个文本分类模型，使得欠拟合模型能够对最终的预测结果进行约束，提高了模型的泛化能力，从而提高了分类结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书一实施例的文本信息的类别预测方法流程图。

图2是本说明书一实施例的多模型预测结果融合的示意图。

图3是本说明书一实施例的模型训练和验证过程的示意图。

图4是本说明书一实施例的文本信息的类别预测装置的框图。

图5是本说明书一实施例的用于实施本说明书实施例方法的计算机设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书实施例中采用的各个术语的含义如下：

深度学习：通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

模型训练：在监督学习或者非监督学习中，给定训练文本信息和模型假设空间，就可以构建出优化问题，也即如何确定参数，使得优化目标最优化。

训练集、验证集、测试集：在文本分类模型中，将数据分为三部分，分别做模型训练、对训练出的模型进行验证，以及采用经过验证的模型进行数据预测。

欠拟合：训练出的文本分类模型拟合的函数与训练集之间的误差较大。

过拟合：训练出的文本分类模型拟合的函数完美地匹配训练集中的数据，但泛化能力不足。即在训练文本信息上表现过分好，而在其他数据上表现不好。

学习率：在模型训练过程中，每次迭代时调整模型参数的步长。

如图1所示，本说明书实施例提供一种文本信息的类别预测方法，所述方法可包括：

步骤S102：接收待处理文本信息；

步骤S104：分别采用预先训练的多个第一文本分类模型对所述待处理文本信息进行预测，获取各个第一文本分类模型输出的第一预测类别；其中，各个第一文本分类模型中的至少一者为欠拟合模型；

步骤S106：根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别。

本说明书实施例中的各步骤可由位于服务器端的智能机器人客服来执行。对于步骤S102，所述待处理文本信息可以由用户通过客户端发送给智能机器人客服。用户可以在客户端上输入待处理文本信息，客户端可以将该待处理文本信息发送给智能机器人客服。其中，客户端可以是安装在智能手机、平板电脑或者台式电脑等电子设备上的应用程序。例如，可以是淘宝、网商银行或者支付宝等应用程序。用户在所述客户端上输入的待处理文本信息可以是与账户操作相关的文本信息，例如：“如何注册账户”或者“如何为账户绑定手机号”等；也可以是与订单相关的文本信息，例如：“如何取消订单”或者“取消订单退款处理时效是多久”等；还可以是其他类型的待处理文本信息。

在一些实施例中，用户还可以向所述客户端发送其他格式的信息，所述其他格式是文本以外的格式。所述客户端在接收到所述其他格式的信息之后，可以从中提取出待处理文本信息，然后发送给智能机器人客服。例如，当所述其他格式为图片格式时，可以通过OCR(Optical Character Recognition，光学字符识别)技术从图片中识别出待处理文本信息。进一步地，对于接收到或者提取出的待处理文本信息，还可以从所述待处理文本信息中过滤掉停用词，然后将过滤后的待处理文本信息发送给智能机器人客服。

对于步骤S104，可以采用多个欠拟合的第一文本分类模型对待处理文本信息的类别进行预测。各个第一文本分类模型中的至少一者为欠拟合模型，通过包含欠拟合模型的多个第一文本分类模型来代替原有的单个文本分类模型，使得欠拟合模型能够对最终的预测结果进行约束，提高了模型的泛化能力，从而提高了分类结果的准确性。

欠拟合的第一文本分类模型可以是规模比较小的模型，这里的规模可以指模型参数的数量或者模型的层数，也可以指模型的其他特征。“小”是相对于过拟合模型而言的，例如，某个第一文本分类模型的模型参数的数量比过拟合模型少，或者某个第一文本分类模型的模型层数比过拟合模型少，表示该第一文本分类模型是比过拟合模型规模小的文本分类模型。在实际应用中，欠拟合的第一文本分类模型的规模可以比过拟合模型的规模小至少一个量级。例如，欠拟合的第一文本分类模型的模型参数的数量比过拟合模型少至少一个量级，或者欠拟合的第一文本分类模型的模型层数比过拟合模型少至少一个量级。

各个第一文本分类模型均可以是各种类别的文本分类模型，例如，神经网络模型、决策树模型、贝叶斯分类器等，本公开对此不做限定。所述多个第一文本分类模型的类别可以相同，也可以部分相同，或者各不相同，本公开对此不做限定。

欠拟合的第一文本分类模型从第一训练文本信息中提取特征的能力比过拟合模型要弱。过拟合模型可能将训练样本自身的一些特性当作了所有潜在样本会具有的一般性质，从而引起过拟合。在一些实施例中，各个第一文本分类模型均为欠拟合模型。通过多个特征提取能力较弱的第一文本分类模型来代替单个模型进行数据预测，能够有效避免训练过程中将训练文本信息本身的特性误认为所有潜在样本会具有的一般性质，提高了模型的泛化能力，从而提高了分类结果的准确性。进一步地，各个第一文本分类模型均为欠拟合的深度学习模型。由于深度学习模型的模型参数和模型层数均较多，比较容易发生过拟合现象。因此，通过多个欠拟合的深度学习模型来代替单个深度学习模型，能够提高深度学习模型的泛化能力，从而提高采用深度学习模型进行分类的分类准确性。

第一文本分类模型的数量可以预先设置，例如，设置为5个，10个或者其他数量，第一文本分类模型的数量越多，分类结果越准确，但分类过程占用的资源越多，时延也越大。因此，可以根据预设的准确度约束条件和时延约束条件设置第一文本分类模型的数量。

对于步骤S106，可以对各个第一文本分类模型输出的第一预测类别进行融合，以得到所述待处理文本信息的真实类别。

在一些实施例中，根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别的步骤包括：对各个第一文本分类模型输出的第一预测类别进行加权平均，得到所述待处理文本信息的真实类别。

例如，假设存在M个第一文本分类模型，并假设所述第一预测类别为所述待处理文本信息属于某个类别A的概率值，各个第一文本分类模型输出的概率值分别为P1,P2,…,PM，各个第一文本分类模型对应的权重分别为r1,r2,…,rM。则所述待处理文本信息属于所述类别A的概率值可记为：

其中，r1,r2,…,rM的值可以根据各个第一文本分类模型提取特征的能力来设置。提取特征的能力越高，可将权重设置得越小，反之，提取特征的能力越低，可将权重设置得越大。在各个第一文本分类模型均为欠拟合模型的情况下，r1,r2,…,rM的值可以全部取1，即，对各个第一文本分类模型输出的第一预测类别取平均值，以得到所述真实类别。

应当说明的是，所述概率值也可以采用分值来代替，所述待处理文本信息属于所述类别A的分值越高，则表示所述待处理文本信息属于所述类别A的概率越大。

在另一些实施例中，根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别的步骤包括：将满足预设条件的目标第一预测类别作为所述真实类别，所述预设条件为：输出所述目标第一预测类别的第一文本分类模型的数量大于输出其他第一预测类别的第一文本分类模型的数量。

例如，对于某个分类问题，假设共采用10个第一文本分类模型，其中4个第一文本分类模型的输出的第一预测类别为类别A，3个第一文本分类模型输出的第一预测类别为类别B，3个第一文本分类模型输出的第一预测类别为类别C。由于输出类别A的第一文本分类模型的数量最多，因此，将类别A作为所述真实类别。

进一步地，所述数量也可以是加权后的数量，权重可根据各个第一文本分类模型提取特征的能力来设置。提取特征的能力越高，可将权重设置得越小，反之，提取特征的能力越低，可将权重设置得越大。在各个第一文本分类模型均为欠拟合模型的情况下，各个第一文本分类模型对应的权重均设为1。

还可以采用其他方式对各个第一预测类别进行融合，本说明书实施例对此不做限制。当各个第一文本分类模型均为欠拟合模型时，多模型预测结果融合的示意图如图2所示。

在一些实施例中，所述方法还包括：分别采用各个第一文本分类模型对应的训练文本信息对所述第一文本分类模型进行训练。在本实施例中，各个对第一文本分类模型进行训练的训练文本信息可以相同，也可以不同，本说明书对此不做限制。

在训练各个第一文本分类模型的过程中，可以获取所述训练文本信息的真实类别的ID号，所述ID号用于唯一标识所述训练文本信息的各个真实类别，可以将所述训练文本信息的真实类别在类别数据库中的序号作为所述ID号。还可以将所述训练文本信息转换为向量，例如，可采用word2vec技术将所述训练文本信息转换为向量，当然，也可以采用其他方式进行转换，本说明书对此不做限制。然后，将所述向量作为所述第一文本分类模型的输入，将所述ID号作为所述第一文本分类模型的输出，训练所述第一文本分类模型。

在一些实施例中，在分别采用各个第一文本分类模型对应的训练文本信息对所述第一文本分类模型进行训练之后，所述方法还包括：将所述第一文本分类模型对应的验证文本信息输入所述第一文本分类模型，以获取所述第一文本分类模型输出的第二预测类别；判断所述第二预测类别对应的损失函数是否满足训练终止条件；若满足，终止对所述第一文本分类模型进行训练。一个实施例的模型训练和验证过程的示意图如图3所示。

在本实施例中，通过多次迭代，最终获得满足训练终止条件的第一文本分类模型。在一些实施例中，所述训练终止条件用于限制训练出的第一文本分类模型为欠拟合模型。具体来说，所述训练终止条件为：所述第二预测类别对应的损失函数达到所述第一预测类别对应的损失函数的K倍，K为大于1的常数。通过设置较大的损失函数，可以保证训练出的第一文本分类模型为欠拟合模型。当所述第一文本分类模型中包括多个欠拟合模型时，各个欠拟合的第一文本分类模型可分别在训练过程中均可采用上述训练终止条件进行限制。

例如，对于第i个第一文本分类模型，假设该第一文本分类模型为欠拟合模型，再假设第一文本分类模型输出的第一预测类别为训练文本信息所属的类别，训练集中的K1条训练文本信息对应的第一预测类别与该训练文本信息的真实类别不同，验证集中的K2条验证文本信息对应的第二预测类别与该训练文本信息的真实类别不同。定义如下损失函数：若所述预测结果与所述训练文本信息的真实类别相同，损失函数为0，若所述预测结果与所述训练文本信息的真实类别不同，损失函数为1。则第一预测类别对应的损失函数为K1，第二预测类别对应的损失函数为K2。当满足K2/K1＝K时，停止训练第i个第一文本分类模型，否则，继续训练。以上实施例仅为举例说明，并非对本说明书的限制。本说明书实施例中还可以采用其他方式确定损失函数，此处不再赘述。

在一些实施例中，对所述第一文本分类模型进行训练时采用的学习率大于预设的学习率阈值。通过设置较大的学习率，可以防止训练出的第一文本分类模型过拟合。

如图4所示，是本说明书一个实施例的文本信息的类别预测装置，所述装置包括：

接收模块402，用于接收待处理文本信息；

第一预测模块404，用于分别采用预先训练的多个第一文本分类模型对所述待处理文本信息进行预测，获取各个第一文本分类模型输出的第一预测类别；其中，各个第一文本分类模型中的至少一者为欠拟合模型；

第二预测模块406，用于根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别。

上述文本信息的类别预测装置中各个模块的功能和作用的实现过程具体详情见上述文本信息的类别预测方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本说明书装置所在计算机设备的一种硬件结构图，除了图5所示的处理器502、内存504、网络接口506、以及非易失性存储器508之外，实施例中装置所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

相应地，本说明书实施例还提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种文本信息的类别预测方法，所述方法包括：

接收待处理文本信息；

根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别；

第一文本分类模型基于以下方式训练得到：

在分别采用各个第一文本分类模型对应的训练文本信息对所述第一文本分类模型进行训练之后，将所述第一文本分类模型对应的验证文本信息输入所述第一文本分类模型，以获取所述第一文本分类模型输出的第二预测类别；

若所述第二预测类别对应的损失函数达到所述第一预测类别对应的损失函数的K倍，K为大于1的常数，终止对所述第一文本分类模型的训练。

2.根据权利要求1所述的方法，根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别的步骤包括：

对各个第一文本分类模型输出的第一预测类别进行加权平均，得到所述待处理文本信息的真实类别；或者

将满足预设条件的目标第一预测类别作为所述真实类别，所述预设条件为：输出所述目标第一预测类别的第一文本分类模型的数量大于输出其他第一预测类别的第一文本分类模型的数量。

3.根据权利要求1所述的方法，对所述第一文本分类模型进行训练时采用的学习率大于预设的学习率阈值。

4.根据权利要求1至3任意一项所述的方法，各个第一文本分类模型均为欠拟合的深度学习模型。

5.一种文本信息的类别预测装置，所述装置包括：

接收模块，用于接收待处理文本信息；

第二预测模块，用于根据各个第一文本分类模型输出的第一预测类别获取所述待处理文本信息的真实类别；

第一文本分类模型基于以下模块训练得到：

输入模块，用于在分别采用各个第一文本分类模型对应的训练文本信息对所述第一文本分类模型进行训练之后，将所述第一文本分类模型对应的验证文本信息输入所述第一文本分类模型，以获取所述第一文本分类模型输出的第二预测类别；

训练模块，用于若所述第二预测类别对应的损失函数达到所述第一预测类别对应的损失函数的K倍，K为大于1的常数，终止对所述第一文本分类模型的训练。

6.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至4任意一项所述的方法。

7.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至4任意一项所述的方法。