CN111949768B

CN111949768B - 一种文件分类方法

Info

Publication number: CN111949768B
Application number: CN202010853262.8A
Authority: CN
Inventors: 丘德来
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-08-23
Filing date: 2020-08-23
Publication date: 2024-02-02
Anticipated expiration: 2040-08-23
Also published as: CN111949768A

Abstract

本发明提供了一种文本分类方法，所述方法包括：基于词序列信息的编码表示生成句子表示；使用知识和句子类别表示作为输入，生成与问句的关系得分；基于所述关系得分，生成外部知识表示和检索相关的知识。本方法通过引入外部知识的方式，生成每个类别的任务相关得分，结合任务无关得分，提升了文本分类在少样本场景下的性能。

Description

一种文件分类方法

技术领域

本发明书一个或多个实施例涉及自然语言处理技术领域，尤其涉及一种文件分类方法。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网和经济的不断发展，在很多场景下，都涉及到文本分类，文本分类是一种典型的自然语言处理任务，现有的文本分类方法如下：首先标注大量的样本，一个篇章对应一个类别，接着，构建神经网络模型在标注数据上进行训练，最后预测每个样本所属的类别。

上述技术存在以下问题：

现有的深度学习为基础的文本分类模型通常严重依赖大量的标注样本，当标注样本稀缺时，模型往往难以达到令人满意的性能。

发明内容

有鉴于此，本说明书一个或多个实施例描述了一种文本分类方法，可解决少样本场景下文本分类的性能不足的问题。

本说明书一个或多个实施例提供的技术方案如下：

为解决上述问题，本发明提供了一种分别分类方法，该方法包括：

基于词序列信息的编码表示生成句子表示；

使用知识和句子类别表示作为输入，生成与问句的关系得分；

基于所述关系得分，生成外部知识表示和检索相关的知识。

在一种可能的实现方式中，所述基于词序列信息的编码表示生成句子表示，具体为：

将预处理好的词序列信息输入神经网络编码器，编码器将词序列信息进行编码，得到输入词序列信息的编码表示，基于词序列信息的编码表示生成句子表示。

在一种可能的实现方式中，所述将预处理好的词序列信息输入神经网络编码器，编码器将词序列信息进行编码，得到输入词序列信息的编码表示，基于词序列信息的编码表示生成句子表示，具体为：

给定输入文本，使用预训练语言模型作为编码器生成表示，并使用与训练语言模型的cls位置的输出作为句子的初始表示；其中，cls为预训练语言模型中的特殊标识，表示分类含义。

在一种可能的实现方式中，还需要生成每个类别的表示，所述表示为每个类别下的句子表示的平均值：

其中，S_z表示训练集中属于z类的样本集合；h(x_i)为句子的初始表示；训练集为X＝{x₁,x₂,…,x_m}，有m个文本，x_i为第i个文本。

在一种可能的实现方式中，所述使用知识和句子类别表示作为输入，生成与问句的关系得分，具体为：

获得任务无关的关系得分；

获得任务相关的关系得分；

合并所述任务无关的关系得分和所述任务相关的关系得分，获得该查询属于类别z的得分。

在一种可能的实现方式中，通过如下公式获得任务无关的关系得分：

其中，z＝1,2,…,C，C为训练集中的类别总数；RN是一个小型的神经网络；p_z,j是问句属于类别z的概率；θ是待学习参数；agn表示任务无关。

在一种可能的实现方式中，所述获得任务相关的关系得分，具体为：

生成一个类别集合的知识表示，从知识库中抽取相关的知识概念集K(S)，每条知识被嵌入到向量e中，通过下述公式生成类别的知识表示：

生成任务相关的网络参数，并基于所述网络参数生成任务相关的关系得分。

在一种可能的实现方式中，通过如下公式生成任务相关的关系得分：

其中，θ^rel＝M·k_S为网络参数；M为可学习参数；RN是一个小型的神经网络；p_z,j是问句属于类别z的概率；θ是待学习参数；rel表示任务相关。

在一种可能的实现方式中，所述合并所述任务无关的关系得分和所述任务相关的关系得分，获得该查询属于类别z的得分，具体的，通过如下公式进行：

其中，r_z,j是问句属于类别z的得分；为任务相关的关系得分；/>为任务无关的关系得分。

在一种可能的实现方式中，基于所述关系得分，生成外部知识表示和检索相关的知识，具体为：

给定三元组，并使用双线性模型生成知识三元组的表示；其中，所述三元组为实体、实体关系及尾实体；

从给定的篇章中识别实体部分，然后通过字符串匹配的方式匹配知识库中的实体，收集候选的尾实体，通过检索相关的知识库三元组，获得每个类别的样本的相关知识概念的集合。

本方法通过引入外部知识的方式，生成每个类别的任务相关得分，结合任务无关得分，即在属于某一类的标注样本较少时，该方法能通过基于知识指导的度量网络，更好的将未标注的样本标注到该类别，提升了文本分类在少样本场景下的性能。

附图说明

图1为本发明实施例提供的文本分类方法流程示意图；

图2为本发明实施例提供的生成与问句的关系得分流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供了一种利用知识指导的基于度量学***台、设备集群。如图1所示，所述方法包括以下步骤：

步骤10，基于词序列信息的编码表示生成句子表示。

将预处理好的词序列信息输入神经网络编码器，编码器将词序列信息进行编码，得到输入词序列信息的编码表示，基于词序列信息的编码表示生成句子表示。具体为：

给定输入文本x_i＝[cls,w₁,w₂…w_t,sep]，使用预训练语言模型作为编码器生成表示，并使用与训练语言模型的cls位置的输出作为句子的初始表示，设为h(x_i)；其中，cls和sep为预训练语言模型中的特殊标识，cls表示分类含义，sep表示区分两个文本片段。

此外，还需要生成每个类别的表示，所述表示为每个类别下的句子表示的平均值：

步骤20，使用知识和句子类别表示作为输入，生成与问句的关系得分。

知识指导的关系模块，该模块使用知识和类别表示作为输入，生成一个与问句的关系得分。假设输入问句是x_j。

具体的，图2为本发明实施例提供的生成与问句的关系得分流程示意图如图2所示，该步骤包括：

步骤201，获得任务无关的关系得分。

通过如下公式获得任务无关的关系得分：

步骤202，获得任务相关的关系得分。

具体的，生成一个类别集合的知识表示，从知识库中抽取相关的知识概念集K(S)，每条知识被嵌入到向量e中，通过下述公式生成类别的知识表示：

具体的，通过如下公式生成任务相关的关系得分：

步骤203，合并所述任务无关的关系得分和所述任务相关的关系得分，获得该查询属于类别z的得分。

具体的，通过如下公式进行：

步骤30，基于所述关系得分，生成外部知识表示和检索相关的知识。

在知识嵌入和检索模块，我们使用该模型生成外部知识的标识和检索相关的知识，具体为:

知识嵌入：给定三元组，并使用双线性模型生成知识三元组的表示；其中，所述三元组为(s,r,o)，其中s为实体、r表示实体关系及o表示尾实体；

知识检索：为了抽取从知识库中抽取知识，先从给定的篇章中识别实体部分，然后通过字符串匹配的方式匹配知识库中的s，收集候选的o，通过检索相关的知识库三元组，获得每个类别的样本的相关知识概念的集合。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

基于词序列信息的编码表示生成句子表示；

基于所述关系得分，生成外部知识表示和检索相关的知识；

其中，还需要生成每个类别的表示，所述表示为每个类别下的句子表示的平均值：

其中，S_z表示训练集中属于z类的样本集合；h(x_i)为句子的初始表示；训练集为X＝{x₁,x₂,…,x_m}，有m个样本，x_i为第i个文本；

其中，所述使用知识和句子类别表示作为输入，生成与问句的关系得分，具体为：

获得任务无关的关系得分；

获得任务相关的关系得分；

合并所述任务无关的关系得分和所述任务相关的关系得分，获得该问句属于类别z的得分；

其中，通过如下公式获得任务无关的关系得分：

其中，z＝1,2,…,C，C为训练集中的类别总数；RN是一个小型的神经网络；p_z,j是问句属于类别z的概率；θ是待学习参数；agn表示任务无关；

其中，所述获得任务相关的关系得分，具体为：

生成任务相关的网络参数，并基于所述网络参数生成任务相关的关系得分；

其中，通过如下公式生成任务相关的关系得分：

其中，θ^rel＝M·k_S为网络参数；M为可学习参数；RN是一个小型的神经网络；p_z，j是问句属于类别z的概率；θ是待学习参数；rel表示任务相关；

其中，所述合并所述任务无关的关系得分和所述任务相关的关系得分，获得该问句属于类别z的得分，具体的，通过如下公式进行：

其中，r_z，j是问句属于类别z的得分；为任务相关的关系得分；/>为任务无关的关系得分。

2.根据权利要求1所述的方法，其特征在于，所述基于词序列信息的编码表示生成句子表示，具体为：

3.根据权利要求2所述的方法，其特征在于，所述将预处理好的词序列信息输入神经网络编码器，编码器将词序列信息进行编码，得到输入词序列信息的编码表示，基于词序列信息的编码表示生成句子表示，具体为：

4.根据权利要求1所述的方法，其特征在于，基于所述关系得分，生成外部知识表示和检索相关的知识，具体为：