CN108090099A

CN108090099A - 一种文本处理方法及装置

Info

Publication number: CN108090099A
Application number: CN201611045925.3A
Authority: CN
Inventors: 王栋; 宋巍; 付瑞吉; 王士进; 胡国平; 秦兵; 刘挺
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2018-05-29
Anticipated expiration: 2036-11-22
Also published as: CN108090099B

Abstract

本发明实施例提供了一种文本处理方法及装置，其中方法包括：获取待处理文本数据；根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别，其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类，所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类；根据所获取的两个所述候选类别确定所述文本数据的类别。在本发明实施例中，从标题+全文以及指定句子两种角度对待分类文本进行分类，得到两个候选类别，在此基础上最终确定文本的类别，这样有效地提高了文本分类的效率，同时也提高了文本分类的准确性，降低了人的主观性对分类结果的影响。

Description

一种文本处理方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本处理方法及装置。

背景技术

随着信息技术的发展，人们所面对的文本信息量也呈爆发式增长，有关文本信息的处理技术也在不断进化。以教育领域为例，当前自动阅卷技术开始崭露头角，越来越多的学校或教育机构开始采用自动阅卷技术对学生的试卷进行自动批阅。很多试卷中包含作文，不过作文作为主观性较强的试题，机器很难直接给出作文的得分。

发明人在实现本发明的过程中发现，在批改作文时，是否跑题是评分的主要关注点之一，因此对于作文的自动阅卷，评分之前先判断出学生作文的类别很关键，而且不同类别的作文往往对应不同的评阅标准，因此可以说确定学生作文的类别是作文自动阅卷的基础。在现有技术中，当需要对文章等文本进行分类时，一般采用的是人工方法，即由相关人员查看文章的内容后，给出文章的类别(如说明文、议论文等)，例如学生写的作文，一般是需要老师查看作文内容后，给出每篇作文的文章类别。然而当文本数量较多时，人工工作量很大，分类效率很低，并且不同人对文本的理解可能会有偏差，对文本类别的标注存在主观性。

发明内容

本发明提供一种文本处理方法及装置，以提高文本分类的效率。

根据本发明实施例的第一方面，提供一种文本处理方法，所述方法包括：

获取待处理文本数据；

根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别，其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类，所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类；

根据所获取的两个所述候选类别确定所述文本数据的类别。

可选的，所述第一文本分类模型为预先通过训练得到的神经网络模型；

所述根据第一文本分类模型获取所述文本数据的一个候选类别，包括：

获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵；

将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入；

根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

可选的，所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵，包括：

获取所述标题及每个句子所包含的每个词的词向量；

将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵；

将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。

可选的，所述第一文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

所述句子编码层，用于对标题的语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征；

所述篇章编码层，用于以所述句子编码层输出的句子级编码特征作为输入，从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征；

所述注意力层，用于以所述篇章编码层输出的篇章级编码特征作为输入，根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重；

所述加权求和层，用于以所述注意力层输出的每个句子的重要度权重及每个句子相应的篇章级编码特征作为输入，计算得到所述文本数据的语义矩阵，其中所述文本数据的语义矩阵为每个句子的重要度权重与相应的篇章级编码特征乘积之和；

所述输出层，用于以所述加权求和层输出的所述文本数据的语义矩阵作为输入，输出为所述文本数据属于每个预设类别的概率。

可选的，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，包括：

根据每个句子的篇章级编码特征与注意力层的注意力向量，计算每个句子的注意力值；

计算每个句子的篇章级编码特征与所述标题的篇章级编码特征相似度，以作为每个句子的主线权重；

根据每个句子的注意力值和主线权重，计算得到每个句子的重要度权重。

可选的，所述根据第二文本分类模型获取所述文本数据的一个候选类别，包括：

根据预设规则从所述文本数据所包含的句子中获取指定句子；

提取每个所述指定句子的文本分类特征，其中所述文本分类特征至少包括以下一种特征：用于描述当前句子自身特性的句子级文本分类特征，用于从整篇文本角度描述当前句子的特性的篇章级文本分类特征，用于从当前句子的上下文角度描述当前句子的特性的句子上下文文本分类特征；

将所有指定句子的文本分类特征作为所述第二文本分类模型的输入，根据所述第二文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

可选的，所述根据预设规则从所述文本数据所包含的句子中获取指定句子，包括：

获取每个句子的重要度权重；

对所有句子的重要度权重进行归一化和标准化；

根据每个句子归一化和标准化处理后的重要度权重与预设阈值的关系，从所有句子中筛选出重点句子以作为所述指定句子。

可选的，所述句子级文本分类特征包括以下特征中的至少一种：

句子长度，句子结尾标点，句子中情感词出现次数，句子中特征词出现次数；

所述篇章级文本分类特征包括以下特征中的至少一种：

句子在文本中的段标号，句子是否出现在文本首段，句子是否出现在文本尾段，句子在其所在段中的句标号，句子是否是其所在段的首句，句子是否是其所在段的尾句，句子所在段的句子总数，句子所在段的平均句子长度；

所述句子上下文文本分类特征包括以下特征中的至少一种：

当前句之前一句或多句的句子级文本分类特征及篇章级文本分类特征，当前句之后的一句或多句的句子级文本分类特征及篇章级文本分类特征。

根据本发明实施例的第二方面，提供一种文本处理装置，所述装置包括：

文本获取单元，用于获取待处理文本数据；

第一文本分类单元，用于根据第一文本分类模型获取所述文本数据的一个候选类别，其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类；

第二文本分类单元，用于根据第二文本分类模型获取所述文本数据的一个候选类别，其中所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类；

分类确定单元，用于根据所获取的两个所述候选类别确定所述文本数据的类别。

所述第一文本分类单元包括：

语义矩阵获取子单元，用于获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵；

输入子单元，用于将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入；

输出子单元，用于根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

可选的，所述语义矩阵获取子单元用于：

获取所述标题及每个句子所包含的每个词的词向量；

可选的，所述第二文本分类单元包括：

指定句子获取子单元，用于根据预设规则从所述文本数据所包含的句子中获取指定句子；

分类特征提取子单元，用于提取每个所述指定句子的文本分类特征，其中所述文本分类特征至少包括以下一种特征：用于描述当前句子自身特性的句子级文本分类特征，用于从整篇文本角度描述当前句子的特性的篇章级文本分类特征，用于从当前句子的上下文角度描述当前句子的特性的句子上下文文本分类特征；

输入输出子单元，用于将所有指定句子的文本分类特征作为所述第二文本分类模型的输入，根据所述第二文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

可选的，所述指定句子获取子单元用于：

获取每个句子的重要度权重；

对所有句子的重要度权重进行归一化和标准化；

所述篇章级文本分类特征包括以下特征中的至少一种：

所述句子上下文文本分类特征包括以下特征中的至少一种：

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明实施例中，从两个角度同时入手对待分类文本进行分析，即，使用第一文本分类模型从标题+全文这种篇章角度，以及使用第二文本分类模型从文本中的指定句子这种句子角度对待分类文本进行分类，得到两个候选类别，再在此基础上最终确定文本的类别，这样有效地提高了文本分类的效率，同时也提高了文本分类的准确性，降低了人的主观性对分类结果的影响。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。此外，这些介绍并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明一示例性实施例示出的一种文本处理方法的流程图；

图2是根据本发明一示例性实施例示出的一种文本处理方法的流程图；

图3是根据本发明一示例性实施例示出的第一文本分类模型的结构示意图；

图4是根据本发明一示例性实施例示出的一种文本处理方法的流程图；

图5是根据本发明一示例性实施例示出的一种文本处理装置的示意图；

图6是根据本发明一示例性实施例示出的一种文本处理装置的示意图；

图7是根据本发明一示例性实施例示出的一种文本处理装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明一示例性实施例示出的一种文本处理方法的流程图。作为示例该方法可用于手机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。

参见图1所示，该方法可以包括如下步骤：

步骤S101，获取待处理文本数据。

对于待处理文本数据的具体形态本实施例并不进行限制，例如可以是一篇文章(如学生作文)等。

可以预先设定一个或多个类别作为预设类别，例如以语文作文为例，根据表达方式的不同，预设类别分为说明文类别、议论文类别、记叙文类别，等等。本实施例的目的即确定待处理文本数据属于哪个或哪些预设类别。

步骤S102，根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别，其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类，所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类。

为了提高文本分类的准确性，在本实施例中从两个角度同时入手对文本进行分析，即，使用第一文本分类模型从标题+全文这种篇章角度，以及使用第二文本分类模型从文中的指定句子这种句子角度，对待分类文本进行分类，从而得到两个候选类别，再在此基础上最终确定文本的类别。

对于文本中的指定句子具体是指哪些句子，本实施例并不进行限制，例如指定句子可以是文本中的重点句子，等等。对于指定句子的定义本领域技术人员可以根据不同需求\不同场景而自行选择、设计，可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。

作为示例，所述第一、第二文本分类模型可以均为预先通过训练得到的神经网络模型。当然对于神经网络模型的具体细节本实施例并不进行限制，本领域技术人员可以根据各种现有的神经网络模型进行设计、组合等。

神经网络模型一般可以通过训练得到。因此在本实施例或本发明其他某些实施例中，可以预先收集大量文本数据用于神经网络的训练。

作为示例，用于训练的文本数据可以通过网络收集，也可以收集用户所写的文本被图像识别后得到的相应文本作为文本数据。例如所收集的文本为语文作文时，可以通过收集学生考试时写的作文试卷，进行图像识别后得到相应语文作文的文本数据，包括作文的标题和作文的内容。

对于所收集的大量文本一般会带有或被赋予相应的文本类别标签，所述文本的类别可以根据应用需求确定，如文本为语文作文时可以设定为说明文、议论文、记叙文等。所述文本类别可以使用不同符号表示，如对于语文作文，可以使用1表示说明文，2表示议论文，3表示记叙文，当然也可以采用其它方法表示，本发明实施例不作限制。

步骤S103，根据所获取的两个所述候选类别确定所述文本数据的类别。

例如，两个文本分类模型均可以输出当前文本数据所属的类别的概率，在此基础上可以最终确定当前文本数据应该属于哪个类别。

具体来讲，当得到的两个候选类别不相同时，可以直接选择概率值较大的候选类别作为待分类文本的最终类别。例如第一文本分类模型的输出是“记叙文80％”，第二文本分类模型的输出是“议论文70％”，也即第一文本分类模型认为当前文本有80％的概率属于记叙文这一类别，而第二文本分类模型则认为当前文本有70％的概率属于议论文，则可以选择概率较大者作为最终确定的当前文本的类别。或者，当得到的两个候选类别不相同时，也可以将待分类文本标记为未确定类别，后续由人工确定待分类文本的最终类别，等等。

在本实施例中，从两个角度同时入手对待分类文本进行分析，即，使用第一文本分类模型从标题+全文这种篇章角度，以及使用第二文本分类模型从文本中的指定句子这种句子角度对待分类文本进行分类，得到两个候选类别，再在此基础上最终确定文本的类别，这样有效地提高了文本分类的效率，同时也提高了文本分类的准确性，降低了人的主观性对分类结果的影响。

参见图2所示，在本实施例或本发明其他某些实施例中，所述根据第一文本分类模型获取所述文本数据的一个候选类别，可以包括：

步骤S201，获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵。

对于文本数据来讲，例如一篇作文，通常会有一个标题，可以获取该标题的语义矩阵。对于文本数据的内容，通常也由多个句子组成，对于每个句子，也可以获取到该句子的语义矩阵。对于语义矩阵的具体内容本实施例并不进行限制，例如语义矩阵通常可以由词向量组成。

作为示例，所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵，可以包括：

1)获取所述标题及每个句子所包含的每个词的词向量。

例如可以对标题及句子进行分词，并获取相应词向量，所述分词方法可以使用如基于条件随机场等方法，而将分词后的每个词语转换为词向量时，例如可以使用word2vec技术得到每个词语的词向量，对此本实施例不再赘述。

2)将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵。

3)将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。

可以将文本标题所包含的词的词向量作为标题语义矩阵的每行，得到标题语义矩阵，其大小为kt×m，其中kt表示标题包含的词总数，m表示每个词向量的维数。

可以将文本中每个句子包含的词的词向量作为每个句子语义矩阵的每行，得到文本中每个句子的语义矩阵，其中每个句子的语义矩阵大小为k_c×m，k_c表示当前文本中第c个句子包含的词数。

此外，当文本标题与文本中句子包含不同数量的词时，或文本中每个句子包含不同数量的词时，可以对文本标题的语义矩阵和\或文本中每个句子的语义矩阵进行规整，以使各语义矩阵规整为大小相同的矩阵。当然，也可以不进行规整，对此本实施例并不进行限制。

步骤S202，将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入。

步骤S203，根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

下面对第一文本分类模型的具体结构进行举例说明。

以文本数据为作文为例，参见图3所示，第一文本分类模型至少可以包括句子编码层、篇章编码层、注意力层、加权求和层、输出层。

a)所述句子编码层，用于对标题的语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征。

可将当前文本标题的语义矩阵及文本中每个句子的语义矩阵作为输入(或者说是作为输入层)，可使用X＝{T,C₁,C₂,...C_n}表示，其中T表示标题语义矩阵，C₁,C₂,...C_n分别为当前文本中各个句子的语义矩阵，n为当前文本包含的句子总数。

句子编码层中可以包括句子级编码器，用于对当前文本的标题及文本中每个句子进行句子级编码，得到编码后的句子级编码特征。句子级编码特征可使用S＝{st,s₁,s₂,...,s_n}表示，其中st表示对文本标题的语义矩阵进行句子编码后得到的标题的句子级编码特征，s_n表示对第n个句子的语义矩阵进行句子级编码后得到该句子的句子级编码特征，st和s₁,s₂,...s_n为维度相同的向量，具体的向量维度大小可以根据应用需求或实验结果确定。作为示例，句子编码层可以采用卷积神经网络、循环或递归神经网络等结构来实现。

b)所述篇章编码层，用于以所述句子编码层输出的句子级编码特征作为输入，从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征。

篇章编码层的输入为句子编码层的输出。篇章编码层的输出为篇章级编码特征，可使用H＝{ht,h₁,h₂,...,h_n}表示，其中，ht表示对文本标题的句子级编码特征进行篇章级编码后得到的篇章级编码特征，h_n表示对第n个句子的句子级编码特征进行篇章级编码后得到的篇章级编码特征。ht和h₁,h₁,...h_n均为维度相同的向量，具体的向量维度大小可以根据应用需求或实验结果确定。所述篇章编码层可以采用双向循环神经网络(RNN)的结构，每个节点之间存在双向连接，从而能够将当前文本的标题及文本所有句子的信息都纳入考虑的范畴，进而能够实现篇章级的编码。具体编码过程不再赘述。

c)所述注意力(attention)层，用于以所述篇章编码层输出的篇章级编码特征作为输入，根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重。

重要度权重可使用P＝{p₁,p₂,...,p_n}来表示，其中p_j为当前文本第j个句子的重要度权重。

所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，可以包括：

c1)根据每个句子的篇章级编码特征与注意力层的注意力向量，计算每个句子的注意力值。

作为示例，具体计算时，可以直接将每个句子的篇章级编码特征与注意力层的注意力向量内积后得到的计算值作为当前文本中每个句子的注意力值，具体计算方法如下式所示：

a_j＝h_j·v^T

其中，a_j为当前文本第j个句子的注意力值，h_j为当前文本第j个句子的篇章级编码特征，v为与h_j维度相同的注意力向量，是模型参数，其初始值可以通过随机初始化得到，其最终取值可预先通过大量数据训练得到。

c2)计算每个句子的篇章级编码特征与所述标题的篇章级编码特征相似度，以作为每个句子的主线权重。

作为示例，具体计算时可以使用下式：

其中，t_j为当前文本第j个句子的主线权重。

c3)根据每个句子的注意力值和主线权重，计算得到每个句子的重要度权重。

作为示例，具体计算时，先计算每个句子的注意力值和主线权重的乘积，再对所述乘积进行归一化，将归一化后得到的计算值作为每个句子的重要度权重，如下式所示：

其中，p_j为当前文本第j个句子的重要度权重。

d)所述加权求和层，用于以所述注意力层输出的每个句子的重要度权重及每个句子相应的篇章级编码特征作为输入，计算得到所述文本数据的语义矩阵，其中所述文本数据的语义矩阵为每个句子的重要度权重与相应的篇章级编码特征乘积之和。

作为示例，具体计算时可以使用下式：

其中，A为所述文本数据的语义矩阵。

e)所述输出层，用于以所述加权求和层输出的所述文本数据的语义矩阵作为输入，输出为所述文本数据属于每个预设类别的概率。

得到了当前文本数据属于每个预设类别的概率，便可以进一步确定一个候选类别，例如可以将概率最大的预设类别作为一个候选类别。

对于输出层所采用的具体的神经网络结构本实施例并不进行限制，其模型参数可以通过预先训练得到，此处不再赘述。

一篇文本中往往包含一些重点句子，例如记叙文中的主线句、议论文中的主题句、说明文中对主体事物的陈述句，等等。发明人在实现本发明的过程中发现，根据这些重点句子也基本上可以确定一篇文本的类别。

作为示例，第二文本分类模型可以为模式识别中常用分类模型，例如支持向量机分类模型、贝叶斯分类模型、决策树分类模型及神经网络分类模型，等等。

参见图4所示，在本实施例或本发明其他某些实施例中，所述根据第二文本分类模型获取所述文本数据的一个候选类别，可以包括：

步骤S401，根据预设规则从所述文本数据所包含的句子中获取指定句子。

作为示例，指定句子可以是重点句子。例如可以计算文本中每句话的重要度权重，然后把重要度权重高于预设阈值的句子作为重点句子。对于如何计算每句话的重要度权重，本实施例并不进行限制，例如可以根据句子在文中的位置、句子自身的长度等来计算一个句子的重要度权重。本领域技术人员可以根据不同需求\不同场景而自行选择、设计，可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。

作为示例，所述根据预设规则从所述文本数据所包含的句子中获取指定句子，可以包括：

i)获取每个句子的重要度权重。

例如，可以通过上文中的注意力层来计算每个句子的重要度权重。当然本领域技术人员也可以根据其他方式进行计算，对此本实施例并不进行限制。

ii)对所有句子的重要度权重进行归一化和标准化。

作为示例，归一化具体可以使用下式：

其中，为当前文本中第j个句子归一化后的重要度权重，max(P)为当前文本中所有句子重要度权重的最大值。

再对当前文本中每个句子归一化后的重要度权重进行标准化，得到标准化后的句子重要度权重，具体方法可如下式所示：

其中，sp_j为当前文本中第j个句子标准化后的重要度权重，μ为当前文本中所有句子重要度权重归一化后的均值，σ为当前文本中所有句子重要度权重归一化后的标准差。

iii)根据每个句子归一化和标准化处理后的重要度权重与预设阈值的关系，从所有句子中筛选出重点句子以作为所述指定句子。

步骤S402，提取每个所述指定句子的文本分类特征，其中所述文本分类特征至少包括以下一种特征：用于描述当前句子自身特性的句子级文本分类特征，用于从整篇文本角度描述当前句子的特性的篇章级文本分类特征，用于从当前句子的上下文角度描述当前句子的特性的句子上下文文本分类特征。

①作为示例，所述句子级文本分类特征可以包括以下特征中的至少一种：

句子长度，句子结尾标点，句子中情感词出现次数，句子中特征词出现次数。

所述句子长度指当前句子的长度，可以使用句子包含的字数表示；

所述句子结尾标点指当前句子结束时在其所在文本中的标点符号，如逗号“，”，句号“。”等；

所述句子中的情感词数指当前句子包含的情感词数，所述情感词可以预先根据应用需求确定得到，提取时依次判定当前句子中每个词是否是情感词，得到当前句子中包含的情感词词数，也即情感词出现次数；

所述句子中特征词出现的次数指当前句子中包含的特征词在当前句子中出现的次数，具体提取时，需要先找到当前句子中包含的特征词，然后统计每个特征词在当前句子中出现的次数，所述特征词可以根据所有文本的重点句子中包含的词或词组计算得到，例如具体计算时可以计算词或词组对文本分类时的信息增益或互信息得到，如信息增益或互信息大于阈值的词或词组作为特征词，该阈值可以根据应用需求确定，如果当前句子中不包含特征词，则特征词出现的次数为0。

②作为示例，所述篇章级文本分类特征可以包括以下特征中的至少一种：

句子在文本中的段标号，句子是否出现在文本首段，句子是否出现在文本尾段，句子在其所在段中的句标号，句子是否是其所在段的首句，句子是否是其所在段的尾句，句子所在段的句子总数，句子所在段的平均句子长度。

其中段标号可以是当前段落在所有段落中的顺序号，句标号可以是当前句在当前段所有句子中的顺序号。

③作为示例，所述句子上下文文本分类特征包括以下特征中的至少一种：

步骤S403，将所有指定句子的文本分类特征作为所述第二文本分类模型的输入，根据所述第二文本分类模型所输出的将所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图5是根据本发明一示例性实施例示出的一种文本处理装置的示意图。作为示例该装置可用于手机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。

参见图5所示，所述装置可以包括：

文本获取单元501，用于获取待处理文本数据；

第一文本分类单元502，用于根据第一文本分类模型获取所述文本数据的一个候选类别，其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类；

第二文本分类单元503，用于根据第二文本分类模型获取所述文本数据的一个候选类别，其中所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类；

分类确定单元504，用于根据所获取的两个所述候选类别确定所述文本数据的类别。

在本实施例或本发明其他某些实施例中，所述第一文本分类模型可以为预先通过训练得到的神经网络模型；

相应的参见图6所示，所述第一文本分类单元可以包括：

语义矩阵获取子单元601，用于获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵；

输入子单元602，用于将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入；

输出子单元603，用于根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

在本实施例或本发明其他某些实施例中，所述语义矩阵获取子单元可以用于：

获取所述标题及每个句子所包含的每个词的词向量；

在本实施例或本发明其他某些实施例中，所述第一文本分类模型可以包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

在本实施例或本发明其他某些实施例中，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，可以包括：

参见图7所示，在本实施例或本发明其他某些实施例中，所述第二文本分类单元可以包括：

指定句子获取子单元701，用于根据预设规则从所述文本数据所包含的句子中获取指定句子；

分类特征提取子单元702，用于提取每个所述指定句子的文本分类特征，其中所述文本分类特征至少包括以下一种特征：用于描述当前句子自身特性的句子级文本分类特征，用于从整篇文本角度描述当前句子的特性的篇章级文本分类特征，用于从当前句子的上下文角度描述当前句子的特性的句子上下文文本分类特征；

输入输出子单元703，用于将所有指定句子的文本分类特征作为所述第二文本分类模型的输入，根据所述第二文本分类模型所输出的所述文本数据属于每个预设类别的概率，确定所述文本数据的一个候选类别。

在本实施例或本发明其他某些实施例中，所述指定句子获取子单元可以用于：

获取每个句子的重要度权重；

对所有句子的重要度权重进行归一化和标准化；

在本实施例或本发明其他某些实施例中，所述句子级文本分类特征可以包括以下特征中的至少一种：

所述篇章级文本分类特征包括以下特征中的至少一种：

所述句子上下文文本分类特征包括以下特征中的至少一种：

关于上述实施例中的装置，其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取待处理文本数据；

根据所获取的两个所述候选类别确定所述文本数据的类别。

2.根据权利要求1所述的方法，其特征在于，所述第一文本分类模型为预先通过训练得到的神经网络模型；

3.根据权利要求2所述的方法，其特征在于，所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵，包括：

获取所述标题及每个句子所包含的每个词的词向量；

4.根据权利要求2所述的方法，其特征在于，所述第一文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

5.根据权利要求4所述的方法，其特征在于，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据第二文本分类模型获取所述文本数据的一个候选类别，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据预设规则从所述文本数据所包含的句子中获取指定句子，包括：

获取每个句子的重要度权重；

对所有句子的重要度权重进行归一化和标准化；

8.根据权利要求6所述的方法，其特征在于，所述句子级文本分类特征包括以下特征中的至少一种：

所述篇章级文本分类特征包括以下特征中的至少一种：

所述句子上下文文本分类特征包括以下特征中的至少一种：

9.一种文本处理装置，其特征在于，所述装置包括：

文本获取单元，用于获取待处理文本数据；

10.根据权利要求9所述的装置，其特征在于，所述第一文本分类模型为预先通过训练得到的神经网络模型；

所述第一文本分类单元包括：

11.根据权利要求10所述的装置，其特征在于，所述语义矩阵获取子单元用于：

获取所述标题及每个句子所包含的每个词的词向量；

12.根据权利要求10所述的装置，其特征在于，所述第一文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层；

13.根据权利要求12所述的装置，其特征在于，所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重，包括：

14.根据权利要求9所述的装置，其特征在于，所述第二文本分类单元包括：

15.根据权利要求14所述的装置，其特征在于，所述指定句子获取子单元用于：

获取每个句子的重要度权重；

对所有句子的重要度权重进行归一化和标准化；

16.根据权利要求14所述的装置，其特征在于，所述句子级文本分类特征包括以下特征中的至少一种：

所述篇章级文本分类特征包括以下特征中的至少一种：

所述句子上下文文本分类特征包括以下特征中的至少一种：