CN114925198A

CN114925198A - 一种融合字符信息的知识驱动文本分类方法

Info

Publication number: CN114925198A
Application number: CN202210374165.XA
Authority: CN
Inventors: 金天成; 窦亮; 周爱民
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-19
Anticipated expiration: 2042-04-11
Also published as: CN114925198B

Abstract

本发明公开了一种融合字符信息的知识驱动文本分类方法，其特点是该方法包括：获取词语序列和字符序列；提取词语所对应的实体，与知识图谱中的实体相关联，获取实体序列；查询知识图谱嵌入模型，获取实体序列的实体嵌入矩阵；搜索实体序列的上下文实体集来计算得到上下文嵌入矩阵；查询词嵌入模型，获取词语序列的词嵌入矩阵；查询字符嵌入模型，获取字符序列的字符嵌入矩阵；将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入CNN得到融合外部知识的表征向量；将字符嵌入矩阵输入另一个CNN获取字符表征向量；使用两个表征向量进行文本分类。本发明与现有技术相比具有更高的文本分类准确率，方法简便，并能够给出更准确的分类结果。

Description

一种融合字符信息的知识驱动文本分类方法

技术领域

本发明涉及文本分类与深度学习技术领域，具体涉及一种融合字符信息的知识驱动文本分类方法。

背景技术

随着互联网的不断发展，媒体通常使用网站和微信公众号等来发布信息，人们也经常通过博客、论坛等来表达自己的观点，互联网文本数据的规模急速增长。文本分类是管理和组织这些网络文本信息的关键技术之一，可以用来过滤垃圾邮件和短信、分析人类的情感，以及学习人们阅读新闻的偏好从而实现新闻推荐等重要任务。

随着机器学习的快速发展，目前已有许多利用机器学习实现文本分类的方法，如使用Word2vec将文本中每个词向量化，输入到卷积神经网络、循环神经网络、支持向量机、随机森林或者K近邻等算法或模型中，从而得到文本分类的结果。然而，这些方法一般仅从文本的词语层面进行表示学习，没有考虑文本隐含的外部知识，未充分挖掘文本在知识层面的联系。典型的例子是在处理新闻分类任务时，新闻语言通常由大量的知识实体组成，比如训练集中有一条标题为“特斯拉在高速公路自动驾驶，司机乘客在车里呼呼大睡”的汽车类新闻，测试集中有一条标题为“福特领界领衔福特家族，成都展览备受瞩目”的新闻，这两句标题分别包含“特斯拉”和“福特”这两个知识实体，都代表了汽车品牌，这两条新闻有一定知识层面的关联。然而仅从文本的词语层面进行表示学习的模型只能根据词语所处的上、下文语境来判断词语的关联性，很难挖掘出像“特斯拉”与“福特”这两个词语在知识层面的关联性，从而可能导致测试集中的有关“福特”的新闻没有被分到“汽车”类新闻中，使得分类不准确。

除了词语和知识信息以外，很多文本分类方法还忽略了字符信息，字符信息对文本分类的结果也有重要影响。例如，测试集中有一句文本为“你很明智”，而“明智”对于知识库和通过训练集预先训练的词向量集合而言是一个新词语。若文本分类方法没有考虑字符信息，则“明智”无法被识别。若文本分类方法考虑了字符信息，虽然训练集的文本中没有“明智”这个词，但却有词语“智慧”，文本分类方法可以通过“智”这个字符在“智慧”与“明智”这两个词的文本之间建立联系，从而改善文本分类效果。

发明内容

本发明的目的是针对现有技术的不足而设计的一种融合字符信息的知识驱动文本分类方法，采用知识图谱作为外部知识的载体，利用外部知识辅助文本分类任务，并考虑文本的字符信息，将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联，融入知识层面的表示，同时使用文本的字符特征捕获更细粒度的语义信息，充分考虑了文本中隐含的外部知识和字符信息，从而使该方法具有更高的文本分类性能，方法简便，可进一步提高了文本分类的准确率。

本发明的目的是这样实现的：一种融合字符信息的知识驱动文本分类方法，其特点是该方法以知识图谱作为外部知识的载体，将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联，融入知识层面的表示，从而使文本分类方法能够更好地理解文本内容，给出更准确的分类结果，具体包括以下步骤：

S1：对文本进行预处理，获取待分类文本的词语序列和字符序列；

S2：提取文本中词语所对应的实体，并与知识图谱中的实体相关联，获取实体序列；

S3：查询通过知识子图预训练的知识图谱嵌入模型，获取实体序列的实体嵌入矩阵，矩阵的每一行为各实体的嵌入向量；

S4：搜索每个实体的上下文实体集来计算实体的上下文向量，得到实体序列的上下文嵌入矩阵；

S5：查询预训练的词嵌入模型，获取词语序列的词嵌入矩阵；

S6：查询预训练的字符嵌入模型，获取字符序列的字符嵌入矩阵；

S7：将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入到卷积神经网络得到融合外部知识的表征向量；

S8：将字符嵌入矩阵输入到另一个卷积神经网络获取字符表征向量；

S9：使用融合外部知识的表征向量和字符表征向量进行文本分类。

所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得，字符序列由文本中的每个字符所构成。将包含n个词语的待分类文本t的词语序列定义为w_1:n＝[w₁,w₂,...,w_n]，其中w_i表示文本中第i个词语。

所述步骤S2具体包括：利用命名实体识别技术识别出待分类文本中词语是否指代实体，并通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体，由这些目标实体构成实体序列。

所述步骤S3具体包括：从知识图谱中获取语料库中的词语所指代的实体的三元组知识，用来构建知识子图。使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型，通过知识图谱嵌入模型映射可获得词语w_i对应实体e_i的实体向量e_i∈R^k×1，其中，k是实体向量的维度。实体嵌入矩阵则由知识图谱嵌入模型映射获得，其中实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。

所述步骤S4具体包括：搜索并使用实体序列中每个实体的上下文实体集(即实体在知识子图中的近邻实体)来计算实体的上下文向量，以得到更多互补和有意义的信息。实体e的上下文实体集由下述(a)式定义：

context(e)＝{e_i|(e,r,e_i)∈G or(e_i,r,e)∈G}(a)；

其中：r代表一个关系；G代表知识子图。

在获得了实体的上下文实体集后，实体的上下文向量可通过下述(b)式进行计算：

其中：e_i是实体e_i的向量。

所述实体序列的上下文嵌入矩阵由实体的上下文向量构成，矩阵的每一行为实体序列中每一个实体对应的上下文向量。

所述步骤S5中词语序列的词嵌入矩阵是通过预训练或随机初始化的词嵌入模型映射获得的，其中词嵌入矩阵的每一行为词语序列中每一个词语对应的词嵌入向量。文本t的词嵌入矩阵由下述(c)式表示为：

w_1:n＝[w₁,w₂,...,w_n]∈R^d×n (c)；

其中：w_i∈R^d×1是文本中第i个词语w_i的词向量；d是词向量的维度。

所述步骤S6中字符序列的字符嵌入矩阵是通过预训练或随机初始化的字符嵌入模型映射获得的，其中字符嵌入矩阵的每一行为字符序列中每一个字符对应的字符嵌入向量。

所述步骤S7具体包括：通过下述非线性公式(d)～(e)转换词语w_i对应实体e_i的实体向量e_i和实体上下文向量

使其维度与词向量一致：

g(e_i)＝tanh(Me_i+b) (d)；

其中：M∈R^d×k是可训练的转换矩阵；b∈R^d×1是可训练的偏置项。

然后，将词嵌入矩阵、实体嵌入矩阵和上下文嵌入矩阵中每个词语的词向量、实体向量与实体上下文向量分别输入CNN卷积层的三个通道并对齐，其形式如下述(f)式所示：

将文本中所有词语按上述形式输入卷积神经网络(Convolutional NeuralNetwork，CNN)中，在经过卷积、池化层后，得到一个融合文本t外部知识的表征向量。

所述步骤S8具体包括：将字符序列的字符嵌入矩阵输入CNN,经过卷积、池化操作后，得到字符表征向量。

所述步骤S9具体包括：将融合外部知识的表征向量和字符表征向量拼接为一个向量V(假设V∈R^y×1)，若类别个数为c，则对向量V进行下述(g)式操作：

q＝HV+b (g)；

其中：H∈R^c×y，为可训练矩阵；b∈R^c×1，为可训练的偏置项参数。

然后，使用softmax函数构建分类器，得到由下述(h)式计算的每个类别的概率分布：

其中：score_j表示文本属于第j类的概率。

在得到每个类别的概率分布后，选出概率值最高的类别作为文本分类结果。

本发明与现有技术相比具有更高的文本分类性能，充分考虑文本中隐含的外部知识和字符信息，将文本的词级、知识级表示与字符级表示融合起来形成新的表示，从而使文本分类能够更好地理解文本内容，给出更准确的分类结果，方法简便，可进一步提高文本分类的准确率。

附图说明

图1为本发明的流程图。

图2为实施例的知识子图示例。

具体实施方式

为了使本发明的技术方案被理解透彻，下面结合具体实施例和附图，对本发明作详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公识常识，本发明没有特别限制内容。

参阅图1，本发明所提出的文本分类方法融合了文本的词、知识和字符信息，将文本的词级、知识级表示与字符级表示融合起来形成新的表示，进行文本分类，提高了文本分类的准确性。

下面以体育类新闻“小明和小红是运动会的王炸组合”作为待分类文本为例对本发明作进一步的详细说明。

实施例1

步骤S1：对待分类文本进行分词，得到词语序列为：[“小明”，“和”，“小红”，“是”，“运动会”，“的”，“王炸”，“组合”]。然后，获取文本的字符序列：[“小”，“明”，“和”，“小”，“红”，“是”，“运”，“动”，“会”，“的”，“王”，“炸”，“组”，“合”]。

步骤S2：利用命名实体识别技术从文本中提取出“小明”、“小红”、“运动会”和“王炸”这四个实体指称。通过实体链接技术将这四个实体指称链接到中文知识图谱CN-DBpedia中的目标实体“小明”、“小红”、“2022年某国际运动会”和“王炸(扑克牌型)”(这四个实体皆为虚设实体，仅作为示例用)。由这些目标实体构成实体序列：[“小明”、“<unknown>”、“小红”，“<unknown>”,“2022年某国际运动会”，“<unknown>”，“王炸(扑克牌型)”，“<unknown>”]，待分类文本中不指代实体的词语在实体序列中的对应目标实体为“<unknown>”标识符。

步骤S3：从CN-DBpedia中获取语料库中全部文本的词语所指代的实体的三元组知识，用来构建知识子图。

参阅图2，以“小明和小红是运动会的王炸组合”单句话所构建的知识子图，使用知识子图与知识图谱嵌入方法TransE训练知识图谱嵌入模型。通过知识图谱嵌入模型将实体序列中每一个实体映射为一个128维的向量(“<unknown>”实体的向量通过随机初始化获得)，实体序列的长度为8,则实体序列被转换为8×128的实体嵌入矩阵。

步骤S4：通过公式1和2搜索并使用实体序列中每个实体的上下文实体集来计算实体的上下文向量。每一个上下文向量的维度为128，实体序列的长度为8，则得到一个8×128的上下文嵌入矩阵。

步骤S5：通过预训练的Word2vec词嵌入模型，将步骤S1中得到的词语序列中的每一个词转换成128维的向量，词语序列包含8个词语，被转换为8×128的词嵌入矩阵。

步骤S6：通过预训练的Word2vec字符嵌入模型，将步骤S1中得到的字符序列中的每一个字符转换为128维的向量，字符序列包含14个字符，则字符序列被转换为14×128的字符嵌入矩阵。

步骤S7：将步骤S3、S4、S5处理后获得的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵分别输入到卷积神经网络的三个不同的通道中，得到一个融合了文本外部知识的表征向量。

步骤S8：将字符序列的字符嵌入矩阵输入卷积神经网络，经过卷积、池化操作后，得到一个字符表征向量。

步骤S9：将在步骤S7中得到的融合外部知识的表征向量和在步骤S8中得到的字符表征向量拼接为一个向量，通过公式(g)～(h)得到每个类别的概率分布后，选出概率值最高的类别作为文本分类结果。

以上实施例只是对本发明做进一步说明，并非用以限制本发明，凡为本发明的等效实施，均应包含于本发明的权利要求范围之内。

Claims

1.一种融合字符信息的知识驱动文本分类方法，其特征在于该方法以知识图谱作为外部知识的载体，将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联，融入知识层面的表示，利用外部知识辅助文本分类任务，具体包括以下步骤：

S3：查询通过知识子图预训练的知识图谱嵌入模型，获取实体序列的实体嵌入矩阵；

2.根据权利要求1所述融合字符信息的知识驱动文本分类方法，其特征在于所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得，所述字符序列由文本中的每个字符所构成，将包含n个词语的待分类文本t的词语序列定义为w_1:n＝[w₁,w₂,...,w_n]，其中：w_i表示文本中第i个词语。

3.根据权利要求1所述融合字符信息的知识驱动文本分类方法，其特征在于所述步骤S2具体包括：利用命名实体识别技术识别出待分类文本中词语是否指代实体；通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体，并由这些目标实体构成实体序列。

4.根据权利要求1所述融合字符信息的知识驱动文本分类方法，其特征在于所述步骤S3具体包括：

S3-1：从知识图谱中获取语料库中的词语所指代的实体的三元组知识，用来构建知识子图；

S3-2：使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型；

S3-3：通过知识图谱嵌入模型映射可获得词语w_i对应实体e_i的实体向量e_i∈R^k×1，其中：k是实体向量的维度；

S3-4：实体嵌入矩阵则由知识图谱嵌入模型映射获得，实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。

5.根据权利要求1所述融合字符信息的知识驱动文本分类方法，其特征在于所述步骤S4具体包括：搜索并使用实体序列中每个实体e的上下文实体集(即实体在知识子图中的近邻实体)来计算实体e的上下文向量