CN111639189B

CN111639189B - 一种基于文本内容特征的文本图构建方法

Info

Publication number: CN111639189B
Application number: CN202010356482.XA
Authority: CN
Inventors: 杨黎斌; 梅欣; 戴航; 蔡晓妍
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-03-21
Anticipated expiration: 2040-04-29
Also published as: CN111639189A

Abstract

本发明公开了一种基于文本内容特征的文本图构建方法，在构造文本图的边时脱离对共现关系依赖的同时保留词节点的语义关系，从而能够实现准确地表达文本语义特征；并且提供了提供了两种图构建方法，可以根据实际应用选择合适的方法，第一种方法得到的图会存在一个全局节点也就是度数最大的那个节点，它与其他剩余节点都有连接边；但若图中节点数较多，且节点的权重相差不大，这种方式会使中间节点的度数设定值与节点权重值差距过大；第二种方法会在一定程度解决上述方法的缺点，但所构造的图可能不连通，若后续采用的学习算法对图的连通性有要求或者要利用全局节点特征来表示图特征方法，可以根据实际需求灵活选择，从而提高了文本图构建的灵活性。

Description

一种基于文本内容特征的文本图构建方法

技术领域

本发明涉及文本图构建方法，具体涉及一种基于文本内容特征的文本图构建方法。

背景技术

随着深度学习的不断发展，图像领域的算法日趋成熟，近年来图神经网络在图像领域得到广泛应用。于是很多人开始尝试将图神经网络相关算法应用到文本领域，用于自然语言处理。要想将处理结构化数据的算法应用于非结构化的数据，首先就需要从非结构化数据(如文本)生成图结构表示。

现有的图构建算法大都是对文本进行分词，将词看作图中的点，根据文本中各词在同一个窗口的共现关系来添加词节点之间的边或者在同一个句子中出现的词节点之间添加连接边。首先，大多现有的图构建算法完全依赖于文本语句序列顺序，以句子为单位进行划分的可能会存在多个句子表达相似含义，又或者同一个句子中存在语义相反的词；用滑动窗口来确定共现关系，窗口大小的选择将直接影响构造算法的效果。再者，这些算法构造出的图很可能存在许多孤立节点，一些适用于对图结构有要求的学习算法。

因此现有技术中的图构建方法大多存在过度依赖于文本表面语序信息以及构建的图不是数学定义中的简单图，可能存在孤立节点的问题。

发明内容

本发明的目的在于提供一种基于文本内容特征的文本图构建方法，用以解决现有技术中的图构建方法存在的无法准备表达文本的语义特征的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于文本内容特征的文本图构建方法，用于将待转换的文本转换为文本图，所述的方法按照以下步骤执行：

步骤1、获取待转换的文本；

步骤2、对所述的待转换的文本进行文本预处理，获得预处理后的文本；所述的文本预处理包括依次进行的分词处理、清洗处理以及标准化处理；

其中所述的预处理后的文本包括多个词；

步骤3、对步骤2获得的预处理文本进行特征提取，获得预处理后的文本中每一个词的权重值；

步骤4、根据步骤3获得的每个词的权重值，获得每个词对应的节点的度数值；其中权重值最高的词对应的节点的度数值最高；

获得多个节点的度数值；

步骤5、根据步骤4获得的多个节点的度数值，获得文本图。

进一步地，所述的步骤3中对步骤2获得的预处理文本进行特征提取时，采用TextRank算法或Tf-idf算法，获得预处理后的文本中每一个词的权重值。

进一步地，所述的步骤4具体包括：

步骤4.1、根据步骤2获得的预处理后文本中包括的多个词，获得每个词对应的节点；根据步骤3获得的每个词的权重值的大小，对每个词对应的节点进行降序排序，获得节点序列；所述的节点序列中包括n个节点，n为正整数；

步骤4.2、将所述的节点序列中第一个节点的度数值设置为n-1，将所述的节点序列中最后一个节点的度数值设置为1后，建立节点-度数值线性模型；所述的节点-度数值线性模型的横轴单位为节点，所述的节点-度数值线性模型的纵轴单位为度数值；

步骤4.3、根据所述的节点-度数值线性模型，获得每个词对应的节点的度数值。

进一步地，所述的步骤4具体包括：

步骤I、根据步骤2获得的预处理后文本中包括的多个词，获得每个词对应的节点；根据步骤3获得的每个词的权重值的大小，对每个词对应的节点进行降序排序，获得节点序列；所述的节点序列中包括n个节点，n为正整数；

步骤II、采用式I获得第i个节点的度数值d_i：

其中ω_i表示第i个节点对应的词的权重值，ω_sum表示所有节点对应的词的权重值之和；

步骤III、重复步骤II直至获得每个词对应的节点的度数值。

本发明与现有技术相比具有以下技术特点:

1、本发明提供的基于文本内容特征的文本图构建方法在构造文本图的边时脱离对共现关系依赖的同时保留词节点的语义关系，从而能够实现准确地表达文本语义特征；

2、本发明提供的基于文本内容特征的文本图构建方法可以根据实际应用要求选择合适的特征提取算法，当完整语义特征被要求时，可以选用TextRank算法，根据词的共现信息赋权重值，当总体话题特征足够表达语义信息时，可以选用Tf-idf进行特征提取，使用词频来衡量重要性，从而提高了文本图构建的灵活性。

3、本发明提供的基于文本内容特征的文本图构建方法提供了两种度数值获得方法，可以根据实际应用选择合适的方法，第一种方法得到的图会存在一个全局节点也就是度数最大的那个节点，它与其他剩余节点都有连接边；但若图中节点数较多，且节点的权重相差不大，这种方式会使中间节点的度数设定值与节点权重值差距过大；第二种方法会在一定程度解决上述方法的缺点，但所构造的图可能不连通，若后续采用的学习算法对图的连通性有要求或者要利用全局节点特征来表示图特征方法，若后续算法对权重度数的依赖性强可选择方法二，从而提高了文本图构建的灵活性。

附图说明

图1为本发明的一个实施例中构建的文本图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

以下对本发明涉及的定义或概念内涵做以说明：

文本图：通过文本内容构建的网络图，文本图由节点和无向边组成，节点即为文本中的词。

分词处理：即词语切分，尤指中文文本，即通过分词工具把文本切分成词语的集合。

清洗处理：由于大多数情况下，我们准备好的文本里都有很多无用的部分。清洗就是去除不需要用的标点符号、停用词等。

标准化处理：通常用到词形还原和词干提取，在原理上，词干提取主要是采用“缩减”的方法，将词转换为词干，如将“cats”处理为“cat”，将“effective”处理为“effect”。而词形还原主要采用“转变”的方法，将词转变为其原形，如将“drove”处理为“drive”，将“driving”处理为“drive”。

实施例一

在本实施例中公开了一种基于文本内容特征的文本图构建方法，用于将待转换的文本转换为文本图。

在本实施例中提供的文本图构建方法在构造边时脱离对共现关系依赖的同时保留词节点的语义关系。

所述的方法按照以下步骤执行：

步骤1、获取待转换的文本；

一般文本即可，可以是一句话也可以是一篇文章。中文或英文的都可以，以下有相应的文本处理方法；

其中所述的预处理后的文本包括多个词；

在本实施例中，首先对文本进行预处理，主要包括分词、清洗和标准化。中英文在分词上，由于语言的特殊性导致分词的思路也会不一样。大多数情况下，英文直接使用空格就可以进行分词,但是在中文上，由于语法更为复杂，通常会使用jieba等第三方库进行分词的操作；文本清洗就是去除不需要的标点符号、停用词等；最后的标准化就是词形还原和词干提取(针对英文)。

上述的预处理操作是常规可能用到的一些操作，具体选用哪些视情况而定，若选取的文本过短，不必全都使用。我们假设用上述所有操作进行预处理，举例说明。对于中文文本，只需要进行词语切分和去除停用词的操作。如：“水浒传中哪些情节或历史背景与史实不同？”，分词后为“水浒传中有哪些情节或历史背景与史实不同？”，去除停用词，即去除一些无实际意义的语助词等，操作后的文本为“水浒传哪些情节历史背景史实不同”，是一个词袋库。以英文文本为例，无需分词，但英文单词会根据时态和词性进行变换，需要的话可以进行词干提取或词形还原，即去除因时态和词性变换而加的后缀，还原词语的原始形态。如：“The film is a verbal duel between two gifted performers.”操作后的文本变为“film verbal duel gift performer”。

在本实施例中，根据实际应用要求选择合适的特征提取算法，当完整语义特征被要求时，可以选用TextRank算法，根据词的共现信息赋权重值，当总体话题特征足够表达语义信息时，可以选用Tf-idf进行特征提取，使用词频来衡量重要性。

可选地，所述的步骤3中对步骤2获得的预处理文本进行特征提取时，采用TextRank算法或Tf-idf算法，获得预处理后的文本中每一个词的权重值。

在本实施例中，TextRank获取词节点权重的算法如下：

(1)把给定的文本T按照完整句子进行分割，即:T＝[S₁,S₂,…,S_m]

(2)对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，其中ti,j是保留后的候选关键词。Si＝[t_i,1,t_i,2,...,t_i,n]

(3)构建候选关键词图G＝(V,E)，其中V为节点集，由(2)生成的候选关键词组成，然后采用共现关系(Co-Occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

(4)根据TextRank的公式，迭代传播各节点的权重，直至收敛。

在本实施例中，TF-IDF的主要思想是如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF是词频(Term Frequency)：词频(TF)表示词条(关键字)在文本中出现的频率。逆向文件频率(IDF)：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。如果包含词条t的文档越少,IDF越大，则说明词条具有很好的类别区分能力。TF-IDF权重的计算过程如下：

TF-IDF＝TF*IDF

获得多个节点的度数值；

在本发明找那个提供了两种度数值获得方法，两种方法得到的图的结构是不一样的，根据不同的应用场景可以选取合适的方法。

可选地，所述的步骤4具体包括：

步骤4.2、将所述的节点序列中第一个节点的度数值设置为n-1，将所述的节点序列中最后一个节点的度数值设置为1后，建立节点-度数值线性模型；所述的节点-度数值线性模型中横轴为节点，所述的节点-度数值线性模型中纵轴为度数值；

在本实施例中，根据权重值大小对节点进行排序，假设当前图中有n个节点，则权重值最大的节点度数赋值为n-1，权重值最小的节点度数赋值为1。对于坐标对(x,y)，x为节点权重值，y为对应节点度数，根据点(w_max,n-1)和点(w_min,1)(w_max和w_min分别为最大权重值和最小权重值)可确定一条直线y＝kx+b，即可根据直线方程确定其余节点度数。这种方式得到的图是一个全连通图，且存在一个全局节点与所有剩余节点连接。

在本实施例中，假设预处理后一篇文章有5个词，W1、W2、W3、W4、W5。权重值分别为5、4、3、2、2，以降序排列。经过步骤4.2，W1的度数为4，W5的度数为1，由两点式可得直线方程为y＝x-1。在4.3中根据直线方程可求得各节点的度数值为4、3、2、1、1。

可选地，所述的步骤4具体包括：

步骤II、采用式I获得第i个节点的度数值d_i：

步骤III、重复步骤II直至获得每个词对应的节点的度数值。

在本实施例中，根据权重值大小对节点进行排序，假设当前图中有n个节点，则节点i的度数为

其中w_i为i的权重值，w_sum为所有节点权重总和。这种方式得到的图中每个节点的度数反应了它在整个图中的重要度，但得到的图可能不是一个全连通图，若对连通性没有严格要求，这种方式会取得不错的效果。

在本实施例中，假设预处理后一篇文章有5个词，W1、W2、W3、W4、W5。权重值分别为5、4、3、2、2，以降序排列。ω_sum为16，经过步骤II、III,可求得各节点的度数值为2、2、1、1、1。

在本发明中提供的两种度数值获得方法，第一种方法，节点的最大度数是n-1，最小度数是1，这样后续得到的图是一个全连通图，而且这种方式得到的图会存在一个全局节点也就是度数最大的那个节点，它与其他剩余节点都有连接边。但若图中节点数较多，且节点的权重相差不大，这种方式会使中间节点的度数设定值与节点权重值差距过大。第二种方法会在一定程度解决上述方法的缺点，但所构造的图可能不连通。若后续采用的学习算法对图的连通性有要求或者要利用全局节点特征来表示图特征方法，若后续算法对权重度数的依赖性强可选择方法二，依情况而定。

步骤5、根据步骤4获得的多个节点的度数值，获得文本图。

在本实施例中，根据步骤4得到的节点度数来连接边，从度数最高的节点开始，让它与后n-1个节点中度数大于0的连接，然后被连接的节点度数减1，如果有节点的度数减1后小于0，则撤销当前节点与该节点的连接边，同时当前节点的度数减1。然后对节点按更新后的度数重新排序，重复上述操作，直到所有节点度数都减为0。

假设待处理的节点有5个：W1、W2、W3、W4、W5。步骤4求得度数分别为4、3、2、1、1。先让W1与其余节点均相连，此时节点度数变为0、2、1、0、0，重新按度数降序排列，变为W2、W3、W1、W4、W5。让W2与W3相连，所有节点度数变为0，完成。连接后的图形如图1所示。

在本发明中经过上述步骤会得到一段文本内容的非结构化表示，即一个图结构，然后可以利用处理图的相关性质及处理图的深度学习算法来学习文本特征，处理相关实际问题，如分类，推荐等。

实施例二

在本实施例中，对本发明提供的方法进行实验验证，以分类为例，用本发明提供的方法构建文本图，然后用图注意力网络(GAN)学习进行分类。GAN是一种基于注意力机制的图神经网络，参考论文《Graph Attention Networks》。Text-GAN(1)是在构建图时用的第一种方法(实施例一中步骤4.1-步骤4.3的方法)，预训练了词向量；Text-GAN(2)是在构建图时用的第二种方法(实施例一中步骤I-步骤III的方法)，预训练了词向量；Text-GAN(2)-rand也用了第二种图构建方法(实施例一中步骤I-步骤III的方法)，随机初始化词向量。用Text-GCN作为对比算法，该算法出自论文《Graph Convolutional Networks for TextClassification》，同样的，首先是基于文本构造图，但它是将所有训练集和测试集的文本转换成一个整体的大图，图中文章节点也有词节点，该算法要求测试集的文章是已知的，更像是一个聚类的过程。此外，还用卷积神经网络(CNN)的两种变体进行对比：CNN-non-static是预训练了词向量；CNN-rand词向量是随机初始化的。CNN出自论文《ConvolutionalNeural Networks for Sentence Classification》,用卷积核来提取文本特征。DBLP和MR是两个常见的分类数据集，DBLP数据有六种类别，MR有两类，分别对比了测试结果的正确率(Accuracy)、准确率(Precision)和召回率(Recall)，实验结果见表1。

表1本发明提供的方法与现有技术对比表

通过实验结果可以看出，无论是与常规的文本处理算法(CNN)相比，还是与同样通过转换为图结构再经过图神经网络学习的算法(Text-GCN)相比，在文本分类领域，应用本发明提出的文本图构建算法的神经网络处理算法都有更好的表现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法。

Claims

1.一种基于文本内容特征的文本图构建方法，用于将待转换的文本转换为文本图，其特征在于，所述的方法按照以下步骤执行：

步骤1、获取待转换的文本；

其中所述的预处理后的文本包括多个词；

获得多个节点的度数值；

步骤5、根据步骤4获得的多个节点的度数值，获得文本图；

所述的步骤4具体包括：

步骤4.3、根据所述的节点-度数值线性模型，获得每个词对应的节点的度数值；

或者，所述的步骤4具体包括：

步骤II、采用式I获得第i个节点的度数值d_i：

步骤III、重复步骤II直至获得每个词对应的节点的度数值。

2.如权利要求1所述的基于文本内容特征的文本图构建方法，其特征在于，所述的步骤3中对步骤2获得的预处理文本进行特征提取时，采用TextRank算法或Tf-idf算法，获得预处理后的文本中每一个词的权重值。