CN109543176A

CN109543176A - 一种基于图向量表征的丰富短文本语义方法及装置

Info

Publication number: CN109543176A
Application number: CN201811210135.5A
Authority: CN
Inventors: 郑子彬; 马璐
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-03-29
Anticipated expiration: 2038-10-17
Also published as: CN109543176B

Abstract

本发明公开一种基于图向量表征的丰富短文本语义方法及装置，该装置用于实现该方法，该方法包括对短文本语料数据进行分词和去停用词的处理；对处理后语料数据进行相邻词的两两相连构成词图；将词图随机游走，由上节点到下节点依次产生序列，待词图的文本链达到指定的文本链长度后停止游走，获取所有节点序列；输入所获取的节点序列至向量化表征模型，对所有节点进行向量化表征；输出所有节点对应的向量表征。本发明通过将短文本中相邻词连边构建成链，不同短文本构成的链之间用关键词相连的方式构建成图，对构建成的词图使用图向量表征算法得到每个节点的向量表征，以便于应用于机器学习模型中。

Description

一种基于图向量表征的丰富短文本语义方法及装置

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于图向量表征的丰富短文本语义方法及装置。

背景技术

短文本是信息快速传递的载体，例如微博、评论、搜索、新闻推荐等等，这些都在人们日常生活中发挥着重要的作用。利用这些数据可以提取很多有价值的信息，例如，微博短文本可以用来做网络舆情分析和热点话题发现，用户评论短文本可以优化推荐算法和营销策略，检索短文本可以对用户进行画像分析，如分析用户的年龄、性别、学历等，从而为用户提供更优质、更个性化的服务。文本分类方法是提取短文本潜在信息，挖掘其隐含价值的一种重要手段。但是，传统文本分类方法的准确率需要丰富的语料信息和语义信息来保证，而这些恰恰是短文本所缺失的。因此，传统的文本分类方法不能有效的抓取短文本的信息。

目前，主要有两种方法丰富短文本的语义信息：一种方法是借助外部语料库去扩展丰富文本的语义信息，另一种方法是使用多个短文本组合成一个伪长文本。这两种方式可能会导致信息杂乱，引入外部噪声，对文本信息的挖掘造成干扰。

发明内容

本发明的主要目的是提出一种基于图向量表征的丰富短文本语义方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于图向量表征的丰富短文本语义方法，包括如下步骤：

S10输入短文本语料数据，对其进行分词和去停用词的处理；

S20在处理后的语料数据中将相邻的词两两相连，通过将每个短文本转化为文本链，数个短文本之间通过相同的词相连，由此构成词图；

S30将词图随机游走，上节点选取与其相连的一个词作为下一节点，由上节点到下节点依次产生序列，待词图的文本链达到指定的文本链长度后停止游走，获取所有节点序列；

S40输入所获取的节点序列至向量化表征模型，对所有节点进行向量化表征；

S50输出所有节点对应的向量表征。

优选地，所述向量化表征模型包括输入层、向量表征层、投影层和输出

层，其中：

输入层输入S30所获取的所有节点序列，其中所有节点序列由当前词节点Cur的前后N个相邻的词节点组成，表示为Context(Cur)_i，i＝1，2，...，2n；

向量表征层中的向量对应输入层中词节点向量，词节点向量满足：

其中d表示向量维度，是一个可以

自定义的参数；

投影层将当前词节点Cur的前后N个相邻词节点的向量表征累加而得，写为公式：

输出层将当前短文本节点Cur当做模型训练的标签，根据游走得到的序列的集合来构建哈夫曼树，学习的过程转化为在哈夫曼树中寻找Cur节点的路径的过程，使用最大似然函数来定义目标函数，写为公式：

将概率p展开成在哈夫曼树中逐步以二分类方式寻找Cur节点的概率。假设找到Cur节点总共需要k步，到达Cur节点的路径编码为r₂r₃...r_k+1，则p(Cur|Context(Cur))可以写成如下形式：

将目标函数进一步推导：

通常使用Sigmoid函数评估分为正类的概率：

结合这里的向量表征，使用二分类的概率来表示在哈夫曼树上寻找目标节点的路径过程：

可以将其整合到一个公式：

进一步可将目标函数写为：

由上得到一个较为清晰的将词节点向量化的目标函数，再通过反向传播算法训练模型即可得到词节点对应的向量表征。

本发明还公开了一种基于图向量表征的丰富短文本语义装置，用于实现上述方法，包括：

输入模块，用于输入短文本语料数据，对其进行分词和去停用词的处理；

生成模块，用于在处理后的语料数据中将相邻的词两两相连，通过将每个短文本转化为文本链，数个短文本之间通过相同的词相连，由此构成词图；

游走模块，用于将词图随机游走，上节点选取与其相连的一个词作为下一节点，由上节点到下节点依次产生序列，待词图的文本链达到指定的文本链长度后停止游走，获取所有节点序列；

向量表征模块，用于输入所获取的节点序列至向量化表征模型，对所有节点进行向量化表征；

输出模块，用于输出所有节点对应的向量表征。

本发明通过将短文本中相邻词连边构建成链，不同短文本构成的链之间用关键词相连的方式构建成图，对构建成的词图使用图向量表征算法得到每个节点的向量表征，以便于应用于机器学习模型中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明基于图向量表征的丰富短文本语义方法一实施例的方法流程图；

图2为本发明基于图向量表征的丰富短文本语义装置一实施例的功能模块图；

图3为所述S10中分词样例图；

图4为所述词图的部分样例图；

图5为所述词图游走结果样例图；

图6为所述向量化表征模型的样例图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出的一种基于图向量表征的丰富短文本语义方法，包括如下步骤：

S10输入短文本语料数据，对其进行分词和去停用词的处理；

S50输出所有节点对应的向量表征。

层，其中：

其中d表示向量维度，是一个可以

自定义的参数；

将目标函数进一步推导：

通常使用Sigmoid函数评估分为正类的概率：

可以将其整合到一个公式：

进一步可将目标函数写为：

本发明还公开了一种基于图向量表征的丰富短文本语义装置，用于实现上述方法，由于本装置采用了上述方法所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。本装置包括：

输入模块10，用于输入短文本语料数据，对其进行分词和去停用词的处理；

生成模块20，用于在处理后的语料数据中将相邻的词两两相连，通过将每个短文本转化为文本链，数个短文本之间通过相同的词相连，由此构成词图；

游走模块30，用于将词图随机游走，上节点选取与其相连的一个词作为下一节点，由上节点到下节点依次产生序列，待词图的文本链达到指定的文本链长度后停止游走，获取所有节点序列；

向量表征模块40，用于输入所获取的节点序列至向量化表征模型，对所有节点进行向量化表征；

输出模块50，用于输出所有节点对应的向量表征。

本发明通过将短文本中相邻词连边构建成链，不同短文本构成的链之间用关键词相连的方式构建成图，对构建成的词图使用图向量表征算法得到每个节点的向量表征，以便于应用于机器学习模型中。本发明的主要流程包括：数据预处理、词图构建、随机游走和向量化表征。

本发明实操实例如下：

S10对于输入的短文本语料数据，进行分词和去停用词处理，见图3，分词样例图；

S20将这些数据分词后，把相邻的词两两相连，这样每个短文本都被转化成了一条链，而文本之间可以通过关键词相连，最后构成一张图，见图4，词图的部分样例图；

S30对词图进行随机游走，遍历节点，从每个节点出发，随机选取与其相连的一个词作为下一节点，重复随机选取的动作，达到指定的游走长度后停止游走，见图5，部分词图的游走结果样例图；

S40对得到的序列进行向量化表征，向量化表征的模型结构如图6所示，分为输入层、向量表征层、投影层和输出层。

第一层输入层中的输入，是S3得到的序列，由当前词节点Cur的前后N个相邻的词节点组成的，可以表示为Context(CLlr)_i，i＝1，2，…，2n

第二层向量表征层，实质上也是模型最终要学习成的表征向量。这一层中的向量对应的是输入层中的词节点向量。词节点向量满足

其中d表示向量维度，是一个可以自定义的参数。

第三层映射层，将当前词节点Cur的前后N个相邻词节点的向量表征累加而得，写为公式：

第四层输出层，将当前短文本节点Cur当做模型训练的标签，为了减少计算复杂度，加快训练速度，在最后一层使用了哈夫曼树的技巧。首先根据游走得到的序列的集合来构建哈夫曼树，词节点出现次数越多，节点的权重就越大。构建好哈夫曼树之后，就可以把学习的过程转化为在哈夫曼树中寻找Cur节点的路径的过程。由于哈夫曼树本身是一个二叉树，那么在哈夫曼树中每往深处查找一次过程，实质上就是一个二分类的过程，找到Cur节点如果需要k次，那么就是进行了k次的二分类。使用最大似然函数来定义目标函数，写为公式：

将概率p展开成在哈夫曼树中逐步以二分类方式寻找Cur节点的概率。假设找到Cur节点总共需要k步，到达Cur节点的路径编码为r₂r₃…r_k+1，则p(Cur|Context(Cur))可以写成如下形式：

将目标函数进一步推导：

通常使用Sigmoid函数评估分为正类的概率：

可以将其整合到一个公式：

进一步可将目标函数写为：

至此，得到了一个较为清晰的将词节点向量化的目标函数，只要通过反向传播算法训练模型即可得到词节点对应的向量表征。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于图向量表征的丰富短文本语义方法，其特征在于，包括如下步骤：

S10输入短文本语料数据，对其进行分词和去停用词的处理；

S50输出所有节点对应的向量表征。

2.如权利要求1所述的基于图向量表征的丰富短文本语义方法，其特征在于，所述向量化表征模型包括输入层、向量表征层、投影层和输出层，其中：

其中d表示向量维度，是一个可以自定义的参数；

将目标函数进一步推导：

通常使用Sigmoid函数评估分为正类的概率：

可以将其整合到一个公式：

进一步可将目标函数写为：

3.一种基于图向量表征的丰富短文本语义装置，其特征在于，包括：

输出模块，用于输出所有节点对应的向量表征。