CN108897857A

CN108897857A - 面向领域的中文文本主题句生成方法

Info

Publication number: CN108897857A
Application number: CN201810696452.6A
Authority: CN
Inventors: 宋晖; 刘栩彤; 戴龙其; 叶长晖; 岳万琛
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-11-27
Anticipated expiration: 2038-06-28
Also published as: CN108897857B

Abstract

本发明提供了一种面向领域的中文文本主题句生成方法，其特征在于，包括以下步骤：面向领域文本数据集，建立相应的领域知识图谱，应用深度神经网络模型对文本进行语义信息抽取，按照主题句式对文本进行分类，最终生成文本的主题句。本发明通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性，并利用深度学习模型对文本数据进行标注和分类训练，进而生成出文本的主题句，实现基于知识的查询和统计。该方法具有较强的应用适用性，对于限定领域数据集，具有较好的主题句生成效果。

Description

面向领域的中文文本主题句生成方法

技术领域

本发明涉及一种对中文文本进行主题提取的方法，特别是基于领域数据集概括领域文本描述特征，为文本生成主题句的方法。

背景技术

近年来，随着人工智能技术的发展，计算机在自然语言理解中取得许多有应用价值的成果。主题提取是文本挖掘领域的一个重要分支，在搜索引擎，文本分类，信息统计等方面有着非常重要的作用。如何从文本中精炼准确地提取出其中的主题信息是理解语言表达内容的关键，一直是该领域的研究热点。

由于中文语义与句式结构的多样性与复杂性，直接对文本进行主题提取存在一定困难。为了获得文本的主要信息，目前已有方法多以在文本中提取主题关键词为主，主要分为基于统计分析和基于语义分析的方法。

基于统计的方法通常通过计算词频，词语共现度或词语权重等统计量找出文本中的主题关键词。该类方法由于忽略了文本的语义特征，提取出的结果中容易包含噪声数据，准确率不高。基于语义的方法通常依赖人类的先验知识，通过使用预先定义好的语义模版，或引入外部知识库的方式提取文本中的关键信息。相对于统计方法而言，基于语义的方法在准确率上有了很大提升，但实现过程十分繁琐，可迁移性相对较差。

使用主题词表示文本信息，忽略了主题词之间的联系，无法准确捕捉文本陈述的事实性知识。

随着知识图谱概念的提出和神经网络模型的发展，很多研究者开始尝试以(实体，关系，实体)或(实体，属性，属性值)等三元组的方式表示知识，构建图谱表达模型，使用监督或半监督的学习方法从文本中抽取知识实例。例如将实体，关系或属性等表示成向量形式，利用神经网络模型训练得到对应的分类或其他相关信息。目前，这些技术已在知识问答***或智能机器人等中广泛应用。

发明内容

本发明要解决的技术问题是：现有主题提取方法无法得到完整的主题内容叙述，主要通过主题关键词描述文本。针对领域性较强的文本数据，面向开放领域的知识图谱结构很难准确反应不同领域知识的描述方式，概括出文本中包含的主题信息。

为了解决上述技术问题，本发明的技术方案是提供了一种自动面向领域构建知识图谱，为中文文本生成主题句的方法，实施基于知识的查询和统计。为清楚论述本发明，兹以优选实施例的领域：城市管理案事件描述版本方法特征在于，包括以下步骤：

步骤1：创建领域知识图谱

城市管理案事件数据集中每一条数据以一个中文句子的形式描述案件具体信息，对城市管理案事件信息数据集进行词性标注、词频统计与权重排序的处理，对处理后的城市管理案事件信息数据集应用LDA主题聚类算法，按层次进行迭代的主题聚类，逐层发现实体类别、描述以及层次所属关系得到一系列包含实例以及其对应描述词的主题词条，并获得不同内容主题词条间的层次结构，随后应用K-means算法对通过LDA主题聚类算法得到的所有词汇进行聚类操作，根据聚类结果抽象出实体概念，组成以(实体，状态描述)和(实体，行为动作描述)为基本组成单位的领域知识图谱；

步骤2：语义信息抽取

依据领域知识图谱为每一类实体和描述定义语义标签，并将这些语义标签标注于训练集之中，利用训练集训练BLSTM-CRF模型实现语义标签的预测，BLSTM-CRF模型包括输入层、BLSTM层、CRF层和输出层，其中：

在输入层中，句子被表示成向量列表，向量列表中的每一个向量即为句子中每个词对应的词向量；

BLSTM层为双向LSTM神经网络，由前向LSTM和后向LSTM两部分组成，BLSTM层的输出是一个概率矩阵，概率矩阵中的每一个值表示句子中对应的词被标注为对应语义标签的概率；

CRF层为无向图模型；

对于句子，输出层输出的是句子中每个词所对应的语义标签的序号；

步骤3：主题陈述句生成

基于Bi-LSTM训练主题句式的分类模型，在主题陈述的句式层面上对已预测过语义标签的文本进行分类，进一步确定每条数据在所属的主题句式，根据领域知识图谱内容，语义信息抽取结果和分类结果，最终确定文本中须提取的词语序列以及词语序列的排列句式，生成完整的文本主题句。

优选地，所述步骤1中，对预处理后的城市管理案事件信息数据集应用LDA主题聚类算法包括以下步骤：

步骤101、在城市管理案事件信息数据集上进行LDA操作，生成n个主题词条，2≤n≤10，每个主题词条中包含10个主题词，并且按照TF-IDF权重排序降序排列；

步骤102、根据步骤101中得到的主题词条，在城市管理案事件信息数据集中筛选出包含上述主题词条组合的事件；

步骤103、在每个主题词条所对应的事件信息中，再次进行LDA主题聚类操作，挖掘该大类下具体的事件内容类型；

步骤104、将步骤102筛选出的事件从当前城市管理案事件信息数据集中移除，重复步骤101以发现当前城市管理案事件信息数据集中隐藏的主题词条；

步骤105、在得到新的主题词条后，重复步骤102、103及104直到通过LDA主题聚类操作不再出现新的主题词条。

优选地，所述步骤1中，应用K-means算法包括以下步骤：将所有主题词条两两组合，计算共现度，如果两个主题词条之间的共现度高，则证明两个主题词条之间存在关联，结合之前词频统计和词性标注的结果，可确定其中的实例词和描述词，最终确定图谱基本组成单元之间的连接结构。

优选地，步骤2中，所述训练集的组成方法为：

人工标注N条数据，并将其中有语义标签的词汇筛选出来，组成标注词集ws，然后，对未标注过的训练数据集进行检索，并找出那些包含在标注词集ws中的词，为这些词自动标注上对应的语义标签，将自动标注获得的大量数据人工矫正后与手工标注的数据合并，组成最终的训练集。

本发明克服了现有文本主题提取方法的不足，通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性，并利用深度学习模型对文本数据进行标注和分类训练，进而生成出文本的主题句。该方法具有较强的应用适用性，对于限定领域数据集，具有较好的主题句生成效果，能在文本集上实现基于知识图谱的查询和统计。

附图说明

图1为本发明提供的方法流程示意图；

图2为本实施例提供的领域知识图谱结构图；

图3为本发明中语义信息抽取部分BLSTM-CRF模型示意图；

图4为本实施例提供的语义信息抽取部分应用不同深度神经网络模型训练所得的模型效果对比折线图；

图5为本实施例提供的主题句式分类部分应用不同深度神经网络模型训练所得的模型效果对比折线图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

提取出文本的主题陈述，不仅需要提取出文本中的关键词，还要将这些关键词以正确的句式组织成短句。例如，对于城市社区管理领域的句子：“幸福小区草坪上有白色垃圾。”生成的主题短句应是：“草坪有白色垃圾。”

为完成这一目标，本发明提供的一种面向领域的中文文本主题句生成方法将整个主题陈述生成过程分为3个步骤：(1)建立领域知识图谱(2)语义信息抽取(3)句式分类并生成主题。图1为此过程实现的流程图。

步骤1：创建领域知识图谱

城市管理案事件信息数据集中每一条数据以一个中文句子的形式描述案件具体信息，一条数据代表一个案件，数据集中共63890条案件信息描述，涉及城市社区管理案事件的各个范畴，包括公共设施安全，公共环境维护，公共事务咨询，城市安全检查等多个种类。

由于城市管理案事件描述数据的领域局限性强，且在概念分布上，对于某些热门类别，案件描述重复率和相似性高，在本实例中，应用统计分析和主题概率模型相结合的方式对数据中实体信息及关系属性信息的提取。

一般情况下，文本数据会根据其表达的内容不同，拥有不同的领域特性。对某一特定数据集而言，数据集中包含的实体，关系，属性或其他描述通常在同一领域范围内，具有较强的领域特性。为了准确计算数据集中文本的概念和主题句式分布，本发明以知识图谱原有概念为基础，应用统计，文本主题聚类，词汇聚类等方法，提出该领域知识描述的知识图谱结构。在创建过程中，依据迭代的文本主题聚类的结果，在原数据集中对文本进行分层，在不同层次的数据子集中，反复进行主题聚类，以发现文本中隐含的主题内容，实例及描述。

作为一种结构化的语义知识库，知识图谱以符号化形式描述物理世界中的概念及其相互关系。面向开放域的知识图谱一般以(实体，关系，实体)或(实体，属性，属性值)作为基本组成单元。城市管理案事件描述数据更注重描述实体与其相关的行为和状态，在本发明中，为了能够更好的对数据进行描述，针对数据集中知识叙述的领域特性，改变一般图谱中(实体，关系，实体)和(实体，属性，属性值)的三元组的形式，将提出适应性的图谱知识单元与关联结构，以便更好的描述领域知识，概括为(实体，行为描述)和(实体，状态描述)。通过对数据集中的实体，关系和属性实例进行抽象，提炼出对应的概念，组成领域知识图谱。

在完成数据预处理后，首先对数据集进行了词性标注、词频统计与权重排序的操作。应用LDA主题聚类算法，对数据集按层次进行迭代的主题聚类，逐层发现实体类别、描述以及层次所属关系，具体过程如下。

1)在城市管理案事件信息数据集上进行LDA操作，使其生成n(2≤n≤10)个主题词条，每个主题词条中包含10个主题词，并且按照TF-IDF权重排序降序排列。

2)根据步骤1)中得到的主题词条，在城市管理案事件信息数据集中筛选出包含上述主题词条组合的事件。

3)在每个主题词条所对应的事件信息中，再次进行LDA主题聚类操作，挖掘该大类下具体的事件内容类型。

4)将步骤2)筛选出的事件从当前数据集中移除，重复步骤1)，以发现当前城市管理案事件信息数据集中隐藏的主题词条。

5)在得到新的主题词条后，重复步骤2)、3)、4)直到LDA操作的结果中不再出现新的主题词条。

通过上述层次主题聚类的方式，可以得到一系列包含实例以及其对应描述词的主题词条，并获得不同内容主题词条间的层次结构。

应用K-means对LDA得到的所有词汇进行聚类操作，根据聚类结果抽象出实体概念。

为发现概念之间的关系，将每个词条中两两组合，计算共现度，如果两个词之间的共现度高，则证明两词之间存在关联，结合之前词频统计和词性标注的结果，可确定其中的实例词和描述词。最终确定图谱基本组成单元之间的连接结构。

图2为城市社区管理领域知识图谱，该图谱中包括公共设施、普通物品、证件类、活动类、组织机构、公职人员等13个实体类别，和“占用”，“损坏”“检查”等十余种行为或状态描述类别。不同于一般(实体，关系，实体)和(实体，属性，属性值)的三元组形式，在本图谱中，知识表示形式一般以(实体，状态描述)和(实体，行为动作描述)为主。

步骤2：语义信息抽取。

根据知识图谱的组成单元，为不同类型的文本创建语义标签，并对训练数据集进行标注。在标注过程中，为了获得大量标注样本，在人工标注的基础上，应用了远程监督技术。获得标注数据后，基于BLSTM-CRF神经网络模型进行序列标注训练以便在未被标注的数据集上预测词语对应的语义标签，从而达到语义信息抽取的目的。在本实施例中，具体步骤如下：

为了在文本数据中抽取领域知识图谱所对应的实体或与实体相关的行为描述和状态描述，需要依据领域知识图谱为每一类实体和描述方式定义语义标签，并据此标注训练集。标签内容如表1所示：

表1语义标签及其含义

将此语义信息抽取过程视作序列标注过程，训练BLSTM-CRF模型实现标签的预测。该BLSTM-CRF模型结合Collobert在2011年和Huang在2015年提出的模型实现。

训练BLSTM-CRF模型需要大量标注数据，纯粹依靠手工标注过于耗时，本发明在标注过程中引入远程监督的方法，自动标注一部分数据。远程监督过程如下：

首先，人工标注5000条数据，并将其中有语义标签的词汇筛选出来，组成标注词集ws。然后，对未标注过的训练数据集进行检索，并找出那些包含在标注词集ws中的词，为它们自动标注上对应的标签。将自动标注获得的大量数据人工矫正后与手工标注的数据合并，组成最终的训练集。

训练模型前，需将训练集中的每一个句子s分成若干个词w₁，w₂，：：：w_n，并将这些词按照{w₁/tag₁，w₂/tag₂：：：w_n/tag_n}的格式进行标注，其中w_i代表句子中的每个词，tag_i代表词w_i对应的语义标签。一个实体或描述短语可能由多个词语组成，采用IOBE模式对文本进行标注。其中：

‘B-’：表示一个实体或描述词的开始；

‘I-’：表示实体或描述词的中间；

‘E-’：表示实体或描述词的结尾；

‘O’：表示当前词不属于其他任何一个标签。

模型标签由IOBE标签和表1中的语义标签共同构成，如“B-OCCUPY”表示当前词是类型为“OCCUPY”的短语的开始。

BLSTM-CRF模型由输入层、BLSTM、CRF和输出层几部分组成，如图3所示。

在输入层中，句子s将被表示成向量列表s＝(w₁，w₂，w₃：：：w_n)的形式，列表中的每一个向量即为句子s中每个词对应的词向量。

BLSTM即双向LSTM神经网络，由前向LSTM和后向LSTM两部分组成。LSTM的单元结构在RNN结构的基础上加入了长短时记忆模块。此模块包含输入门，输出门和遗忘门。通过双向传播形式，BLSTM网络可以很好地捕捉到句子的上下文特征，表达句子的语义特征。

BLSTM的输出是一个概率矩阵A_n*k，矩阵中的每一个值A_ij表示句子s中的第i个词被标注为第j个语义标签的概率。

条件随机场模型(CRF)是一种无向图模型，结合了最大熵模型(MEMMs)和隐马尔科夫模型(HMM)的特性，在词性标注和命名实体识别等序列标注问题上取得了比较好的效果。它通过在全局范围内计算条件状态转移概率矩阵，找出最符合当前句子的标注序列。

对于句子s，模型的最终输出为其中每个词w_i所对应的语义标签的序号。

步骤3：主题陈述句生成

基于Bi-LSTM训练主题句式的分类模型，在主题陈述的句式层面上对已预测过语义标签的文本进行分类，进一步确定每条数据在所属的主题句式，根据领域知识图谱内容，语义信息抽取结果和分类结果，最终确定文本中须提取的词语序列以及词语序列的排列句式，生成完整的文本主题句。在本实施例中，具体包括以下步骤：

建立BLSTM模型对数据集中的句子在主题句式结构层面上进行分类，以确定需要从句子中抽取具有哪些语义标签的短语，并以何种形式组织成句。主题句式结构如表2所示：

表2主题句式结构

对于给定的句子s，将其表示为s＝{w₁/tag₁，w₂/tag₂：：：w_n/tag_n}的形式，其中w_i代表s中的词，tag_i代表w_i的语义标签，对于每个句子{s|{w₁/tag₁，w₂/tag₂：：：w_n/tag_n}}，都有一个t_i与其对应，表示句子所属的主题句式结构。

在BLSTM模型的输入层中，句子s将被表示成向量列表s＝(w₁，w₂，w₃：：：w_n)的形式，列表中的每一个向量由两部分组成，一部分是词向量，另一部分是该词所对应的语义标签的向量表示。

每个句子s对应的主题句式结构序号t_i即为模型的输出。

例如句子“幸福/B-ORG小区/E-ORG草坪/B-PUBLIC上/E-PUBLIC有/B-OCCUPY白色/B-OBJECTS垃圾/E-OBJECTS。”，属于主题句式结构1：“OBJECTS/AD_CER OCCUPYPUBLIC”，该文本的主题句为：“草坪上有白色垃圾。”。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

验证实验：为评估本发明方法的有效性，分别从模型结构，参数调校和生成主题准确率3个方面对模型进行验证。

模型结构：使用BLSTM模型，LSTM-CRF模型与语义信息抽取部分中的BLSTM-CRF模型作对比，使用LSTM模型与主题句式结构分类部分的BLSTM模型做对比。得到的结果如表3所示：

表3不同模型的F1信对比

相较于BLSTM-CRF模型，LSTM-CRF模型除去了向后传播的LSTM部分，而BLSTM模型直接在概率矩阵后连接SoftMax层得到最终的序列标注结果。与LSTM-CRF和BLSTM相比，BLSTM-CRF模型的Fl值为0.913275，具有最好的效果。

而在主题句式结构分类模型中，BLSTM相较于LSTM则具有更好的表现效果，其F1值为0.916465。

参数调校：在实验中，对模型中的几个重要参数进行调节，以使模型达到最好的表现效果。

在语义信息标注模型中，使用Adam优化器并依据控制变量法分别对模型的Keepprob，学习速率(Learning rate)和隐藏层节点数(Hidden nodes)进行调节，得到的数据如表4所示：

表4不同参数值与对应的模型F1值

根据实验数据，最终将语义信息抽取模型中的Keep prob值，Learning rate值和Hidden nodes值设为0.6、0.003、320。

在主题句式结构分类模型中应用同样的方法调节参数，最终将模型的Keep prob值，Learning rate值和Hidden nodes值设为0.7、0.002和128。

将不同的参数组合应用到不同的模型结构中，得到的结果统计如图4和图5所示，其中，横轴的参数分别表示模型的Keep prob、Learning rate和Hidden nodes。

生成的主题句准确率：应用本发明在测试集上自动生成主题句，并在测试集中自动筛选出一部分数据进行人工统计，得到表5中不同事件类型的主题陈述准确率和总体主题陈述准确率。

表5不同类型数据生成主题准确率

由表中统计数据可以看出，本发明在事件类型“物品堆放”和“物品损坏”中，主题生成准确率最好，可达85％。在事件类型为“其他”的数据中表现略差。但总体的主题生成准确率仍可达70.5％。由此可见，本发明在主题句生成方面可以取得比较好的效果。

Claims

1.一种面向领域的中文文本主题句生成方法，其特征在于，包括以下步骤：

步骤1：创建领域知识图谱

步骤2：语义信息抽取

CRF层为无向图模型；

步骤3：主题陈述句生成

2.如权利要求1所述的一种面向领域的中文文本主题句生成方法，其特征在于，所述步骤1中，对预处理后的城市管理案事件信息数据集应用LDA主题聚类算法包括以下步骤：

3.如权利要求1所述的一种面向领域的中文文本主题句生成方法，其特征在于，所述步骤1中，应用K-means算法包括以下步骤：将所有主题词条两两组合，计算共现度，如果两个主题词条之间的共现度高，则证明两个主题词条之间存在关联，结合之前词频统计和词性标注的结果，可确定其中的实例词和描述词，最终确定图谱基本组成单元之间的连接结构。

4.如权利要求1所述的一种面向领域的中文文本主题句生成方法，其特征在于，步骤2中，所述训练集的组成方法为：