CN108920455A

CN108920455A - 一种汉语自动生成文本的自动评价方法

Info

Publication number: CN108920455A
Application number: CN201810610750.9A
Authority: CN
Inventors: 吕学强; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-30

Abstract

本发明涉及一种汉语自动生成文本的自动评价方法，包括汉语语法特征分析、文本篇章特征分析、字符串相似度特征分析和回归分析评价的步骤，汉语语法特征分析是对汉语的表层表达进行分析和评价，分析语言的语法和表达；文本篇章特征分析是对文章的统一性和连贯性进行分析，分析文本的行文特点，从而评价是否是一篇通顺流畅、可读性强的文本；字符串相似度特征分析是通过对比待评价文本与参考文本之间的相似度。本发明提供的汉语自动生成文本的自动评价方法，包含汉语语法特征分析、文本篇章特征分析以及字符串相似度特征分析，可以对自动生成文本做出有效准确的评价，自动评价结果准确性高，可以很好地满足实际应用的需要。

Description

一种汉语自动生成文本的自动评价方法

技术领域

本发明属于文本自动评价技术领域，具体涉及一种汉语自动生成文本的自动评价方法。

背景技术

文本生成技术的迅速发展，使得人们更加快速的获得和拥有更多的信息，面对海量的信息，如何高效、便捷地认知自己得到的信息，对信息拥有者来说是需要思考解决的问题。文本生成评价技术是检验和推动文本生成技术快速发展的重要因素。自动评价技术的发展更将直接推动文本生成技术的快速升级。对自动生成文本的评价，主要有两种评价标准：一种是主观评价标准，即由人通过主观意识，判断自动生成的文本是否是人类可读的文字，并对自动生成的文本进行评价和打分；另一种是客观评价标准，即用一些可量化的特征指标并构建数学模型对自动生成的文本计算得出分数。主观评价主要关注于文本的流畅性、连贯性。流畅性是评价文本是否符合语法规则和表达习惯，以及句子的表达是否准确、通顺。连贯性是评价文本的主题相关度以及逻辑思路是否准确。句子之间的关系就好像链条，环环相扣，紧密相连，缺少其中一环，链条就会断开，就不是一个整体。恰当的运用关联词就是连接句子必不可少的。客观评价主要是一些自动评价，它也要依据人给出的高质量参考文本，量化其中一些特征，然后对自动生成的文本进行自动评价。目前自然语言生成中的评价多用机器翻译的自动评价方法。现有技术对自动生成的文本进行的自动评价结果准确性较低，且评价过程耗时多、效率低，不能满足实际应用的需要。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的汉语自动生成文本的自动评价方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种汉语自动生成文本的自动评价方法，包括建立自动评价体系和回归分析评价的步骤。

进一步地，建立自动评价体系的步骤包括：汉语语法特征分析、文本篇章特征分析和字符串相似度特征分析。

进一步地，汉语语法特征分析是对汉语的表层表达进行分析和评价，分析语言的语法和表达。

进一步地，汉语语法特征分析的步骤包括：利用存储在XML配置文件中的规则来分析和检测输入的文本，输入的文本首先被划分成句子，之后每个句子被划分成词，然后每个词依据标签词典中的声明被标注上词性。

进一步地，文本篇章特征分析是对文章的统一性和连贯性进行分析，分析文本的行文特点，从而评价是否是一篇通顺流畅、可读性强的文本。

进一步地，文本篇章特征分析的步骤包括：通过产生文档和词项相关的一系列概念来分析一组文档与其包含的词项之间的关系，假设意义上相近的词项将出现在类似的文本中，包含每个段落的数字的矩阵由一大块文本构成，矩阵元素表示该次在本文本中出现的次数，然后在此矩阵上使用奇异值分解对该矩阵进行降维，同时保留矩阵中列的信息；之后，通过其向量的余弦值来计算词语的相似性。

进一步地，字符串相似度特征分析是通过对比待评价文本与参考文本之间的相似度，即用标准的参考文本来评价自动生成的文本是否很好的完成了生成任务。

进一步地，采用N-gram模型来进行字符串相似度特征分析，包括：

先计算出N-gram的精确度Pn：

Count_clip(n-gram)是待评价文本和参考文本中n-gram共现的最大数。Count(n-gram)是参考文本中全部n-gram数目；

考虑长度罚分比(Brevity Penalty，BP)，最后得到计算公式如下；

w_n是各个n-gram共现正确率的权重。

进一步地，采用LCS模型来进行字符串相似度特征分析，包括：

用基于LCS的F值来估计长度为m的X和长度为n的Y之间的相似度，并假设X是参考文本，Y是待评价的自动生成文本，公式如下：

其中，LCS(X，Y)是X和Y的最长公共子序列，并且当时，有β＝P_lcs/R_lcs。

进一步地，回归分析评价的步骤包括：

利用Logistic函数：

和边界形式

θ₀+θ₁x₁+，...，+θ_nx_n＝∑_i＝1θ_ix_i＝θ^Tx

构造预测函数：

函数h_θ(x)的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

P(y＝1|x；θ)＝h_θ(x)；

P(y＝0|x；θ)＝1-h_θ(x)；

对于训练数据集n个独立的训练样本{(x₁，y₁)，...，(x_n，y_n)}，y＝{0，1}；对于单个样本样本(x_i，y_i)出现的概率是：

则，整个训练样本集，也就是n个独立的样本出现的似然函数为：

构造Cost函数和J函数如下：

取似然函数为：

J(θ)取为下式，即：

取J(θ)最小值时的θ为要求的最佳参数；

采用梯度下降法：

从而迭代θ至收敛即可：

本发明提供的汉语自动生成文本的自动评价方法，包含汉语语法特征分析、文本篇章特征分析以及字符串相似度特征分析，可以对自动生成文本做出有效准确的评价，自动评价结果准确性高，评价过程耗时少、效率高，可以很好地满足实际应用的需要。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种汉语自动生成文本的自动评价方法，包括汉语语法特征分析、文本篇章特征分析和字符串相似度特征分析。汉语语法特征分析是对汉语的表层表达进行分析和评价，分析语言的语法和表达。文本篇章特征分析是对文章的统一性和连贯性进行分析，分析文本的行文特点，从而评价是否是一篇通顺流畅、可读性强的文本。字符串相似度特征分析是通过对比待评价文本与参考文本之间的相似度，即用标准的参考文本来评价自动生成的文本是否很好的完成了生成任务。

自动评价的方式最大的优点是可以学习大规模的参考文本，并可以重复使用，相比于人工评价的方式，速度更快，节省大量人力和时间。通常，按照文本的语法、内容以及篇章连贯性这三个主要的方面对自动生成的文本进行自动评价。通过综合机器翻译自动评价方法BLEU，评价文摘***的Rouge工具，以及文本分析工具，本实施例采用回归模型，通过联合分析文本语法、内容、篇章连贯性等特征，对文本给出评价结果。

在统计学模型中，回归分析是估计变量之间关系的统计过程。回归分析有助于理解当任何一个独立变量变化时，因变量的典型值如何变化，而其他独立变量保持固定。回归分析估计给定独立变量的因变量的条件期望-即独立变量固定时因变量的平均值。回归分析广泛用于预测，其使用与机器学习领域有重大的重叠。回归分析用于理解哪些自变量与因变量相关，并探讨这些关系的形式。还可以通过使用回归分析来推断独立变量和因变量之间的因果关系。因此，回归分析预测方法是一种价值极高的预测方法。在本实施例中，用回归分析预测法对自动生成文本的得分进行预测。

建立自动评价体系：

汉语语法特征分析：

语法表达的正确性是一篇文本的基础，因此，对语法特征的分析是文本自动分析的首要工作。汉语的语法特征主要包含词汇、短语搭配以及句子结构的应用准确度。常见的语法错误有语序不当、搭配不当、句子成分缺失或赘余、句子结构混乱等。本实施例主要通过分析文本语言表达的语法特征，对机器自动生成的文本作出相应的评价及探讨。通常来讲，文本的语法错误越多，得分越低。因此，分析文本的语法特征，对文本在语法表达层面作出评价。

基于LanguageTool的语法特征分析：

LanguageTool是一个开源的文体和语法校正的软件，包括对英语、中文、法语、德语、波兰语、荷兰语、罗马尼亚语等很多其他语言的支持。它包含丰富的语言规则可以对文本的语法错误进行检测和校正。它可以作为独立程序运行，也可以作为OpenOffice.Org1和LibreOffice2的扩展插件运行。除此之外，LanguageTool还可以根据用户自己创建的语法规则，对文本进行自动检测和语法校对。在此基础之上，为极大程度的保证LanguageTool的正确率，考虑将“HSK动态作文语料库”中人工标记的语法规则添加到LanguageTool的规则文件中。

“HSK动态作文语料库”中的语法规则标记主要有错字标记，别字标记，空缺字标记，空缺标点标记，多余标点标记，病句标记等。

LanguageTool利用存储在XML配置文件中的规则来分析和检测输入的文本。输入的文本首先被划分成句子，之后每个句子被划分成词，然后每个词依据标签词典中的声明被标注上词性。这些词和他们的词性标注用于检查和匹配规则文件中声明的模式。如果存在模式匹配，则向用户显示错误消息。另外，LanguageTool有论坛网站，用户可以在其中贡献语法规则，使得它能够保证极高的检测正确率。由此可见，应用LanguageTool可以很方便准确的计算输入文本的语法错误。

(1)词性标记

LanguageTool使用一个名为“标记词典”的字典文件。包含词语声明的标记词典用于模式匹配，以识别和标记词的词性。

表4.1显示了名词的标注。名词被分为专有名词，普通名词和代词。对专有名词和普通名词的应用取决于不同的因素和程度。

表4.1标记词典示例

(2)规则

规则文件是用于检查句子中的错误的XML文件。如果输入的句子与规则中声明的模式匹配，则向用户显示错误。默认情况下规则文件由几个规则类别组成，可以涵盖语法，样式和标点符号错误。每个规则类别由一个或者多个规则组成。每个规则由不同的元素和属性组成。规则的三个基本要素是模式，消息和示例。模式元素是要匹配的错误的地方。消息元素是反馈和建议的地方。示例元素是声明不正确和正确示例的地方。

图显示了一个伪代码，描述了匹配模式的情况。

(3)语法检测

错误分为三种：字词错误，字词缺失和字词错位。

A.字词错误

字词的错误通常是由于字词的选择和固定规则造成的。有些情况下，仅仅依靠词性标记很难检测到某些错误，为了解决这个问题，我们考虑加入语法人物，代词，动词的发出和接受，以及被形容词或者副词修饰的词等因素。

B.字词缺失

字词缺失通常是由于词语选择时的缺失或者搭配不当。通常情况下，字词缺失会引起不符合词性标记规则的序列。通过查找经常由字词缺失引起的不正常的词性标记序列来检测缺失的字词。

C.字词错位

检测由字词错位引起的错误与检测字词缺失类似。主要的区别在于考虑不正确的词性标记序列之前和之后的标记和词性，并检查是否存在任何不规则。

如伪代码显示如何分类错误。

文本篇章特征分析：

连贯性是意为连续的情况或者状态，部分与部分之间的连续性。保证句子的统一和连贯是组词造句生成文本的基本要求。语言表达的统一性和连贯性是相辅相成的。文本中各部分之间必须具有一定的内在联系或逻辑关系。因此，分析生成文本中语言表达的连贯特征，能够有效的评价文本在结构内容以及逻辑上的统一程度。

利用指代衔接分析(Referential Cohesion Analysis，RCA)和潜在语义分析(Latent Semantic Analysis，LSA)方法，来分析文本的篇章特征，从而对自动生成文本在篇章统一性，连贯性层面作出有效的评价。

基于RCA的特征分析：

指代衔接(Halliday和Hasan1976)在自然语言处理中有着至关重要的作用。在自然语言处理中，指代是一个非常常见的现象，指代关系使得文章更加连贯，顺畅。因此对文本进行指代衔接特征分析，可以对文本的连贯性做出评价^{[43，44，45]}。

Halliday将Reference定义为被引入到文本中某个位置的参与者或间接元素，其被作为后文的参考点或者作为比较的基础。指代衔接主要有三种形式。

(1)通过人称代词

人称代词可能是绝对的或者相对的指代。

表4.2人称代词示例1

性别
	阴性：她，她们
阳性：他，他们
	中立：它，它们

表4.3人称代词示例2

数
	单数：他，它，她，我
复数：他们，它们，她们，我们

(2)通过指示代词

指示代词可以是具体或者非具体的指代。

表4.4指示代词示例1

非具体指代
	每，各，某，其他，别的

表4.5指示代词示例2

具体指代
	近指：这，这些，这里，这样，这会儿
远指：那，那些，那里，那样，那会儿

(3)通过比较级

表4.6比较级示例1

一般比较
	同一性：一样，相同
相似性：类似，近乎
	差异性：不同于，不像，除外，之前

表4.7比较级示例2

特殊比较
	＜：不如，次于，下级
＞：更好，胜于，…的多
	＝：恰好，正是

基于LSA的特征分析：

潜在语义分析(LSA)是自然语言处理中文档分析的一种方法，通过产生文档和词项相关的一系列概念来分析一组文档与其包含的词项之间的关系。LSA假设，意义上相近的词项将出现在类似的文本(分布假设)中。包含每个段落的数字的矩阵(每个行代表唯一的词项，每个列代表每个段落)由一大块文本构成，矩阵元素表示该次在本文本中出现的次数。然后在此矩阵上使用奇异值分解(Singular Value Decomposition，SVD)对该矩阵进行降维，同时保留矩阵中列的信息。之后，词语的相似性便可以通过其向量的余弦值来计算，这个余弦值越接近1则说明两个词语越相似，余弦值越接近0则说明两个词越不相似。

并由此来分析文档中各部分之间存在的关系。因此，LSA对词语可见用法进行分析，通过计算自身发现词语的隐喻含义和类推含义，LSA可以用来判断相似度和关联关系，并对文档的统一性和一致性做出评价。

(1)词-文档矩阵(Occurrences Matrix)

LSA可以用Term-Document矩阵来描述一个词项在文本中的出现，它是一个稀疏矩阵，其行对应于词项，其列对应于文档。矩阵元素的值为相应词项的TF*IDF值(termfrequency-inverse document frequency)。矩阵元素的权重与词项在每个文档中出现的次数成正比，其中，稀疏的词项反映了他们的相对重要性。

一般情况下LSA创建的词-文档矩阵会相对巨大，而且十分稀疏。

n_i，j是词i出现在文章j的次数，也就是源矩阵第ij个元素。

n_j是出现在文章j中所有索引词出现的次数，也就是源矩阵第j列的求和。

D是语料库文章的总数，也就是源矩阵的列数。

D_i是语料库文章出现索引词i的文章数，也就是源矩阵中i行中非零元素的个数。

(2)降维

降维是LSA分析中非常重要不可或缺的一步，通过降维，可以减少矩阵的稀疏，去消除文档中的“噪音”，也就是无关信息(比如词的误用或不相关的词偶尔出现在一起)，从而才能将语义结构逐渐呈现。因而，相比其他一般的向量空间，潜在语义空间的维度更小，语义关系更明确。

奇异值分解(Singular Value Decomposition，SVD)降维。SVD的强大在于，其通过强调强的相关关系并过滤掉噪声来实现矩阵降维。其实现手段是减低噪声，同时增强强模式和趋势。

字符串相似度特征分析：

机器翻译的自动评价***中常常采用字符串相似度方法。用字符串相似度来衡量机器译文同人工翻译的参考译文的相近程度，从而对机器译文进行评价。

BLEU(Bilingual Evaluation Understudy)就是通过计算待评价译文和参考译文的相近程度。并且，待评价译文和参考译文越相近，则待参考译文得分越高。

相同的，机器自动生成的文本与人工写出的文本越相近，则自动生成的文本得分越高。

综合考虑，在此选取N-gram模型和最长公共子序列(longest CommonSubsequence，LCS)模型来评价机器自动生成的文本。

N-Gram模型：采用类似于BLEU的方法，来计算自动生成文本和参考范文之间的相似度。先要计算出N-gram的精确度Pn。

Count_clip(n-gram)是待评价文本和参考文本中n-gram共现的最大数。Count(n-gram)是参考文本中全部n-gram数目。

考虑长度罚分比(Brevity Penalty，BP)，最后得到计算公式如下：

w_n是各个n-gram共现正确率的权重。

LCS模型：类似于在机器翻译评估中应用LCS，将文本视为单词序列。待评价文本和参考范文之间的LCS越长，两个文本越相似，也就意味着待评价文本得分越高。因此，可以将LCS作为评价生成文本的一个特征。我们用基于LCS的F值来估计长度为m的X和长度为n的Y之间的相似度。并假设X是参考文本，Y是待评价的自动生成文本。公式如下：

其中，LCS(X，Y)是X和Y的最长公共子序列，并且当

时，有β＝P_lcs/R_lcs。

回归分析评价：

回归分析是确定两种或者两种以上变量间相互依赖的定量关系的一种统计分析方法。它可以有效的检测到变量之间的依赖关系，因而有很好的分类和预测功能。

对机器自动生成文本的评价就是分析文本的各个特征，对生成文本做出评价。即分析生成文本各种语言特征，对生成文本做出预测评价。研究提出用逻辑回归来做文本的自动评价。根据作文写作和足球新闻写作两种写作任务的不同特点，分别训练不同的回归模型用于自动评价。

逻辑回归是一种常用的统计机器学习方法，它可以利用两个或者两个以上变量之间的关系，来预测和估计某种事物的可能性。

利用Logistic函数：

对于线性边界的情况，边界形式如下：

θ₀+θ₁x₁+，...，+θ_nx_n＝∑_i＝1θ_ix_i＝θ^Tx (4.10)

构造预测函数为：

P(y＝1|x；θ)＝h_θ(x) (4.12)

P(y＝0|x；θ)＝1-h_θ(x) (4.13)

对于训练数据集n个独立的训练样本{(x₁，y₁)，...，(x_n，y_n)}，y＝{0，1}。对于单个样本样本(x_i，y_i)出现的概率是：

构造Cost函数和J函数如下：

取似然函数为：

J(θ)取为下式，即：

取J(θ)最小值时的θ为要求的最佳参数。

采用梯度下降法：

从而迭代θ至收敛即可：

本实施例为作文生成和足球新闻生成分别训练不同的回归模型进行自动评价。

对于作文，从“HSK动态语料库”中选取语料，构建训练样本集。从中选取1000篇语料，其中包含50个题目，每个题目下20篇作文语料，每个题目下选取分数较高的16篇作文作为训练语料，其余的4篇作为测试语料。

对于足球新闻，从新浪网上收集足球比赛信息，每场比赛的信息包含，分数统计，直播文本，和小编战报。从新浪网上收集1000场足球比赛的直播文本和对应的新浪网小编写的比赛战报，并收集这1000场比赛对应的搜狐网小编写的比赛战报。因此，数据集包含1000场足球比赛的直播文本，和2000篇小编战报。由于小编战报是新浪网和搜狐网专业的足球新闻编辑写的比赛战报，因此，可以看作是标准的足球新闻语料。

划分样本数据的80％作为训练数据集，20％作为测试数据集。选取其中的800场比赛的语料作为训练语料，其余的200场比赛的语料作为测试语料。

对回归模型的训练过程如下：

A.用LanguageTool对训练语料进行语法特征分析，得到特征值。

B.用RCA和LSA对训练语料进行篇章特征分析，得到特征值。

C.用n-gram和LCS对训练语料进行内容特征分析，得到特征值。

D.用回归模型训练得到的数据集，最后得到权重参数。

计算自动评价和人工评分的相关系数，得到对作文的评价相关系数(r1)＝0.78。由此可以证明自动评价和人工评分之间有很强的相关性，即该自动评价模型可以有对生成文本做出准确有效的评价。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种汉语自动生成文本的自动评价方法，其特征在于，包括建立自动评价体系和回归分析评价的步骤。

2.根据权利要求1所述的汉语自动生成文本的评价方法，其特征在于，建立自动评价体系的步骤包括：汉语语法特征分析、文本篇章特征分析和字符串相似度特征分析。

3.根据权利要求1-2所述的汉语自动生成文本的评价方法，其特征在于，汉语语法特征分析是对汉语的表层表达进行分析和评价，分析语言的语法和表达。

4.根据权利要求1-3所述的汉语自动生成文本的评价方法，其特征在于，汉语语法特征分析的步骤包括：利用存储在XML配置文件中的规则来分析和检测输入的文本，输入的文本首先被划分成句子，之后每个句子被划分成词，然后每个词依据标签词典中的声明被标注上词性。

5.根据权利要求1-4所述的汉语自动生成文本的评价方法，其特征在于，文本篇章特征分析是对文章的统一性和连贯性进行分析，分析文本的行文特点，从而评价是否是一篇通顺流畅、可读性强的文本。

6.根据权利要求1-5所述的汉语自动生成文本的评价方法，其特征在于，文本篇章特征分析的步骤包括：通过产生文档和词项相关的一系列概念来分析一组文档与其包含的词项之间的关系，假设意义上相近的词项将出现在类似的文本中。包含每个段落的数字的矩阵由一大块文本构成，矩阵元素表示该次在本文本中出现的次数，然后在此矩阵上使用奇异值分解对该矩阵进行降维，同时保留矩阵中列的信息；之后，通过其向量的余弦值来计算词语的相似性。

7.根据权利要求1-6所述的汉语自动生成文本的评价方法，其特征在于，字符串相似度特征分析是通过对比待评价文本与参考文本之间的相似度，即用标准的参考文本来评价自动生成的文本是否很好的完成了生成任务。

8.根据权利要求1-7所述的汉语自动生成文本的评价方法，其特征在于，采用N-gram模型来进行字符串相似度特征分析，包括：

先计算出N-gram的精确度Pn：

考虑长度罚分比(Brevity Penalty，BP)，最后得到计算公式如下：

w_n是各个n-gram共现正确率的权重。

9.根据权利要求1-7所述的汉语自动生成文本的评价方法，其特征在于，采用LCS模型来进行字符串相似度特征分析，包括：

10.根据权利要求1-9所述的汉语自动生成文本的评价方法，其特征在于，回归分析评价的步骤包括：

利用Logistic函数：

和边界形式

θ₀+θ₁x₁+，...，+θ_nx_n＝∑_i＝1θ_ix_i＝θ^Tx

构造预测函数：

P(y＝1|x；θ)＝h_θ(x)；

P(y＝0|x；θ)＝1-h_θ(x)；

构造Cost函数和J函数如下。

取似然函数为：

J(θ)取为下式，即：

取J(θ)最小值时的θ为要求的最佳参数。

采用梯度下降法：

从而迭代θ至收敛即可：