CN110032741A

CN110032741A - 一种基于语义扩展和最大边缘相关的伪文本生成方法

Info

Publication number: CN110032741A
Application number: CN201910369823.4A
Authority: CN
Inventors: 卢玲; 杨武
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-07-19
Anticipated expiration: 2039-05-06
Also published as: CN110032741B

Abstract

本发明提出了一种基于语义扩展和最大边缘相关的伪文本生成方法，包括以下步骤：S1，提取原文本的词和/或短语特征；S2，根据步骤S1中提取的特征通过相似度计算生成扩展词；S3，对步骤S2中的扩展词进行筛选候选词；S4，生成伪文本。本发明在较好地控制文本扩展的噪音的同时，实现了文本语义扩展。

Description

一种基于语义扩展和最大边缘相关的伪文本生成方法

技术领域

本发明涉及一种语义扩展技术领域，特别是涉及一种基于语义扩展和最大边缘相关的伪文本生成方法。

背景技术

短文本包括新闻标题、微博、网络评论以及文档摘要等。随着社交网络平台的快速发展，网络文本大量积聚，如何对海量短文本进行分析，如根据新闻标题进行分类、根据网络评论进行情感识别等，在自动问答、舆情发现等领域具有良好应用价值。短文本字符数少，词频及词共现频度低，在结构化时容易出现数据稀疏问题，使基于特征提取的传统机器学习方法和基于自动特征学习的神经网络方法直接应用于短文本时，仍存在不足。

目前，学者针对短文本特征稀疏问题开展了大量研究。从短文本的特征扩展方面，Wang等用外部特征扩展文本向量空间，并用一种类Kmeans方法对扩展文本进行聚类。Adams等用基于WordNet上下文增强的方法扩展特征，进行即时信息分析。张海涛等提出建立小样本簇背景特征集，并结合边缘相关性分析选取文本特征。Wang等结合密度峰聚类及WordEmbedding对短文本进行扩展。Bicalho等提出了一种文本扩展通用框架，并基于该框架生成伪文本，进行主题建模实证研究。增强短文本语义表达能力方面，Fan等通过增加新特征，修改初始特征权值及控制特征扩展度，提高短文本分类性能。杨峰等用增量式随机网络进行词语联想以增强局部文本语义。总体来看，现有研究主要着眼于扩展文本特征及增加特征表达强度。其中，特征增强方法虽取得了较好效果，但其人工成本高，算法复杂。基于扩展文本特征，生成伪文本的方法由于只改变输入数据，无需改变应用模型而被广泛关注，但现有研究较多关注的是文本特征的扩展方法。通过引入新的特征，虽然可扩展文本语义，但同时也可能引入噪音，因而使短文本发生主题偏移，反而使分类等任务的性能下降。

近年来，随着神经网络(Neural Networks，NNs)方法的发展，结合NNs方法对文本的词、句子及段落进行语义表示的研究被广泛关注。Mikolov等用Skip-gram模型学习文本向量表示，并对如何提高训练质量及速度进行了研究。Mitchell研究短语、句子的语义组合模型，对多种向量组合函数的效果进行了实证和评价。现有对词、短语的语义表示方法的研究，为文本语义特征扩展提供了新的着眼点。

综上所述，本文针对短文本扩展问题，对如何使扩展文本在尽可能小的范围内语义最大化进行了研究。运用Word Embedding进行文本特征表示，并提出了一种结合后验概率估计和最大边缘相关方法的语义扩展框架，用于生成伪文本。通过将伪文本用于多种分类模型下的新闻标题分类实验，验证了本文伪文本生成方法的有效性。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于语义扩展和最大边缘相关的伪文本生成方法。

为了实现本发明的上述目的，本发明提供了一种基于语义扩展和最大边缘相关的伪文本生成方法，其包括以下步骤：

S1，提取原文本的词和/或短语特征；

S2，根据步骤S1中提取的特征通过相似度计算生成扩展词；

S3，对步骤S2中的扩展词进行筛选候选词；

S4，生成伪文本。

在本发明的一种优选实施方式中，在步骤S1中，原文本的词和/或短语特征的提取方法包括：

设S为原文本，将其表示为词向量矩阵，设窗口大小为h，对窗口内词向量求和，得到S的一组短语特征T^(h)，表示为其中，是大小为h的窗口内词向量相加而成的新向量；

当h为1时，T⁽¹⁾即为S，表示单个词特征；

通过改变h大小，得到S的多组语义特征，表示为T＝{T⁽¹⁾,T⁽²⁾,...,T^(p)}。

在本发明的一种优选实施方式中，在步骤S2中，扩展词的生成方法包括：

以预训练的词向量矩阵WMDIC为查找表；计算：

其中，findNearest()为计算最相似的词向量，t_i为文本特征，WMDIC为预训练的词向量矩阵，n为候选顶点数；为候选词集；

其中，sim()为相似度度量函数，为扩展特征，w为实边线权值；

其中，为生成t_i与之间权值为w的实线边；

E_r＝E_r∪{e_r}；E_r为实线边集，e_r为实线边；

C^(h)为扩展特征集，为候选扩展词集。

在本发明的一种优选实施方式中，在步骤S3中，候选词的筛选方法包括：

设词典为D，原文特征为T^(h)，对为其候选词；计算：

其中，z为虚线边权值，其中，t_j∈{t_i-m,...,t_i-1,t_i+1,...,t_i+m}；

其中，为生成t_j与之间权值为z的虚线边；

E_p＝E_p∪{e_p}，其中，E_p为虚边集，e_p为虚线边；

其中，为特征t_j对候选词的条件概率，计算公式为：

其中，|D|为字典D中的词数，是t_j、在文本集中的共现频度；

由于是生成的扩展词，对假设其先验概率相等，令则在TP下的后验概率计算如式：

即的后验概率是其相关联虚线边权值的乘积。

在本发明的一种优选实施方式中，伪文本的生成方法包括：

对将评分最高的作为t_i的扩展特征；

评分的计算方法为：其中，w为实边线权值；为扩展特征，

分别对进行语义扩展，将筛选的扩展词与S拼接，得到伪文本PD。

在本发明的一种优选实施方式中，在步骤S3中还包括：

在筛选扩展词时，对文本特征t_i，为其候选词集，如为t_i-1已选中的扩展词，则对计算：

其中，sim()为余弦相似度度量函数，λ是相关度度量参数；

当i为1时，由于t₁没有前序特征，对其关联的实线边权值不做修改。

综上所述，由于采用了上述技术方案，本发明在较好地控制文本扩展的噪音的同时，实现了文本语义扩展。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明(2,1)阶语义扩展框架示意图。

图2是本发明伪文本生成流程示意图。

图3是本发明n-gram词向量组合的特征提取示意图。

图4是本发明短语特征扩展词的上下文关系示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

阅读短文本时，读者常根据自身认知及上下文进行联想。例如：“费德勒夺下温网第8冠”，读到“费德勒”、“温网”时，联想其近义词，如“网球”、“公开赛”，可辅助对原文的理解。可见，通过现有特征生成新词，与原文组成扩展文本，可提高词共现率，加深对文本的理解。扩展文本中包含原文特征，也包含扩展特征，称为伪文本(Pseudo-Documents，PD)。针对文本扩展，本文提出了一种(n,m)阶语义扩展框架，通过控制扩展特征噪音及最大化伪文本语义，提高伪文本质量。如图1所示是(2,1)阶语义扩展框架。

设T是文本特征集，表示为{t₁,t₂,t₃,...,t_q}，t₁，t₂，t₃，……，t_q为文本特征；其中，q为文本特征数。(n,m)阶语义扩展是指对选取n个候选扩展词，再观察t_i左右m距离内的上下文，由此从n个候选词中选一个作为t_i的扩展词。如图1所示(2,1)阶扩展框架中，特征t₂有两个候选词c₂、c₃，灰色矩形框为t₂的观察窗口。通过观察窗口内t₂左右距离为1的上下文t₁和t₃，从c₂、c₃中选一个作为t₂的扩展词。

令词典为D，文本特征集T的候选扩展词集为C。以特征为顶点，实线边表示顶点的相似关系，虚线边表示顶点的共现关系，(n,m)阶语义扩展框架形式化定义如下：

定义1：

令图G＝{V,E}为(n,m)阶语义扩展框架，其中：

①顶点集V＝T∪C：∧表示“命题”的“合取”运算，即“并且”的意思。

i.文本特征集T＝{t₁,t₂,t₃,...,t_q}。

对其候选顶点集n为候选顶点数。对c_tij为t_i的第j个候选顶点。满足：其中f为相似度度量函数。即是t_i在相似度函数f下的n个最相似顶点集。

ii.候选词集得到C＝{c₁,c₂,...,c_r},r为候选词集C中的候选词数。

②边集E＝E_r∪E_p。

i.实线边集E_r＝{er₁,er₂,...,er_card(T)×n}，card(T)为文本特征集T中元素的个数。

对er＝(t_i,c_tij,w)，t_i∈T，权值其中v为在C中的编号，即v∈{1,2,3,...,r}。

ii.虚线边集E_p＝{ep₁,ep₂,...,ep_{(card(C)-1)×2m}}，card(C)为获选词集C中元素的个数。

对其左右距离为m的窗口内特征TP＝{t_i-m,...,t_i-1,t_i+1,...,t_i+m}。对t_r∈TP，权值其中g为与t_r的共现度量函数，u为在C中的编号，即u∈{1,2,3,...,r}。

根据定义1，图1的(2,1)阶语义扩展框架中，每个原文特征有2个候选扩展词。如t₂的候选词为c₂、c₃，实线边(t₂,c₂,w₂₂)表示t₂与c₂的相似关系，w₂₂为二者的相似度量值。t₂的观察窗口大小为1，窗口内的特征为{t₁,t₃}；边(t₁,c₂,z₁₂)表示t₁与c₂的共现关系，z₁₂为二者的共现度量值。由图1语义扩展框架，本文伪文本生成流程如图2所示。图2伪文本生成流程描述为：①提取原文语义特征T；②提取扩展词C；③生成实线边，描述T、C的相关性；④生成虚线边，描述C与T的上下文的相关性；⑤根据与C相关联边的权值，筛选扩展词，与原文合并形成伪文本。

原文语义特征表示及提取

语义特征表示方法

对任意短文本，其特征有单个词和短语两种表示形式。单个词特征的表示既要能体现词的语义，同时也易于扩展和组合。Word Embedding又称“词向量”。通过构建神经网络语言模型，根据词与维度的共现频率，可将词映射成低维实向量，即词向量。词向量的各维构成了语义空间，词的相对位置描述了其语义关系。语义相近的词，其在空间中的距离也相近。因此，对文本的单个词，可用词向量表示其语义。

由于单个词忽略了上下文信息，文本特征还应考虑短语，即词的组合特征。根据全局语义可描述为局部语义的函数，对词向量u、v，其组合可描述为：t＝comb(u,v)，即u、v通过组合函数comb产生新的语义t。对组合函数comb，向量加是一种常用方法，通过实证研究验证了该方法的有效性。另外，训练好的词向量具有如下analogy性质：

vec(“Madrid”)-vec(“Spain”)+vec(“France”)→vec(“Paris”)

词向量的这种analogy性质也为向量加提供了依据。因此，对词向量表示的单个词语，可用向量加作为组合函数，即：t＝u+v。通过词向量u、v相加，产生语义特征t，用于描述文本的短语语义特征。

短语特征提取方法

由于短语是n-gram特征，其组合形式多样。另外，词向量加因无法判断相加顺序而忽略了词序信息。对此，本文用多尺度连续滑动窗口提取短语特征。通过窗口的不同尺度提取n-gram特征，用窗口滑动的连续性使组合特征间保持相对语序信息。设S为原文本，表示为词向量矩阵(s₁,s₂,s₃,...,s_k)，k为原文本S中的特征数目，S的短语特征提取如图3所示。

设窗口大小为h，h＝2m，对窗口内词向量求和，得到S的一组短语特征T^(h)，表示为其中，是大小为h的窗口内词向量相加而成的新向量，i＝1,2,...,q。图3中，在窗口大小为4，滑动步长为1时，得到原文的一组语义特征表示显然，当h为1时，T⁽¹⁾即为S，表示单个词特征。由于窗口滑动的连续性，T^(h)的各特征间存在相对词序信息。通过改变h大小，h＝1,2,…p，可得到S的多组语义特征，表示为T＝{T⁽¹⁾,T(²⁾,…,T^(p)}，1≤p≤k。

扩展语义特征提取及筛选

语义特征扩展

对其候选扩展词集即是与t_i语义相似度最大的词。对(n,m)阶扩展框架，本文提取t_i最相似的n个词构成并生成实线边集E_r描述t_i与的相似关系。以预训练的词向量矩阵WMDIC为查找表，WMDIC∈R^dim×N，其中dim是词向量维度，N为单词数，R^dim×N表示词向量矩阵WMDIC的维度为dim×N。对其扩展特征C^(h)的提取及实线边生成如算法GenSolid所示：

算法GenSolid：

Input：T^(h),WMDIC∈R^dim×N

Output：C^(h),E_r

Steps：

For each t_i inT^(h)：

E_r＝E_r∪{e_r}

其中，findNearest(t_i,n,WMDIC)为计算t_i最相似的n个词向量；为t_i与其扩展特征的相似度度量函数，本文采用余弦相似度；为生成t_i与之间权值为w的实线边。

后验概率估计

对(n,m)阶扩展框架，C^(h)的特征数是T^(h)的n倍，为避免形成较大噪音，需筛选候选词，选取C^(h)尽可能小的真子集。本文在词筛选时除考虑扩展词与原文的语义相似度，还基于原文上下文考虑扩展词的合理性。

朴素贝叶斯是解决机器学习问题的最有实际价值的方法之一。对分类问题，贝叶斯方法根据类别的先验概率和条件概率，以文本属于类别的最大后验概率作为分类结果。对文本特征集d＝T＝{t₁,t₂,…,t_q}，t_j是其任一词语，d属于类别Z的后验概率P(Z|d)如式⑴：

其中，P(Z)为Z的先验概率，P(t_j|Z)为条件概率。根据贝叶斯方法，在当前上下文条件下，候选词的后验概率可作为其筛选依据之一。为此，本文用虚线边连接候选词与原文上下文，用候选词相对于原文上下文的条件概率作为虚线边权值，由此计算候选词的后验概率。设词典为D，原文特征为T^(h)，对为其候选词，(n,m)阶扩展框架的虚线边生成如算法GenDotted：

算法GenDotted：

Input：T^(h)，C^(h)

Output：E_p

Steps：

For each t_iinT^(h)，即是t_i∈T^(h)：

TP＝{t_i-m,...,t_i-1,t_i+1,…,t_i+m}，

For each t_jin TP，即是t_j∈TP：

为生成t_j与之间权值为z的虚线边；

E_p＝E_p∪{e_p}

其中，z为虚线边权值，为特征t_j对候选词的条件概率，计算如式⑵：

其中，|D|为字典D中的词数，是t_j、在文本集中的共现频度。由此得到的虚线边集E_p描述了候选词与当前上下文TP的共现关系。由于是生成的扩展词，对本文假设其先验概率相等，令则根据式⑴、⑵，在TP下的后验概率计算如式⑶：

即的后验概率是其相关联虚线边权值的乘积。当短语特征t_j是词组合生成的向量时，难以直接计算t_j与的共现关系，|TP|为TP中元素的个数，因此在实际计算中，的上下文取生成t_j的原文。如图4所示，对原文S，t₂是s₂、s₃的组合特征，当扩展框架为m＝1时，t₂上下文观察窗口为1，因此其扩展词c₂、c₃的上下文为s₁、s₄，则c₂的后验概率为：

P(c₂|s₁,s₂)＝P(s₁|c₂)×P(s₂|c₂)

当原文特征t_i、t_j的语义相似度较大，可能产生相同扩展词。如图1中，c₃同时是t₁、t₂的扩展词。如t_i、t_j相邻，可能连续选中同一扩展词，使伪文本出现连续冗余词，影响伪文本质量。如句子“华为智能手机配置”，其中“智能”和“手机”的3个候选词分别为(根据本文训练的Word2Vec词向量)：

“智能”：“智慧型”、“平板”、“功能手机”

“手机”：“智慧型”、“平板”、“android”

可见生成了重复扩展词“智慧型”、“平板”。其中，“智慧型”相对于原词上下文的后验概率分别为：

P智能(智慧型|华为,手机)＝P(华为|智慧型)*P(手机|智慧型)

P手机(智慧型|智能,配置)＝P(智能|智慧型)*P(配置|智慧型)

由于“智能”与“手机”的语义相似性，可假设：

P(手机|智慧型)≈P(智能|智慧型)

则：P智能(智慧型|华为,手机)≈P(华为|智慧型)

P手机(智慧型|智能,配置)≈P(配置|智慧型)

即“智慧型”的后验概率较大依赖于其与上下文“华为”、“配置”的共现关系。由于“智能”与“手机”相邻，其上下文处于较小观察窗口内，可假设上下文共现概率相等，即：

P(华为|智慧型)≈P(配置|智慧型)

则：P智能(智慧型|华为,手机)≈P手机(智慧型|智能,配置)

即如果“智慧型”被“智能”选中，则其也更容易被“手机”选中，使伪文本出现连续冗余词。为使C^(h)在尽可能小的情况下最大化地扩展特征，需优化特征筛选方法。搜索引擎对查询结果的边缘相关处理[7]可作为一种优化依据。对搜索引擎的查询结果，将相关性计算与冗余性消除进行线性组合，使结果具有高相关性及较小冗余，称为最大边缘相关方法。对查询Q，R表示Q的结果集，为已返回结果集。对文档d_j的最大边缘相关计算如式⑷：

MMR(d_j)＝λsim1(d_j,Q)-(1-λ)sim2(d_i,d_j) ⑷

其中，sim1、sim2分别为相关度、相似度度量函数。当λ＝0，式⑷计算d_j与已返回文档d_i的相似度。当λ＝1，计算d_j与查询Q的相关度。

对本文的词扩展问题，为避免连续选中重复词，选中的词间应具有较高边缘相关性，即对相邻文本特征t_i-1和t_i，其扩展词的相似性尽可能小。因此，在筛选扩展词时，对文本特征t_i，为其候选词集，如为t_i-1已选中的扩展词，则对根据式⑷，将t_i相关联的实线边权值改写为式⑸：

其中，sim()为余弦相似度度量函数，λ是相关度度量参数，使用模型时，该参数根据实际情况设置和调整。即当文本特征t_i-1选中扩展词则计算其相邻后续文本特征t_i的扩展词与扩展词的相似度，据此更新t_i所关联实线边的权值。当i为1时，由于t₁没有前序特征，对其关联的实线边权值不做修改。

扩展特征筛选

由算法GenSolid及GenDotted，可生成一个由原文特征集T^(h)、扩展特征集C^(h)、实线边集E_r及虚线边集E_p构成的语义扩展框架。对的候选扩展词集对根据与相关联的实线、虚线边权值对进行评分，结合式⑶、⑸，的评分如式⑹：

对将评分最高的作为t_i的扩展特征。

如前所述，对原文本S＝{s₁,s₂,s₃,...,s_k}，设观察窗口大小分别为{1,2,...,p}，则其语义特征T为{T⁽¹⁾,T⁽²⁾,...,T^(p)}。分别对进行语义扩展，将筛选的扩展词与S拼接，得到伪文本PD，形如：PD＝{s₁,s₂,...,s_k,c₁,c₂,...,c_r}。PD中包含原文词和扩展词，扩展词间具有相对语序信息。

实验结果及分析

为验证伪文本效果，将生成的伪文本用于分类任务。实验数据来自NLP&CC2017评测，包括18个类别的中文新闻标题文本。标题的字符数介于1～40之间，分词(jieba分词)的词数介于1～20之间。训练集和开发集语料如表1所示。

表1实验数据分布

用***开源项目Word2Vec的Skip-gram模型训练词向量，所用语料及生成词向量名称为：

SV：搜狗新闻语料(SogouCS，一个月新闻数据)；

WV：中文WiKi百科语料；

MWV：中文WiKi百科与训练集混合语料。

分别构建朴素贝叶斯(Naive Bayes，NB)、支持向量机(Support Vector Machine，SVM)、卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(RecurrentNeural Networks，RNN)分类模型。用未扩展的原文分类作为Baseline，以分类正确率为评价指标。采用(3,1)阶语义扩展框架，当λ为0.8时，各模型2分类、18分类正确率如表2所示。

表2各模型分类正确率对比

从表2可见，基于各词向量扩展生成的伪文本，在各分类模型的正确率均较Baseline有一定程度提高。从CNN对18个类别的分类结果看，由SV生成的伪文本分类正确率为0.7648，比Baseline提高3.7％，由MWV生成的伪文本正确率为0.7869，比Baseline提高6.7％·。从不同语料生成的词向量看，基于WV的伪文本分类正确率整体优于SV，其中MKV的性能比Baseline提高最为显著。分析其原因，由于新闻标题是短文本，其语法结构、遣词特点都与普通文本存在差异，因此用普通文本训练的词向量不能较好地表达新闻标题的语义。通过将普通文本与标题混合，可以使MKV词向量更符合新闻标题的语义特征。另外，本文伪文本生成方法，较大程度依赖于词向量的词覆盖率。由于MKV是WiKi百科与训练文本的混合语料，词覆盖率高于SV、MKV，因此用MKV生成的伪文本质量较优。

总体来看，伪文本在各分类模型上的正确率均较Baseline有一定程度提升，表明伪为本从一定程度扩展了文本语义，且在各分类模型中有稳定的性能。在18类的分类测试中，RNN基于SV扩展的正确率为0.7193，略低于Baseline，分析其原因，本文方法生成的伪文本，主要着眼于特征扩展及控制扩展特征的噪音，虽然可在保证扩展特征有效性的同时，较好地控制伪文本长度，且扩展特征间存在相对语序信息，但扩展特征间不存在显著的语义关系和语法结构，即伪文本与原文语法结构是不同的，使基于词序理解的RNN模型表现欠优，这也是本文下一步研究的问题之一。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于语义扩展和最大边缘相关的伪文本生成方法，其特征在于，包括以下步骤：