CN110032741A - 一种基于语义扩展和最大边缘相关的伪文本生成方法 - Google Patents

一种基于语义扩展和最大边缘相关的伪文本生成方法 Download PDF

Info

Publication number
CN110032741A
CN110032741A CN201910369823.4A CN201910369823A CN110032741A CN 110032741 A CN110032741 A CN 110032741A CN 201910369823 A CN201910369823 A CN 201910369823A CN 110032741 A CN110032741 A CN 110032741A
Authority
CN
China
Prior art keywords
word
feature
text
extension
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910369823.4A
Other languages
English (en)
Other versions
CN110032741B (zh
Inventor
卢玲
杨武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN201910369823.4A priority Critical patent/CN110032741B/zh
Publication of CN110032741A publication Critical patent/CN110032741A/zh
Application granted granted Critical
Publication of CN110032741B publication Critical patent/CN110032741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于语义扩展和最大边缘相关的伪文本生成方法,包括以下步骤:S1,提取原文本的词和/或短语特征;S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;S3,对步骤S2中的扩展词进行筛选候选词;S4,生成伪文本。本发明在较好地控制文本扩展的噪音的同时,实现了文本语义扩展。

Description

一种基于语义扩展和最大边缘相关的伪文本生成方法
技术领域
本发明涉及一种语义扩展技术领域,特别是涉及一种基于语义扩展和最大边缘相关的伪文本生成方法。
背景技术
短文本包括新闻标题、微博、网络评论以及文档摘要等。随着社交网络平台的快速发展,网络文本大量积聚,如何对海量短文本进行分析,如根据新闻标题进行分类、根据网络评论进行情感识别等,在自动问答、舆情发现等领域具有良好应用价值。短文本字符数少,词频及词共现频度低,在结构化时容易出现数据稀疏问题,使基于特征提取的传统机器学习方法和基于自动特征学习的神经网络方法直接应用于短文本时,仍存在不足。
目前,学者针对短文本特征稀疏问题开展了大量研究。从短文本的特征扩展方面,Wang等用外部特征扩展文本向量空间,并用一种类Kmeans方法对扩展文本进行聚类。Adams等用基于WordNet上下文增强的方法扩展特征,进行即时信息分析。张海涛等提出建立小样本簇背景特征集,并结合边缘相关性分析选取文本特征。Wang等结合密度峰聚类及WordEmbedding对短文本进行扩展。Bicalho等提出了一种文本扩展通用框架,并基于该框架生成伪文本,进行主题建模实证研究。增强短文本语义表达能力方面,Fan等通过增加新特征,修改初始特征权值及控制特征扩展度,提高短文本分类性能。杨峰等用增量式随机网络进行词语联想以增强局部文本语义。总体来看,现有研究主要着眼于扩展文本特征及增加特征表达强度。其中,特征增强方法虽取得了较好效果,但其人工成本高,算法复杂。基于扩展文本特征,生成伪文本的方法由于只改变输入数据,无需改变应用模型而被广泛关注,但现有研究较多关注的是文本特征的扩展方法。通过引入新的特征,虽然可扩展文本语义,但同时也可能引入噪音,因而使短文本发生主题偏移,反而使分类等任务的性能下降。
近年来,随着神经网络(Neural Networks,NNs)方法的发展,结合NNs方法对文本的词、句子及段落进行语义表示的研究被广泛关注。Mikolov等用Skip-gram模型学习文本向量表示,并对如何提高训练质量及速度进行了研究。Mitchell研究短语、句子的语义组合模型,对多种向量组合函数的效果进行了实证和评价。现有对词、短语的语义表示方法的研究,为文本语义特征扩展提供了新的着眼点。
综上所述,本文针对短文本扩展问题,对如何使扩展文本在尽可能小的范围内语义最大化进行了研究。运用Word Embedding进行文本特征表示,并提出了一种结合后验概率估计和最大边缘相关方法的语义扩展框架,用于生成伪文本。通过将伪文本用于多种分类模型下的新闻标题分类实验,验证了本文伪文本生成方法的有效性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于语义扩展和最大边缘相关的伪文本生成方法。
为了实现本发明的上述目的,本发明提供了一种基于语义扩展和最大边缘相关的伪文本生成方法,其包括以下步骤:
S1,提取原文本的词和/或短语特征;
S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;
S3,对步骤S2中的扩展词进行筛选候选词;
S4,生成伪文本。
在本发明的一种优选实施方式中,在步骤S1中,原文本的词和/或短语特征的提取方法包括:
设S为原文本,将其表示为词向量矩阵,设窗口大小为h,对窗口内词向量求和,得到S的一组短语特征T(h),表示为其中,是大小为h的窗口内词向量相加而成的新向量;
当h为1时,T(1)即为S,表示单个词特征;
通过改变h大小,得到S的多组语义特征,表示为T={T(1),T(2),...,T(p)}。
在本发明的一种优选实施方式中,在步骤S2中,扩展词的生成方法包括:
以预训练的词向量矩阵WMDIC为查找表;计算:
其中,findNearest()为计算最相似的词向量,ti为文本特征,WMDIC为预训练的词向量矩阵,n为候选顶点数;为候选词集;
其中,sim()为相似度度量函数,为扩展特征,w为实边线权值;
其中,为生成ti之间权值为w的实线边;
Er=Er∪{er};Er为实线边集,er为实线边;
C(h)为扩展特征集,为候选扩展词集。
在本发明的一种优选实施方式中,在步骤S3中,候选词的筛选方法包括:
设词典为D,原文特征为T(h),对 为其候选词;计算:
其中,z为虚线边权值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};
其中,为生成tj之间权值为z的虚线边;
Ep=Ep∪{ep},其中,Ep为虚边集,ep为虚线边;
其中,为特征tj对候选词的条件概率,计算公式为:
其中,|D|为字典D中的词数,是tj在文本集中的共现频度;
由于是生成的扩展词,对假设其先验概率相等,令在TP下的后验概率计算如式:
的后验概率是其相关联虚线边权值的乘积。
在本发明的一种优选实施方式中,伪文本的生成方法包括:
将评分最高的作为ti的扩展特征;
评分的计算方法为:其中,w为实边线权值;为扩展特征,
分别对进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD。
在本发明的一种优选实施方式中,在步骤S3中还包括:
在筛选扩展词时,对文本特征ti为其候选词集,如为ti-1已选中的扩展词,则对计算:
其中,sim()为余弦相似度度量函数,λ是相关度度量参数;
当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。
综上所述,由于采用了上述技术方案,本发明在较好地控制文本扩展的噪音的同时,实现了文本语义扩展。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明(2,1)阶语义扩展框架示意图。
图2是本发明伪文本生成流程示意图。
图3是本发明n-gram词向量组合的特征提取示意图。
图4是本发明短语特征扩展词的上下文关系示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
阅读短文本时,读者常根据自身认知及上下文进行联想。例如:“费德勒夺下温网第8冠”,读到“费德勒”、“温网”时,联想其近义词,如“网球”、“公开赛”,可辅助对原文的理解。可见,通过现有特征生成新词,与原文组成扩展文本,可提高词共现率,加深对文本的理解。扩展文本中包含原文特征,也包含扩展特征,称为伪文本(Pseudo-Documents,PD)。针对文本扩展,本文提出了一种(n,m)阶语义扩展框架,通过控制扩展特征噪音及最大化伪文本语义,提高伪文本质量。如图1所示是(2,1)阶语义扩展框架。
设T是文本特征集,表示为{t1,t2,t3,...,tq},t1,t2,t3,……,tq为文本特征;其中,q为文本特征数。(n,m)阶语义扩展是指对选取n个候选扩展词,再观察ti左右m距离内的上下文,由此从n个候选词中选一个作为ti的扩展词。如图1所示(2,1)阶扩展框架中,特征t2有两个候选词c2、c3,灰色矩形框为t2的观察窗口。通过观察窗口内t2左右距离为1的上下文t1和t3,从c2、c3中选一个作为t2的扩展词。
令词典为D,文本特征集T的候选扩展词集为C。以特征为顶点,实线边表示顶点的相似关系,虚线边表示顶点的共现关系,(n,m)阶语义扩展框架形式化定义如下:
定义1:
令图G={V,E}为(n,m)阶语义扩展框架,其中:
①顶点集V=T∪C:∧表示“命题”的“合取”运算,即“并且”的意思。
i.文本特征集T={t1,t2,t3,...,tq}。
其候选顶点集n为候选顶点数。对ctij为ti的第j个候选顶点。满足:其中f为相似度度量函数。即是ti在相似度函数f下的n个最相似顶点集。
ii.候选词集得到C={c1,c2,...,cr},r为候选词集C中的候选词数。
②边集E=Er∪Ep
i.实线边集Er={er1,er2,...,ercard(T)×n},card(T)为文本特征集T中元素的个数。
er=(ti,ctij,w),ti∈T,权值其中v为在C中的编号,即v∈{1,2,3,...,r}。
ii.虚线边集Ep={ep1,ep2,...,ep(card(C)-1)×2m},card(C)为获选词集C中元素的个数。
其左右距离为m的窗口内特征TP={ti-m,...,ti-1,ti+1,...,ti+m}。对tr∈TP,权值其中g为与tr的共现度量函数,u为在C中的编号,即u∈{1,2,3,...,r}。
根据定义1,图1的(2,1)阶语义扩展框架中,每个原文特征有2个候选扩展词。如t2的候选词为c2、c3,实线边(t2,c2,w22)表示t2与c2的相似关系,w22为二者的相似度量值。t2的观察窗口大小为1,窗口内的特征为{t1,t3};边(t1,c2,z12)表示t1与c2的共现关系,z12为二者的共现度量值。由图1语义扩展框架,本文伪文本生成流程如图2所示。图2伪文本生成流程描述为:①提取原文语义特征T;②提取扩展词C;③生成实线边,描述T、C的相关性;④生成虚线边,描述C与T的上下文的相关性;⑤根据与C相关联边的权值,筛选扩展词,与原文合并形成伪文本。
原文语义特征表示及提取
语义特征表示方法
对任意短文本,其特征有单个词和短语两种表示形式。单个词特征的表示既要能体现词的语义,同时也易于扩展和组合。Word Embedding又称“词向量”。通过构建神经网络语言模型,根据词与维度的共现频率,可将词映射成低维实向量,即词向量。词向量的各维构成了语义空间,词的相对位置描述了其语义关系。语义相近的词,其在空间中的距离也相近。因此,对文本的单个词,可用词向量表示其语义。
由于单个词忽略了上下文信息,文本特征还应考虑短语,即词的组合特征。根据全局语义可描述为局部语义的函数,对词向量u、v,其组合可描述为:t=comb(u,v),即u、v通过组合函数comb产生新的语义t。对组合函数comb,向量加是一种常用方法,通过实证研究验证了该方法的有效性。另外,训练好的词向量具有如下analogy性质:
vec(“Madrid”)-vec(“Spain”)+vec(“France”)→vec(“Paris”)
词向量的这种analogy性质也为向量加提供了依据。因此,对词向量表示的单个词语,可用向量加作为组合函数,即:t=u+v。通过词向量u、v相加,产生语义特征t,用于描述文本的短语语义特征。
短语特征提取方法
由于短语是n-gram特征,其组合形式多样。另外,词向量加因无法判断相加顺序而忽略了词序信息。对此,本文用多尺度连续滑动窗口提取短语特征。通过窗口的不同尺度提取n-gram特征,用窗口滑动的连续性使组合特征间保持相对语序信息。设S为原文本,表示为词向量矩阵(s1,s2,s3,...,sk),k为原文本S中的特征数目,S的短语特征提取如图3所示。
设窗口大小为h,h=2m,对窗口内词向量求和,得到S的一组短语特征T(h),表示为其中,是大小为h的窗口内词向量相加而成的新向量,i=1,2,...,q。图3中,在窗口大小为4,滑动步长为1时,得到原文的一组语义特征表示显然,当h为1时,T(1)即为S,表示单个词特征。由于窗口滑动的连续性,T(h)的各特征间存在相对词序信息。通过改变h大小,h=1,2,…p,可得到S的多组语义特征,表示为T={T(1),T(2),…,T(p)},1≤p≤k。
扩展语义特征提取及筛选
语义特征扩展
其候选扩展词集即是与ti语义相似度最大的词。对(n,m)阶扩展框架,本文提取ti最相似的n个词构成并生成实线边集Er描述ti的相似关系。以预训练的词向量矩阵WMDIC为查找表,WMDIC∈Rdim×N,其中dim是词向量维度,N为单词数,Rdim×N表示词向量矩阵WMDIC的维度为dim×N。对其扩展特征C(h)的提取及实线边生成如算法GenSolid所示:
算法GenSolid:
Input:T(h),WMDIC∈Rdim×N
Output:C(h),Er
Steps:
For each ti inT(h)
Er=Er∪{er}
其中,findNearest(ti,n,WMDIC)为计算ti最相似的n个词向量;为ti与其扩展特征的相似度度量函数,本文采用余弦相似度;为生成ti之间权值为w的实线边。
后验概率估计
对(n,m)阶扩展框架,C(h)的特征数是T(h)的n倍,为避免形成较大噪音,需筛选候选词,选取C(h)尽可能小的真子集。本文在词筛选时除考虑扩展词与原文的语义相似度,还基于原文上下文考虑扩展词的合理性。
朴素贝叶斯是解决机器学习问题的最有实际价值的方法之一。对分类问题,贝叶斯方法根据类别的先验概率和条件概率,以文本属于类别的最大后验概率作为分类结果。对文本特征集d=T={t1,t2,…,tq},tj是其任一词语,d属于类别Z的后验概率P(Z|d)如式⑴:
其中,P(Z)为Z的先验概率,P(tj|Z)为条件概率。根据贝叶斯方法,在当前上下文条件下,候选词的后验概率可作为其筛选依据之一。为此,本文用虚线边连接候选词与原文上下文,用候选词相对于原文上下文的条件概率作为虚线边权值,由此计算候选词的后验概率。设词典为D,原文特征为T(h),对 为其候选词,(n,m)阶扩展框架的虚线边生成如算法GenDotted:
算法GenDotted:
Input:T(h),C(h)
Output:Ep
Steps:
For each tiinT(h),即是ti∈T(h)
TP={ti-m,...,ti-1,ti+1,…,ti+m},
For each tjin TP,即是tj∈TP:
为生成tj之间权值为z的虚线边;
Ep=Ep∪{ep}
其中,z为虚线边权值,为特征tj对候选词的条件概率,计算如式⑵:
其中,|D|为字典D中的词数,是tj在文本集中的共现频度。由此得到的虚线边集Ep描述了候选词与当前上下文TP的共现关系。由于是生成的扩展词,对本文假设其先验概率相等,令则根据式⑴、⑵,在TP下的后验概率计算如式⑶:
的后验概率是其相关联虚线边权值的乘积。当短语特征tj是词组合生成的向量时,难以直接计算tj的共现关系,|TP|为TP中元素的个数,因此在实际计算中,的上下文取生成tj的原文。如图4所示,对原文S,t2是s2、s3的组合特征,当扩展框架为m=1时,t2上下文观察窗口为1,因此其扩展词c2、c3的上下文为s1、s4,则c2的后验概率为:
P(c2|s1,s2)=P(s1|c2)×P(s2|c2)
当原文特征ti、tj的语义相似度较大,可能产生相同扩展词。如图1中,c3同时是t1、t2的扩展词。如ti、tj相邻,可能连续选中同一扩展词,使伪文本出现连续冗余词,影响伪文本质量。如句子“华为智能手机配置”,其中“智能”和“手机”的3个候选词分别为(根据本文训练的Word2Vec词向量):
“智能”:“智慧型”、“平板”、“功能手机”
“手机”:“智慧型”、“平板”、“android”
可见生成了重复扩展词“智慧型”、“平板”。其中,“智慧型”相对于原词上下文的后验概率分别为:
P智能(智慧型|华为,手机)=P(华为|智慧型)*P(手机|智慧型)
P手机(智慧型|智能,配置)=P(智能|智慧型)*P(配置|智慧型)
由于“智能”与“手机”的语义相似性,可假设:
P(手机|智慧型)≈P(智能|智慧型)
则:P智能(智慧型|华为,手机)≈P(华为|智慧型)
P手机(智慧型|智能,配置)≈P(配置|智慧型)
即“智慧型”的后验概率较大依赖于其与上下文“华为”、“配置”的共现关系。由于“智能”与“手机”相邻,其上下文处于较小观察窗口内,可假设上下文共现概率相等,即:
P(华为|智慧型)≈P(配置|智慧型)
则:P智能(智慧型|华为,手机)≈P手机(智慧型|智能,配置)
即如果“智慧型”被“智能”选中,则其也更容易被“手机”选中,使伪文本出现连续冗余词。为使C(h)在尽可能小的情况下最大化地扩展特征,需优化特征筛选方法。搜索引擎对查询结果的边缘相关处理[7]可作为一种优化依据。对搜索引擎的查询结果,将相关性计算与冗余性消除进行线性组合,使结果具有高相关性及较小冗余,称为最大边缘相关方法。对查询Q,R表示Q的结果集,为已返回结果集。对文档dj的最大边缘相关计算如式⑷:
MMR(dj)=λsim1(dj,Q)-(1-λ)sim2(di,dj) ⑷
其中,sim1、sim2分别为相关度、相似度度量函数。当λ=0,式⑷计算dj与已返回文档di的相似度。当λ=1,计算dj与查询Q的相关度。
对本文的词扩展问题,为避免连续选中重复词,选中的词间应具有较高边缘相关性,即对相邻文本特征ti-1和ti,其扩展词的相似性尽可能小。因此,在筛选扩展词时,对文本特征ti为其候选词集,如为ti-1已选中的扩展词,则对根据式⑷,将ti相关联的实线边权值改写为式⑸:
其中,sim()为余弦相似度度量函数,λ是相关度度量参数,使用模型时,该参数根据实际情况设置和调整。即当文本特征ti-1选中扩展词则计算其相邻后续文本特征ti的扩展词与扩展词的相似度,据此更新ti所关联实线边的权值。当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。
扩展特征筛选
由算法GenSolid及GenDotted,可生成一个由原文特征集T(h)、扩展特征集C(h)、实线边集Er及虚线边集Ep构成的语义扩展框架。对的候选扩展词集根据与相关联的实线、虚线边权值对进行评分,结合式⑶、⑸,的评分如式⑹:
将评分最高的作为ti的扩展特征。
如前所述,对原文本S={s1,s2,s3,...,sk},设观察窗口大小分别为{1,2,...,p},则其语义特征T为{T(1),T(2),...,T(p)}。分别对进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD,形如:PD={s1,s2,...,sk,c1,c2,...,cr}。PD中包含原文词和扩展词,扩展词间具有相对语序信息。
实验结果及分析
为验证伪文本效果,将生成的伪文本用于分类任务。实验数据来自NLP&CC2017评测,包括18个类别的中文新闻标题文本。标题的字符数介于1~40之间,分词(jieba分词)的词数介于1~20之间。训练集和开发集语料如表1所示。
表1实验数据分布
用***开源项目Word2Vec的Skip-gram模型训练词向量,所用语料及生成词向量名称为:
SV:搜狗新闻语料(SogouCS,一个月新闻数据);
WV:中文WiKi百科语料;
MWV:中文WiKi百科与训练集混合语料。
分别构建朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(RecurrentNeural Networks,RNN)分类模型。用未扩展的原文分类作为Baseline,以分类正确率为评价指标。采用(3,1)阶语义扩展框架,当λ为0.8时,各模型2分类、18分类正确率如表2所示。
表2各模型分类正确率对比
从表2可见,基于各词向量扩展生成的伪文本,在各分类模型的正确率均较Baseline有一定程度提高。从CNN对18个类别的分类结果看,由SV生成的伪文本分类正确率为0.7648,比Baseline提高3.7%,由MWV生成的伪文本正确率为0.7869,比Baseline提高6.7%·。从不同语料生成的词向量看,基于WV的伪文本分类正确率整体优于SV,其中MKV的性能比Baseline提高最为显著。分析其原因,由于新闻标题是短文本,其语法结构、遣词特点都与普通文本存在差异,因此用普通文本训练的词向量不能较好地表达新闻标题的语义。通过将普通文本与标题混合,可以使MKV词向量更符合新闻标题的语义特征。另外,本文伪文本生成方法,较大程度依赖于词向量的词覆盖率。由于MKV是WiKi百科与训练文本的混合语料,词覆盖率高于SV、MKV,因此用MKV生成的伪文本质量较优。
总体来看,伪文本在各分类模型上的正确率均较Baseline有一定程度提升,表明伪为本从一定程度扩展了文本语义,且在各分类模型中有稳定的性能。在18类的分类测试中,RNN基于SV扩展的正确率为0.7193,略低于Baseline,分析其原因,本文方法生成的伪文本,主要着眼于特征扩展及控制扩展特征的噪音,虽然可在保证扩展特征有效性的同时,较好地控制伪文本长度,且扩展特征间存在相对语序信息,但扩展特征间不存在显著的语义关系和语法结构,即伪文本与原文语法结构是不同的,使基于词序理解的RNN模型表现欠优,这也是本文下一步研究的问题之一。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,包括以下步骤:
S1,提取原文本的词和/或短语特征;
S2,根据步骤S1中提取的特征通过相似度计算生成扩展词;
S3,对步骤S2中的扩展词进行筛选候选词;
S4,生成伪文本。
2.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S1中,原文本的词和/或短语特征的提取方法包括:
设S为原文本,将其表示为词向量矩阵,设窗口大小为h,对窗口内词向量求和,得到S的一组短语特征T(h),表示为其中,是大小为h的窗口内词向量相加而成的新向量;
当h为1时,T(1)即为S,表示单个词特征;
通过改变h大小,得到S的多组语义特征,表示为T={T(1),T(2),...,T(p)}。
3.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S2中,扩展词的生成方法包括:
以预训练的词向量矩阵WMDIC为查找表;计算:
其中,findNearest()为计算最相似的词向量,ti为文本特征,WMDIC为预训练的词向量矩阵,n为候选顶点数;为候选词集;
其中,sim()为相似度度量函数,为扩展特征,w为实边线权值;
其中,为生成ti之间权值为w的实线边;
Er=Er∪{er};Er为实线边集,er为实线边;
C(h)为扩展特征集,为候选扩展词集。
4.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中,候选词的筛选方法包括:
设词典为D,原文特征为T(h),对 为其候选词;计算:
其中,z为虚线边权值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};
其中,为生成tj之间权值为z的虚线边;
Ep=Ep∪{ep},其中,Ep为虚边集,ep为虚线边;
其中,为特征tj对候选词的条件概率,计算公式为:
其中,|D|为字典D中的词数,是tj在文本集中的共现频度;
由于是生成的扩展词,对假设其先验概率相等,令在TP下的后验概率计算如式:
的后验概率是其相关联虚线边权值的乘积。
5.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S4中,伪文本的生成方法包括:
将评分最高的作为ti的扩展特征;
评分的计算方法为:其中,w为实边线权值;为扩展特征,
分别对进行语义扩展,将筛选的扩展词与S拼接,得到伪文本PD。
6.根据权利要求1所述的基于语义扩展和最大边缘相关的伪文本生成方法,其特征在于,在步骤S3中还包括:
在筛选扩展词时,对文本特征ti为其候选词集,如为ti-1已选中的扩展词,则对计算:
其中,sim()为余弦相似度度量函数,λ是相关度度量参数;
当i为1时,由于t1没有前序特征,对其关联的实线边权值不做修改。
CN201910369823.4A 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法 Active CN110032741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910369823.4A CN110032741B (zh) 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910369823.4A CN110032741B (zh) 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法

Publications (2)

Publication Number Publication Date
CN110032741A true CN110032741A (zh) 2019-07-19
CN110032741B CN110032741B (zh) 2020-02-04

Family

ID=67241260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910369823.4A Active CN110032741B (zh) 2019-05-06 2019-05-06 一种基于语义扩展和最大边缘相关的伪文本生成方法

Country Status (1)

Country Link
CN (1) CN110032741B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157908A (zh) * 2021-03-22 2021-07-23 北京邮电大学 一种展示社交媒体热点子话题的文本可视化方法
CN115101164A (zh) * 2022-06-24 2022-09-23 杭州华卓信息科技有限公司 一种药物推荐方法和***
CN117271755A (zh) * 2023-11-21 2023-12-22 青岛海尔乐信云科技有限公司 基于人工智能的客诉闭环规则引擎管理控制方法
CN117971913A (zh) * 2024-03-19 2024-05-03 佛山三水北控水质处理有限公司 一种应用数据库信息收集反馈指令的***
CN117971913B (zh) * 2024-03-19 2024-07-19 佛山三水北控水质处理有限公司 一种应用数据库信息收集反馈指令的***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215672A (ja) * 2001-01-22 2002-08-02 Kddi Corp 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215672A (ja) * 2001-01-22 2002-08-02 Kddi Corp 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
CN107679228A (zh) * 2017-10-23 2018-02-09 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢玲 等: ""结合语义扩展和卷积神经网络的中文短文本分类方法"", 《计算机应用》 *
杨武 等: ""基于用户角色定位的微博热点话题检测方法"", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157908A (zh) * 2021-03-22 2021-07-23 北京邮电大学 一种展示社交媒体热点子话题的文本可视化方法
CN115101164A (zh) * 2022-06-24 2022-09-23 杭州华卓信息科技有限公司 一种药物推荐方法和***
CN117271755A (zh) * 2023-11-21 2023-12-22 青岛海尔乐信云科技有限公司 基于人工智能的客诉闭环规则引擎管理控制方法
CN117271755B (zh) * 2023-11-21 2024-03-08 青岛海尔乐信云科技有限公司 基于人工智能的客诉闭环规则引擎管理控制方法
CN117971913A (zh) * 2024-03-19 2024-05-03 佛山三水北控水质处理有限公司 一种应用数据库信息收集反馈指令的***
CN117971913B (zh) * 2024-03-19 2024-07-19 佛山三水北控水质处理有限公司 一种应用数据库信息收集反馈指令的***

Also Published As

Publication number Publication date
CN110032741B (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
US11669689B2 (en) Natural language generation using pinned text and multiple discriminators
Yan et al. Learning to respond with deep neural networks for retrieval-based human-computer conversation system
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
Zhang et al. Encoding conversation context for neural keyphrase extraction from microblog posts
Arumae et al. Guiding extractive summarization with question-answering rewards
CN110472244B (zh) 一种基于Tree-LSTM和情感信息的短文本情感分类方法
CN110032741A (zh) 一种基于语义扩展和最大边缘相关的伪文本生成方法
Zhang et al. Semi-supervised discovery of informative tweets during the emerging disasters
Gilardi et al. Text-as-data methods for comparative policy analysis
Yang et al. A joint model for aspect-category sentiment analysis with TextGCN and Bi-GRU
Anupama et al. Real time Twitter sentiment analysis using natural language processing
Sindhuja et al. Twitter Sentiment Analysis using Enhanced TF-DIF Naive Bayes Classifier Approach
Wang et al. Joint Learning on Relevant User Attributes in Micro-blog.
Kumar et al. A fusion architecture of BERT and RoBERTa for enhanced performance of sentiment analysis of social media platforms
Skenduli et al. User-emotion detection through sentence-based classification using deep learning: a case-study with microblogs in Albanian
KR20190023722A (ko) 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법
Mahalakshmi et al. Twitter sentiment analysis using conditional generative adversarial network
Madotto et al. Question dependent recurrent entity network for question answering
Merayo et al. Social Network Sentiment Analysis Using Hybrid Deep Learning Models
Chen et al. Understanding emojis for financial sentiment analysis
Li et al. Emotion analysis for the upcoming response in open-domain human-computer conversation
Agrawal Enriching affect analysis through emotion and sarcasm detection
Nguyen et al. ViWiQA: Efficient end-to-end Vietnamese Wikipedia-based Open-domain Question-Answering systems for single-hop and multi-hop questions
PRAKALYA P et al. BiDETECT: BiLSTM WITH BERT FOR HATE SPEECH DETECTION IN TWEETS.
Li et al. Hierarchical answer selection framework for multi-passage machine reading comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant