CN117933372B - 一种面向数据增强的词汇组合知识建模方法及装置 - Google Patents

一种面向数据增强的词汇组合知识建模方法及装置 Download PDF

Info

Publication number
CN117933372B
CN117933372B CN202410330986.2A CN202410330986A CN117933372B CN 117933372 B CN117933372 B CN 117933372B CN 202410330986 A CN202410330986 A CN 202410330986A CN 117933372 B CN117933372 B CN 117933372B
Authority
CN
China
Prior art keywords
vocabulary
representing
function
knowledge
syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410330986.2A
Other languages
English (en)
Other versions
CN117933372A (zh
Inventor
孙宇清
刘天元
韩雨辰
龚斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202410330986.2A priority Critical patent/CN117933372B/zh
Publication of CN117933372A publication Critical patent/CN117933372A/zh
Application granted granted Critical
Publication of CN117933372B publication Critical patent/CN117933372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理的技术领域,更具体地,涉及一种面向数据增强的词汇组合知识建模方法及装置。所述方法包括:S1、构造句法空间的映射函数;S2、构造词汇组合的评分函数;S3、基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;S4、利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。本发明基于依存句法和词汇语用的词汇组合知识,对细粒度的词汇语用知识进行建模,能够产生语义一致且句法合理的改写样本,适用于数据增强任务。

Description

一种面向数据增强的词汇组合知识建模方法及装置
技术领域
本发明属于自然语言处理的技术领域,更具体地,涉及一种面向数据增强的词汇组合知识建模方法及装置。
背景技术
前沿的自然语言处理技术主要使用以神经网络为基础的深度学习方法,严重依赖大量的高质量标记数据。在许多现实场景中,难以获得大量监督数据,因此迫切需要数据增强方法对现有训练数据进行扩增,以降低神经网络模型的训练成本。
在自然语言处理领域,基于相似性进行词汇级别的替换是重要的无监督数据增强方法,其产生的数据增强样本的质量依赖于所选择的替换词汇的相似性与合理性。传统方法常采用词汇的语义向量进行相似度计算和替换,容易产生语法上不合理的词汇使用情况。
在语言学中,***性的词汇组合模式被称为词汇的句法组合(syntagmatic)和语义聚合(paradigmatic)关系。其中词汇是基本的元素,而句法负责将词汇进行关联。在自然语言处理领域中,有很多种预训练模型尝试对文本中所包含的语言学知识进行学习。广泛采用的词汇嵌入或称词向量,是基于单词的语义知识进行学习的。这些嵌入具有一些直观的可解释性,例如使用向量之间的位置关系表示同义词、反义词等单词语义关系,以及诸如与性别有关的职业名称等复杂关系。然而,这些嵌入以独立的方式融入了单词的语义,并且不能解释单词是如何组合在一起的。
为了改进上下文感知的语义知识,预训练语言模型(例如ELMo,BERT等)将句子编码为向量序列,并在提高下游NLP任务性能方面取得了很多进展。在这些模型中,隐藏层的向量捕捉了句子中的一些隐式语法信息,可用于预测一些语法任务,如词性或依赖关系。
中国专利文献CN114282524A公开一种问卷信息结构化数据处理方法、***和装置,该方法使用了统计的方法计算每个词汇组合的出现频率,筛选出目标词汇组合。中国专利文献CN114443425A公开了一种基于Jieba权重计算及特征打分排序算法的服务器操作***日志诊断***及方法,通过对故障日志信息及异常信息进行近义词联想,形成问题专业词汇组合。
然而,这类方法仅考虑了文本中的词汇知识,并没有考虑词汇组合中的语法知识。由于缺乏明确的单词组合知识的表示,它们无法准确地指导如何将给定的单词组合在一起。
基于此,亟需设计一种面向数据增强的词汇组合知识建模方法,以解决上述问题。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种面向数据增强的词汇组合知识建模方法。
本发明还提供一种实现所述面向数据增强的词汇组合知识建模方法的装置。
发明概述:
本发明提出一种基于词汇组合频发模式建模的可复用词汇语用知识建模方法,针对词汇组合知识,基于海量真实语料库,建模词汇和句法关系的组合规律,利用预训练词向量表示词汇语义,使用依存句法映射函数关联词汇语义和句法信息,通过句法空间的能量函数评估随机词汇组合的合理性。本发明能够提高文本改写质量,有效提升数据增强效果。
技术术语解释:
句法结构:在本发明中,句法结构是指句子中的词汇组织和功能结构,包括词汇之间的依存关系和语法规则。本发明使用Universal Dependency Treebank (UDT)依存句法标记树库作为句法分析数据源。
依存关系:在本发明中每一个依存关系使用的三元组形式表示,其中,/>为支配词汇(头词),/>为被支配词(尾词),/>对/>是支配关系/>,也称为关联关系。
词汇组合知识:灵活多样性的单词组合形式代表了人类使用语言的基本能力,词汇组合中带有基本句法特征,例如一些名词倾向于跟随特定的动词,而非副词。基于此语言学基本原理,本发明以神经网络函数簇的形式建模词汇组合知识。
本发明详细的技术方案如下:
一种面向数据增强的词汇组合知识建模方法,所述方法包括:
S1、构造句法空间的映射函数;
S2、构造词汇组合的评分函数;
S3、基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;
S4、利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。
根据本发明优选的,所述步骤S1中,对于每一个依存句法关系,函数表示将词汇/>的语义向量表示/>映射到依存句法关系/>的空间中,形成句法向量表示/>,则构造的映射函数表示为:
(1);
式(1)中:表示句法向量表示,/>表示头词/>或尾词/>,/>表示映射函数,表示线性变化,/>为非线性激活函数,/>表示词汇/>的语义向量表示,/>表示语义空间的维度,/>表示句法空间的维度。
根据本发明优选的,所述步骤S2中,使用双线性能量函数作为评分函数,即有:
(2);
式(2)中:表示双线性能量函数,即评分函数,/>表示头词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示尾词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示依存句法关系/>所属的关系基本类型,/>表示关系基本类型/>所对应的矩阵。
根据本发明优选的,所述步骤S2中,使用双仿射形式的能量函数作为评分函数,即有:
(3);
式(3)中:表示双仿射形式的能量函数,即评分函数,/>为常数,/>表示关系基本类型/>所对应的头词先验矩阵;/>表示关系基本类型/>所对应的尾词先验矩阵。
根据本发明优选的,所述步骤S3中,基于所述映射函数和评分函数,构建词汇组合知识模型,具体为:,其中/>表示映射函数的集合。
根据本发明优选的,所述步骤S3中,所述词汇组合知识模型的训练损失函数为:
(5);
式(5)中:表示词汇组合知识模型的损失函数,/>表示词汇组合知识模型的所有参数,/>表示第一损失函数,/>表示第二损失函数,/>为正则化项,/>、/>为调整损失函数权重的超参数。
根据本发明优选的,所述步骤S3中,所述第一损失函数为:
(6);
式(6)中:表示由词汇组合样本构成的训练样本集,/>表示正样本,/>表示正样本对应的负样本,/>表示负样本集合,/>表示sigmod函数,/>表示正样本的评分函数,表示负样本的评分函数;
所述第二损失函数为:
(7);
式(7)中:为词汇,/>为词表,/>表示两个不同的依存句法关系,即/>,/>分别表示头词/>和尾词/>分别映射到两个不同的依存句法关系的空间中的句法向量表示。
在本发明的另一个方面当中,提供一种实现面向数据增强的词汇组合知识建模方法的装置,所述装置包括:
构造模块:用于分别构造句法空间的映射函数和词汇组合的评分函数;
构建模块,用于基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;
执行模块,用于利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。
在本发明的另一个方面当中,还提供了一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的面向数据增强的词汇组合知识建模方法。
在本发明的另一个方面当中,还提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的面向数据增强的词汇组合知识建模方法。
与现有技术相比,本发明的有益效果为:
(1)本发明提供的面向数据增强的词汇组合知识建模方法,基于依存句法和词汇语用的词汇组合知识,对细粒度的词汇语用知识进行建模,能够产生语义一致且句法合理的改写样本,适用于数据增强任务。
(2)本发明的方法对训练样本中未出现的词汇具有良好的鲁棒性,词汇组合知识基于预训练的语义空间,因此具有相同语义空间表征的任意词汇均适用,且预训练词向量被认为具有广泛词汇覆盖度。
(3)本发明的方法具有模型训练效率高、成本低等优点。建模完成的词汇组合知识由一系列预训练的神经网络函数构成,其参数量不超过1百万;本发明使用的预训练词向量数据集,以典型的自然语言理任务中涉及10万词汇量的英文为例,约3百万参数;两者合计使用的参数显著少于常用的预训练语言模型的参数量;经试验,在单张NVIDIA GeForceRTX 2070显卡上基于20万训练样本进行训练,所需要的时间约为50-100分钟,显著少于对预训练语言模型进行精调训练的时间。
附图说明
图1是本发明所述面向数据增强的词汇组合知识建模方法的流程图。
图2是本发明方法中建模词汇组合知识的架构图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
针对现有技术所存在的缺陷,本发明提出了一种基于词汇组合频发模式建模的可复用词汇语用知识建模方法。本发明依据语言学的词汇语用知识,基于海量真实语料库,建模词汇和句法关系的组合规律,利用预训练词向量表示词汇语义,提出了依存句法映射函数以关联词汇语义和句法信息,通过句法空间的能量函数评估词汇组合的合理性。所构建的词汇组合知识模型借助公开的依存句法标记树库,采用噪声对比估计方法进行训练,形成轻量型的神经网络形式存储的词汇组合知识,以实现提升基于词汇替换的自然语言数据增强方法的效果。
以下结合具体实施例对发明的面向数据增强的词汇组合知识建模方法及装置作详细说明。
实施例1、
本实施例提供一种面向数据增强的词汇组合知识建模方法,该方法主要考虑两个方面的信息建模词汇组合知识:语义合理性和句法合理性,并将这些知识形成一组轻量级的神经网络函数。词汇组合知识建模方法的整体架构参图2所示。
为了将语义信息和句法信息进行结合,使用一系列映射函数,把语义空间中的词汇表征映射至不同的句法空间中。之后,使用评分函数对词汇组合进行评分,合理的词汇组合分数高,不合理的具有低分。这些函数依托词汇的预训练词向量和依存句法树库进行模型学习。相较使用大量数据进行专门训练的模型相比,本实施例的模型训练成本和使用成本更低。
参图1,所述的面向数据增强的词汇组合知识建模方法包括如下步骤:
S1、构造句法空间的映射函数。
本实施例中考虑到语义合理性和句法合理性两个方面,构造句法空间映射函数。
由于利用复用公开可用的预训练语言知识,可以有效减少训练参数量,因此此处使用预训练词向量对词汇语义进行表示。
具体地,对于每一个依存句法关系,函数/>表示将词汇/>的语义向量表示/>映射到依存句法关系/>的空间中,形成句法向量表示/>
考虑到依存句法的非对称性,对于任意一个依存句法关系,头词/>和尾词/>的映射分别由函数/>和/>完成。这些映射函数的形式可以采用任意的神经网络形式。一个基本的选择为使用下述的非线性变换函数:
(1);
式(1)中:表示句法向量表示,/>表示头词/>或尾词/>,/>表示映射函数,表示线性变化,/>为非线性激活函数,/>表示词汇/>的语义向量表示,/>表示语义空间的维度,/>表示句法空间的维度。
S2、构造词汇组合的评分函数。
为了衡量词汇组合的合理性,评价两个词汇与/>是否在通常情况下可以使用依存句法关系/>进行组合,引入词汇组合/>的评分函数(/>)。
与现有工作类似,词汇组合评分定义为一种能量函数,具有较高评分的组合表明其具有更大概率为合理组合。
在计算时,基于词汇组合的表达,这里词汇/>在依存句法关系/>中承担了头词的角色,词汇/>在依存句法关系/>中承担了尾词的角色。因此,此处对于头词/>,采用函数映射获得其在依存句法关系/>的空间中的句法向量表示为/>;同理,对于尾词/>,可获得其在依存句法关系/>的空间中的句法向量表示为/>
本实施例中,计算词汇组合的评分函数的形式可以有多种选择,例如欧氏距离或者内积。为了有效差分不同类型依存句法关系/>的词汇组合模式,每种关系基本类型分别定义一个评分函数,即具有不同的参数的神经网络。
本实施例中可以使用一种双线性能量函数作为评分函数,即:
(2);
式(2)中:表示双线性能量函数,即作为评分函数,/>表示头词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示尾词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示依存句法关系/>所属的关系基本类型,/>表示关系基本类型/>所对应的矩阵。
考虑不同类型的依存句法关系在词汇组合上的先验知识,本实施例中还可以使用一种双仿射形式的能量函数作为评分函数/>,即:
(3);
式(3)中:表示双仿射形式的能量函数,即作为评分函数,/>为常数,/>表示关系基本类型/>所对应的头词先验矩阵;/>表示关系基本类型/>所对应的尾词先验矩阵。
为了验证不同能量函数的有效性,本实施例中也考虑了使用统一的能量函数作为评分函数,即不同类型的依存句法关系均使用相同参数的神经网络。这些能量函数的变体将在实验部分进行对比。值得一提的是,评分函数/>不依赖于特定的三元组/>,而是对特定依存句法关系的海量样例的总体评价,从而能够***性地评估词汇组合的合理性。与之相对,映射函数则负责建模不同类型依存句法关系空间的词汇特征。
S3、基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型。
本实施例中,将词汇组合知识形式化为,即构建的词汇组合知识模型,其中/>表示映射函数的集合。
为了建模词汇组合知识,本实施例设计了两个损失函数。第一损失函数用于对词汇组合实例的合理性进行直接建模;第二损失函数用于差分不同的句法空间,以避免所学***凡解。具体如下:
Ⅰ)第一损失函数的目标为,最大化语料库中出现的词汇组合实例的合理性。这些词汇组合从语言使用案例中提取,是合理的真实词汇组合。
对于一个词汇组合实例,其合理的概率与评分函数/>正相关,即:
(4);
式(4)中:表示词汇组合实例/>合理的概率,/>为正相关符号,/>表示指数函数。
这一目标对应的损失函数可定义为语料库中的训练样本(即)的负对数似然。
由于在实际计算过程中,大配分函数即分母部分计算难度极高,此处采用广泛使用的噪声对比估计(noise contrastive estimation,NCE)方法,将损失函数转换为如下形式:
(6);
式(6)中:表示由词汇组合样本构成的训练样本集,/>表示正样本,/>表示正样本对应的负样本,/>表示负样本集合,/>表示sigmod函数,/>表示正样本的评分函数,表示负样本的评分函数。
为方便表示,一个正样本所对应的负样本数量记为
在训练中,负样本应当为不常见或不适宜的词汇组合三元组。在本实施例中,对于一个特定的正样本,使用下述方式构建不同类型的负样本:
①交换头词和尾词/>,即/>
考虑依存句法关系的非对称性,交换头词和尾词后形成的词汇组合大概率不合理。对于并列连词关系等具有对称性的依存句法关系,则不采用该种负样本。
②替换依存句法关系,即
考虑依存句法关系对词性和词义的高度关联性,替换依存句法关系后的词汇组合大概率不合理。
③随机替换头词或尾词/>,即/>
考虑词汇组合模式的稀疏性,对头尾词进行随机替换形成的词汇组合较高概率不合理。
上述形式的负样本基于语料库中的统计信息和语言学常识,所产生的样本在实际语料库中出现的概率较低。
Ⅱ)第二损失函数的目标为区分不同的句法空间。
具体的,两个不同的依存句法关系与/>,两者的句法空间应当相隔较远,以保障词汇组合知识所抽取的信息与具体关系紧密关联,且避免映射函数坍缩至平凡解。
为减少计算成本,对于任意正样本,本实施例采样/>种依存句法关系类型作为负样本进行计算。具体计算方法为,以双线性形式的能量函数为例,其损失函数计算为:
(7);
式(7)中:为词汇,/>为词表,/>表示两个不同的依存句法关系,即/>,/>分别表示头词/>和尾词/>分别映射到两个不同的依存句法关系的空间中的句法向量表示。
表示词汇组合知识模型的所有参数,词汇组合知识模型的最终损失函数如下:
(5);
式(5)中:表示词汇组合知识模型的损失函数,/>表示词汇组合知识模型的所有参数,/>表示第一损失函数,/>表示第二损失函数,/>为正则化项,/>、/>为调整损失函数权重的超参数。
基于上述过程,最终得到词汇组合知识目标模型,可用于下游任务。
S4、利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。
第一方面,词汇替换是文本改写的一种基本途径。典型的方式是从句子中随机选取被替换的词汇,并选择与之语义接近的词汇进行替换。
本实施例中可以是使用学习到的词汇组合知识来选取替换词汇,并生成语义和句法合理的改写文本。
具体为:给定一个语句,首先使用预训练的依存句法分析器为其生成依存句法分析树。随机选取句中的词汇及其对应的依存句法关系三元组/>,将其改写为。其中替换词/>与被替换词/>语义接近,并且与词汇/>能够形成合理句法搭配。
为了选取替换词,设计了以下几种指标为评价候选替换词/>
①基于词汇组合匹配评分(Cm):该指标使用公式(4)直估计的合理性,作为对替换词/>的评分。
②基于词汇组合匹配评分和语义相似性(Cm+Sem):该指标在词汇组合匹配评分的基础上,强调了替换词与被替换词/>的语义相似性/>。替换词/>的评分计算为,其中,语义相似性采用词向量间的余弦相似度计算,即
③基于词汇组合匹配评分和句法功能相似性(Cm+Rel):该指标在词汇组合匹配评分的基础上,强调了替换词与被替换词/>在句法功能上的相似性,即两词在依存句法关系的句法空间中的相似性/>。评分函数的计算方式为/>
第二方面,数据增强是监督学习领域的重要辅助手段,能够解决训练数据量缺乏的问题。通过使用前面提出的文本改写方式,对于给定样本进行改写,生成多个样本,完成数据增强。
为了从给定样本中选取被替换词/>,本实施例提出以下几种策略:
①随机替换(Random):随机选取给定样本中的多个词汇进行替换。
首先使用依存句法分析器生成给定样本的依存句法分析树。之后从中随机选取多个依存句法关系三元组/>并对其中的尾词/>使用前文方法进行替换。
②链式替换(Chain):考虑到在依存句法分析树中词汇之间的互相关联性,此处提出选取给定样本的依存句法分析树中连续的词汇进行替换。
即在依存句法分析树上,选取长度为3的路径如,并对其中的/>和/>词汇进行替换。基于文本改写的策略,该过程会进行多次,多次替换会保证改写句和原句之间的差异性。在本实验中该过程进行3次。
应用例1、
为验证本实施例方法的数据增强的有效性,本应用例选取文本分类任务作为下游任务。
文本分类任务也是自然语言处理中的一项基础任务。在实验中,数据集选用了广泛使用的IMDB、SST-2和SST-5数据集。
其中,IMDB数据集中包含了正向或负向的电影评论,数据集中共包含2万5千个训练样本和2万5千个测试样本。
SST-5数据集同样包含从电影评论中摘取的句子,共包含9645个训练样本和2210个测试样本;每个样本都对应从消极到积极共5个等级的情感倾向,因此对应于一个5分类的文本分类任务。
SST-2数据集在SST-5数据集的基础上移除了中立倾向的样本,并将标签简化为正向和负向的二分类标签;该数据集共包含7792个训练样本和1821个测试样本。
数据增强任务的目标基础模型选取了两个模型:首先是常见的神经网络文本分类模型结构BiLSTM模型,在实验中以该模型为基础比较了几种改写评分函数和数据增强策略;其次是广泛使用的预训练语言模型BERT模型。
数据增强的完整过程为:首先选取一定比例的训练集,使用前述方法对样本进行文本改写,新样本使用与原始样本一致的标签,并加入至训练集中。使用数据增强后的训练集训练基础模型,并验证训练后的模型在任务上的性能。同时也验证了直接使用不同比例的原始训练集进行训练后模型的性能。
针对数据增强任务,本应用例选用了如下三个以词汇替换为改写方式的对比方法:
Sem(structural equation modeling,结构方程模型):直接使用词向量相似度作为指标进行词汇替换的文本改写数据增强方法。随机选取样本中的词汇,使用GloVe词向量的余弦相似度作为评分选取候选替换词,形成新样本。
BERT模型:利用BERT模型的遮罩语言模型任务作为文本改写方法进行数据增强。随机选取样本中的词汇替换为[MASK],并使用BERT模型预测该位置词汇作为替换词。
SemAug:由Zang等人提出的数据增强方法,使用词汇义素(Sememe)的相似度为参考选取替换词汇。
主要的评价指标选用文本分类任务上的准确率。
首先使用10%的IMDB训练集进行数据增强和训练,以验证不同的文本改写和数据增强策略的效果。实验结果如表1所示:
表1:不同策略组合的准确率提高对比
表1中,每一列表示文本改写使用的评价指标,每一行为数据增强时的词汇选取策略。表1中元素表示不同策略组合下准确率在原始准确率(80.9%)基础上提高的数值。
从表1中的结果可看出,在进行数据增强后,下游模型的性能能够得到提升。其中Cm+Rel在相同的词汇选择策略下效果高于其它方法,表明在改写时引入句法功能相似性的有效性。对于数据增强中的词汇选取策略,Chain策略效果略高于Random,表明了保持句法正确性和流畅性的作用。
其次在多个目标任务数据集上对数据增强方法的效果进行了实验验证。结果在表2中列出:
表2:IMDB,SST-2及SST-5数据集上的数据增强表现对比
表2中加粗的数值为性能最好的情况,百分比表示适用的原始训练集比例,基线表示未经数据增强训练的原始模型表现。结果表明本节方法带来的提升最大。其它对比方法主要采用了语义信息来选取替换的候选词汇,与之相比,本方法引入了词汇组合知识,从而提升了选取的词汇的质量。
从表2中可以看出,在IMDB数据集上,对于BiLSTM基础模型,性能提升在2-5%左右;而对于BERT模型,尽管基线模型的表现很高,但在数据增强后依然能够有所提升。除此之外,使用40%比例的原始数据集,使用数据增强后模型的表现就已经能够达到或超出原始训练集的性能表现。
在SST-2/SST-5数据集上,BERT基础模型的性能要显著好于BiLSTM模型,表明了预训练的作用。尽管在数据增强后,两个模型之间的性能差距没有减小,但均取得了一定的提升。同时从表2中可以看出,在SST-2数据集上数据增强带来的收益要比在SST-5数据集上更稳定。这可能是由于在SST数据集中,大部分样本均为短句,且在SST-5模式下有约五分之一的样本标签较为模糊。这种模糊标签和数据增强可能带来的样本噪音影响了被训练模型的性能表现。整体上,上述实验结果表明了本方法在传统神经网络模型和预训练模型上的有效性。
应用例2、
本应用例列举了一些不同方法生成的改写文本的实例,列于表3中:
表3:文本改写结果的实例分析
表3中,第一行为从IMDB数据集中随机选取的原始样本。从表3中可以看出,本方法所替换的词汇具有与原始文本相近的语义和句法角色。尽管部分替换的词汇并不理想,但改写文本与原始文本依然具有相近的情感倾向,能够作为增强样本使用。相比而言,SemAug方法生成的改写文本与原始样本具有一定的差异,且部分词汇出现了句法错误。而BERT模型生成的改写文本总是倾向于保留原始词汇,或重复上下文中出现的词汇。例如样例中“every fears”重复了“the fears”。
实施例2、
本实施例提供一种实现面向数据增强的词汇组合知识建模方法的装置,所述装置包括:
构造模块:用于分别构造句法空间的映射函数和词汇组合的评分函数;
构建模块,用于基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;
执行模块,用于利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。
实施例3、
本实施例还提供一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的面向数据增强的词汇组合知识建模方法。
在本实施例中,电子设备可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
实施例4、
本实施例还提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的面向数据增强的词汇组合知识建模方法。
具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种面向数据增强的词汇组合知识建模方法,其特征在于,所述方法包括:
S1、构造句法空间的映射函数,对于每一个依存句法关系,函数/>表示将词汇/>的语义向量表示/>映射到依存句法关系/>的空间中,形成句法向量表示/>,则构造的映射函数表示为:
,/>(1);
式(1)中:表示句法向量表示,/>表示头词/>或尾词/>,/>表示映射函数,表示线性变化,/>为非线性激活函数,/>表示词汇/>的语义向量表示,/>表示语义空间的维度,/>表示句法空间的维度;
S2、构造词汇组合的评分函数,使用双线性能量函数作为评分函数,即有:
(2);
式(2)中:表示双线性能量函数,/>表示头词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示尾词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示依存句法关系/>所属的关系基本类型,/>表示关系基本类型/>所对应的矩阵;
S3、基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型;其中,基于所述映射函数和评分函数,构建词汇组合知识模型,具体为:,/>表示映射函数的集合,/>表示评分函数;
S4、利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。
2.根据权利要求1所述的面向数据增强的词汇组合知识建模方法,其特征在于,所述步骤S2中,使用双仿射形式的能量函数作为评分函数,即有:
(3);
式(3)中:表示双仿射形式的能量函数,即评分函数,/>为常数,/>表示关系基本类型/>所对应的头词先验矩阵;/>表示关系基本类型/>所对应的尾词先验矩阵。
3.根据权利要求1所述的面向数据增强的词汇组合知识建模方法,其特征在于,所述步骤S3中,所述词汇组合知识模型的训练损失函数为:
(5);
式(5)中:表示词汇组合知识模型的损失函数,/>表示词汇组合知识模型的所有参数,表示第一损失函数,/>表示第二损失函数,/>为正则化项,/>、/>为调整损失函数权重的超参数。
4.根据权利要求3所述的面向数据增强的词汇组合知识建模方法,其特征在于,所述步骤S3中,所述第一损失函数为:
(6);
式(6)中:表示由词汇组合样本构成的训练样本集,/>表示正样本,/>表示正样本对应的负样本,/>表示负样本集合,/>表示sigmod函数,/>表示正样本的评分函数,/>表示负样本的评分函数;
所述第二损失函数为:
(7);
式(7)中:为词汇,/>为词表,/>表示两个不同的依存句法关系,即/>,/>分别表示头词/>和尾词/>分别映射到两个不同的依存句法关系的空间中的句法向量表示。
5.一种实现面向数据增强的词汇组合知识建模方法的装置,其特征在于,所述装置包括:
构造模块:用于分别构造句法空间的映射函数和词汇组合的评分函数;其中,对于每一个依存句法关系,函数/>表示将词汇/>的语义向量表示/>映射到依存句法关系/>的空间中,形成句法向量表示/>,则构造的映射函数表示为:
,/>(1);
式(1)中:表示句法向量表示,/>表示头词/>或尾词/>,/>表示映射函数,表示线性变化,/>为非线性激活函数,/>表示词汇/>的语义向量表示,/>表示语义空间的维度,/>表示句法空间的维度;
并使用双线性能量函数作为评分函数,即有:
(2);
式(2)中:表示双线性能量函数,/>表示头词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示尾词/>映射到依存句法关系/>的空间中的句法向量表示,/>表示依存句法关系/>所属的关系基本类型,/>表示关系基本类型/>所对应的矩阵;
构建模块,用于基于所述映射函数和评分函数,构建词汇组合知识模型,并利用词汇组合样本对所述词汇组合知识模型进行训练,以得到词汇组合知识目标模型,其中,基于所述映射函数和评分函数,构建词汇组合知识模型,具体为:,/>表示映射函数的集合,/>表示评分函数;
执行模块,用于利用所述词汇组合知识目标模型进行基于词汇组合知识的文本改写与数据增强。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至4中任一项所述的面向数据增强的词汇组合知识建模方法。
7.一种机器可读存储介质,其特征在于,所述机器可读存储介质上存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至4中任一项所述的面向数据增强的词汇组合知识建模方法。
CN202410330986.2A 2024-03-22 2024-03-22 一种面向数据增强的词汇组合知识建模方法及装置 Active CN117933372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410330986.2A CN117933372B (zh) 2024-03-22 2024-03-22 一种面向数据增强的词汇组合知识建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410330986.2A CN117933372B (zh) 2024-03-22 2024-03-22 一种面向数据增强的词汇组合知识建模方法及装置

Publications (2)

Publication Number Publication Date
CN117933372A CN117933372A (zh) 2024-04-26
CN117933372B true CN117933372B (zh) 2024-06-07

Family

ID=90766726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410330986.2A Active CN117933372B (zh) 2024-03-22 2024-03-22 一种面向数据增强的词汇组合知识建模方法及装置

Country Status (1)

Country Link
CN (1) CN117933372B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006042943A1 (fr) * 2004-10-19 2006-04-27 France Telecom Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant
CN103605729A (zh) * 2013-11-19 2014-02-26 段炼 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN105573994A (zh) * 2016-01-26 2016-05-11 沈阳雅译网络技术有限公司 基于句法骨架的统计机器翻译***
CN112883724A (zh) * 2021-02-03 2021-06-01 虎博网络技术(上海)有限公司 文本数据增强处理方法、装置、电子设备和可读存储介质
CN115269847A (zh) * 2022-08-02 2022-11-01 广西师范大学 基于知识增强句法异构图的方面级情感分类方法
CN116049422A (zh) * 2022-12-07 2023-05-02 安徽大学 基于联合抽取模型的包虫病知识图谱构建方法及其应用
CN116108830A (zh) * 2023-03-30 2023-05-12 山东大学 一种句法可控文本改写方法和装置
CN116956902A (zh) * 2023-04-13 2023-10-27 腾讯科技(深圳)有限公司 一种文本改写方法、装置、设备及计算机可读存储介质
CN117010398A (zh) * 2023-08-30 2023-11-07 山西大学 一种基于多层知识感知的地址实体识别方法
WO2023226292A1 (zh) * 2022-05-27 2023-11-30 苏州思萃人工智能研究所有限公司 从文本中进行关系抽取的方法、关系抽取模型及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006042943A1 (fr) * 2004-10-19 2006-04-27 France Telecom Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant
CN103605729A (zh) * 2013-11-19 2014-02-26 段炼 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN105573994A (zh) * 2016-01-26 2016-05-11 沈阳雅译网络技术有限公司 基于句法骨架的统计机器翻译***
CN112883724A (zh) * 2021-02-03 2021-06-01 虎博网络技术(上海)有限公司 文本数据增强处理方法、装置、电子设备和可读存储介质
WO2023226292A1 (zh) * 2022-05-27 2023-11-30 苏州思萃人工智能研究所有限公司 从文本中进行关系抽取的方法、关系抽取模型及介质
CN115269847A (zh) * 2022-08-02 2022-11-01 广西师范大学 基于知识增强句法异构图的方面级情感分类方法
CN116049422A (zh) * 2022-12-07 2023-05-02 安徽大学 基于联合抽取模型的包虫病知识图谱构建方法及其应用
CN116108830A (zh) * 2023-03-30 2023-05-12 山东大学 一种句法可控文本改写方法和装置
CN116956902A (zh) * 2023-04-13 2023-10-27 腾讯科技(深圳)有限公司 一种文本改写方法、装置、设备及计算机可读存储介质
CN117010398A (zh) * 2023-08-30 2023-11-07 山西大学 一种基于多层知识感知的地址实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Data augmentation approaches in natural language processing: A survey";Bohan Li etal;《arXiv:2110.01852v1 [cs.CL]》;20211005;第1-42页 *
"Unsupervised Paraphrasing under Syntax Knowledge";Tianyuan Liu etal;《IEEE》;20231231;第13273-13281页 *
"基于预训练语言模型和标签指导的文本复述生成方法";梁佳音 等;《计算机科学》;20231231;地150-156页 *

Also Published As

Publication number Publication date
CN117933372A (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Tsochantaridis et al. Support vector machine learning for interdependent and structured output spaces
Bikel Intricacies of Collins' parsing model
Gupta et al. Analyzing the dynamics of research by extracting key aspects of scientific papers
US20120150531A1 (en) System and method for learning latent representations for natural language tasks
Burdisso et al. τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams
Hay et al. Representation learning of writing style
Tubishat et al. Explicit and implicit aspect extraction using whale optimization algorithm and hybrid approach
Yuan A joint method for Chinese word segmentation and part-of-speech labeling based on deep neural network
Ma et al. Multiple graph convolutional networks for aspect-based sentiment analysis
Hu et al. Rag and rau: A survey on retrieval-augmented language model in natural language processing
Zhu et al. Investigating annotation noise for named entity recognition
Balodis et al. Intent detection system based on word embeddings
Sanyal et al. Natural language processing technique for generation of SQL queries dynamically
CN117933372B (zh) 一种面向数据增强的词汇组合知识建模方法及装置
Visser et al. Sentiment and intent classification of in-text citations using bert
El Hannach et al. A new semantic relations-based hybrid approach for implicit aspect identification in sentiment analysis
Ramachandran et al. Determining degree of relevance of reviews using a graph-based text representation
Hong et al. High-quality noise detection for knowledge graph embedding with rule-based triple confidence
Asaadi et al. Compositional matrix-space models of language: Definitions, properties, and learning methods
Xu et al. Understanding the semantic intent of natural language query
Rath Word and relation embedding for sentence representation
Kyaw Data augmentation for name entity recognition
Song et al. An data augmentation method for source code summarization
Li et al. Targeted BERT pre-training and fine-tuning approach for entity relation extraction
Somayajula et al. Bi-level Finetuning with Task-dependent Similarity Structure for Low-resource Training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant