CN114036907B

CN114036907B - 一种基于领域特征的文本数据扩增方法

Info

Publication number: CN114036907B
Application number: CN202111371729.6A
Authority: CN
Inventors: 祝和明; 王德胜; 邓涛; 李岩松; 孙涛; 王存超; 梅文哲; 赵新冬; 郭韬; 何泽家; 唐锦; 崔林; 张力; 戴威; 罗珊珊; 刘媛; 卢茜; 于聪聪
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2024-06-25
Anticipated expiration: 2041-11-18
Also published as: CN114036907A

Abstract

本申请公开了一种基于领域特征的文本数据扩增方法，包括：获取专业领域数据集，所述专业领域数据集包括多个文本；针对每一个文本，进行预处理，获取待扩增文本；所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计；针对待扩增文本，根据四种扩增方法，获取扩增后的文本；获取扩增后的专业领域数据集，所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法，可以在扩增文本数据的同时，体现出文本的领域特征，提高了文本数据扩增的质量，并提高了基于此文本构建的AI***的服务质量。

Description

一种基于领域特征的文本数据扩增方法

技术领域

本申请涉及文本数据扩增技术领域，尤其是一种基于领域特征的文本数据扩增方法。

背景技术

随着人工智能技术的快速发展，人们对人工智能的服务质量要求也在提高，不同领域的人工智能一般是利用大规模、高质量的、来自不同专业领域的文本数据，通过数据集训练构建模型，所以人工智能所使用的文本数据质量直接影响着人工智能的服务质量。

为了提高文本数据质量，需要对文本数据进行扩增，当前，国内外在文本数据扩增领域提出了多种扩增方法，如回译、简单数据扩增技术（EDA）、随机噪声注入、基于GAN网络的扩增和无监督数据扩增等，这些广泛应用的方法在降低数据获取成本，抑制过拟合，提高模型泛化能力发挥了重要作用。然而，这些方法大都是对文本进行单句字符级别的处理，本质上对文本字词的删除、替换和位置交换。在进行文本分类的任务中，这些对文本字符级别的处理方法易影响体现文本领域特征的词语以及体现领域特征的语义结构信息，导致扩增后的文本不能很好地体现其所在领域特征，扩增文本质量较低。

发明内容

为了解决现有技术在扩增文本数据的同时，不能很好的体现领域特征的问题，本申请公开了一种基于领域特征的文本数据扩增方法，包括：

获取专业领域数据集，所述专业领域数据集包括多个文本；

针对每一个文本，进行预处理，获取待扩增文本；所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计；

针对待扩增文本，获取扩增后的文本；

获取扩增后的专业领域数据集，所述扩增后的专业领域数据集包括多个扩增后的文本。

可选的，所述针对待扩增文本，获取扩增后的文本，包括：

获取所述待扩增文本的词集；所述词集包括多个词语；

获取所述待扩增文本的依存句法树；所述依存句法树包括父结点和子结点，所述父结点包括子结点；每个父结点与其所包含的所有子结点构成一个树枝，每个父结点和每个子结点分别表示一个词语，父结点和子结点之间的关系表示词语之间的依存关系；

根据所述专业领域数据集，构建词频和逆向文件频率模型；

根据所述词频和逆向文件频率模型，获取所述词集中每个词语的词频和逆向文件频率；

获取所述依存句法树中每个树枝的词频和逆向文件频率总和；

随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝；

获取扩增后的文本，所述扩增后的文本包括依存句法树中所有父结点和子结点所对应的词语。

可选的，获取所述依存句法树中每个树枝的词频和逆向文件频率总和之后，所述方法还包括：

将每个树枝的词频和逆向文件频率总和降序排列。

可选的，所述词集中包括停用词、数字和特殊符号，所述停用词、数字和特殊符号的词频和逆向文件频率为0。

可选的，所述针对待扩增文本，获取扩增后的文本，还包括：

构建所述专业领域数据集的LDA模型；

根据所述LDA模型，获取所述专业领域数据集的主题文档表，所述主题文档表包括不同主题；

获取所述待扩增文本所属可能性最大的多个主题；

分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度；

根据余弦相似度最高的主题，获取目标文本；

构建所述目标文本和所述待扩增文本的依存句法树；所述依存句法树包括父结点和子结点，所述父结点包括子结点；每个父结点与其所包含的所有子结点构成一个树枝，每个父结点和每个子结点分别表示一个词语，父结点和子结点之间的关系表示词语之间的依存关系；

将所述目标文本和所述待扩增文本的依存句法树中存在相同依存关系的树枝进行替换；

获取扩增后的文本，所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。

可选的，所述构建所述专业领域数据集的LDA模型之前，所述方法还包括：

获取所述专业领域数据集的困惑度；

获取所述专业领域数据集的最优主题数。

将所述依存句法树中树枝长度大于预设长度的树枝根据包含关系进行合并；

将所述依存句法树中树枝长度大于预设长度的树枝根据依存关系进行匹配，获取待选树枝对集；

随机交换所述待选树枝对集中的树枝；

获取所述专业领域数据集的词频记录；

获取所述专业领域数据集的训练词向量模型；

对所述待扩增文本进行分词以及词性标注，所述词性标注包括专有名词的标注；

获取待替换词语集，所述待替换词语集中包括多个词语，所述多个词语在所述词频记录中属于高频词语，且词性为专有名词；

获取所述待替换词语集在所述训练词向量模型中的近似词语；

随机选取所述待替换词语集中的词语，根据所述近似词语进行替换；

获取扩增后的文本，所述扩增后的文本包括所述待扩增文本替换后的所有词语。

本申请公开了一种基于领域特征的文本数据扩增方法，包括：获取专业领域数据集，所述专业领域数据集包括多个文本；针对每一个文本，进行预处理，获取待扩增文本；所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计；针对待扩增文本，获取扩增后的文本；获取扩增后的专业领域数据集，所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法，可以在扩增文本数据的同时，体现出文本的领域特征，提高了文本数据扩增的质量，并提高了基于此文本构建的AI***的服务质量。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于领域特征的文本数据扩增方法的流程示意图；

图2为本申请实施例公开的第一种文本数据扩增方法的流程示意图；

图3为本申请实施例公开的第二种文本数据扩增方法的流程示意图；

图4为本申请实施例公开的第三种文本数据扩增方法的流程示意图；

图5为本申请实施例公开的第四种文本数据扩增方法的流程示意图。

具体实施方式

为了解决现有技术在扩增文本数据的同时，不能很好的体现领域特征的问题，本申请公开了一种基于领域特征的文本数据扩增方法，参见图1所示的流程图，包括：

获取专业领域数据集，所述专业领域数据集包括多个文本。

针对每一个文本，进行预处理，获取待扩增文本。所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计。文本预处理的目的是在文字扩增之前将数据以结构化形式存储起来，同时保存文本的预处理结果(文本分词结果和词频统计结果)，避免扩展过程中同一文本多次重复处理，造成计算资源的浪费。预处理结果存储在json格式中。

针对待扩增文本，获取扩增后的文本。其中，包括四种方法，第一种方法为：特征剪裁扩增方法，参见图2所示的流程示意图。

所述特征剪裁扩增方法包括：

对待扩增文本进行分词，获取所述待扩增文本的词集。所述词集包括多个词语。

对所述待扩增文本进行依存句法分析，获取所述待扩增文本的依存句法树。所述依存句法树包括父结点和子结点，所述父结点包括子结点。每个父结点与其所包含的所有子结点构成一个树枝，每个父结点和每个子结点分别表示一个词语，父结点和子结点之间的关系表示词语之间的依存关系。

根据所述专业领域数据集，构建词频和逆向文件频率模型。

根据所述词频和逆向文件频率模型，获取所述词集中每个词语的词频和逆向文件频率。所述词集中包括停用词、数字和特殊符号，所述停用词、数字和特殊符号的词频和逆向文件频率为0。

获取所述依存句法树中每个树枝的词频和逆向文件频率总和。

将每个树枝的词频和逆向文件频率总和降序排列。

随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝。

其中，计算每个树枝的词频和逆向文件频率总和是为了评估每个树枝的重要性，将重要性较小的树枝删除，从而达到扩增的目的。

第二种方法为特征融合扩增方法，参见图3所示的流程示意图，基于主题模型的特征融合扩增方法是一种从数据集中选取与待扩增文本特征相似度较高的目标文本，抽取文本中的特征相互替换，从而实现扩增的方法。进行特征融合的关键是根据文本相似度进行筛选推荐和文本特征抽取。根据文本相似度进行相似文本筛选时，使用LDA主题模型技术。LDA主题模型是隐含狄利克雷分布模型，以非监督学习的方式对文本进行聚类，是一种包含词、文档和主题三层结构的贝叶斯概率模型。该模型可以预测数据集中每个文本的主题、也可以给出每个主题包含的特征词。使用LDA主题模型进行文本筛选推荐是属于基于内容的推荐方法，可以从数据集中发掘并提取主题，进而在待扩增文本所属主题中选取与待扩增文本相似度较高的文本，实现较高质量的筛选推荐。文本特征抽取使用依存句法树对文本中的依存关系进行分析，从而获取文本的基本特征。

所述特征融合扩增方法包括：

获取所述专业领域数据集的困惑度。

获取所述专业领域数据集的最优主题数。

构建所述专业领域数据集的LDA模型。

根据所述LDA模型，获取所述专业领域数据集的主题文档表，所述主题文档表包括不同主题。

获取所述待扩增文本所属可能性最大的多个主题。

分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度。

根据余弦相似度最高的主题，获取目标文本。

构建所述目标文本和所述待扩增文本的依存句法树。所述依存句法树包括父结点和子结点，所述父结点包括子结点。每个父结点与其所包含的所有子结点构成一个树枝，每个父结点和每个子结点分别表示一个词语，父结点和子结点之间的关系表示词语之间的依存关系。

将所述目标文本和所述待扩增文本的依存句法树中存在相同依存关系的树枝进行替换。

第三种方法为特征变换扩增方法，参见图4所示的流程示意图，包括：

获取所述待扩增文本的依存句法树。所述依存句法树包括父结点和子结点，所述父结点包括子结点。每个父结点与其所包含的所有子结点构成一个树枝，每个父结点和每个子结点分别表示一个词语，父结点和子结点之间的关系表示词语之间的依存关系。

将所述依存句法树中树枝长度大于预设长度的树枝根据包含关系进行合并。

将所述依存句法树中树枝长度大于预设长度的树枝根据依存关系进行匹配，获取待选树枝对集。

随机交换所述待选树枝对集中的树枝。

特征变换扩增方法与特征裁剪和特征融合扩增方法不同，其不依赖于文本所在的数据集，不在数据集的尺度进行特征挖掘，而是在文本的尺度中不改变句子依存关系的情况下进行语序结构的调整，保持文本的基本特征和语义信息。

第四种方法为特征替换，参见图5所示的流程示意图，包括：

获取所述专业领域数据集的词频记录。

获取所述专业领域数据集的训练词向量模型。

对所述待扩增文本进行分词以及词性标注，所述词性标注包括专有名词的标注。

获取待替换词语集，所述待替换词语集中包括多个词语，所述多个词语在所述词频记录中属于高频词语，且词性为专有名词。

获取所述待替换词语集在所述训练词向量模型中的近似词语。

随机选取所述待替换词语集中的词语，根据所述近似词语进行替换。

获取扩增后的专业领域数据集，所述扩增后的专业领域数据集包括多个扩增后的文本。特征替换扩增方法依赖于文本所在的数据集，需要使用数据集计算词频和训练词向量。以司法裁判文书数据集为例。在文本预处理阶段，已经得到该数据集的词频统计结果，依照词云图可以看出，词频较高的词语可以很好的反映出文本的领域特征，相对而言，词频较低的词语重要性更低，不能很好反映文本的领域特征。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于领域特征的文本数据扩增方法，其特征在于，包括：

获取专业领域数据集，所述专业领域数据集包括多个文本；

针对待扩增文本，获取扩增后的文本；

获取扩增后的专业领域数据集，所述扩增后的专业领域数据集包括多个扩增后的文本；

所述针对待扩增文本，获取扩增后的文本，包括：

获取所述待扩增文本的词集；所述词集包括多个词语；

根据所述专业领域数据集，构建词频和逆向文件频率模型；

2.根据权利要求1所述的一种基于领域特征的文本数据扩增方法，其特征在于，获取所述依存句法树中每个树枝的词频和逆向文件频率总和之后，所述方法还包括：

将每个树枝的词频和逆向文件频率总和降序排列。

3.根据权利要求1所述的一种基于领域特征的文本数据扩增方法，其特征在于，所述词集中包括停用词、数字和特殊符号，所述停用词、数字和特殊符号的词频和逆向文件频率为0。

4.根据权利要求1所述的一种基于领域特征的文本数据扩增方法，其特征在于，所述针对待扩增文本，获取扩增后的文本，还包括：

构建所述专业领域数据集的LDA模型；

获取所述待扩增文本所属可能性最大的多个主题；

根据余弦相似度最高的主题，获取目标文本；

5.根据权利要求4所述的一种基于领域特征的文本数据扩增方法，其特征在于，所述构建所述专业领域数据集的LDA模型之前，所述方法还包括：

获取所述专业领域数据集的困惑度；

获取所述专业领域数据集的最优主题数。

6.根据权利要求1所述的一种基于领域特征的文本数据扩增方法，其特征在于，所述针对待扩增文本，获取扩增后的文本，还包括：

随机交换所述待选树枝对集中的树枝；

7.根据权利要求1所述的一种基于领域特征的文本数据扩增方法，其特征在于，所述针对待扩增文本，获取扩增后的文本，还包括：

获取所述专业领域数据集的词频记录；

获取所述专业领域数据集的训练词向量模型；