CN111027312B

CN111027312B - 文本扩充方法、装置、电子设备及可读存储介质

Info

Publication number: CN111027312B
Application number: CN201911277446.8A
Authority: CN
Inventors: 黄晓萌; 安旭; 王溪; 刘志恒
Original assignee: Zhongjin Zhihui Technology Co ltd
Current assignee: Zhongjin Zhihui Technology Co ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2024-04-19
Anticipated expiration: 2039-12-12
Also published as: CN111027312A

Abstract

本申请提供一种文本扩充方法、装置、电子设备及可读存储介质，包括：对目标文本进行依存语法分析，获得所述目标文本的树形结构，其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在所述树形结构的多个层；根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组；对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本。由于本申请是基于分词词组来生成扩充文本，而分词词组来自于对目标文本本身的多个分词的划分，因此，本申请实施例提供的文本扩充方法与现有技术相比，受文本长度或复杂度的影响较小，相对时间复杂度较低。

Description

文本扩充方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语法分析领域，具体而言，涉及一种文本扩充方法、装置、电子设备及可读存储介质。

背景技术

在进行样本训练时，常常会存在样本短缺或样本不均衡的问题，传统的扩充样本的方法包括基于类标关系对短文本进行扩充，或循环扩充训练集辅助计算机文本分类任务，然而上述的方法受限于文本长度或复杂度、相对时间复杂度较高。

发明内容

本申请实施例的目的在于提供一种文本扩充方法、装置、电子设备及可读存储介质，用以改善现有技术受限于文本长度或复杂度、相对时间复杂度较高的问题。

第一方面，本申请实施例提供了一种文本扩充方法，所述方法包括：对目标文本进行依存语法分析，获得所述目标文本的树形结构，其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在所述树形结构的多个层；根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组；对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本。

在上述的实施方式中，先对目标文本进行依存语法分析获得目标文本的树形结构，然后对于树形结构每层的分词与该层的头节点的相对位置，获得至少一个分词词组，随后对包括有分词词组的树形结构生成文本，获得目标文本的多个扩充文本，由于本申请是基于分词词组来生成扩充文本，而分词词组来自于对目标文本本身的多个分词的划分，因此，本申请实施例提供的文本扩充方法与现有技术相比，受文本长度或复杂度的影响较小，相对时间复杂度较低。

在一个可能的设计中，所述对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本，包括：对包括有分词词组的树形结构进行文本生成，且在文本生成过程中遇到分词词组时，利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点，其中，所述分词词组为所述至少两个分词组成的分词词组，所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果；生成包括有排列组合结果的组合文本；展开所述组合文本，获得所述目标文本对应的多个扩充文本。

在上述的实施方式中，在利用分词词组对应的一个节点替换掉至少两个分词分别对应的节点，简化了树形结构的同时保留了至少两个分词对应的多个排列组合结果，在能够尽可能多的扩充文本的同时，降低了文本生成过程的复杂程度。

在一个可能的设计中，所述根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，包括：确定处于同一层，且与所述头节点的相对方位相同的至少两个分词属于同一个分词词组。

在上述的实施方式中，可以将同一层的多个分词中与同一头节点的相对方位相同的分词组成同一分词词组。

在一个可能的设计中，所述多个分词中的每个分词均标记有表征对应分词在所述目标文本的原始位置的序号；所述对包括有分词词组的树形结构进行文本生成，包括：按照所述树形结构从底层到顶层的顺序进行文本生成，在所述文本生成过程中按照所述每个分词的序号大小进行分词位置的选择。

在上述的实施方式中，在进行文本生成的过程中，可以按照从底层到顶层的顺序不断生成，并且按照每个分词在目标文本的原始位置的序号来确定分词位置的选择。

在一个可能的设计中，在所述获得所述目标文本对应的多个扩充文本之后，所述方法还包括：对所述多个扩充文本中的每个扩充文本包括的至少一个分词进行同义词替换，获得次选扩充文本。

在上述的实施方式中，对于每个扩充文本包括的至少一个分词，还可以用含义相同或相近似的同义词进行词语的替换，从而进一步增加扩充文本的数量。

在一个可能的设计中，所述同义词为与所述目标文本属于同一业务领域的词。

在上述的实施方式中，同义词可以从与目标文本属于同一业务领域的词汇中选取，从而可以尽可能地保证同义词的含义传达正确。

第二方面，本申请实施例提供了一种文本扩充装置，所述装置包括：树形结构获得模块，用于对目标文本进行依存语法分析，获得所述目标文本的树形结构，其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在所述树形结构的多个层；分词词组获取模块，用于根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组；扩充文本获取模块，用于对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本。

在一个可能的设计中，所述扩充文本获取模块，还用于对包括有分词词组的树形结构进行文本生成，且在文本生成过程中遇到分词词组时，利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点，其中，所述分词词组为所述至少两个分词组成的分词词组，所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果；生成包括有排列组合结果的组合文本；展开所述组合文本，获得所述目标文本对应的多个扩充文本。

在一个可能的设计中，分词词组获取模块，还用于确定处于同一层，且与所述头节点的相对方位相同的至少两个分词属于同一个分词词组。

在一个可能的设计中，所述扩充文本获取模块，还用于按照所述树形结构从底层到顶层的顺序进行文本生成，在所述文本生成过程中按照所述每个分词的序号大小进行分词位置的选择。

在一个可能的设计中，所述装置还包括：词义替换模块，用于对所述多个扩充文本中的每个扩充文本包括的至少一个分词进行同义词替换，获得次选扩充文本。

第三方面，本申请提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第四方面，本申请提供一种可读存储介质，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的文本扩充方法的流程示意图；

图2为图1中步骤S130的具体步骤的流程示意图；

图3为本申请实施例提供的文本扩充方法的一种具体实施方式的流程示意图；

图4为本申请实施例提供的文本扩充装置的示意性结构框图；

图5为本申请实施例提供的文本扩充方法对应的树形结构的结构示意图；

图6为本申请实施例提供的文本扩充方法对应的树形结构的一种变化形态的结构示意图；

图7为本申请实施例提供的文本扩充方法对应的树形结构的另一种变化形态的结构示意图；

图8为本申请实施例提供的文本扩充方法对应的树形结构的又一种变化形态的结构示意图；

图9为本申请实施例提供的文本扩充方法对应的树形结构的再一种变化形态的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

图1为本申请实施例提供的文本扩充方法，该文本扩充方法可以由电子设备执行，该电子设备可以为服务器，也可以为终端设备，本申请实施例提供的文本扩充方法包括如下步骤S110至步骤S130：

步骤S110，对目标文本进行依存语法分析，获得所述目标文本的树形结构。

树形结构为对目标文本依据依存语法划分获得的依存语法树。

其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在树形结构的多个层。

为了便于说明，不妨以例句“这笔的话有没有占我的那个***的额度呢”为例进行说明，对例句目标文本“这笔的话有没有占我的那个***的额度呢”进行依存语法分析，获得如图5示出的依存语法树的树形结构。

由图5可知，先对例句“这笔的话有没有占我的那个***的额度呢”进行预处理，将例句划分成“这笔、的话、有没有、占、我、的、那个、***、的、额度、呢”这十一个分词，对于划分出的这十一个分词，利用依存语法对上述分词在原目标文本中的位置上下文等属性进行分析，得出分词与分词之间的依存关系，从而实现分层。上述的十一个分词处于五个层中，其中“占”为第一层；“这笔”、“的话”、“有没有”、“额度”、“呢”为第二层；“***”为第三层；“我”、“那个”、“的”为第四层；“的”为第五层。图5示出的十一个分词中的每个分词前的***数字表征对应的分词在原先的目标文本中的序号。图5还示出了十一个分词中的每个分词后的位置属性(post或pre)。

位置属性的确定可以根据如下方式进行：

对于某一领域，可以利用该领域的大量文本对相邻两个分词之间的位置关系(例如动宾关系、定状关系等)进行训练，从而得到在该领域中，相邻两个分词之间的位置关系，从而确定依次节点相对于头节点的位置属性是post或pre。

应当理解，不同领域中，相同的相邻两个分词之间的位置关系可能不相同，因此，可以对每个领域分别进行文本训练。

步骤S120，根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组。

可选地，可以确定处于同一层，且与所述头节点的相对方位相同的至少两个分词属于同一个分词词组。

对于树形结构中相邻的两层，箭头总是从较高层指向较低层，较高层对应的分词可以作为较低层的箭头指向的分词的头节点，较低层的箭头指向的分词可以作为较高层对应的分词的依存节点，依存节点在原目标文本中的位置位于头节点之前的，可以作为该头节点的前依存节点；依存节点在原目标文本中的位置位于头节点之后的，可以作为该头节点的后依存节点。与头节点的相对方位相同的至少两个分词指的是分词在原先的目标文本中的位置相对于头节点在目标文本中的位置相同。

接上文的例子继续进行说明：例如，第一层“占”为第二层“这笔”、“的话”、“有没有”、“额度”、“呢”这五个分词的头节点，并且“占”为分词“这笔”、“的话”、“有没有”这三个分词的后缀(post)，“占”为分词“额度”、“呢”这两个分词的前缀(pre)，因此，可以将“这笔”、“的话”、“有没有”这三个分词作为同一分词词组，将“额度”、“呢”这两个分词作为另一分词词组。

又例如，第三层“***”为第四层“我”、“那个”、“的”这三个分词的头节点，并且“***”为“我”、“那个”的后缀(post)，“***”为“的”的前缀(pre)。因此，可以将“我”、“那个”这两个分词作为同一分词词组。可以获得如图6示出的被方框圈起来的三个分词词组。

步骤S130，对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本。

请参见图2，图2示出了步骤S130的具体步骤的流程示意图，具体包括如下步骤S131至步骤S133：

步骤S131，对包括有分词词组的树形结构进行文本生成，且在文本生成过程中遇到分词词组时，利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点。

其中，所述分词词组为所述至少两个分词组成的分词词组，所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果。

可选地，可以按照树形结构从底层到顶层的顺序进行文本生成，在文本生成过程中，按照每个分词与各自头节点的pre、post性质，将每个分词正确地放回各自头节点的前后或后方，从而进行分词位置的选择。

接上文的举例继续进行说明：根据分词的序号，将第五层的“的”移动到第四层的“我”之后，得到如图7示出的树形结构。对于由“我的”和“那个”组成的分词词组，由该分词词组对应的一个节点替换掉“我的”和“那个”两个分词对应的两个节点，得到如图8示出的树形结构。该分词词组对应的一个节点中包括“我的”和“那个”两个分词对应的两种排列组合结果：“我的那个”以及“那个我的”。

步骤S132，生成包括有排列组合结果的组合文本。

按照上文描述的方式继续进行文本的生成，可以得到包括有多个排列组合结果的组合文本，如图9所示。其中，(这笔，的话，有没有)有六种排列组合结果：这笔的话有没有，这笔有没有的话，的话这笔有没有，的话有没有这笔，有没有这笔的话，有没有的话这笔。

[(我的那个,那个我的)***的额度呢],[呢(我的那个,那个我的)***的额度]有四种排列组合结果，因此，图9示出的树形结构表示了包括有6*4＝24种不重复的文本组合方式的组合文本。

在一些具体实施方式中，还可以将语气词如“呢”隐去，则上述的组合文本变为包括6*2＝12种不重复的文本组合方式。

步骤S133，展开所述组合文本，获得所述目标文本对应的多个扩充文本。

接上文的举例继续进行说明，展开组合文本，可以得到24种不重复的扩充文本。

在生成文本遇到分词词组时，可以利用该分词词组对应的一个节点替换掉至少两个分词分别对应的至少两个节点，该分词词组由所述至少两个分词组成，且该分词词组对应的节点包括由至少两个分词排列组合形成的多个排列组合结果，在生成文本遇到分词词组时便不断重复上述过程，最终获得包括有排列组合结果的组合文本，展开该组合文本，可以获得目标文本对应的多个扩充文本。在利用分词词组对应的一个节点替换掉至少两个分词分别对应的节点，简化了树形结构的同时保留了至少两个分词对应的多个排列组合结果，在能够尽可能多的扩充文本的同时，降低了文本生成过程的复杂程度。

假设某目标文本的依存语法树的树形结构的层数分别为(1,2,...,d-1,d)，每层头节点个数分别为(h₁,h₂,...,h_d-1,h_d)，头节点为命名为，一层只有一个节点，其所处为核心关系：

其中，n为头节点本身，为第d层的第h_d个头节点。

除最底层无依存节点外，假设每个头节点下可交换依存节点个数如下，其中前后依存节点个数表示为：

其中，r为前依存节点，l为后依存节点。例如，r₂₁为n₂₁头节点下的前依存节点，l₂₁为n₂₁头节点下的后依存节点。

那么，根据本算法的生成规则能获取到的不重复的扩充文本个数为：

在本申请实施例提供的文本扩充方法的实际应用中，使用者可结合自身需要添加输出控制，限定扩充倍数，可根据应用需求进行调整，具有一定灵活性。

在一种具体实施方式中，还可以对树形结构的每层的每个分词词组中的分词进行排列组合，获得每个分词词组对应的一组排列组合结果，并根据所述排列组合结果更新所述树形结构；其中，每个分词词组替换为其对应的一组排列组合结果。根据更新后的所述树形结构进行文本生成，获得多个扩充文本；其中，所有排列组合结果中各自选出一个排列组合结果的一种组合对应一个扩充文本。

请参见图3，图3示出了本申请实施例提供的文本扩充方法的一种具体实施方式，在步骤S130之后，该方法还包括：

步骤S140，对所述多个扩充文本中的每个扩充文本包括的至少一个分词进行同义词替换，获得次选扩充文本。

所述同义词可以为与所述目标文本属于同一业务领域的词。

对于每个扩充文本包括的至少一个分词，还可以用含义相同或相近似的同义词进行词语的替换，从而进一步增加扩充文本的数量。同义词可以从与目标文本属于同一业务领域的词汇中选取，从而可以尽可能地保证同义词的含义传达正确。

依存语法树对应的依存关系与语义关系接近，便于后续对文本进行分类或信息提取，对后续工作带来较大便利，保持了汉语文本的固定搭配，保障了语义不受破坏，尽可能减低扩充文本带来的偏差；并且利用同一业务领域的词汇进行同义词替换，不会破坏文本业务特征，尽可能地降低了同义词替换带来的偏差，更适合在实际场景中应用。

请参见图4，图4示出了本申请实施例提供的文本扩充装置，所述装置400包括：

树形结构获得模块410，用于对目标文本进行依存语法分析，获得所述目标文本的树形结构，其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在所述树形结构的多个层。

分词词组获取模块420，用于根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组。

扩充文本获取模块430，用于对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本。

扩充文本获取模块430，还用于对包括有分词词组的树形结构进行文本生成，且在文本生成过程中遇到分词词组时，利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点，其中，所述分词词组为所述至少两个分词组成的分词词组，所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果；生成包括有排列组合结果的组合文本；展开所述组合文本，获得所述目标文本对应的多个扩充文本。

分词词组获取模块420还用于确定处于同一层，且与所述头节点的相对方位相同的至少两个分词属于同一个分词词组。

扩充文本获取模块430还用于按照所述树形结构从底层到顶层的顺序进行文本生成，在所述文本生成过程中按照所述每个分词的序号大小进行分词位置的选择。

所述装置还包括：词义替换模块，用于对所述多个扩充文本中的每个扩充文本包括的至少一个分词进行同义词替换，获得次选扩充文本。

本申请实施例提供的文本扩充方法及装置可以基于中文语法的依存关系，通过对语法逻辑关系进行统计分析，构建依存树结构辅助文本复述，并利用领域行业的同义词库中的同义词进行同义词替换，对文本进行逐句扩充，不受限于文本长度且扩充倍数客观，同时实现了对文本进行高效且合理的文本扩充；因此对文本从语法到内容都进行了合理变换。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本扩充方法，其特征在于，所述方法包括：

对目标文本进行依存语法分析，获得所述目标文本的树形结构，其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在所述树形结构的多个层；

根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组；

对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本；

所述对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本，包括：

对包括有分词词组的树形结构进行文本生成，且在文本生成过程中遇到分词词组时，利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点，其中，所述分词词组为所述至少两个分词组成的分词词组，所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果；

生成包括有排列组合结果的组合文本；

展开所述组合文本，获得所述目标文本对应的多个扩充文本。

2.根据权利要求1所述的方法，其特征在于，所述根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，包括：

确定处于同一层，且与所述头节点的相对方位相同的至少两个分词属于同一个分词词组。

3.根据权利要求1所述的方法，其特征在于，所述多个分词中的每个分词均标记有表征对应分词在所述目标文本的原始位置的序号；

所述对包括有分词词组的树形结构进行文本生成，包括：

按照所述树形结构从底层到顶层的顺序进行文本生成，在所述文本生成过程中按照所述每个分词的序号大小进行分词位置的选择。

4.根据权利要求1所述的方法，其特征在于，在所述获得所述目标文本对应的多个扩充文本之后，所述方法还包括：

对所述多个扩充文本中的每个扩充文本包括的至少一个分词进行同义词替换，获得次选扩充文本。

5.根据权利要求4所述的方法，其特征在于，所述同义词为与所述目标文本属于同一业务领域的词。

6.一种文本扩充装置，其特征在于，所述装置包括：

树形结构获得模块，用于对目标文本进行依存语法分析，获得所述目标文本的树形结构，其中，所述树形结构包括能组成所述目标文本的多个分词，所述多个分词根据所述依存语法划分在所述树形结构的多个层；

分词词组获取模块，用于根据所述树形结构的每层的分词与该层的头节点的相对位置，对每层的分词进行分组，获得至少一个分词词组；

扩充文本获取模块，用于对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本；所述对包括有分词词组的树形结构进行文本生成，获得所述目标文本对应的多个扩充文本，包括：对包括有分词词组的树形结构进行文本生成，且在文本生成过程中遇到分词词组时，利用所述分词词组对应的节点替换至少两个分词分别对应的至少两个节点，其中，所述分词词组为所述至少两个分词组成的分词词组，所述分词词组对应的节点中包括由所述至少两个分词排列组合形成的至少两个排列组合结果；生成包括有排列组合结果的组合文本；展开所述组合文本，获得所述目标文本对应的多个扩充文本。

7.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1-5任一项所述的方法。

8.一种可读存储介质，其特征在于，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-5任一项所述的方法。