CN111695356A

CN111695356A - 同义语料生成方法、装置、计算机***及可读存储介质

Info

Publication number: CN111695356A
Application number: CN202010467190.3A
Authority: CN
Inventors: 郝新东; 王科强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-22

Abstract

本发明涉及人工智能的大数据技术领域，公开了同义语料生成方法、装置、计算机***及可读存储介质，包括：从语料库获取训练语料；对训练语料进行编码和解码以获得语义与训练语料一致或相似的同义转换语料；和/或改变训练语料中词汇的顺序，及将训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测训练语料的词汇获得预测结果，并将训练语料中的词汇替换为预测结果获得词汇预测语料；汇总同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将同义语料集与训练语料关联。本发明极大的扩充了训练语料的数量，解决了避免了AI问答***出现欠拟合的情况发生，提高了该***的泛化性和鲁棒性。

Description

同义语料生成方法、装置、计算机***及可读存储介质

技术领域

本发明涉及人工智能的大数据技术领域，尤其涉及一种同义语料生成方法、装置、计算机***及可读存储介质。

背景技术

随着近些年大数据以及人工智能技术在各行各业的普及与发展，市场上为应对用户大量问答***，提供了一种AI问答***，用于通过人工智能与用户实现问答互动的效果，若要AI问答***能够准确识别用户提问的语义，就需要使用大量的训练语料对其进行训练。

然而，当训练语料较少时将无法对AI问答***在某一语义上进行足够的训练，导致AI问答***在该语义上出现欠拟合，进而造成AI问答***的泛化性和鲁棒性较差。

发明内容

本发明的目的是提供一种同义语料生成方法、装置、计算机***及可读存储介质，基于大数据技术，用于解决现有技术存在的因缺少足够的训练语料对AI问答***在某一语义上进行足够的训练，导致AI问答***在该语义上出现欠拟合，进而造成AI问答***的泛化性和鲁棒性较差的问题；本申请可应用于智慧医疗场景中，从而推动智慧城市的建设。

为实现上述目的，本发明提供一种同义语料生成方法，包括：

创建服务器创建用于储存训练语料的语料库，及周期性地获取训练语料并储存；

生成服务器从所述语料库获取训练语料；对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料；和/或改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料；

关联服务器汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将所述同义语料集与所述训练语料关联，并将所述训练语料及其同义语料集发送所述创建服务器以储存至所述语料库。

上述方案中，周期性地获取训练语料并储存的步骤，包括：

创建服务器的定时模块设置启动时间；

创建服务器的爬取模块根据启动时间通过通用爬虫从预设的语料库或互联网获得训练语料；

汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集之后，还包括：

将所述同义语料集上传至区块链。

上述方案中，将对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料的步骤，包括：

生成服务器的相似模块通过对训练语料进行编码获得训练字节流，及对所述训练字节流进行解码获得同义转换语料；

生成服务器的回译模块将所述训练语料翻译为外文语料，并将所述外文语料翻译为所述训练语料的语种的同义转换语料。

上述方案中，生成服务器的相似模块通过对训练语料进行编码获得训练字节流，及对所述训练字节流进行解码获得同义转换语料的步骤，包括：

相似模块的编码器对训练语料进行编码并识别所述训练语料中的语义，以获得反应所述训练语料语义的训练字节流；

相似模块的解码器对所述训练字节流进行解码，并通过识别状态信息较多的数据及忽略状态信息较少的数据，以获得与所述训练语料语义一致或相近的同义转换语料。

上述方案中，将所述训练语料翻译为外文语料，并将所述外文语料翻译为所述训练语料的语种的同义转换语料的步骤，包括：

回译模块的第一翻译单元将所述训练语料的语种设为第一语种，并将所述训练语料翻译为第二语种的外文语料；

回译模块的第二翻译单元将所述外文语料翻译为第一语种的同义转换语料。

上述方案中，改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料的步骤，包括：

生成服务器的分词模块对所述训练语料进行分词，获得至少具有一个训练词汇的训练词汇集，及对根据分词所获得的训练词汇进行词性标注，以识别所述训练词汇中的命名实体和非命名实体；

生成服务器的排序模块对所述训练词汇集中的训练词汇进行重新排序，以获得具有不同词汇排序的词汇排序集，将各词汇排序集中的训练词汇依次排列分别获得排序同义语料；

生成服务器的词库模块获取所述训练词汇集中属于非命名实体的训练词汇并将其设为待替换词汇，获取所述待替换词汇的同义词并使其部分或全部替换所述待替换词汇获得同义词汇集，排列所述同义词汇集中的词汇以分别获得排序同义语料。

上述方案中，预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料的步骤，包括：

生成服务器的面具模块遮盖训练语料中的训练词汇获得面具语料；

生成服务器的预测模块根据所述面具语料预测其遮盖的训练词汇并生成预测结果，将预测结果替换所述训练词汇获得词汇预测语料。

为实现上述目的，本发明还提供一种同义语料生成装置，包括：

创建服务器，创建用于储存训练语料的语料库，及周期性地获取训练语料并储存；

生成服务器，用于从所述语料库获取训练语料；对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料；和/或改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料；

关联服务器，用于汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将所述同义语料集与所述训练语料关联，并将所述训练语料及其同义语料集发送所述创建服务器以储存至所述语料库。

为实现上述目的，本发明还提供一种计算机***，其包括多个计算机设备，各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述同义语料生成方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述同义语料生成方法的步骤。

本发明提供的同义语料生成方法、装置、计算机***及可读存储介质，通过周期性地从互联网或语料库中获取训练语料，以保证训练语料获取的持续性，解决了当前训练语料需要人工获取，导致语料获取持续性不足的问题；

通过编码和解码、词汇替换、改变词汇顺序、对训练语料中某一词汇进行预测并替换的方式，获得与训练语料的语义一致或相似的同义转换语料、排序同义语料和词汇预测语料，极大的扩充了训练语料的数量，解决了当前AI问答***在某一语义上进行足够的训练导致其出现欠拟合的问题，并且，由于同义转换语料、排序同义语料和词汇预测语料覆盖了描述者在不同表达习惯、表达顺序及情境的前提下所表达的信息，因此，通过训练语料及其同义转换语料、排序同义语料和词汇预测语料对AI问答***进行训练，提高了AI问答***的泛化性和鲁棒性；

通过汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将所述同义语料集与所述训练语料关联，以保证提取训练语料时能够快速获得预期关联的同义语料集，提高了语料获取效率，避免了提取语义不同的语料造成AI问答***训练错误的情况发生。

附图说明

图1为本发明同义语料生成方法实施例一的流程图；

图2为本发明同义语料生成方法实施例一中创建服务器、生成服务器和关联服务器之间的工作流程图；

图3为本发明同义语料生成装置实施例二的程序模块示意图；

图4为本发明计算机***实施例三中计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的同义语料生成方法、装置、计算机***及可读存储介质，适用于大数据的数据分析技术领域，为提供一种基于创建服务器、生成服务器、关联服务器的同义语料生成方法。本发明通过从语料库获取训练语料；对训练语料进行编码和解码以获得语义与训练语料一致或相似的同义转换语料；和/或改变训练语料中词汇的顺序，及将训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测训练语料的词汇获得预测结果，并将训练语料中的词汇替换为预测结果获得词汇预测语料；汇总同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将同义语料集与训练语料关联，并将训练语料及其同义语料集发送创建服务器以储存至语料库。

实施例一：

请参阅图1，本实施例的一种同义语料生成方法，包括：

S1：创建服务器创建用于储存训练语料的语料库，及周期性地获取训练语料并储存；

S2：生成服务器从所述语料库获取训练语料；对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料；和/或改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料；

S3：关联服务器汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将所述同义语料集与所述训练语料关联，并将所述训练语料及其同义语料集发送所述创建服务器以储存至所述语料库。

在示例性的实施例中，请参阅图2，通过创建服务器11创建用于储存训练语料的语料库，及周期性地获取训练语料并储存；通过周期性地从互联网14或语料库15中获取训练语料，以保证训练语料获取的持续性，解决了当前训练语料需要人工获取，导致语料获取持续性不足的问题。

通过生成服务器12从所述语料库获取训练语料；对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料；和/或改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料；通过编码和解码、词汇替换、改变词汇顺序、对训练语料中某一词汇进行预测并替换的方式，获得与训练语料的语义一致或相似的同义转换语料、排序同义语料和词汇预测语料，极大的扩充了训练语料的数量，解决了当前AI问答***在某一语义上进行足够的训练导致其出现欠拟合的问题，并且，由于同义转换语料、排序同义语料和词汇预测语料覆盖了描述者在不同表达习惯、表达顺序及情境的前提下所表达的信息，因此，通过训练语料及其同义转换语料、排序同义语料和词汇预测语料对AI问答***进行训练，提高了AI问答***的泛化性和鲁棒性。

通过关联服务器13汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将所述同义语料集与所述训练语料关联，以保证提取训练语料时能够快速获得预期关联的同义语料集，提高了语料获取效率，避免了提取语义不同的语料造成AI问答***训练错误的情况发生。

本申请可应用于智慧医疗场景中，从而推动智慧城市的建设。

在一个优选的实施例中，S1中周期性地获取训练语料并储存的步骤，包括：

S101：创建服务器的定时模块设置启动时间。

本步骤中，可采用quartz的定时器作为所述定时模块，其中，quartz是一个基本涵盖所有施法条相关插件功能的施法条插件，quartz中的定时器，；于本实施例中，可采用quartz的Simple Trigger(简单触发器)作为所述定时模块，以触发只需执行一次或者在给定时间触发并且重复N次且每次执行延迟一定时间的任务；也可采用quartz的CronTrigger(克隆触发器)，以实现按照日历触发，例如“每个周五”，每个月10日中午或者10：15分。

S102：创建服务器的爬取模块根据启动时间通过通用爬虫从预设的语料库或互联网获得训练语料。

在一个优选的实施例中，S2中将对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料的步骤，包括：

S201：生成服务器的相似模块通过对训练语料进行编码获得训练字节流，及对所述训练字节流进行解码获得同义转换语料；

示例性地，采用seq2seq模型作为相似模块，利用相似模块的编码器对训练语料进行编码获得反应训练语料中命名实体的训练字节流，并通过相似模块的解码器对所述训练字节流解码获得与所述训练语料语义一致或相似的同义转换语料。例如：训练语料为“糖尿病怎么治疗”，经过相似模块对所述训练语料进行编码及解码获得同义转换语料“糖尿病怎么办”。

需要说明的是，seq2seq模型是一个编码-解码结构的网络，它的输入是一个序列，输出也是一个序列，其中，编码是指将一个可变长度的信号序列变为固定长度的向量表达，解码是指将这个固定长度的向量变成可变长度的目标的信号序列，因此，可将训练语料作为输入序列输入至seq2seq模型的编码器进行编码，获得固定长度的向量的形式表达的训练字节流，通过解码器对所述训练字节流进行解码获得语义与训练语料一致或相似，但内容与训练语料不完全一致的同义转换语料；由于seq2seq模型属于现有技术，而本申请所解决的技术问题是：如何在训练语料数量有限的情况下，获得更多的与训练语料语义一致或相似，但内容与训练语料不完全一致的同义转换语料，因此，seq2seq模型的工作原理在此不做赘述。

S202：生成服务器的回译模块将所述训练语料翻译为外文语料，并将所述外文语料翻译为所述训练语料的语种的同义转换语料。

例如：训练语料为“糖尿病怎么治疗”，经过回译模块将所述训练语料翻译为外文语料“How to treat diabetes”，将所述外文语料翻译为所述训练语料的语种的同义转换语料“如何治疗糖尿病”。

需要说明的是，可采用seq2seq模型作为回译模块用于翻译所述训练语料和外文语料以获得同义转换语料；seq2seq模型是一个编码-解码结构的网络，它的输入是一个序列，输出也是一个序列，其中，编码是指将一个可变长度的信号序列变为固定长度的向量表达，解码是指将这个固定长度的向量变成可变长度的目标的信号序列，因此，seq2seq模型可通过训练形成具有机器翻译效果的网络模型；由于seq2seq模型的翻译模型属于现有技术，而本申请所解决的技术问题是：如何利用利用翻译模型获得与训练语料语义一致或相似的同义转换语料，因此，seq2seq模型的工作原理在此不做赘述。

进一步地，生成服务器的相似模块通过对训练语料进行编码获得训练字节流，及对所述训练字节流进行解码获得同义转换语料的步骤，包括：

S201-01：相似模块的编码器对训练语料进行编码并识别所述训练语料中的语义，以获得反应所述训练语料语义的训练字节流；

本步骤中，编码器对训练语料进行编码获得训练字节流的过程，可视为计算机中的神经网络对训练语料的理解识别出训练语料中的命名实体，因此，实现了基于神经网络理解获得训练语料语义的技术效果。

示例性地，采用attention算法作为编码器；由于传统的编码器对语料进行编码获得的语义向量无法完全表示整个语料的信息，以及向传统的编码器先输入的内容携带的信息会被后输入的信息稀释或被覆盖的情况，导致输入编码器的语料越长，被稀释或覆盖的情况越严重；因此，通过采用attention算法作为编码器对训练语料进行编码，以获得具有注意力范围的训练字节流，进而实现识别训练语料中语义的技术效果；其中，所述注意力范围是指对训练语料的语义具有较大影响的字词。

需要说明的是，Attention算法是一种对某个时刻的输出序列，在输入序列上各个部分上的注意力，其中，所述注意力指的权重，即输入序列的各个部分对某时刻输出序列贡献的权重；本领域技术人员很容易通过attention算法获得具有“注意力范围”的中间向量(也就是本申请中的训练字节流)，而本申请所解决的问题是通过何种方法能够获得反应所述训练语料语义的训练字节流，进而解决如何获得语义与训练语料一致或相似的同义转换语料，因此attention的具体工作流程在本申请中不做赘述。

S201-02：相似模块的解码器对所述训练字节流进行解码，并通过识别状态信息较多的数据及忽略状态信息较少的数据，以获得与所述训练语料语义一致或相近的同义转换语料。

本步骤中，解码器对训练字节流进行解码获得同义转换语料的过程，可视为计算机中的神经网络基于训练字节流(也就是神经网络对训练语料的语义理解)，生成与训练语料语义一致或相近的同义转换语料。因此，解码器通过GRU算法对训练字节流进行解码并识别训练字节流中状态信息较多的数据，及忽略状态信息较少的数据，以准确把握训练字节流所对应训练语料的语义，并获得与所述训练语料语义一致或相近的同义转换语料；其中，状态信息是对训练语料的语义具有影响的字词所对应的训练字节。

需要说明的是，GRU(Gate Recurrent Unit，门控循环单元)是循环神经网络(Recurrent Neural Network,RNN)的一种，其用于解决长期记忆和反向传播中的梯度的问题，于本实施例中，所述GRU为经过训练的成熟循环神经网络。所述GRU有两个门，即重置门(reset gate)和更新门(update gate)，所述重置门决定了如何将新的输入信息与前面的记忆相结合，用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多；所述更新门定义了前面记忆保存到当前时间步的量，用于控制前一时刻的状态信息被代入到当前状态的程度，更新门的值越大说明前一时刻的状态信息带入越多；本申请通过GRU的更新门依次获取训练字节流在每个时间步上的输入向量，并决定到底要将多少过去的信息传递到未来，即：到底前一时间步和当前时间步的信息有多少是需要继续传递的，进而决定从过去复制所有的信息以减少梯度消失的风险；通过GRU的重置门对训练字节流进行线性变换，并投入Sigmoid激活函数以输出激活值，重置门主要决定了到底有多少过去的信息需要遗忘；因此，通过更新门和重置门将实现识别具有较多状态信息的数据，及忽略具有较少状态信息的数据的技术效果；由于GRU属于现有技术，本领域技术人员可通过GRU对中间向量(也就是本申请中的训练字节流)进行运算获得目标信息，而本申请所要解决的技术问题是：如何从数据量有限的训练字节流中获得训练字节流的真实语义；因此，GRU的具体工作流程在本申请中不做赘述。

进一步地，将所述训练语料翻译为外文语料，并将所述外文语料翻译为所述训练语料的语种的同义转换语料的步骤，包括：

S202-01：回译模块的第一翻译单元将所述训练语料的语种设为第一语种，并将所述训练语料翻译为第二语种的外文语料。

示例性地，在回译模块中将所述训练语料的语种设为第一语种(例如：中文)，在回译模块中选择第二语种(例如：英文)，其中所述第一语种和第二语种更不同，通过所述回译模块将所述训练语料翻译为第二语种的外文语料(例如：中译英)；例如：训练语料为“糖尿病怎么治疗”，外文语料为“How to treatdiabetes”。

需要说明的是，可通过采用attention算法和GRU分别作为第一翻译单元的编码器和解码器；由于传统的编码器对语料进行编码获得的语义向量无法完全表示整个语料的信息，并且先输入的内容携带的信息会被后输入的信息稀释或被覆盖的情况，导致输入编码器的语料越长，被稀释或覆盖的情况越严重；因此，通过采用attention算法作为编码器将获得具有注意力范围且长度固定的训练字节流，使得该训练字节流能够准确把握训练语料的语义，同时，采用GRU作为解码器识别具有较多状态信息的数据，及忽略具有较少状态信息的数据的技术效果，进而达到从数据量有限的训练字节流中获得训练字节流所对应的训练语料真实语义的技术效果。

S202-02：回译模块的第二翻译单元将所述外文语料翻译为第一语种的同义转换语料。

示例性地，将外文语料“How to treat diabetes”翻译为第一语种(例如：中文)的同义转换语料“如何治疗糖尿病”。

需要说明的是，可通过采用attention算法和GRU分别作为第二翻译单元的编码器和解码器；由于传统的编码器对语料进行编码获得的语义向量无法完全表示整个语料的信息，并且先输入的内容携带的信息会被后输入的信息稀释或被覆盖的情况，导致输入编码器的语料越长，被稀释或覆盖的情况越严重；因此，通过采用attention算法作为编码器将获得具有注意力范围且长度固定的训练字节流，使得该训练字节流能够准确把握训练语料的语义，同时，采用GRU作为解码器识别具有较多状态信息的数据，及忽略具有较少状态信息的数据的技术效果，进而达到从数据量有限的训练字节流中获得训练字节流所对应的训练语料真实语义的技术效果。

在一个优选的实施例中，S2中改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料的步骤，包括：

S211：生成服务器的分词模块对所述训练语料进行分词，获得至少具有一个训练词汇的训练词汇集，及对根据分词所获得的训练词汇进行词性标注，以识别所述训练词汇中的命名实体和非命名实体。

本步骤中，可采用基于词表的分词算法(如：正向最大匹配算法FMM、逆向最大匹配算法BMM、双向最大匹配算法BM)、和/或基于统计模型的分词算法(如：基于N-gram语言模型的分词算法)、和/或基于序列标注的分词算法(如：基于HMM、基于CRF、基于深度学习的端到端的分词算法)作为分词模块，由于分词算法属于现有技术，而本申请所解决的技术问题是：如何实现对训练语料中的命名实体和非命名实体进行重新排序，以及获得训练语料中的非命名实体以便于对其进行替换的问题，因此分词算法的分词工作原理和命名实体标注原理在此不做赘述。

S212：生成服务器的排序模块对所述训练词汇集中的训练词汇进行重新排序，以获得具有不同词汇排序的词汇排序集，将各词汇排序集中的训练词汇依次排列分别获得排序同义语料。

本步骤中，由于对训练词汇集中的训练词汇的顺序进行改变，而不改变训练词汇的内容，因此将获得保持训练语料语义前提下的不同表达顺序的排序同义语料，以适应不同表达习惯人群对某一意思的描述。

例如：训练语料为“糖尿病怎么治疗”，经过分词将获得训练词汇集“糖尿病、怎么、治疗”，对该训练词汇集进行重新排序获得具有不同词汇顺序的词汇排序集“怎么、糖尿病、治疗”，“治疗、糖尿病、怎么”，“怎么、治疗、糖尿病”，“治疗、怎么、糖尿病”等，因此将获得辅助语料：“怎么糖尿病治疗”，“治疗糖尿病怎么”，“怎么治疗糖尿病”，“治疗怎么糖尿病”。

S213：生成服务器的词库模块获取所述训练词汇集中属于非命名实体的训练词汇并将其设为待替换词汇，获取所述待替换词汇的同义词并使其部分或全部替换所述待替换词汇获得同义词汇集，排列所述同义词汇集中的词汇以分别获得排序同义语料。

本步骤中，在词库模块中创建具有待替换词汇的同义词的同义数据库，所述词库模块识别训练词汇集中的非命名实体，并通过所述同义数据库获得所述非命名实体所对应的同义词，并将所述训练词汇集中的全部或部分非命名实体替换为与其对应的同义词获得同义词汇集，此时，将获得至少一个非命名实体被同义词替换的同义词汇集；排列各同义词汇集中的词汇以分别获得排序同义语料。

例如：训练语料为“糖尿病导致食欲不振”，其中，“糖尿病”是命名实体，而“导致”，“食欲不振”为非命名实体，因此将作为待替换词汇；其中，导致的同义词包括“造成”，食欲不振的同义词包括“胃口不好”，那么将获得排序同义语料“糖尿病导致胃口不好”，“糖尿病造成胃口不好”，“糖尿病造成食欲不振”。

在示例性的实施例中，S2中改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料的步骤，还可包括：

S214：生成服务器的辅助模块识别训练语料中的标点，以标点为分隔符分隔所述训练语料获得至少具有一个训练短句的训练短句集，及在训练短句集中各训练短句的句尾***辅助词；将***有辅助词的训练短句依次排列获得排序同义语料。

本步骤中，所述辅助词为汉语中的叹词，如：啊、嘛、呀等。例如：训练语料为：“糖尿病怎么治疗，最近食欲不振”，那么将获得训练短句集“糖尿病怎么治疗”和“最近食欲不振”；在训练短句集中各训练短句的句尾***“啊”和“呀”的辅助词，将获得排序同义语料：“糖尿病怎么治疗啊，最近食欲不振呀”，以适应语言描述者在不同语境下所作出的意思描述，以助于神经网络能够准确识别描述者的真正意图。

在一个优选的实施例中，S2中预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料的步骤，包括：

S221：生成服务器的面具模块遮盖训练语料中的训练词汇获得面具语料。

本步骤中，面具模块对训练语料进行分词，以获得至少具有一个训练词汇的训练词汇集，根据所述训练词汇集中的训练词汇，依次遮盖所述训练语料中与所述训练词汇对应的词汇，以获得至少一个面具语料。

需要说明的是，可采用基于词表的分词算法(如：正向最大匹配算法FMM、逆向最大匹配算法BMM、双向最大匹配算法BM)、和/或基于统计模型的分词算法(如：基于N-gram语言模型的分词算法)、和/或基于序列标注的分词算法(如：基于HMM、基于CRF、基于深度学习的端到端的分词算法)构建面具模块，由于分词算法属于现有技术，而本申请所解决的技术问题是：如何获得被遮盖的训练语料，以实现预测模型对遮盖部分进行预测的的问题，因此分词算法的分词工作原理在此不做赘述。

S222：生成服务器的预测模块根据所述面具语料预测其遮盖的训练词汇并生成预测结果，将预测结果替换所述训练词汇获得词汇预测语料。

本步骤中，采用BERT模型作为预测模块，其中，BERT模型是一种语言表征模型，其通过Transformer的双向编码器表示，旨在通过联合调节所有层中的上下文来预先训练深度双向表示。

通过所述预测模块根据面具语料中未被遮盖的词汇预测遮盖部分的词汇并生成预测结果，将预测结果替换所述遮盖部分形成词汇预测语料。

例如：训练语料“糖尿病能否吃苹果”，假设遮盖部分为“苹果”，那么面具语料为“糖尿病能否吃【MASK】”，预测模块通过面具语料中未遮盖词汇“糖尿病能否吃”预测【MASK】，将得出“苹果”、“梨”、“香蕉”三个预测结果；

由于“苹果”与遮盖的词汇一致，因此将预测结果“梨”和“香蕉”替换所述训练词汇，获得词汇预测语料“糖尿病能否吃梨”和“糖尿病能否吃香蕉”，以适应提问者表达的具有相似含义的语句。

在一个优选的实施例中，汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集之后，还包括：

将所述同义语料集上传至区块链。

需要说明的是，基于同义语料集得到对应的摘要信息，具体来说，摘要信息由同义语料集进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证同义语料集是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例二：

请参阅图3，本实施例的一种同义语料生成装置1，包括：

创建服务器11，创建用于储存训练语料的语料库，及周期性地获取训练语料并储存；

生成服务器12，用于从所述语料库获取训练语料；对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料；和/或改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料；

关联服务器13，用于汇总所述同义转换语料、和/或排序同义语料、和/或词汇预测语料获得同义语料集，及将所述同义语料集与所述训练语料关联，并将所述训练语料及其同义语料集发送所述创建服务器以储存至所述语料库。

本技术方案基于大数据的数据分析技术领域，构建可对训练语料进行编码和解码以获得语义与训练语料一致或相似的同义转换语料；和/或改变训练语料中词汇的顺序，及将训练语料中的词汇替换为其同义词以分别获得排序同义语料；和/或预测训练语料的词汇获得预测结果，并将训练语料中的词汇替换为预测结果获得词汇预测语料的大数据引擎，用于对语料库中的训练语料进行样本处理，获得由同义转换语料、和/或排序同义语料、和/或词汇预测语料构成的同义语料集。

实施例三：

为实现上述目的，本发明还提供一种计算机***，该计算机***包括多个计算机设备2，实施例二的同义语料生成装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过***总线相互通信连接的存储器21、处理器22，如图4所示。需要指出的是，图4仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例一的同义语料生成装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行同义语料生成装置，以实现实施例一的同义语料生成方法。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储***，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器22执行时实现相应功能。本实施例的计算机可读存储介质用于存储同义语料生成装置，被处理器22执行时实现实施例一的同义语料生成方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种同义语料生成方法，其特征在于，包括：

2.根据权利要求1所述的同义语料生成方法，其特征在于，周期性地获取训练语料并储存的步骤，包括：

创建服务器的定时模块设置启动时间；

将所述同义语料集上传至区块链。

3.根据权利要求1所述的同义语料生成方法，其特征在于，将对所述训练语料进行编码和解码以获得语义与所述训练语料一致或相似的同义转换语料的步骤，包括：

4.根据权利要求3所述的同义语料生成方法，其特征在于，生成服务器的相似模块通过对训练语料进行编码获得训练字节流，及对所述训练字节流进行解码获得同义转换语料的步骤，包括：

5.根据权利要求3所述的同义语料生成方法，其特征在于，将所述训练语料翻译为外文语料，并将所述外文语料翻译为所述训练语料的语种的同义转换语料的步骤，包括：

6.根据权利要求1所述的同义语料生成方法，其特征在于，改变所述训练语料中词汇的顺序，及将所述训练语料中的词汇替换为其同义词以分别获得排序同义语料的步骤，包括：

7.根据权利要求1所述的同义语料生成方法，其特征在于，预测所述训练语料的词汇获得预测结果，并将所述训练语料中的词汇替换为所述预测结果获得词汇预测语料的步骤，包括：

8.一种同义语料生成装置，其特征在于，包括：

9.一种计算机***，其包括多个计算机设备，各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述同义语料生成方法的步骤。

10.一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述同义语料生成方法的步骤。