CN115862601B

CN115862601B - 数据生成方法、电子设备及可读存储介质

Info

Publication number: CN115862601B
Application number: CN202310179802.2A
Authority: CN
Inventors: 孙建伟; 邹伟; 李先刚
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-02
Anticipated expiration: 2043-03-01
Also published as: CN115862601A

Abstract

本公开提供了数据生成方法、电子设备及可读存储介质。本公开实施例的数据生成方法包括：根据第一语音的原始语音数据获取第一语音的第一语音特征，第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；通过预训练的语音生成模型利用第一语音的第二语音特征生成第一语音的第三语音特征；根据第一语音的第三语音特征生成仿真语音数据，仿真语音数据用于训练第一语音模型。本公开实施例能够实现语音模型训练数据的多样性与低成本的扩增。

Description

数据生成方法、电子设备及可读存储介质

技术领域

本公开涉及一种数据生成方法、电子设备及可读存储介质。

背景技术

诸如语音识别等语音技术相关的模型需要大量人工标注的语音数据用于模型训练，这些语音数据的标注过程往往费时费力，需要消耗大量的人力资源和资金，而真实场景往往是复杂多变的，有限的标注数据往往不能适用于所有的场景，因而现有的标注数据往往不能满足真实场景下的数据需求。因此，需要对语音数据进行扩增。使用数据增广的方式生成一些仿真数据，可以在提高模型性能的同时降低训练数据的标注成本。

目前，语音数据的扩增方法主要有：例如数据加噪加混响、数据频谱掩膜屏蔽等基于语音信号的数据增广方法，基于诸如Fastspeech等语音合成算法生成语音数据的方法等。然而，这些数据扩增方法普遍存在例如数据获取难度大、场景应用受限、数据固定单一等问题。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种数据生成方法、电子设备及可读存储介质。

根据本公开的第一方面，提供了一种数据生成方法，包括：根据第一语音的原始语音数据获取第一语音的第一语音特征，所述第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征；根据第一语音的第三语音特征生成仿真语音数据，所述仿真语音数据用于训练所述第一语音模型。

一些实施方式中，所述根据第一语音的第三语音特征生成仿真语音数据，包括如下之一或多项：按照预定比例混合所述第三语音特征与所述第一语音特征，以获得所述仿真语音数据；选取第三语音特征中随机数量的特征帧替换所述第一语音特征中随机位置的特征帧，以获得所述仿真语音数据；直接使用所述第三语音特征作为所述仿真语音数据。

一些实施方式中，所述通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征，包括：通过语音生成模型基于第一语音的第二语音特征确定第一语音的第二语音特征中屏蔽帧的预测值；将第一语音的第二语音特征中屏蔽帧的取值更新为所述预测值以得到第一语音的第三语音特征。

一些实施方式中，所述第一语音的第二语音特征中屏蔽帧少于未屏蔽帧，且所述第一语音的第二语音特征中屏蔽帧的数量和位置是随机确定的。

一些实施方式中，所述随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征，包括：随机生成二值掩膜；利用所述二值掩膜屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征。

一些实施方式中，所述二值掩膜中零值帧少于非零帧，且所述二值掩膜中零值帧的数量与位置是随机确定的。

一些实施方式中，所述语音生成模型为基于Bert算法原理的端到端模型。

一些实施方式中，所述语音生成模型的参数根据第一损失值确定，第一损失值根据第二语音的第二语音特征中屏蔽帧的预测值和所述屏蔽帧在第一语音特征中的取值确定，所述第二语音的第二语音特征中屏蔽帧的预测值通过所述语音生成模型得到。

一些实施方式中，所述第一语音模型为语音识别模型。

根据本公开的第二方面，提供了一种数据生成装置，包括：特征提取单元，用于根据第一语音的原始语音数据获取第一语音的第一语音特征，所述第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；随机屏蔽单元，用于随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；特征仿真单元，用于通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征；数据仿真单元，用于根据第一语音的第三语音特征生成仿真语音数据，所述仿真语音数据用于训练所述第一语音模型。

根据本公开的第三方面，提供了一种电子设备，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如上任一项所述的数据生成方法。

根据本公开的第四方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的数据生成方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的数据生成方法。

本公开实施例能够实现语音模型训练数据的低成本、多样性的扩增。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的数据生成方法的流程示意图。

图2是根据本公开的一个实施方式中语音生成模型的训练过程示例图。

图3是本公开的一个实施方式的采用处理***的硬件实现方式的数据生成装置的结构示意框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1示出了本公开的一些实施方式的数据生成方法的流程示意图。如图1所示，本公开的一个实施方式中，数据生成方法可以包括如下步骤S102~步骤S108。

步骤S102，根据第一语音的原始语音数据获取第一语音的第一语音特征，第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型。

具体应用中，第一语音的长度、内容及其格式，可以根据实际场景需求、第一语音模型的训练需求等灵活选择。对于第一语音的具体属性，本公开实施例不作限制。

第一语音特征可以是但不限于语音特征可以是但不限于Fbank（Filter Bank）特征、梅尔频率倒谱系数（Mel-frequency cepstral coefficients，MFCC）等。

具体应用中，可以采用已有的声学特征提取模型、声学特征提取算法等对语音的原始语音数据进行处理从而提取到第一语音特征。对于声学特征提取模型、声学特征提取算法的具体类型，本公开实施例不作限制。

具体应用中，第一语音模型可以是任何语音技术的相关模型。例如，第一语音模型可以是但不限于语音识别模型、语音合成模型等。对于第一语音模型的具体类型，本公开实施例不作限制。

步骤S104，随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征。一些实施方式中，步骤S104可以包括：随机生成二值掩膜；以及，利用二值掩膜屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征。其中，二值掩膜的长度可以与第一语音特征的长度相同。

一些实施方式中，可以通过二值掩膜与第一语音特征的点乘来实现屏蔽，从而得到第二语音特征。由此，第二语音特征的长度可以与第一语音特征相同，并且第二语音特征中屏蔽帧的取值为零，未屏蔽帧的取值则仍保持为第一语音特征中的取值（也即，仍保持为原始值）。

一些实施方式中，二值掩膜中零值帧少于非零帧，且二值掩膜中零值帧的数量与位置是随机确定的。例如，二值掩膜可以采用符合基于Transformer算法的双向编码表征算法（Bidirectional Encoder Representations from Transformers，Bert）的标准来随机生成。例如，二值掩膜中零值帧的占比可以不超过二值掩膜帧数的15%。

一些实施方式中，第一语音的第二语音特征中屏蔽帧少于未屏蔽帧，且第一语音的第二语音特征中屏蔽帧的数量和位置是随机确定的。第二语音特征中屏蔽帧与二值掩膜中零值帧相对应，也即，第二语音特征中屏蔽帧可以满足Bert的标准。

步骤S106，通过预训练的语音生成模型利用第一语音的第二语音特征生成第一语音的第三语音特征。一些实施方式中，步骤S106可以包括：通过语音生成模型基于第一语音的第二语音特征确定第一语音的第二语音特征中屏蔽帧的预测值；以及，将第一语音的第二语音特征中屏蔽帧的取值更新为预测值以得到第一语音的第三语音特征。

语音生成模型的类型、架构均不限。一些实施方式中，语音生成模型可以是但不限于基于Bert算法原理的端到端模型。例如，语音生成模型可以采用基于Transformerencoder的网络架构。对于语音生成模型的具体类型、具体结构等，本公开实施例均不作限制。

一些实施方式中，语音生成模型的参数根据第一损失值确定，第一损失值可以根据第二语音的第二语音特征中屏蔽帧的预测值和所述屏蔽帧在第一语音特征中的取值确定，屏蔽帧在第一语音特征中的对应值即为屏蔽帧的原始值，屏蔽帧的预测值基于语音生成模型得到。例如，可以利用预先选定的损失函数计算得到第一损失值。

第二语音可以与第一语音相同，也可以与第一语音不同。具体应用中，可以根据需要选择第二语音。对于第二语音的类型、内容、长度等，本公开实施例均不做限制。

一些实施方式中，语音生成模型的训练过程可以通过如下步骤a1~步骤a5的迭代执行来实现。

步骤a1，根据第二语音的原始语音数据获取第二语音的第一语音特征。

步骤a2，随机屏蔽第二语音的第一语音特征中的部分特征帧以得到第二语音的第二语音特征。

步骤a3，利用语音生成模型对第二语音的第二语音特征处理以得到第二语音的第二语音特征中屏蔽帧的预测值。

步骤a4，基于第二语音的第二语音特征中屏蔽帧的预测值和第二语音的第一语音特征中屏蔽帧的原始值，确定第一损失值。

步骤a5，基于第一损失值更新语音生成模型的参数。

图2示出了一些实施方式中语音生成模型的训练过程的示意图。如图2所示，语音生成模型的训练过程可以包括：第一，对第二语音的原始语音数据进行语音特征提取以得到第二语音的第一语音特征，第一语音特征包括各个特征帧的原始值，图2的示例中，第一语音特征中的特征帧有14帧。第二，随机生成二值掩膜，该二值掩膜的长度与第一语音特征相同，图2的示例中，二值掩膜包括14帧，该二值掩膜中一部分帧取值为0，一部部分帧取值为1。第三，利用二值掩膜在第二语音的第一语音特征的时间轴上随机屏蔽部分特征帧以获得第二语音的第二语音特征，即，将第一语音特征被屏蔽的特征帧的取值置为0、另一部分特征帧的取值仍为原始值，置为0的部分特征帧为屏蔽帧，取值仍为原始值的特征帧为未屏蔽帧。第四，以第二语音的第二语音特征作为语音生成模型的输入数据，执行语音生成模型的前向推理以获得第二语音特征中屏蔽帧的预测值，语音生成模型的输出数据可以是屏蔽帧的预测值，也可以是第二语音的第三语音特征，第二语音的第三语音特征中屏蔽帧的取值为预测值、未屏蔽帧的取值为原始值。第五，基于第二语音特征中屏蔽帧的预测值和屏蔽帧在第一语音特征中的原始值计算第一损失值，再利用第一损失值执行语音生成模型的反向传播以更新语音生成模型的参数。上述过程迭代执行，直到满足收敛条件时即可终止，从而完成语音生成模型的训练。

由上可见，通过无监督的语音数据即可训练得到语音生成模型，语音生成模型的标注成本得到了显著降低，能够实现低成本的数据生成。

步骤S108，根据第一语音的第三语音特征生成仿真语音数据，仿真语音数据用于训练第一语音模型。

步骤S108中，仿真语音数据的长度可以与第一语音特征的长度相同。

一些实施方式中，步骤S108可以包括如下之一或多项：1）按照预定比例混合第三语音特征与第一语音特征，以获得仿真语音数据；2）选取第三语音特征中随机数量的特征帧替换第一语音特征中随机位置的特征帧，以获得所述仿真语音数据；3）直接使用第三语音特征作为仿真语音数据。此外，还可采用其他方式来生成仿真语音数据，对于基于第三语音特征生成仿真语音数据的具体方式，本公开实施例不作限制。

由于通过语音生成模型得到的第三语音特征与真实状态下的语音特征数据存在一定的差异。因此，优选地，步骤S108中可以基于真实的语音特征数据（也即，第一语音特征）作为驱动来生成仿真语音数据。例如，可以利用第三语音特征对真实的语音特征数据（也即，第一语音特征）进行随机位置、随机数量的帧替换来生成仿真语音数据，该仿真语音数据可用于第一语音模型的训练。再例如，步骤S108中，可以将第三语音特征和第一语音特征按照预先设定的比例混合来获得仿真语音数据，该仿真语音数据也可用于第一语音模型的训练。由上，通过生成多样性的、可用于训练第一语音模型的仿真语音数据，从而实现第一语音模型的训练数据的低成本与多样性地扩增。

该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线400将包括一个或多个处理器500、存储器600和/或硬件模块的各种电路连接到一起。总线400还可以将诸如***设备、电压调节器、功率管理电路、外部天线等的各种其他电路700连接。

总线400可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

图3是根据本公开的一个实施方式的数据生成装置400的结构示意图。如图3所示，本公开的数据生成装置300可以包括以下内容。

特征提取单元302，用于根据第一语音的原始语音数据获取第一语音的第一语音特征，第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型。

随机屏蔽单元304，用于随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征。

特征仿真单元306，用于通过预训练的语音生成模型利用第一语音的第二语音特征生成第一语音的第三语音特征。

数据仿真单元308，用于根据第一语音的第三语音特征生成仿真语音数据，仿真语音数据用于训练第一语音模型。

一些实施方式中，数据仿真单元308具体可以用于通过如下之一或多种方式根据第一语音的第三语音特征生成仿真语音数据：1）按照预定比例混合第三语音特征与第一语音特征，以获得仿真语音数据；2）选取第三语音特征中随机数量的特征帧替换第一语音特征中随机位置的特征帧，以获得仿真语音数据；3）直接使用第三语音特征作为仿真语音数据。

一些实施方式中，特征仿真单元306用于：通过语音生成模型基于第一语音的第二语音特征确定第一语音的第二语音特征中屏蔽帧的预测值；以及，将第一语音的第二语音特征中屏蔽帧的取值更新为预测值以得到第一语音的第三语音特征。

一些实施方式中，第一语音的第二语音特征中屏蔽帧少于未屏蔽帧，且第一语音的第二语音特征中屏蔽帧的数量和位置是随机确定的。

一些实施方式中，随机屏蔽单元304用于：随机生成二值掩膜；以及利用二值掩膜屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征。

一些实施方式中，二值掩膜中零值帧少于非零帧，且二值掩膜中零值帧的数量与位置是随机确定的。

一些实施方式中，语音生成模型为基于Bert算法原理的端到端模型。

一些实施方式中，语音生成模型的参数根据第一损失值确定，第一损失值根据第二语音的第二语音特征中屏蔽帧的预测值和屏蔽帧在第一语音特征中的取值确定，第二语音的第二语音特征中屏蔽帧的预测值通过语音生成模型得到。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的数据生成方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的数据生成方法。

本公开还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的数据生成方法。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种数据生成方法，其特征在于，包括：

根据第一语音的原始语音数据获取第一语音的第一语音特征，所述第一语音的原始语音数据和/或第一语音特征用于训练第一语音模型；

随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征；

通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征；

根据第一语音的第三语音特征生成仿真语音数据，所述仿真语音数据用于训练所述第一语音模型，

其中，随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征，包括：

随机生成二值掩膜，所述二值掩膜的长度与第一语音特征的长度相同，所述二值掩膜的部分帧取值为0、另一部分帧取值为1；

利用所述二值掩膜在所述第一语音特征的时间轴上随机屏蔽第一语音的第一语音特征中的部分特征帧以得到第一语音的第二语音特征，在所述第二语音特征中，所述第一语音特征中被屏蔽的特征帧的取值设为0，而另一部分特征帧的取值保持为所述第一语音特征中的取值。

2.根据权利要求1所述的数据生成方法，其特征在于，所述根据第一语音的第三语音特征生成仿真语音数据，包括：

按照预定比例混合所述第三语音特征与所述第一语音特征，以获得所述仿真语音数据；或者

选取第三语音特征中随机数量的特征帧替换所述第一语音特征中随机位置的特征帧，以获得所述仿真语音数据；或者

直接使用所述第三语音特征作为所述仿真语音数据。

3.根据权利要求1所述的数据生成方法，其特征在于，所述通过预训练的语音生成模型利用所述第一语音的第二语音特征生成第一语音的第三语音特征，包括：

通过语音生成模型基于第一语音的第二语音特征确定第一语音的第二语音特征中屏蔽帧的预测值；

将第一语音的第二语音特征中屏蔽帧的取值更新为所述预测值以得到第一语音的第三语音特征。

4.根据权利要求1或3所述的数据生成方法，其特征在于，所述第一语音的第二语音特征中屏蔽帧少于未屏蔽帧，且所述第一语音的第二语音特征中屏蔽帧的数量和位置是随机确定的。

5.根据权利要求1所述的数据生成方法，其特征在于，所述二值掩膜中零值帧少于非零帧，且所述二值掩膜中零值帧的数量与位置是随机确定的。

6.根据权利要求1所述的数据生成方法，其特征在于，所述语音生成模型为基于Bert算法原理的端到端模型。

7.根据权利要求1或6所述的数据生成方法，其特征在于，所述语音生成模型的参数根据第一损失值确定，第一损失值根据第二语音的第二语音特征中屏蔽帧的预测值和所述屏蔽帧在第一语音特征中的取值确定，所述第二语音的第二语音特征中屏蔽帧的预测值通过所述语音生成模型得到。

8.根据权利要求1所述的数据生成方法，其特征在于，所述第一语音模型为语音识别模型。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至8任一项所述的数据生成方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至8任一项所述的数据生成方法。