CN110085215A - 一种基于生成对抗网络的语言模型数据增强方法 - Google Patents

一种基于生成对抗网络的语言模型数据增强方法 Download PDF

Info

Publication number
CN110085215A
CN110085215A CN201810064982.9A CN201810064982A CN110085215A CN 110085215 A CN110085215 A CN 110085215A CN 201810064982 A CN201810064982 A CN 201810064982A CN 110085215 A CN110085215 A CN 110085215A
Authority
CN
China
Prior art keywords
model
sequence
sample
training
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810064982.9A
Other languages
English (en)
Other versions
CN110085215B (zh
Inventor
张鹏远
张一珂
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201810064982.9A priority Critical patent/CN110085215B/zh
Publication of CN110085215A publication Critical patent/CN110085215A/zh
Application granted granted Critical
Publication of CN110085215B publication Critical patent/CN110085215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合上估计N元文法语言模型在训练数据集上估计N元文法语言模型最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别***的性能。

Description

一种基于生成对抗网络的语言模型数据增强方法
技术领域
本发明涉及语音识别和自然语言处理领域,特别涉及一种基于生成对抗网络的语言模型数据增强方法。
背景技术
语言模型(Language model,LM)是描述词序列概率分布的数学模型,其广泛应用于语音识别(Automatic speech recognition,ASR)、机器翻译、分词、词性标注等自然语言处理任务中。
N元文法语言模型(N-gram LM)是一种常用的统计语言模型。由于实际自然语言中词汇组合的多样性,利用有限数据训练得到的N元文法语言模型不可避免的存在数据稀疏(Data sparsity)问题,即由于训练数据不充足,N元文法语言模型无法鲁棒地估计某些不常见文法的概率值。数据增强(Data augmentation)是一种有效缓解数据稀疏问题的方法。就语言模型建模任务而言,常见的数据增强方法包括基于外部数据的方法和基于递归神经网络(Recurrent neural network,RNN)随机采样的方法。前者按照一定的规则从其他来源(如互联网)的数据中挑选部分数据扩充训练集,后者则是利用训练好的RNN模型随机生成词序列以丰富训练集中包含的语言现象。
在难以获取领域相关的外部数据的情况下,基于RNN模型随机采样的数据增强方法可以有效提升N元文法语言模型参数估计的鲁棒性。该方法将RNN模型作为一个生成模型,随机生成词序列。现有的序列生成模型均采用最大似然估计(Maximum likelihoodestimation,MLE)算法估计模型参数。然而,MLE方法会使得生成模型在生成采样序列的过程中会遇到暴露偏差(Exposure bias)问题。即在生成下一个词汇时,如果所依赖的历史序列(即已生成的词序列)未在训练数据中出现,偏差则会在序列生成过程中逐渐累积,最终导致生成的词序列缺乏长时语义信息,进而限制了数据增强技术对语言模型及相关***所带来的性能提升。
发明内容
本发明的目的在于,克服现有语言模型数据增强方法的存在的暴露偏差问题、提高生成文本数据的质量,进而提高语言模型的性能,从而提供一种基于生成对抗网络的语言模型数据增强方法。
为了解决上述技术问题,本发明实施例提供一种基于生成对抗网络的语言模型数据增强方法,包括:
步骤1,建立生成模型Gθ和判别模型Dφ
步骤2,获取包含语言序列数据的训练集S,在所述训练集上利用MLE算法对生成模型Gθ进行预训练;
步骤3,利用生成模型Gθ生成m个采样序列作为负样本,从所述训练集中随机抽取m个序列作为正样本,组合所述负样本与正样本作为训练数据对判别模型Dφ进行预训练;
步骤4,利用生成模型Gθ生成n个采样序列,并用判别模型Dφ对所述n个采样序列进行判别;
步骤5,利用当前的生成模型Gθ生成n个负样本序列,从训练集S中随机抽取n个正样本序列,组合所述n个负样本与正样本作为判别模型Dφ的训练数据;
步骤6,重复执行步骤4和5,直到生成模型Gθ收敛;
步骤7,利用生成模型Gθ采样生成序列数据集合上估计N元文法语言模型在训练数据集S上估计N元文法语言模型通过插值算法得到增强的语言模型。
作为上述方法的一种改进,所述生成模型Gθ和判别模型Dφ均采用神经网络结构,Gθ与Dφ的参数采用Adam随机梯度下降算法更新。
作为上述方法的又一种改进,利用MLE算法对生成模型Gθ进行预训练包括:最大化给定训练序列的对数概率;
其中,x1:T表示词序列x1,x2,...,xT,xt表示序列中第t个词。
作为上述方法的再一种改进,所述步骤3包括:
利用Adam算法最大化以下目标函数:
式中,x1:T表示从训练集中抽取的正样本,y1:T表示生成模型Gθ生成的负样本,表示对m个正/负样本取期望,log()表示取对数,Dφ(y1:T)表示输入序列y1:T的得分。
作为上述方法的还一种改进,所述步骤4包括:
利用Adam算法最大化以下目标函数:
式中,y1:T表示生成模型Gθ生成的负样本,定示对n个采样序列取期望,Gθ(y1:T)表示生成模型Gθ生成序列y1:T的概率。
作为上述方法的进一步改进,所述步骤5包括:利用Adam算法最大化以下目标函数:
式中,x1:T表示从训练集中抽取的正样本,y1:T表示生成模型Gθ生成的负样本,,表示对n个正/负样本取期望,log()表示取对数,Dφ(y1:T)表示输入序列y1:T的得分。
作为上述方法的进一步改进,通过插值算法得到增强的语言模型
其中λ表示插值系数。
本发明的优点在于,本发明的一种基于生成对抗网络的语言模型数据增强方法,针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别***的性能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的基于生成对抗网络的语言模型数据增强方法流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于生成对抗网络的语言模型数据增强方法,包括:
1)建立生成模型Gθ、判别模型Dφ,所有模型均采用神经网络结构,Gθ与Dφ的参数采用Adam随机梯度下降算法更新。
2)在包含序列数据的训练集上利用MLE算法对Gθ进行预训练。即最大化给定训练序列的对数概率:
其中,x1:T表示词序列x1,x2,...,xT,xt表示序列中第t个词。
3)利用Gθ生成m个采样序列{y1:T}作为负样本,从训练集和随机抽取m个序列{x1:T}作为正样本,组合正负样本作为训练数据对判别模型Dφ进行预训练。即利用Adam算法最大化以下目标函数:
式中,表示对m个正/负样本取期望,log()表示取对数,Dφ(y1:T)表示输入序列y1:T的得分(一个取值范围在0~1之间的标量值,表示输入序列是真实数据的概率)。
4)用生成模型Gθ生成n个采样序列{y1:T},并用判别模型Dφ对生成的序列进行评价,即计算每个生成序列的得分Dφ(y1:T)。然后利用Adam算法最大化以下目标函数:
式中,表示对n个采样序列取期望,Gθ(y1:T)表示生成模型Gθ生成序列y1:T的概率。
5)用Gθ生成n个负样本{y1:T}序列,并从中随机抽取n个正样本{x1:T}序列。
组合正负样本作为Dφ的训练数据。然后利用Adam算法最大化以下目标函数:
6)重复步骤4)、5)直到Gθ收敛。
7)利用Gθ采样生成序列数据集合上估计N元文法语言模型在训练数据集上估计N元文法语言模型最终通过插值算法得到增强的语言模型
其中λ表示插值系数。
上述步骤1)-7)是一个迭代过程,一个完整的迭代包括步骤4)、5),每次迭代中生成模型Gθ是不同的,每次迭代后会更新模型参数,因此生成的序列y1:T的质量也是不同的。
上步骤3)可以看做是第0次迭代,即预训练。
在每次迭代中判别模型Dφ的更新公式即目标函数是相同的,只是训练数据不一样,因为生成模型Gθ发生变化,生成的训练数据也不一样。
发明步骤3)中公式一中的y1:T来自预训练的生成模型Gθ。而发明步骤5)中的y1:T来自第t次(t=1,2,3...)更新后的生成模型Gθ
训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛。
在生成模型Gθ的训练过程中,一般采用公式二的相反数(即:-1*公式二)作为损失函数(loss function),并且在训练过程中最小化损失函数。
由于Gθ生成的序列数据具有随机性,因此损失函数并不是单调下降的,而是波动下降的。因此生成模型Gθ收敛应该满足以下条件:
1、在迭代训练中生成模型损失函数呈下降趋势;
2、当连续H次(比如本实例中可取H=50)迭代中损失函数的最大值和最小值相差小于事先设定的阈值d(比如本实例可取d=10)。
参照图1所示,为本发明实施例提供的基于生成对抗网络的语言模型数据增强方法流程图,包括S101-S109:
S101、获取包含序列数据的训练集S;训练集S包含的都是正样本数据。
S102、建立生成模型G、判别模型D;
S103、获取利用MLE算法对G在S上进行预训练;
S104、利用G生成m个采样序列作为负样本,从S中随机抽取m个序列作为正样本。组合正负样本作为训练数据以公式一为目标函数对D进行预训练;
S105、利用G生成n个采样序列,计算损失函数即公式二,使用Adam算法更新生成模型G的参数,此时模型D的参数固定;
S106、用当前的G生成n个负样本序列,从S中随机抽取n个正样本序列,组合正负样本作为D的训练数据,计算损失函数即公式一,使用Adam算法更新判别模型D的参数,此时模型G参数固定;
S107、判断G是否收敛;是则执行S108,否则执行S105;
S108、利用G采样生成序列数据集合
S109、在S上估计N元文法语言模型上估计N元文法语言模型按照上述步骤7)中公式三计算增强的语言模型ME
本发明的一种基于生成对抗网络的语言模型数据增强方法,针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别***的性能。
下面通过希尔贝壳中文普通话语音数据库,来具体说明本发明的增强方法。
本实例在AISHELL(希尔贝壳中文普通话语音数据库)语音识别任务上说明本发明的实施方法及与MLE方法的性能对比。本实例采用AISHELL语音库对应的转录文本作为生成模型Gθ的训练数据集共包含12万句文本。
a)利用kaldi语音识别工具搭建识别***,声学模型为高斯混合模型GMM(Gaussian Mixture Model)-隐马尔可夫模型(Hidden Markov Model,HMM),简称HMM-GMM模型。基线语言模型为在数据集上估计得到的Kneser-Ney平滑的3阶N元文法语言模型
b)建立生成模型Gθ和判别模型Dφ,本实例中Gθ为LSTM-RNN模型,包含两层LSTM层,输入层与输出层节点数等于词典大小,词典共包含55590个中文词。判别模型Dφ为卷积神经网络(Convolutional neural network,CNN)模型。Dφ分别采用窗长为1、2、3、4、5、10的卷积核进行卷积操作,每个窗长分别使用50个不同的卷积核。输出层包含1个节点,表示输入序列与真实数据相似程度。
c)在数据集上按照发明步骤2中的公式对Gθ进行预训练,采用Adam算法更新生成模型参数,学习率为0.01,预训练得到的模型记为 即是按照MLE方法训练得到的生成模型。
d)利用果样生成100万句文本序列,记为数据集台上估计Kneser-Ney平滑三阶N元文法语言模型MMLE。并在上估计Kneser-Ney平滑三阶N元文法语言模型M。然后计算基于MLE算法增强的语言模型
其中λ=0.5,表示插值系数。此增强语言模型作为本发明实例的对比方法。
e)利用预训练得到的Gθ(即)采样12万句词序列{y1:T}(T为句子长度,本实例取T=20)作为负样本,将数据集作为正样本,按照发明步骤3中的公式对Dφ进行训练,采用Adam算法更新判别模型参数,学习率为0.0001。
f)用Gθ生成35个采样序列{y1:T},然后按照发明步骤4中的目标函数对Gθ进行训练。并采用Adam算法更新生成模型参数,学习率为0.01。
g)用Gθ生成35个负样本{y1:T}序列,并从中随机抽取35个正样本{x1:T}序列。组合正负样本作为Dφ的训练数据。然后按照发明步骤5中的目标函数对Dφ进行训练。并采用Adam算法更新判别模型参数,学习率为0.0001。
h)重复步骤f)、g)直到Gθ收敛。
i)利用Gθ采样生成100万句文本序列,记为数据集合上估计Kneser-Ney平滑三阶N元文法语言模型MGAN。然后计算增强的语言模型
其中μ=0.5,表示插值系数。
将增强的语言模型分别应用于AISHELL语音识别任务中(即分别片替换识别***中的基线语言模型M)的具体实验结果如表1所示。其中Dev和Eva1分别表示AISHLL数据集的开发集和测试集。结果表明本发明的方法相比于传统的基于MLE的数据增强方法可以进一步提升语言模型的性能、降低识别字错误率。
表1:基于生成对抗网络的数据增强技术对识别字错误率的影响
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于生成对抗网络的语言模型数据增强方法,其特征在于,包括:
步骤1,建立生成模型Gθ和判别模型Dφ
步骤2,获取包含语言序列数据的训练集S,在所述训练集上利用MLE算法对生成模型Gθ进行预训练;
步骤3,利用生成模型Gθ生成m个采样序列作为负样本,从所述训练集中随机抽取m个序列作为正样本,组合所述负样本与正样本作为训练数据对判别模型Dφ进行预训练;
步骤4,利用生成模型Gθ生成n个采样序列,并用判别模型Dφ对所述n个采样序列进行判别;
步骤5,利用当前的生成模型Gθ生成n个负样本序列,从训练集S中随机抽取n个正样本序列,组合所述n个负样本与正样本作为判别模型Dφ的训练数据;
步骤6,重复执行步骤4和5,直到生成模型Gθ收敛;
步骤7,利用生成模型Gθ采样生成序列数据集合上估计N元文法语言模型在训练数据集S上估计N元文法语言模型通过插值算法得到增强的语言模型。
2.如权利要求1所述的方法,其特征在于,所述生成模型Gθ和判别模型Dφ均采用神经网络结构,Gθ与Dφ的参数采用Adam随机梯度下降算法更新。
3.如权利要求1所述的方法,其特征在于,利用MLE算法对生成模型Gθ进行预训练包括:最大化给定训练序列的对数概率;
其中,x1:T表示词序列x1,x2,…,xT,xt表示序列中第t个词。
4.如权利要求1所述的方法,其特征在于,所述步骤3包括:
利用Adam算法最大化以下目标函数:
公式一
式中,x1:T表示从训练集中抽取的正样本,y1:T表示生成模型Gθ生成的负样本,表示对m个正/负样本取期望,log()表示取对数,Dφ(y1:T)表示输入序列y1:T的得分。
5.如权利要求1所述的方法,其特征在于,所述步骤4包括:
利用Adam算法最大化以下目标函数:
公式二
式中,y1:T表示生成模型Gθ生成的负样本,表示对n个采样序列取期望,Gθ(y1:T)表示生成模型Gθ生成序列y1:T的概率。
6.如权利要求1所述的方法,其特征在于,所述步骤5包括:利用Adam算法最大化以下目标函数:
公式一
式中,x1:T表示从训练集中抽取的正样本,y1:T表示生成模型Gθ生成的负样本,表示对n个正/负样本取期望,log()表示取对数,Dφ(y1:T)表示输入序列y1:T的得分。
7.如权利要求1所述的方法,其特征在于,通过插值算法得到增强的语言模型
公式三
其中λ表示插值系数。
CN201810064982.9A 2018-01-23 2018-01-23 一种基于生成对抗网络的语言模型数据增强方法 Active CN110085215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810064982.9A CN110085215B (zh) 2018-01-23 2018-01-23 一种基于生成对抗网络的语言模型数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810064982.9A CN110085215B (zh) 2018-01-23 2018-01-23 一种基于生成对抗网络的语言模型数据增强方法

Publications (2)

Publication Number Publication Date
CN110085215A true CN110085215A (zh) 2019-08-02
CN110085215B CN110085215B (zh) 2021-06-08

Family

ID=67411927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810064982.9A Active CN110085215B (zh) 2018-01-23 2018-01-23 一种基于生成对抗网络的语言模型数据增强方法

Country Status (1)

Country Link
CN (1) CN110085215B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808057A (zh) * 2019-10-31 2020-02-18 南昌航空大学 一种基于约束朴素生成对抗网络的语音增强方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及***
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112420050A (zh) * 2020-11-18 2021-02-26 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN112599121A (zh) * 2020-12-03 2021-04-02 天津大学 基于辅助数据正则化的说话人自适应方法
CN112800111A (zh) * 2021-01-26 2021-05-14 重庆邮电大学 一种基于训练数据挖掘的位置预测方法
CN113066483A (zh) * 2019-12-31 2021-07-02 南昌航空大学 一种基于稀疏连续约束的生成对抗网络语音增强方法
WO2021139250A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置
CN113642341A (zh) * 2021-06-30 2021-11-12 深译信息科技(横琴)有限公司 一种解决医学文本数据稀缺性的深度对抗生成方法
CN114844767A (zh) * 2022-04-27 2022-08-02 中国电子科技集团公司第五十四研究所 一种基于对抗生成网络的告警数据生成方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20060277033A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Discriminative training for language modeling
CN101154221A (zh) * 2006-09-28 2008-04-02 株式会社东芝 执行输入语音翻译处理的装置
JP2008225907A (ja) * 2007-03-13 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
US20090271002A1 (en) * 2008-04-29 2009-10-29 David Asofsky System and Method for Remotely Controlling Electronic Devices
US20120278060A1 (en) * 2011-04-27 2012-11-01 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
KR20130126794A (ko) * 2012-04-19 2013-11-21 금오공과대학교 산학협력단 오디오 녹음 기기 판별 시스템 및 그 판별 방법
CN103843061A (zh) * 2011-07-29 2014-06-04 三星电子株式会社 音频信号处理方法及其音频信号处理设备
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别***及方法
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN107330444A (zh) * 2017-05-27 2017-11-07 苏州科技大学 一种基于生成对抗网络的图像自动文本标注方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US20060277033A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Discriminative training for language modeling
CN101154221A (zh) * 2006-09-28 2008-04-02 株式会社东芝 执行输入语音翻译处理的装置
JP2008225907A (ja) * 2007-03-13 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
US20090271002A1 (en) * 2008-04-29 2009-10-29 David Asofsky System and Method for Remotely Controlling Electronic Devices
US20120278060A1 (en) * 2011-04-27 2012-11-01 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
CN103843061A (zh) * 2011-07-29 2014-06-04 三星电子株式会社 音频信号处理方法及其音频信号处理设备
KR20130126794A (ko) * 2012-04-19 2013-11-21 금오공과대학교 산학협력단 오디오 녹음 기기 판별 시스템 및 그 판별 방법
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别***及方法
CN107330444A (zh) * 2017-05-27 2017-11-07 苏州科技大学 一种基于生成对抗网络的图像自动文本标注方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
EMILY DENTON ET AL.: "Semi-Supervised Learning with Context-Conditional Generative Adversarial Networks", 《ICLA》 *
LYNDA SAID LHADJ ET AL.: "Enhancing information retrieval through concept‐based language modeling and semantic smoothing", 《JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》 *
PARIKH, ANKUR P. , ET AL: "Language Modeling with Power Low Rank Ensembles", 《COMPUTER SCIENCE》 *
YIKE ZHANG ET AL.: "Improving Language Modeling with an Adversarial Critic for Automatic Speech Recognition", 《INTERSPEECH》 *
张一珂 等: "基于对抗训练策略的语言模型数据增强技术", 《自动化学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808057A (zh) * 2019-10-31 2020-02-18 南昌航空大学 一种基于约束朴素生成对抗网络的语音增强方法
CN113066483A (zh) * 2019-12-31 2021-07-02 南昌航空大学 一种基于稀疏连续约束的生成对抗网络语音增强方法
CN113066483B (zh) * 2019-12-31 2024-01-30 广州航海学院 一种基于稀疏连续约束的生成对抗网络语音增强方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及***
WO2021139250A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112420050A (zh) * 2020-11-18 2021-02-26 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN112599121A (zh) * 2020-12-03 2021-04-02 天津大学 基于辅助数据正则化的说话人自适应方法
CN112800111A (zh) * 2021-01-26 2021-05-14 重庆邮电大学 一种基于训练数据挖掘的位置预测方法
CN113642341A (zh) * 2021-06-30 2021-11-12 深译信息科技(横琴)有限公司 一种解决医学文本数据稀缺性的深度对抗生成方法
CN114844767A (zh) * 2022-04-27 2022-08-02 中国电子科技集团公司第五十四研究所 一种基于对抗生成网络的告警数据生成方法

Also Published As

Publication number Publication date
CN110085215B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN110085215A (zh) 一种基于生成对抗网络的语言模型数据增强方法
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、***、设备及介质
JP6444530B2 (ja) 音声言語理解システム
CN108763504B (zh) 一种基于强化双通道序列学习的对话回复生成方法及***
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107590138B (zh) 一种基于词性注意力机制的神经机器翻译方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109948152A (zh) 一种基于lstm的中文文本语法纠错模型方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN108475262A (zh) 用于文本处理的电子设备和方法
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN104156349B (zh) 基于统计词典模型的未登录词发现和分词***及方法
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别***
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
Wu et al. A probabilistic framework for representing dialog systems and entropy-based dialog management through dynamic stochastic state evolution
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
Puigcerver et al. Probabilistic interpretation and improvements to the HMM-filler for handwritten keyword spotting
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
Mamatov et al. Construction of language models for Uzbek language
CN114896966A (zh) 一种中文文本语法错误定位方法、***、设备及介质
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant