CN112562686A - 一种使用神经网络的零样本语音转换语料预处理方法 - Google Patents

一种使用神经网络的零样本语音转换语料预处理方法 Download PDF

Info

Publication number
CN112562686A
CN112562686A CN202011433778.3A CN202011433778A CN112562686A CN 112562686 A CN112562686 A CN 112562686A CN 202011433778 A CN202011433778 A CN 202011433778A CN 112562686 A CN112562686 A CN 112562686A
Authority
CN
China
Prior art keywords
speaker
generator
identity
output
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011433778.3A
Other languages
English (en)
Other versions
CN112562686B (zh
Inventor
魏建国
更太加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Nationalities University
Original Assignee
Qinghai Nationalities University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Nationalities University filed Critical Qinghai Nationalities University
Priority to CN202011433778.3A priority Critical patent/CN112562686B/zh
Publication of CN112562686A publication Critical patent/CN112562686A/zh
Application granted granted Critical
Publication of CN112562686B publication Critical patent/CN112562686B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种使用神经网络的零样本语音转换语料预处理方法,在零样本语音转换这一全新领域中提升了说话人身份编码向量的有效性,在转换语音的质量上得到了一定的提升,对说话人身份编码进行基于神经网络的预处理,使用说话人身份编码器提取语料中的说话人身份编码向量,将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中,生成器得到调整之后的说话人身份编码向量,将从生成器中得到的结果作为该说话人的最终身份编码向量,即作为该说话人的身份标签输入到解码器中,解码器生成转换后的音频特征序列。

Description

一种使用神经网络的零样本语音转换语料预处理方法
技术领域
本申请涉及网络安全技术领域,尤其涉及一种使用神经网络的零样本语音转换语料预处理方法。
背景技术
语音转换技术的最核心的应用是改变语音的音色,使其听起来像是目标说话人说出来的。
近些年,语音转换领域的研究突飞猛进,逐渐从需要平行语料和手动对齐和平行***转向了不需要平行语料的非平行***。非平行***的优势在于训练所需要的语料要求不高,十分灵活,便于获取,因此非平行***扩展了语音转换技术的应用领域。
但传统的非平行***只能实现在一对一、一对多、多对一、多对多的情况下的语音转换,也就是说语音转换任务中的源和说话人必须是训练集中的说话人,因此,对于不在训练集中的说话人,想要将他们作为源或目标说话人进行语音转换时,就必须使用对应的语音数据重新进行模型的训练。语音转换使用的神经网络模型一般来讲是比较复杂的,重新训练模型必然导致大量时间和算力的消耗,往往还需要对模型训练的参数进行不断地调整,才能使语音转换工作正常进行。因此,近一年来,零样本语音转换技术成为了语音转换领域内的一个全新的研究方向。
所谓零样本是指语音转换任务中的源说话人或者目标说话人无需在训练集中,而可以是任意的说话人,也就是说零样本语音转换技术实现了使用一个语音转换模型就可以完成任意说话人到任意说话人的语音转换任务,突破了训练集中说话人的限制。
零样本语音转换技术的一个核心思路就是使用说话人身份编码向量来表示说话人的身份标签,但随之而来的是以下几个问题:
1)在源或目标说话人可用语料极少时,得到的说话人身份编码向量未必是可靠的;
2)在使用说话人身份编码向量进行模型训练时,必须求平均值,使用一个固定的向量来代表固定的说话人;
3)对于不在训练集中的说话人,转换时使用的说话人身份编码向量和语音转换模型的配合程度不高。
因此,急需一种使用神经网络的零样本语音转换语料预处理方法。
发明内容
本发明的目的在于提供一种使用神经网络的零样本语音转换语料预处理方法,在零样本语音转换这一全新领域中提升了说话人身份编码向量的有效性,在转换语音的质量上得到了一定的提升。
第一方面,本申请提供一种使用神经网络的零样本语音转换语料预处理方法,所述方法包括:
使用了神经网络的生成器,对未在训练集中的说话人的身份编码向量进行预处理,使用256维的向量来表示说话人的音色等个性化特征,对应说话人的身份标签;
通过编码器将语音信息中的说话人相关信息和说话人无关信息分离出来,提取出来的说话人相关信息是32维或者64维;
该生成器由7层神经网络构成,前三层是卷积核大小为5的一维卷积层,在每一次卷积操作后进行批标准化步骤,并通过激活函数ReLU对输出进行激活,卷积神经网络输出的维数是512;接下来的三层是循环神经网络LSTM,在三层LSTM网络全部结束后选取最后一次输出的最后一列输出作为LSTM网络的最终输出,维数为768;最后一层神经网络是一个全连接层FullConnect,它重新将输出的维数限制在256位,最终得到预处理后的说话人身份编码;
该生成器是独立于语音转换模型单独进行训练的,使其根据输入的说话人身份编码向量输出一个靠近该值但又不完全一致的结果,对于生成器的输出,则为越靠近语音转换模型训练时使用的对应说话人的身份编码向量越好;
对说话人身份编码进行基于神经网络的预处理,使用说话人身份编码器提取语料中的说话人身份编码向量,将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中,生成器得到调整之后的说话人身份编码向量,将从生成器中得到的结果作为该说话人的最终身份编码向量,即作为该说话人的身份标签输入到解码器中,解码器生成转换后的音频特征序列。
结合第一方面,在第一方面第一种可能的实现方式中,该生成器的最终训练目标如下:
Figure 807512DEST_PATH_IMAGE001
Figure 752465DEST_PATH_IMAGE002
代表原始语音的音频特征,
Figure 543703DEST_PATH_IMAGE003
代表说话人身份编码器,
Figure 934102DEST_PATH_IMAGE004
代表得到的初始说话人身份编码向量;
Figure 41867DEST_PATH_IMAGE005
Figure 282355DEST_PATH_IMAGE006
代表本发明所述的生成器,代表经过调整之后的说话人身份编码向量,也就是生成器的对应输出结果;
Figure 498573DEST_PATH_IMAGE007
Figure 974554DEST_PATH_IMAGE008
代表生成器训练时的损失函数,通过使生成器的输出与语音转换模型中使用的众多说话人身份编码向量的平均值
Figure 795879DEST_PATH_IMAGE009
的差距达到最小,对生成器进行训练。
结合第一方面,在第一方面第二种可能的实现方式中,生成对抗网络是由一个生成器和一个判别器组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个模型。
第二方面,本申请提供一种使用神经网络的零样本语音转换语料预处理***,所述***包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有可能中任一项所述的方法步骤。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有可能中任一项所述的方法步骤。
第四方面,本申请提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面所有可能中任一项所述的方法步骤。
本发明提供一种使用神经网络的零样本语音转换语料预处理方法,在零样本语音转换这一全新领域中提升了说话人身份编码向量的有效性,在转换语音的质量上得到了一定的提升,对说话人身份编码进行基于神经网络的预处理,使用说话人身份编码器提取语料中的说话人身份编码向量,将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中,生成器得到调整之后的说话人身份编码向量,将从生成器中得到的结果作为该说话人的最终身份编码向量,即作为该说话人的身份标签输入到解码器中,解码器生成转换后的音频特征序列。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音转换***的流程图。
图2为本发明的预处理过程说明图。
图3为本发明的生成器网络结构设计图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本申请提供的使用神经网络的零样本语音转换语料预处理方法,所述方法包括:
使用了神经网络的生成器,对未在训练集中的说话人的身份编码向量进行预处理,使用256维的向量来表示说话人的音色等个性化特征,对应说话人的身份标签;
通过编码器将语音信息中的说话人相关信息和说话人无关信息分离出来,提取出来的说话人相关信息是32维或者64维;
该生成器由7层神经网络构成,前三层是卷积核大小为5的一维卷积层,在每一次卷积操作后进行批标准化步骤,并通过激活函数ReLU对输出进行激活,卷积神经网络输出的维数是512;接下来的三层是循环神经网络LSTM,在三层LSTM网络全部结束后选取最后一次输出的最后一列输出作为LSTM网络的最终输出,维数为768;最后一层神经网络是一个全连接层FullConnect,它重新将输出的维数限制在256位,最终得到预处理后的说话人身份编码;
该生成器是独立于语音转换模型单独进行训练的,使其根据输入的说话人身份编码向量输出一个靠近该值但又不完全一致的结果,对于生成器的输出,则为越靠近语音转换模型训练时使用的对应说话人的身份编码向量越好;
对说话人身份编码进行基于神经网络的预处理,使用说话人身份编码器提取语料中的说话人身份编码向量,将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中,生成器得到调整之后的说话人身份编码向量,将从生成器中得到的结果作为该说话人的最终身份编码向量,即作为该说话人的身份标签输入到解码器中,解码器生成转换后的音频特征序列。
本发明所述的方法主要是一个使用了神经网络的生成器,该生成器的作用是对未在训练集中的说话人的身份编码向量进行预处理,提升有效性。
对该生成器的描述如下:
1)在目前的零样本语音转换技术中,一般使用256维的向量来表示说话人的音色等个性化特征,可以看作是对应说话人的身份标签;
2)对于目前最流行的基于自编码器的零样本语音转换框架来说,特征分离是核心的处理方式,所谓特征分离是指通过编码器将语音信息中的说话人相关信息和说话人无关信息分离出来,提取出来的说话人相关信息一般是32维或者64维,本发明提出的方法是具有普遍应用价值的,在此仅以64维的情况为例进行说明,其他维数或者基于其他框架的零样本语音转换***同样适用;
3)该生成器的目的是对不在训练集中的说话人的身份编码向量进行预处理,输入的维度是256+64.输出的维度是256,最终实现处理身份编码向量,提升其可用性的目的;
4)该生成器由7层神经网络构成,前三层是卷积核大小为5的一维卷积层,在每一次卷积操作后进行批标准化步骤,并通过激活函数ReLU对输出进行激活,卷积神经网络输出的维数是512。接下来的三层是循环神经网络LSTM,在三层LSTM网络全部结束后选取最后一次输出的最后一列输出作为LSTM网络的最终输出,维数为768。最后一层神经网络是一个全连接层FullConnect,它重新将输出的维数限制在256位,最终得到预处理后的说话人身份编码;
5)该生成器是独立于语音转换模型单独进行训练的,训练该生成器的主要思路是使其根据输入的说话人身份编码向量输出一个靠近该值但又不完全一致的结果,对于生成器的输出,应该越靠近语音转换模型训练时使用的对应说话人的身份编码向量越好。
6)足够可用的说话人身份编码向量对零样本语音转换来说是相当重要的。说话人身份编码相关技术来源于说话人识别领域,但该技术在说话人识别领域和在语音转换领域的应用是不同的,两个领域对其有不同的要求。在说话人识别领域中,说话人身份编码向量主要用于判断两段语音是否同属于同一个说话人,或是用于判断一段语音所属说话人的身份,因此由说话人编码器得到的说话人身份编码向量是直接可用的,有适当的偏差也不影响最终的效果,足以满足实际需求。但在语音转换领域中,说话人身份编码向量是作为说话人的身份标签来使用的,因此最好每一个独特的说话人对应一个完全确定的精确的说话人身份编码向量,这样就可以获得效果更好的语音转换效果。
为了解决上面的问题,有以下几种思路:
第一,充分提升说话人身份编码器的性能,使其输出的说话人身份编码向量可以收敛于相对精确的点,这种方式是不现实的,因为目前的技术发展状况还无法实现这一要求,因此本方法在客观上是不可行的。
第二,每一个不在训练集中的说话人都有足够大量的音频语料数据作为参考。这种方法可以使用说话人编码其从大量语料中提取出大量的说话人身份编码向量,从而获得一个相对稳定的平均值,就可以逼近语音转换模型使用的最佳点,但对于零样本语音转换来说,源说话人或目标说话人往往都只有极少的音频语料数据可供使用和参考,否则零样本语音转换就失去了应用意义,因此这种方法是不符合现实需求的。
第三,将每一句语料数据都作为单独的不同的说话人来处理,在训练语音转换模型时,对于同一个说话人的不同话语,都用对应语句音频中提取出的说话人身份编码向量作为语音转换***的输入。但这种方式同样是完全不可行的,实验的结果充分显示,使用这种方式会使语音转换模型的训练结果无法达到收敛,最终整个模型训练的结果是崩溃的。
第四,对说话人身份编码进行基于神经网络的预处理,即本发明提出的方法。
7)在转换阶段使用该生成器的步骤如下:
首先,使用说话人身份编码器提取语料中的说话人身份编码向量;
第二,将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中;
第三,生成器得到调整之后的说话人身份编码向量;
第四,将从生成器中得到的结果作为该说话人的最终身份编码向量,即作为该说话人的身份标签输入到解码器中;
第五,解码器生成转换后的音频特征序列。
8)该生成器的最终训练目标如下:
Figure 572381DEST_PATH_IMAGE010
代表原始语音的音频特征,
Figure 479157DEST_PATH_IMAGE003
代表说话人身份编码器,
Figure 493250DEST_PATH_IMAGE004
代表得到的初始说话人身份编码向量。
Figure 434661DEST_PATH_IMAGE005
Figure 361160DEST_PATH_IMAGE006
代表本发明所述的生成器,
Figure 925871DEST_PATH_IMAGE011
代表经过调整之后的说话人身份编码向量,也就是生成器的对应输出结果。
Figure 619020DEST_PATH_IMAGE007
Figure 273993DEST_PATH_IMAGE008
代表生成器训练时的损失函数,通过使生成器的输出语音转换模型中使用的众多说话人身份编码向量的平均值
Figure 292764DEST_PATH_IMAGE009
的差距达到最小,对生成器进行训练。
在训练结束后,生成器对应地就拥有了将未在训练集中的说话人身份编码向量进行合理调整的能力,实验表明本发明所述方法可以有效地提升说话人身份编码向量的可用性,尤其是在进行零样本语音转换这一任务时,可以极大地提升说话人身份编码向量与语音转换模型的配合程度,最终提升转换语音的自然度和相似度。
本申请提供一种使用神经网络的零样本语音转换语料预处理***,所述***包括:所述***包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法步骤。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法步骤。
本申请提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面所有实施例中任一项所述的方法步骤。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书各个实施例之间相同相似的部分互相参见即可。尤其,对于实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (6)

1.一种使用神经网络的零样本语音转换语料预处理方法,其特征在于,所述方法包括:
使用了神经网络的生成器,对未在训练集中的说话人的身份编码向量进行预处理,使用256维的向量来表示说话人的音色等个性化特征,对应说话人的身份标签;
通过编码器将语音信息中的说话人相关信息和说话人无关信息分离出来,提取出来的说话人相关信息是32维或者64维;
该生成器由7层神经网络构成,前三层是卷积核大小为5的一维卷积层,在每一次卷积操作后进行批标准化步骤,并通过激活函数ReLU对输出进行激活,卷积神经网络输出的维数是512;接下来的三层是循环神经网络LSTM,在三层LSTM网络全部结束后选取最后一次输出的最后一列输出作为LSTM网络的最终输出,维数为768;最后一层神经网络是一个全连接层FullConnect,它重新将输出的维数限制在256位,最终得到预处理后的说话人身份编码;
该生成器是独立于语音转换模型单独进行训练的,使其根据输入的说话人身份编码向量输出一个靠近该值但又不完全一致的结果,对于生成器的输出,则为越靠近语音转换模型训练时使用的对应说话人的身份编码向量越好;
对说话人身份编码进行基于神经网络的预处理,使用说话人身份编码器提取语料中的说话人身份编码向量,将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中,生成器得到调整之后的说话人身份编码向量,将从生成器中得到的结果作为该说话人的最终身份编码向量,即作为该说话人的身份标签输入到解码器中,解码器生成转换后的音频特征序列。
2.根据权利要求1所述的方法,其特征在于:该生成器的最终训练目标如下:
Figure DEST_PATH_IMAGE001
代表原始语音的音频特征,代表说话人身份编码器,
Figure 327649DEST_PATH_IMAGE002
代表得到的初始说话人身份编码向量;
Figure 99295DEST_PATH_IMAGE003
Figure 128563DEST_PATH_IMAGE004
代表本发明所述的生成器,
Figure 11068DEST_PATH_IMAGE005
代表经过调整之后的说话人身份编码向量,也就是生成器的对应输出结果;
Figure 160289DEST_PATH_IMAGE006
Figure 102838DEST_PATH_IMAGE007
代表生成器训练时的损失函数,通过使生成器的输出与语音转换模型中使用的众多说话人身份编码向量的平均值
Figure 540772DEST_PATH_IMAGE008
的差距达到最小,对生成器进行训练。
3.根据权利要求1-2所述的方法,其特征在于:生成对抗网络是由一个生成器和一个判别器组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个模型。
4.一种使用神经网络的零样本语音转换语料预处理***,其特征在于,所述***包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的方法步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的方法步骤。
6.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-3任一项所述的方法步骤。
CN202011433778.3A 2020-12-10 2020-12-10 一种使用神经网络的零样本语音转换语料预处理方法 Expired - Fee Related CN112562686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011433778.3A CN112562686B (zh) 2020-12-10 2020-12-10 一种使用神经网络的零样本语音转换语料预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011433778.3A CN112562686B (zh) 2020-12-10 2020-12-10 一种使用神经网络的零样本语音转换语料预处理方法

Publications (2)

Publication Number Publication Date
CN112562686A true CN112562686A (zh) 2021-03-26
CN112562686B CN112562686B (zh) 2022-07-15

Family

ID=75060199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011433778.3A Expired - Fee Related CN112562686B (zh) 2020-12-10 2020-12-10 一种使用神经网络的零样本语音转换语料预处理方法

Country Status (1)

Country Link
CN (1) CN112562686B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157703A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置和计算机存储介质
WO2019047703A1 (zh) * 2017-09-06 2019-03-14 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
WO2019096149A1 (zh) * 2017-11-15 2019-05-23 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
WO2019196196A1 (zh) * 2018-04-12 2019-10-17 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN110537222A (zh) * 2017-04-21 2019-12-03 高通股份有限公司 在多源环境中的非谐波语音检测及带宽扩展
CN111144124A (zh) * 2018-11-02 2020-05-12 华为技术有限公司 机器学习模型的训练方法、意图识别方法及相关装置、设备
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157703A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置和计算机存储介质
CN110537222A (zh) * 2017-04-21 2019-12-03 高通股份有限公司 在多源环境中的非谐波语音检测及带宽扩展
WO2019047703A1 (zh) * 2017-09-06 2019-03-14 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
WO2019096149A1 (zh) * 2017-11-15 2019-05-23 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
WO2019196196A1 (zh) * 2018-04-12 2019-10-17 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN111144124A (zh) * 2018-11-02 2020-05-12 华为技术有限公司 机器学习模型的训练方法、意图识别方法及相关装置、设备
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
兰红: ""零样本图像识别"", 《电子与信息学报》 *
潘崇煜: "" 融合零样本学习和小样本学习的弱监督学习方法综述"", 《***工程与电子技术》 *

Also Published As

Publication number Publication date
CN112562686B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Kameoka et al. ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion
Li et al. Starganv2-vc: A diverse, unsupervised, non-parallel framework for natural-sounding voice conversion
Kameoka et al. Stargan-vc: Non-parallel many-to-many voice conversion using star generative adversarial networks
Tjandra et al. VQVAE unsupervised unit discovery and multi-scale code2spec inverter for zerospeech challenge 2019
Liu et al. Any-to-many voice conversion with location-relative sequence-to-sequence modeling
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
Park et al. Cotatron: Transcription-guided speech encoder for any-to-many voice conversion without parallel data
Kameoka et al. Many-to-many voice transformer network
Nguyen et al. Nvc-net: End-to-end adversarial voice conversion
Tüske et al. Advancing Sequence-to-Sequence Based Speech Recognition.
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
CN111862934A (zh) 语音合成模型的改进方法和语音合成方法及装置
Kameoka et al. Nonparallel voice conversion with augmented classifier star generative adversarial networks
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
Luong et al. Many-to-many voice conversion based feature disentanglement using variational autoencoder
CN114495904A (zh) 语音识别方法以及装置
Chandak et al. Streaming language identification using combination of acoustic representations and ASR hypotheses
CN117765959A (zh) 一种基于音高的语音转换模型训练方法及语音转换***
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
Zhao et al. Research on voice cloning with a few samples
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质
CN113628608A (zh) 语音生成方法、装置、电子设备及可读存储介质
Deng et al. History utterance embedding transformer lm for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220715

CF01 Termination of patent right due to non-payment of annual fee