CN112634918A - 一种基于声学后验概率的任意说话人语音转换***及方法 - Google Patents

一种基于声学后验概率的任意说话人语音转换***及方法 Download PDF

Info

Publication number
CN112634918A
CN112634918A CN202011057900.1A CN202011057900A CN112634918A CN 112634918 A CN112634918 A CN 112634918A CN 202011057900 A CN202011057900 A CN 202011057900A CN 112634918 A CN112634918 A CN 112634918A
Authority
CN
China
Prior art keywords
speaker
posterior probability
data set
acoustic
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011057900.1A
Other languages
English (en)
Other versions
CN112634918B (zh
Inventor
宋丹丹
欧阳鹏
尹首一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Qingwei Intelligent Technology Co ltd
Original Assignee
Jiangsu Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Qingwei Intelligent Technology Co ltd filed Critical Jiangsu Qingwei Intelligent Technology Co ltd
Priority to CN202011057900.1A priority Critical patent/CN112634918B/zh
Publication of CN112634918A publication Critical patent/CN112634918A/zh
Application granted granted Critical
Publication of CN112634918B publication Critical patent/CN112634918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种基于声学后验概率的任意说话人语音转换***及方法,属于基于深度学习的语音转换的技术技术领域。包括:一个语音识别模型、一个多说话人数据集、一个语音转换模型、一个目标说话人数据集和一个LPCNet声码器;预训练一个语音转换模型,自适应训练所述语音转换模型,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。本发明解决了现有技术中语音转换只能完成特定说话人之间且质量较低的问题。

Description

一种基于声学后验概率的任意说话人语音转换***及方法
技术领域
本发明属于基于深度学习的语音转换的技术领域,尤其涉及一种基于 声学后验概率的任意说话人语音转换***及方法。
背景技术
语音转换主要是基于平行数据实现的,平行数据即是两个不同说话人 录制的,但语句文本内容完全一致的数据集,在此基础上,通过高斯混合 模型以及动态规划算法等方式实现不同说话人之间声学特征的时间长度 对齐。实际生活中,这样大数量的平行数据获取难度很大,而且成本高昂, 不适用语音转换技术的推广应用。
现有的深度学***行数据完成语音转换模型的训练, 比如基于生成对抗网络的方法,然而由于实现原理的局限性,只能完成特 定说话人之间的语音转换。还有基于变分自动编码器的方法,这种方法由 于解码过程中解码器的过度平滑,转换的语音质量通常有比较明显的损 失。
发明内容
本发明的目的是提供一种基于声学后验概率的任意说话人语音转换 ***及方法,以解决现有技术中语音转换只能完成特定说话人之间且质量 较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于声学后验概率的任意说话人语音转换方法,包括:
S101,配置一个语音识别模型。
S102,配置一个多说话人数据集。多说话人数据集能够通过语音识别 模型提取多说话人数据集中每句话对应的声学后验概率。
S103,对多说话人数据集中每个说话人独热编码,并查表进行说话人 向量的标记得到一个查表编码。
S104,预训练一个语音转换模型,其配置为能够接收声学后验概率和 查表编码。语音转换模型能够根据接收到的声学后验概率和查表编码预训 练。
S105,配置一个目标说话人数据集。
S106,自适应训练语音转换模型,语音转换模型能够根据目标说话人 数据集少量数据自适应参数更新。通过损失函数数值监控更新过程,损失 函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。
S107,在预训练语音转换模型的训练集中随机选取一个和目标说话人 性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量 进行更新,使其向目标说话人进行迁移。
S108,通过任意原始说话人语句中提取声学后验概率,辅助自适应训 练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。
S109,通过LPCNet声码器完成声学特征到目标说话人对应转换语音 的合成。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,预设一个维度为说话人个数*预设向量维度的二维查找表 参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为说话人 向量。
语音转换***通过声学后验概率作为说话人无关的文本特征构建所 有说话人之间的共通点。
进一步地,语音转换模型的深度公路网结构层前后添加说话人编码 层,将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行 拼接,使得语音转换模型能够更好的区分不同的说话人。
进一步地,语音识别模型包括六层时延神经网络,时延神经网络是一 种多层神经网络,时延神经网络能够用于区分平移不变性。
进一步地,每层时延神经网络有1024个节点,输出层是带有353个 节点,激活函数为ReLU的softmax层。
进一步地,语音识别模型能够将每一帧输入匹配到353个中文单音 素三状态对应的概率。
帧级别的交叉熵函数作为目标函数以最小化预测的错误率。
进一步地,LPCNet声码器是数字信号处理和神经网络的结合产物。
LPCNet声码器能够将语音信号假设为线性部分和非线性部分。线性 部分由数字信号处理,非线性部分由神经网络拟合。
进一步地,LPCNet声码器的输入是20维特征,20维特征包括18维 的巴克尺度倒频谱系数和2维的音高参数。
进一步地,语音转换模型通过中文合成数据集训练。训练集包括20 位中文说话者,每个说话者包含200条语句。模型迭代优化了20个周期。
一种基于声学后验概率的任意说话人语音转换***,包括:
配置一个语音识别模型。
配置一个多说话人数据集。多说话人数据集能够通过语音识别模型提 取多说话人数据集中每句话对应的声学后验概率。
对多说话人数据集中每个说话人独热编码,并查表进行说话人向量的 标记得到一个查表编码。
预训练一个语音转换模型,其配置为能够接收声学后验概率和查表编 码。语音转换模型能够根据接收到的声学后验概率和查表编码预训练。
配置一个目标说话人数据集。
自适应训练语音转换模型,语音转换模型能够根据目标说话人数据集 少量数据自适应参数更新。通过损失函数数值监控更新过程,损失函数数 值监控到连续两个周期损失函数没有下降时停止自适应训练。
在预训练语音转换模型的训练集中随机选取一个和目标说话人性别 一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行 更新,使其向目标说话人进行迁移。
通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段 使用的目标说话人独热码实现目标说话人声学特征的转换。
通过LPCNet声码器完成声学特征到目标说话人对应转换语音的合 成。
本发明具有如下优点:
本发明中的基于声学后验概率的任意说话人语音转换***及方法,摆 脱了对平行数据的依赖,完成语音转换***的搭建成本较低,且语音转换 对象包括但不限于中文、英语等语种。
在语音转换过程中,除了完成到目标说话人音色的迁移,还能够较好 的保留原始语句中的情感。
***实现包括语音识别模型,语音转换模型以及声码器三个部分,这 三个部分可以独立训练,且这三个部分性能的提升能够提升***总体的性 能的提升,使得语音转换模型的特征种类更加多样化。本发明的基于声学 后验概率的任意说话人语音转换***能够摆脱实现原理局限性,能够完成 任意说话人之间的语音转换且可以完成高质量的语音转换。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中 所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动 的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音转换方法流程图。
图2为本发明的语音转换预训练阶段流程图。
图3为本发明的语音转换自适应训练阶段流程图。
图4为本发明语音转换的转换阶段流程图。
标号说明
多说话人数据集10,语音转换模型20,目标说话人数据集30,LPCNet 声码器30。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-4所示,本发明实施例提供了一种基于声学后验概率的任意说 话人语音转换方法,包括:一个语音识别模型、一个语音转换模型20和 一个LPCNet声码器30。
S101,配置一个语音识别模型。
本步骤中,配置一个语音识别模型。
S102,配置一个多说话人数据集。
本步骤中,配置一个多说话人数据集10(包含100人说话人,每人 200句话)。多说话人数据集10能够通过语音识别模型提取多说话人数据 集10中每句话对应的声学后验概率。将声学后验概率引入语音转换***, 作为说话人无关的文本特征构建所有说话人之间的共通点。
S103,对多说话人数据集中每个说话人独热编码并获取一个查表编 码。
本步骤中,对多说话人数据集10中每个说话人独热编码,并查表进 行说话人向量的标记得到一个查表编码。通过独热编码的方式,简单有效 的辅助模型对不同说话人进行区分,不需要额外的说话人编码提取器,简 化了***结构。预设一个维度为说话人个数*预设向量维度的二维查找表 参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为说话人 向量。
S104,预训练一个语音转换模型。
在语音转换模型20的深度公路网结构层的前后添加说话人编码层, 将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼 接,以帮助语音转换模型20更好的区分不同的说话人。
本步骤中,预训练一个语音转换模型20,其配置为能够接收声学后验 概率和查表编码。语音转换模型20能够根据接收到的声学后验概率和查 表编码预训练。
S105,配置一个目标说话人数据集。
本步骤中,配置一个目标说话人数据集30。
S106,自适应训练语音转换模型。
本步骤中,自适应训练语音转换模型20,语音转换模型20能够根据 目标说话人数据集30少量数据(30句话,约2分钟)自适应参数更新。 通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期(训 练集合的所有数据参与过一次训练过程为一个周期)损失函数没有下降时 停止自适应训练。
S107,在自适应训练阶段对独热码对应的说话人向量进行更新。
本步骤中,在预训练语音转换模型20的训练集中随机选取一个和目 标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说 话人向量进行更新,使其向目标说话人进行迁移。通过对预处理模型的自 适应训练,实现基于极小数据量到目标说话人的音色迁移。
在这个阶段,模型全部的参数都会根据反向传播算法的指导,向着更 好的拟合新的目标说话人数据的方向进行更新。其中,说话人编码层中仅 与目标说话人独热码对应的说话人向量进行更新,其他的保持不变。
S108,通过任意原始说话人语句中提取声学后验概率。
本步骤中,通过任意原始说话人语句中提取声学后验概率,辅助自适 应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。
S109,通过LPCNet声码器30完成声学特征到目标说话人对应转换语 音的合成。
本步骤中,通过LPCNet声码器30完成声学特征到目标说话人对应转 换语音的合成。
LPCNet声码器30具有训练时间短、合成语音速度快以及合成语音质 量较高的特点,提高整个语音转换的效率和转换语音的质量。LPCNet声码 器30所需的声码器特征为LPCNet特征。LPCNet声码器30是数字信号处 理和神经网络一个很好的结合产物
语音转换是指修改语句中原始说话人的音色,使其和目标说话人一 致,但同时保持语句中的语言信息。语音转换在许多领域扮演着至关重要 的角色,比如短时频中的音色转换器、影视剧中的配音,个性化的语音助 手、虚拟和增强现实等等。
预设一个维度为说话人个数*预设向量维度的二维查找表参数空间, 说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量。
语音转换***通过声学后验概率作为说话人无关的文本特征构建所 有说话人之间的共通点。
语音转换模型20的深度公路网结构层前后添加说话人编码层,将编 码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使 得语音转换模型20能够更好的区分不同的说话人。
语音识别模型包括六层时延神经网络,时延神经网络是一种多层神经 网络,时延神经网络能够用于区分平移不变性。
如图4所示,这是一个只有4层(包含输入层)的TDNN,将逐层介绍。 Input Layer为语谱图,黑块为大值,灰块为小值。输入层纵向为经过mel 滤波器的16个特征(没用MFCC),横向为帧。Input Layer的延时为2, 映射到Hidden Layer 1的关系为16*3->8,权值个数为384。Hidden Layer 1 的延时为4,映射到Hidden Layer 2的关系为8*5->3,权值个数为120。 Hidden Layer 2的延时为8,映射到输出层的关系为3*9->3,权值个数为 81。合计权值为384+120+81=585。
每层时延神经网络有1024个节点,输出层是带有353个节点,激活 函数为ReLU的softmax层。
语音识别模型能够将每一帧输入匹配到353个中文单音素三状态对 应的概率。
Figure BDA0002711372220000071
Figure BDA0002711372220000081
帧级别的交叉熵函数作为目标函数以最小化预测的错误率。
LPCNet声码器30是数字信号处理和神经网络的结合产物。
LPCNet声码器30能够将语音信号假设为线性部分和非线性部分。线 性部分由数字信号处理,非线性部分由神经网络拟合。
LPCNet声码器30的输入是20维特征,20维特征包括18维的巴克尺 度倒频谱系数和2维的音高参数(周期,相关系数)。
语音转换模型20通过中文合成数据集训练。训练集包括20位中文说 话者(其中10位男性,10位女性),每个说话者包含200条语句。模型迭 代优化了20个周期,最终的损失函数的结果为2.72。
一种基于声学后验概率的任意说话人语音转换***,包括:
配置一个语音识别模型。
配置一个多说话人数据集10。多说话人数据集10能够通过语音识别 模型提取多说话人数据集10中每句话对应的声学后验概率。
对多说话人数据集10中每个说话人独热编码,并查表进行说话人向 量的标记得到一个查表编码。
预训练一个语音转换模型20,其配置为能够接收声学后验概率和查表 编码。语音转换模型20能够根据接收到的声学后验概率和查表编码预训 练。
配置一个目标说话人数据集30。
自适应训练语音转换模型20,语音转换模型20能够根据目标说话人 数据集30少量数据自适应参数更新。通过损失函数数值监控更新过程, 损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。
在预训练语音转换模型20的训练集中随机选取一个和目标说话人性 别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进 行更新,使其向目标说话人进行迁移。
通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段 使用的目标说话人独热码实现目标说话人声学特征的转换。
通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合 成。
本发明中的基于声学后验概率的任意说话人语音转换***及方法,摆 脱了对平行数据的依赖,完成语音转换***的搭建成本较低,且语音转换 对象包括但不限于中文、英语等语种。
在语音转换过程中,除了完成到目标说话人音色的迁移,还能够较好 的保留原始语句中的情感。
***实现包括语音识别模型,语音转换模型20以及声码器三个部分, 这三个部分可以独立训练,且这三个部分性能的提升能够提升***总体的 性能的提升,使得语音转换模型20的特征种类更加多样化。本发明的基 于声学后验概率的任意说话人语音转换***能够摆脱实现原理局限性,能 够完成任意说话人之间的语音转换且可以完成高质量的语音转换。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对 其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修 改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不 使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于声学后验概率的任意说话人语音转换方法,其特征是,包括:
S101,配置一个语音识别模型;
S102,配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;
S103,对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;
S104,预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;
S105,配置一个目标说话人数据集;
S106,自适应训练所述语音转换模型,所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新;通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练;
S107,在所述预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移;
S108,通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换;
S109,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。
2.如权利要求1所述的基于声学后验概率的任意说话人语音转换方法,其特征是,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为所述说话人向量;
所述语音转换***通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点。
3.如权利要求2所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音转换模型的深度公路网结构层前后添加说话人编码层,将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人。
4.如权利要求3所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音识别模型包括六层时延神经网络,所述时延神经网络是一种多层神经网络,所述时延神经网络能够用于区分平移不变性。
5.如权利要求4所述的基于声学后验概率的任意说话人语音转换方法,其特征是,每层所述时延神经网络有1024个节点,输出层是带有353个节点,激活函数为ReLU的softmax层。
6.如权利要求5所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音识别模型能够将每一帧输入匹配到353个中文单音素三状态对应的概率;
帧级别的交叉熵函数作为目标函数以最小化预测的错误率。
7.如权利要求6所述的基于声学后验概率的任意说话人语音转换方法,其特征在是,所述LPCNet声码器是数字信号处理和神经网络的结合产物;
所述LPCNet声码器能够将语音信号假设为线性部分和非线性部分;所述线性部分由数字信号处理,所述非线性部分由神经网络拟合。
8.如权利要求7所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述LPCNet声码器的输入是20维特征,所述20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数。
9.如权利要求8所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音转换模型通过中文合成数据集训练;训练集包括20位中文说话者,每个说话者包含200条语句;模型迭代优化了20个周期。
10.一种基于声学后验概率的任意说话人语音转换***,其特征是,包括:
配置一个语音识别模型;
配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;
对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;
预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;
配置一个目标说话人数据集;
自适应训练所述语音转换模型,所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新;通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练;
在所述预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移;
通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换;
通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。
CN202011057900.1A 2020-09-29 2020-09-29 一种基于声学后验概率的任意说话人语音转换***及方法 Active CN112634918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011057900.1A CN112634918B (zh) 2020-09-29 2020-09-29 一种基于声学后验概率的任意说话人语音转换***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011057900.1A CN112634918B (zh) 2020-09-29 2020-09-29 一种基于声学后验概率的任意说话人语音转换***及方法

Publications (2)

Publication Number Publication Date
CN112634918A true CN112634918A (zh) 2021-04-09
CN112634918B CN112634918B (zh) 2024-04-16

Family

ID=75302770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011057900.1A Active CN112634918B (zh) 2020-09-29 2020-09-29 一种基于声学后验概率的任意说话人语音转换***及方法

Country Status (1)

Country Link
CN (1) CN112634918B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113314101A (zh) * 2021-04-30 2021-08-27 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113345451A (zh) * 2021-04-26 2021-09-03 北京搜狗科技发展有限公司 一种变声方法、装置及电子设备
CN113345452A (zh) * 2021-04-27 2021-09-03 北京搜狗科技发展有限公司 语音转换方法、语音转换模型的训练方法、装置和介质
CN115457969A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 基于人工智能的语音转换方法、装置、计算机设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230420A1 (en) * 2002-12-03 2004-11-18 Shubha Kadambe Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US20060129399A1 (en) * 2004-11-10 2006-06-15 Voxonic, Inc. Speech conversion system and method
US20150127350A1 (en) * 2013-11-01 2015-05-07 Google Inc. Method and System for Non-Parametric Voice Conversion
KR101666930B1 (ko) * 2015-04-29 2016-10-24 서울대학교산학협력단 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110223705A (zh) * 2019-06-12 2019-09-10 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成***
US20200159534A1 (en) * 2017-08-02 2020-05-21 Intel Corporation System and method enabling one-hot neural networks on a machine learning compute platform

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230420A1 (en) * 2002-12-03 2004-11-18 Shubha Kadambe Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US20060129399A1 (en) * 2004-11-10 2006-06-15 Voxonic, Inc. Speech conversion system and method
US20150127350A1 (en) * 2013-11-01 2015-05-07 Google Inc. Method and System for Non-Parametric Voice Conversion
KR101666930B1 (ko) * 2015-04-29 2016-10-24 서울대학교산학협력단 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치
US20200159534A1 (en) * 2017-08-02 2020-05-21 Intel Corporation System and method enabling one-hot neural networks on a machine learning compute platform
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110223705A (zh) * 2019-06-12 2019-09-10 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵薇;唐堂;: "基于平均音素模型的音色转换研究", 中国传媒大学学报(自然科学版), no. 01, 25 February 2020 (2020-02-25) *
齐耀辉;潘复平;葛凤培;颜永红;: "鉴别性最大后验概率线性回归说话人自适应研究", 北京理工大学学报, no. 09, 15 September 2015 (2015-09-15) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345451A (zh) * 2021-04-26 2021-09-03 北京搜狗科技发展有限公司 一种变声方法、装置及电子设备
CN113345451B (zh) * 2021-04-26 2023-08-22 北京搜狗科技发展有限公司 一种变声方法、装置及电子设备
CN113345452A (zh) * 2021-04-27 2021-09-03 北京搜狗科技发展有限公司 语音转换方法、语音转换模型的训练方法、装置和介质
CN113345452B (zh) * 2021-04-27 2024-04-26 北京搜狗科技发展有限公司 语音转换方法、语音转换模型的训练方法、装置和介质
CN113314101A (zh) * 2021-04-30 2021-08-27 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113314101B (zh) * 2021-04-30 2024-05-14 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN115457969A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 基于人工智能的语音转换方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN112634918B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN107545903B (zh) 一种基于深度学习的语音转换方法
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN112634918A (zh) 一种基于声学后验概率的任意说话人语音转换***及方法
CN112365882A (zh) 语音合成方法及模型训练方法、装置、设备及存储介质
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
KR102523797B1 (ko) 음성 합성 모델의 속성 등록 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN112530403B (zh) 基于半平行语料的语音转换方法和***
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
CN111833855A (zh) 基于DenseNet STARGAN的多对多说话人转换方法
CN112100350B (zh) 一种用于强化回复个性化表达的开放域对话方法
CN112837669A (zh) 语音合成方法、装置及服务器
CN114842825A (zh) 情感迁移语音合成方法及***
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成***及方法
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN112002302B (zh) 一种语音合成方法和装置
CN117765959A (zh) 一种基于音高的语音转换模型训练方法及语音转换***
CN117789771A (zh) 一种跨语言端到端情感语音合成方法及***
CN116227503A (zh) 一种基于ctc的非自回归端到端语音翻译方法
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
CN114446278A (zh) 语音合成方法及装置、设备以及存储介质
CN114360500A (zh) 语音识别方法和装置、电子设备及存储介质
CN113889130A (zh) 一种语音转换方法、装置、设备及介质
CN112951201A (zh) 一种营业厅环境下端到端的情感语音合成方法
CN118098216B (zh) 一种利用非平行语料提升语音识别***性能的方法
CN117935768A (zh) 由电子设备执行的方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Song Dandan

Inventor after: OuYang Peng

Inventor before: Song Dandan

Inventor before: OuYang Peng

Inventor before: Yin Shouyi

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant