CN112786009A - 语音合成方法、装置、设备及存储介质 - Google Patents

语音合成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112786009A
CN112786009A CN202110218672.XA CN202110218672A CN112786009A CN 112786009 A CN112786009 A CN 112786009A CN 202110218672 A CN202110218672 A CN 202110218672A CN 112786009 A CN112786009 A CN 112786009A
Authority
CN
China
Prior art keywords
style
text
vector information
audio
speaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110218672.XA
Other languages
English (en)
Inventor
孙奥兰
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110218672.XA priority Critical patent/CN112786009A/zh
Priority to PCT/CN2021/084167 priority patent/WO2022178941A1/zh
Publication of CN112786009A publication Critical patent/CN112786009A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种语音合成方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频,实现对合成的语音进行说话风格的控制,合成更多情绪表达的语音。

Description

语音合成方法、装置、设备及存储介质
技术领域
本申请涉及语音语义技术领域,尤其涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。
背景技术
在语音合成的过程中,不仅要考虑合成语音的清晰度和流畅度,还要考虑合成语音的韵律信息,使得合成的语音具有丰富的情绪表达。在合成语音时,不仅仅单纯考虑语句的平滑度,还要考虑改变说话者的情绪状态,利用模型来学习参考音频的风格信息,从而达到可以与人声相媲美的程度。而目前的韵律模型构建中,常用的方法是将所有的说话风格归为一种表达,不能对说话风格进行分离,所以无法对说话风格进行单独控制,合成语音的情绪表达十分单一。
发明内容
本申请的主要目的在于提供一种语音合成方法、装置、计算机设备及计算机可读存储介质,旨在解决现有无法对说话风格进行单独控制,合成语音的情绪表达十分单一的技术问题。
第一方面,本申请提供一种语音合成方法,所述语音合成方法包括以下步骤:
获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述预置语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;
基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;
基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;
通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;
通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
第二方面,本申请还提供一种语音合成装置,所述语音合成装置包括:
第一获取模块,用于获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;
第二获取模块,用于基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;
第三获取模块,用于基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;
生成模块,用于通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;
输出模块,用于通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语音合成方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语音合成方法的步骤。
本申请提供一种语音合成方法、装置、计算机设备及计算机可读存储介质,通过获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述预置语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频,实现对合成的语音进行说话风格的控制,合成更多情绪表达的语音。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音合成方法的流程示意图;
图2为图1中的语音合成方法的子步骤流程示意图;
图3为图1中的语音合成方法的子步骤流程示意图;
图4为本申请实施例提供的一种语音合成装置的示意性框图;
图5为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种语音合成方法、装置、计算机设备及计算机可读存储介质。其中,该语音合成方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种语音合成方法的流程示意图。
如图1所示,该语音合成方法包括步骤S101至步骤S105。
步骤S101、获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述预置语音合成模型包括多参考编码器、文本编码器、连接层和输出层。
示范性的,获取待处理文本和待合成说话风格音频,该待处理文本包括短句或短文本等,该待合成说话风格音频包括音色、情感和韵律。获取的方式包括通过预置存储路径获取预先存储的待处理文本和/或待合成说话风格音频,或者,从预置区块链中获取预先存储的待处理文本和/或待合成说话风格音频。在获取到待处理文本和待合成说话风格音频时,将该待处理文本和待合成说话风格音频输入到预置语音合成模型,该预置语音合成模型包括多参考编码器和文本编码器等。
步骤S102、基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息。
示范性的,通过该语音合成模型中的多参考编码器对该待合成说话风格音频进行编码,得到该待合成说话风格音频对应的风格嵌入向量信息。在一实施例中,该参考编码器由卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(RecurrentNeural Network,RNN)组成,且该卷积神经网络层由多层二维卷积层组成,该循环神经网络层由一个RNN组成,其中,该二维卷积层的核可选为3*3,步长可选为2*2,例如,如果该CNN层为6层二维卷积层,则可以为这六层的二维卷积层依次设置32、32、64、64、128和128的输出通道。
在一实施例中,具体地,参照图2,步骤S102包括:子步骤S1021至子步骤S1022。
子步骤S1021、根据多个所述参考编码器分别对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到参考嵌入隐向量信息。
示范性的,该语音合成模型中包括多个参考编码器,通过该语音合成模型中的各个参考编码器对该音色说话风格音频、情感说话风格音频和韵律说话风格进行编码,得到该待合成说话风格音频对应的目标参考嵌入向量。具体地,通过该参考编码器中的卷积神经网络对该音色说话风格音频、情感说话风格音频和韵律说话风格音频进行处理,得到对应的三维张量,即分别从该音色说话风格音频、情感说话风格音频和韵律说话风格音频中提取音频特征,并依次通过该卷积神经网络中的每个二维卷积层处理该音频特征,得到张量,并将该张量变换为三维张量,但保持输出的时间复杂度;然后通过该参考编码器中的循环神经网络层对该三维张量进行处理,得到该音色说话风格音频、情感说话风格音频和韵律说话风格音频对应的参考嵌入隐向量信息。
子步骤S1022、根据所述多头注意力机制计算所述参考嵌入隐向量信息,得到风格嵌入向量信息。
示范性的,在得到参考嵌入隐向量信息之后,通过多头注意力机制计算每个预置风格标记对应的预设向量与该参考嵌入隐向量信息之间的相似度。在确定每个预置风格标记对应的预设向量与参考嵌入隐向量信息之间的相似度之后,根据每个预置风格标记对应的预设向量与该参考嵌入隐向量信息之间的相似度,确定每个预置风格标记对音色说话风格音频、情感说话风格音频和韵律说话风格音频的风格权重,即累加每个预置风格标记对应的预设向量与该参考嵌入隐向量信息之间的相似度,得到总相似度,并计算每个预置风格标记对应的预设向量与该参考嵌入隐向量信息之间的相似度占该总相似度的比率,然后将每个风格标记对应的预设向量与该参考嵌入隐向量信息之间的相似度占该总相似度的比率确定为每个风格标记对音色说话风格音频、情感说话风格音频和韵律说话风格音频的风格权重。
例如,预置风格标记的数量为5,且每个预置风格标记对应的预设向量与该参考嵌入隐向量信息之间的相似度分别为0.6、0.3、0.4、0.4和0.3,则总相似度为2,每个预置风格标记的该相似度与总相似度之比分别为0.3、0.15、0.2、0.2和0.15,则每个预置风格标记对音色说话风格音频、情感说话风格音频和韵律说话风格音频的风格权重分别为0.3、0.15、0.2、0.2和0.15。
在确定每个预置风格标记对该音色说话风格音频、情感说话风格音频和韵律说话风格音频的风格权重之后,用每个风格标记对该待合成说话风格音频的风格权重乘以该参考嵌入隐向量信息,得到每个预置风格标记的风格嵌入向量,然后累加每个风格标记的风格嵌入向量,得到该待合成说话风格音频对应的目标风格嵌入向量。
步骤S103、基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息。
示范性的,通过该文本编码器对该待处理文本进行编码,得到对应的文本编码向量信息,例如,该文本编码器包括权重矩阵,通过该权重矩阵对该待处理文本进行映射,得到对应的文本编码向量信息。
在一实施例中,具体地,参照图3,步骤S103包括:子步骤S1031至子步骤S1032。
子步骤S1031、通过所述文本编码器将所述待处理文本拆分为各个字词,并获取各个字词之间的顺序关系;
示范性的,示范性的,该编码器在检测到该待处理文本时,将该待处理文本拆分为各个字词,并获取各个字词之间的顺序关系。例如,待处理文本为“我爱中国”,将该“我爱中国”拆分为“我”、“爱”、“中”、“国”。并获取该“我”、“爱”、“中”、“国”之间的顺序为“我”→“爱”→“中”→“国”。
子步骤S1032、对各个字词以及各个所述字词之间的顺序关系进行映射转换,生成所述待合成文本的文本编码向量信息。
示范性的,在获取到待处理文本的各个字词和各个字词之间的顺序关系时,对各个字词以及该各个字词的顺序关系进行映射,得到各个字词的字词向量信息以及各个字词之间的顺序向量信息即边向量信息,将得到的字词向量信息和边向量信息进行组合,得到对应的文本编码向量信息,其中,边向量信息中的权重为0。
步骤S104、通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图。
示范性的,通过将该风格嵌入向量信息和文本编码向量信息进行拼接,得到梅尔语谱图。例如,分别获取风格嵌入向量信息和文本编码向量信息的维度信息,在同一维度上将风格嵌入向量信息和文本编码向量信息,进行拼接,生成梅尔语谱图。
在一实施例中,通过连接层广播获取所述风格嵌入向量信息,并将获取到的风格嵌入向量信息与所述文本编码向量信息进行连接,得到拼接向量信息;通过预置解码器对的拼接向量信息进行解码,生成梅尔语谱图。
示范性的,通过连接层广播来获取风格嵌入向量信息,并将获取到的鞥个嵌入向量信息与文本编码向量信息进行连接,得到拼接向量信息。示范例的,连接层向各个多参考编码器发送广播,在各个多参考编码器在对待合成说话风格音频进行编码得到风格嵌入向量信息时,各个多参考编码器将得到的风格嵌入向量信息发送至全连接层的连接层。连接层在获取到风格嵌入向量信息时,分别获取风格嵌入向量信息的维度信息和文本编码向量信息的维度信息,通过获取到的风格嵌入向量信息的维度信息和文本编码向量信息的维度信息进行拼接,该拼接包括维度拼接。例如,获取风格嵌入向量信息的维度信息和文本编码向量信息的维度信息,确定该风格嵌入向量信息的维度坐标以及文本编码向量的维度坐标,在同一维度坐标处将风格嵌入向量信息和文本编码向量信息进行拼接,得到对应的拼接向量信息。
在得到拼接向量信息时,将得到的拼接向量信息输入到预置解码器,通过预置编码器对该拼接向量信息进行解码,生成对应的梅尔语谱图。例如,解码器将传拼接向量信息通过自身解码,转成语谱信号信息,通过将语谱信号信息生成梅尔语谱图。
步骤S105、通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
示范性的,在获取到梅尔语谱信息,通过输出层输出该梅尔语谱信息的语音合成信息。例如,该输出层包括声码器,该声码器获取该梅尔语谱信息中的语音频域特征信息,通过对该语音频域特征信息进行合成,生成语音合成信息。
具体的,通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频,包括:通过所述输出层提取所述梅尔频谱信息中的语音频域特征,并对所述语音频域特征进行映射,输出所述待处理文本的目标音频。
示范性的,在获取到梅尔语谱信息时,通过该输出层提取该梅尔频谱信息中的语音频域特征,在提取到该梅尔频谱信息中的语音频域特征,对该语音频域特征进行映射,获取输出层输出语音合成信息。例如,该输出层包括提取层和映射层,通过该提取层提取该该梅尔频谱信息中的语音频域特征,通过该映射层中的激活函数对该语音频域特征进行激活映射,得到语音合成信息。
在本发明实施例中,通过将获取到的待处理文本和待合成说话风格音频输入预置语音合成模型进行编码,得到风格嵌入向量信息和文本编码向量信息;通过全连接层对风格嵌入向量信息和文本编码向量信息进行拼接,生成梅尔语谱图;通过输出层对梅尔语谱图进行特征提取,并输出待处理文本的目标音频,实现对合成的语音进行说话风格的控制,合成更多情绪表达的语音。
请参照图4,图4为本申请实施例提供的一种语音合成装置的示意性框图。
如图4所示,该语音合成装置400,包括:第一获取模块401、第二获取模块402、第三获取模块403、生成模块404、输出模块405。
第一获取模块401,用用于获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;
第二获取模块402,用于基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;
第三获取模块403,用于基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;
生成模块404,用于通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;
输出模块405,用于通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
其中,第二获取模块402具体还用于:
根据多个所述参考编码器分别对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到参考嵌入隐向量信息;
根据所述多头注意力机制计算所述参考嵌入隐向量信息,得到风格嵌入向量信息。
其中,第二获取模块402具体还用于:
通过多个所述参考编码器中的卷积神经网络对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到所述待合成说话风格音频的三维张量;
通过所述参考编码器中的循环神经网络对所述三维张量进行处理,得到所述待合成说话风格音频的参考嵌入隐向量信息。
其中,第二获取模块402具体还用于:
获取所述多头注意力机制中各个预置风格标记对所述所述音色说话风格音频、所述情感说话风格音频和所述韵律说话风格音频的风格权重;
通过各个所述预置风格标记对所述所述音色说话风格音频、所述情感说话风格音频和所述韵律说话风格音频的风格权重乘以所述参考嵌入隐向量信息,得到各个所述预置风格标记的风格嵌入向量;
累加各个所述预置风格标记的风格嵌入向量,得到所述待合成说话风格音频的风格嵌入向量信息。
其中,第三获取模块403具体还用于:
通过所述文本编码器将所述待处理文本拆分为各个字词,并获取各个字词之间的顺序关系;
对各个字词以及各个所述字词之间的顺序关系进行映射转换,生成所述待合成文本的文本编码向量信息。
其中,生成模块404具体还用于:
通过所述连接层广播获取所述风格嵌入向量信息,并将获取到的风格嵌入向量信息与所述文本编码向量信息进行连接,得到拼接向量信息;
通过所述预置解码器对的拼接向量信息进行解码,生成梅尔语谱图。
其中,输出模块还用于:
通过所述输出层提取所述梅尔频谱信息中的语音频域特征,并对所述语音频域特征进行映射,输出所述待处理文本的目标音频。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述语音合成方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图5所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音合成方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音合成方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述预置语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;
基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;
基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;
通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;
通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
在一个实施例中,所述处理器所述多参考编码器包括多个参考编码器和多头注意力机制;所述待合成说话风格音频包括音色说话风格音频、情感说话风格音频和韵律说话风格音频;所述基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息法实现时,用于实现:
根据多个所述参考编码器分别对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到参考嵌入隐向量信息;
根据所述多头注意力机制计算所述参考嵌入隐向量信息,得到风格嵌入向量信息。
在一个实施例中,所述处理器所述根据多个所述参考编码器对所述所述待合成说话风格音频进行编码,得到参考嵌入隐向量信息实现时,用于实现:
通过多个所述参考编码器中的卷积神经网络对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到所述待合成说话风格音频的三维张量;
通过所述参考编码器中的循环神经网络对所述三维张量进行处理,得到所述待合成说话风格音频的参考嵌入隐向量信息。
在一个实施例中,所述处理器所述根据所述多头注意力机制计算所述参考嵌入隐向量信息,得到风格嵌入向量信息实现时,用于实现:
获取所述多头注意力机制中各个预置风格标记对所述所述音色说话风格音频、所述情感说话风格音频和所述韵律说话风格音频的风格权重;
通过各个所述预置风格标记对所述所述音色说话风格音频、所述情感说话风格音频和所述韵律说话风格音频的风格权重乘以所述参考嵌入隐向量信息,得到各个所述预置风格标记的风格嵌入向量;
累加各个所述预置风格标记的风格嵌入向量,得到所述待合成说话风格音频的风格嵌入向量信息。
在一个实施例中,所述处理器所述基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息实现时,用于实现:
通过所述文本编码器将所述待处理文本拆分为各个字词,并获取各个字词之间的顺序关系;
对各个字词以及各个所述字词之间的顺序关系进行映射转换,生成所述待合成文本的文本编码向量信息。
在一个实施例中,所述处理器所述全连接层包括连接层和预置解码器;通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图实现时,用于实现:
通过所述连接层广播获取所述风格嵌入向量信息,并将获取到的风格嵌入向量信息与所述文本编码向量信息进行连接,得到拼接向量信息;
通过所述预置解码器对拼接向量信息进行解码,生成梅尔语谱图。
在一个实施例中,所述处理器所述通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本目标音频实现时,用于实现:
通过所述输出层提取所述梅尔频谱信息中的语音频域特征,并对所述语音频域特征进行映射,输出所述待处理文本目标音频。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请语音合成方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是预置语音合成模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音合成方法,其特征在于,包括:
获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述预置语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;
基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;
基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;
通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;
通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
2.如权利要求1所述的语音合成方法,其特征在于,所述多参考编码器包括多个参考编码器和多头注意力机制;所述待合成说话风格音频包括音色说话风格音频、情感说话风格音频和韵律说话风格音频;
所述基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息,包括:
根据多个所述参考编码器分别对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到参考嵌入隐向量信息;
根据所述多头注意力机制计算所述参考嵌入隐向量信息,得到风格嵌入向量信息。
3.如权利要求2所述的语音合成方法,其特征在于,所述根据多个所述参考编码器对所述所述待合成说话风格音频进行编码,得到参考嵌入隐向量信息,包括:
通过多个所述参考编码器中的卷积神经网络对所述音色说话风格音频、情感说话风格音频和韵律说话风格音频进行编码,得到所述待合成说话风格音频的三维张量;
通过所述参考编码器中的循环神经网络对所述三维张量进行处理,得到所述待合成说话风格音频的参考嵌入隐向量信息。
4.如权利要求2所述的语音合成方法,其特征在于,所述根据所述多头注意力机制计算所述参考嵌入隐向量信息,得到风格嵌入向量信息,包括:
获取所述多头注意力机制中各个预置风格标记对所述所述音色说话风格音频、所述情感说话风格音频和所述韵律说话风格音频的风格权重;
通过各个所述预置风格标记对所述所述音色说话风格音频、所述情感说话风格音频和所述韵律说话风格音频的风格权重乘以所述参考嵌入隐向量信息,得到各个所述预置风格标记的风格嵌入向量;
累加各个所述预置风格标记的风格嵌入向量,得到所述待合成说话风格音频的风格嵌入向量信息。
5.如权利要求1所述的语音合成方法,其特征在于,所述基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息,包括:
通过所述文本编码器将所述待处理文本拆分为各个字词,并获取各个字词之间的顺序关系;
对各个字词以及各个所述字词之间的顺序关系进行映射转换,生成所述待合成文本的文本编码向量信息。
6.如权利要求1所述的语音合成方法,其特征在于,所述全连接层包括连接层和预置解码器;通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图,包括:
通过所述连接层广播获取所述风格嵌入向量信息,并将获取到的风格嵌入向量信息与所述文本编码向量信息进行连接,得到拼接向量信息;
通过所述预置解码器对所述拼接向量信息进行解码,生成梅尔语谱图。
7.如权利要求1所述的语音合成方法,其特征在于,所述通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频,包括:
通过所述输出层提取所述梅尔频谱信息中的语音频域特征,并对所述语音频域特征进行映射,输出所述待处理文本的目标音频。
8.一种语音合成装置,其特征在于,包括:
第一获取模块,用于获取待处理文本和待合成说话风格音频,并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型,其中,所述语音合成模型包括多参考编码器、文本编码器、全连接层和输出层;
第二获取模块,用于基于所述多参考编码器对所述待合成说话风格音频进行编码,得到风格嵌入向量信息;
第三获取模块,用于基于所述文本编码器对所述待处理文本进行编码,得到文本编码向量信息;
生成模块,用于通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接,生成梅尔语谱图;
输出模块,用于通过所述输出层对所述梅尔语谱图进行特征提取,并输出所述待处理文本的目标音频。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。
CN202110218672.XA 2021-02-26 2021-02-26 语音合成方法、装置、设备及存储介质 Pending CN112786009A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110218672.XA CN112786009A (zh) 2021-02-26 2021-02-26 语音合成方法、装置、设备及存储介质
PCT/CN2021/084167 WO2022178941A1 (zh) 2021-02-26 2021-03-30 语音合成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110218672.XA CN112786009A (zh) 2021-02-26 2021-02-26 语音合成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112786009A true CN112786009A (zh) 2021-05-11

Family

ID=75761958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110218672.XA Pending CN112786009A (zh) 2021-02-26 2021-02-26 语音合成方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112786009A (zh)
WO (1) WO2022178941A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345416A (zh) * 2021-08-02 2021-09-03 智者四海(北京)技术有限公司 语音合成方法、装置及电子设备
CN113345466A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113345412A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN113409765A (zh) * 2021-06-11 2021-09-17 北京搜狗科技发展有限公司 一种语音合成方法、装置和用于语音合成的装置
CN113506562A (zh) * 2021-07-19 2021-10-15 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及***
CN113592985A (zh) * 2021-08-06 2021-11-02 宿迁硅基智能科技有限公司 混合变形值的输出方法及装置、存储介质、电子装置
CN113707125A (zh) * 2021-08-30 2021-11-26 中国科学院声学研究所 一种多语言语音合成模型的训练方法及装置
CN113744716A (zh) * 2021-10-19 2021-12-03 北京房江湖科技有限公司 用于合成语音的方法和装置
CN113744713A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 一种语音合成方法及语音合成模型的训练方法
CN114255737A (zh) * 2022-02-28 2022-03-29 北京世纪好未来教育科技有限公司 语音生成方法、装置、电子设备
CN114299915A (zh) * 2021-11-09 2022-04-08 腾讯科技(深圳)有限公司 语音合成方法及相关设备
CN114822495A (zh) * 2022-06-29 2022-07-29 杭州同花顺数据开发有限公司 声学模型训练方法、装置及语音合成方法
WO2022252904A1 (zh) * 2021-06-03 2022-12-08 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470507B (zh) * 2022-10-31 2023-02-07 青岛他坦科技服务有限公司 一种中小企业研发项目数据管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103856A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 语音合成方法及***
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及***
WO2020209647A1 (ko) * 2019-04-09 2020-10-15 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN112270920A (zh) * 2020-10-28 2021-01-26 北京百度网讯科技有限公司 一种语音合成方法、装置、电子设备和可读存储介质
CN112349269A (zh) * 2020-12-11 2021-02-09 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112382272A (zh) * 2020-12-11 2021-02-19 平安科技(深圳)有限公司 可控制语音速度的语音合成方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200015418A (ko) * 2018-08-02 2020-02-12 네오사피엔스 주식회사 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN110473516B (zh) * 2019-09-19 2020-11-27 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备
CN112164379A (zh) * 2020-10-16 2021-01-01 腾讯科技(深圳)有限公司 音频文件生成方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103856A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 语音合成方法及***
WO2020209647A1 (ko) * 2019-04-09 2020-10-15 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110718208A (zh) * 2019-10-15 2020-01-21 四川长虹电器股份有限公司 基于多任务声学模型的语音合成方法及***
CN112270920A (zh) * 2020-10-28 2021-01-26 北京百度网讯科技有限公司 一种语音合成方法、装置、电子设备和可读存储介质
CN112349269A (zh) * 2020-12-11 2021-02-09 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112382272A (zh) * 2020-12-11 2021-02-19 平安科技(深圳)有限公司 可控制语音速度的语音合成方法、装置、设备及存储介质

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345412A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN113345466A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113345466B (zh) * 2021-06-01 2024-03-01 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
WO2022252904A1 (zh) * 2021-06-03 2022-12-08 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN113409765B (zh) * 2021-06-11 2024-04-26 北京搜狗科技发展有限公司 一种语音合成方法、装置和用于语音合成的装置
CN113409765A (zh) * 2021-06-11 2021-09-17 北京搜狗科技发展有限公司 一种语音合成方法、装置和用于语音合成的装置
CN113506562A (zh) * 2021-07-19 2021-10-15 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及***
CN113506562B (zh) * 2021-07-19 2022-07-19 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及***
CN113345416A (zh) * 2021-08-02 2021-09-03 智者四海(北京)技术有限公司 语音合成方法、装置及电子设备
CN113345416B (zh) * 2021-08-02 2021-10-29 智者四海(北京)技术有限公司 语音合成方法、装置及电子设备
CN113592985A (zh) * 2021-08-06 2021-11-02 宿迁硅基智能科技有限公司 混合变形值的输出方法及装置、存储介质、电子装置
CN113592985B (zh) * 2021-08-06 2022-06-17 宿迁硅基智能科技有限公司 混合变形值的输出方法及装置、存储介质、电子装置
US11847726B2 (en) 2021-08-06 2023-12-19 Nanjing Silicon Intelligence Technology Co., Ltd. Method for outputting blend shape value, storage medium, and electronic device
CN113744713A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 一种语音合成方法及语音合成模型的训练方法
CN113707125A (zh) * 2021-08-30 2021-11-26 中国科学院声学研究所 一种多语言语音合成模型的训练方法及装置
CN113707125B (zh) * 2021-08-30 2024-02-27 中国科学院声学研究所 一种多语言语音合成模型的训练方法及装置
CN113744716A (zh) * 2021-10-19 2021-12-03 北京房江湖科技有限公司 用于合成语音的方法和装置
CN113744716B (zh) * 2021-10-19 2023-08-29 北京房江湖科技有限公司 用于合成语音的方法和装置
CN114299915A (zh) * 2021-11-09 2022-04-08 腾讯科技(深圳)有限公司 语音合成方法及相关设备
CN114255737A (zh) * 2022-02-28 2022-03-29 北京世纪好未来教育科技有限公司 语音生成方法、装置、电子设备
CN114255737B (zh) * 2022-02-28 2022-05-17 北京世纪好未来教育科技有限公司 语音生成方法、装置、电子设备
CN114822495A (zh) * 2022-06-29 2022-07-29 杭州同花顺数据开发有限公司 声学模型训练方法、装置及语音合成方法

Also Published As

Publication number Publication date
WO2022178941A1 (zh) 2022-09-01

Similar Documents

Publication Publication Date Title
CN112786009A (zh) 语音合成方法、装置、设备及存储介质
CN110288973B (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN112349269A (zh) 语音合成方法、装置、设备及存储介质
CN110570876B (zh) 歌声合成方法、装置、计算机设备和存储介质
CN113450765B (zh) 语音合成方法、装置、设备及存储介质
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN112863489B (zh) 语音识别方法、装置、设备及介质
CN111696521A (zh) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN113096634A (zh) 语音合成方法、装置、服务器及存储介质
CN116959465A (zh) 语音转换模型训练方法、语音转换方法、装置及介质
KR20230075340A (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN113178200B (zh) 语音转换方法、装置、服务器及存储介质
CN116386594A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN113450758B (zh) 语音合成方法、装置、设备及介质
CN111444379A (zh) 音频的特征向量生成方法及音频片段表示模型的训练方法
CN112735377B (zh) 语音合成方法、装置、终端设备及存储介质
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
CN116469374A (zh) 基于情感空间的语音合成方法、装置、设备及存储介质
CN113421554B (zh) 语音关键词检测模型处理方法、装置及计算机设备
CN113555003B (zh) 语音合成方法、装置、电子设备及存储介质
CN113889130A (zh) 一种语音转换方法、装置、设备及介质
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
CN114691716A (zh) Sql语句转换方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045873

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination