CN108766413B - 语音合成方法及*** - Google Patents

语音合成方法及*** Download PDF

Info

Publication number
CN108766413B
CN108766413B CN201810517280.1A CN201810517280A CN108766413B CN 108766413 B CN108766413 B CN 108766413B CN 201810517280 A CN201810517280 A CN 201810517280A CN 108766413 B CN108766413 B CN 108766413B
Authority
CN
China
Prior art keywords
fundamental frequency
frequency information
voice
recorded voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810517280.1A
Other languages
English (en)
Other versions
CN108766413A (zh
Inventor
孙见青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201810517280.1A priority Critical patent/CN108766413B/zh
Publication of CN108766413A publication Critical patent/CN108766413A/zh
Application granted granted Critical
Publication of CN108766413B publication Critical patent/CN108766413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音合成方法及***,通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;具有降低语音录制成本的有益效果,进一步提高了合成语音的自然度。

Description

语音合成方法及***
技术领域
本发明涉及数据处理技术领域,特别涉及一种语音合成方法及***。
背景技术
现有的语音合成自然度不是很理想,为了得到较高的合成自然度,有一些场景使用自然语音与合成语音相结合的方法,进行语音合成,对于出现频次较高的文本,预先录制好语音,对于其它文本,使用合成语音。由于出现频次较高的文本会经常发现变化,因此通常需要找发音人重新录制,耗费大量的人力物力和财力,代价比较大;且利用这种技术合成的语音,语音一致性也不理想。
发明内容
本发明提供一种语音合成方法及***,旨在无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音进行语音合成即可,降低语音录制成本,进一步提高合成语音的自然度。
本发明提供了一种语音合成方法,所述语音合成方法包括:
根据特定文本,获取发音人对应录制的录制语音;
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
优选地,所述对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息,包括:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
优选地,所述语音合成方法还包括:
利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值
Figure BDA0001673791050000021
和标准差s0
优选地,所述利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息,包括:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值
Figure BDA0001673791050000022
和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02
Figure BDA0001673791050000023
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03
f03=α*f02+(1-α)*f00
其中,α为加权系数。
优选地,所述预设参数合成模型包括LSTM参数合成模型。
对应于以上实施例所提供的一种语音合成方法,本发明还提供了一种语音合成***,所述语音合成***包括:
语音获取模块,用于根据特定文本,获取发音人对应录制的录制语音;
语音合成模块,用于:
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
优选地,所述语音合成模块用于:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
优选地,所述语音合成***还包括:
模型训练模块,用于利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值
Figure BDA0001673791050000031
和标准差s0
优选地,所述语音合成模块用于:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值
Figure BDA0001673791050000032
和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02
Figure BDA0001673791050000033
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03
f03=α*f02+(1-α)*f00
其中,α为加权系数。
优选地,所述预设参数合成模型包括LSTM参数合成模型。
本发明一种语音合成方法及***可以达到如下有益效果:
通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音并进行语音合成即可,具有降低语音录制成本的有益效果,也进一步提高了合成语音的自然度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明语音合成方法的一种实施方式的流程示意图;
图2是本发明语音合成方法的另一种实施方式的流程示意图;
图3是本发明语音合成***的一种实施方式的功能模块示意图;
图4是本发明语音合成***的一种实施方式的功能模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种语音合成方法及***,不需要请特定的发音人进行高频文本的补充录制,方便快捷,且得到的语音比直接采用对应的参数合成模型(例如LSTM参数合成模型)合成的语音的自然度明显高,因此提高了合成语音的自然度。如图1所示,图1是本发明语音合成方法的一种实施方式的流程示意图;本发明一种语音合成方法可以实施为如下描述的步骤S10-S50:
步骤S10、根据特定文本,获取发音人对应录制的录制语音;
本发明实施例中,在实际操作中,可以请发音标准的发音人,根据特定文本,来录制对应的语音,语音合成***根据上述特定文本,获取发音人对应录制的录制语音。上述“发音标准的发音人”可以是满足条件的任何自然人,比如,只要发音标准的人,均可以录制对应的语音。
步骤S20、从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
语音合成***从获取的上述录制语音中提取出对应的基频信息f01,对所述录制语音进行分析处理;比如,语音合成***对上述录制语音进行自动切分,得到对应的音素边界,进而根据得到的上述音素边界,获取所述录制语音对应的音素时长信息。
步骤S30、根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
语音合成***根据步骤S10中使用的特定文本和上述步骤S20中得到的因素时长信息,采用预设参数合成模型,生成基频信息f00和频谱信息cep0。其中,语音合成***采用的预设参数合成模型包括但不限于:LSTM(Long-Short Term Memory,长短期记忆模型)参数合成模型。
步骤S40、利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
步骤S50、利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
语音合成***根据录制语音对应的基频信息f01和上述预设参数合成模型(比如LSTM参数合成模型)生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;进而,利用得到的最终基频信息和上述频谱信息cep0,通过声码器重构得到对应的合成语音。
进一步地,在本发明一优选的实施例中,如图2所示,图2是本发明语音合成方法的另一种实施方式的流程示意图;本发明语音合成方法还包括步骤S60:
步骤S60、利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值
Figure BDA0001673791050000061
和标准差s0
本发明实施例中的预设参数合成模型,与图1所述实施例中描述的预设参数合成模型完全一致。语音合成***利用发音人对应的语音数据库,训练上述预设参数合成模型(比如LSTM参数合成模型),并统计上述语音数据库对应的基频信息的均值
Figure BDA0001673791050000062
和标准差s0
根据得到的上述语音数据库对应的基频信息的均值
Figure BDA0001673791050000063
和标准差s0,语音合成***利用所述录制语音的基频信息f01,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息。比如,语音合成***按照如下方式得到对应的最终基频信息:
语音合成***根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值
Figure BDA0001673791050000064
和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02
Figure BDA0001673791050000065
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03
f03=α*f02+(1-α)*f00
其中,α为加权系数。
进而,语音合成***利用得到的最终基频信息f03和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
其中,本发明实施例中的上述步骤S60可以在图1所述实施例中的步骤S40之前的任一步骤实施,图2所述实施例仅以步骤S60在图1的步骤S10之前实施为例,进行描述。
本发明语音合成方法通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音进行语音合成即可,具有降低语音录制成本的有益效果,也进一步提高了合成语音的自然度。
基于图1和图2所述实施例的描述,本发明还提供了一种语音合成***;所述语音合成***能够实施图1和图2所描述的语音合成方法,从而提高合成语音的自然度。
如图3所示,图3是本发明语音合成***的一种实施方式的功能模块示意图;本发明语音合成***包括:语音获取模块100和语音合成模块200;其中:
所述语音获取模块100,用于根据特定文本,获取发音人对应录制的录制语音;
所述语音合成模块200,用于:
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
在本发明一优选的实施例中,所述语音合成模块200用于:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
在本发明一优选的实施例中,如图4所示,图4是本发明语音合成***的一种实施方式的功能模块示意图,其中,所述语音合成***还包括:
模型训练模块300,用于利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值
Figure BDA0001673791050000081
和标准差s0
在本发明一优选的实施例中,所述语音合成模块200用于:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值
Figure BDA0001673791050000082
和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02
Figure BDA0001673791050000083
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03
f03=α*f02+(1-α)*f00
其中,α为加权系数。
在本发明一优选的实施例中,所述预设参数合成模型包括LSTM参数合成模型。
本发明语音合成***通过根据特定文本,获取发音人对应录制的录制语音;从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;无需找原有发音人录制语音,直接使用其他发音标准的发音人录制语音进行语音合成即可,具有降低语音录制成本的有益效果,也进一步提高了合成语音的自然度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种语音合成方法,其特征在于,所述语音合成方法包括:
根据特定文本,获取发音人对应录制的录制语音;
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音;
所述对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息,包括:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的音素边界,获取所述录制语音对应的音素时长信息。
2.如权利要求1所述的语音合成方法,其特征在于,所述语音合成方法还包括:
利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值
Figure FDA0002458525720000011
和标准差s0
3.如权利要求2所述的语音合成方法,其特征在于,所述利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息,包括:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值
Figure FDA0002458525720000012
和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02
Figure FDA0002458525720000021
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03
f03=α*f02+(1-α)*f00
其中,α为加权系数。
4.如权利要求1或2所述的语音合成方法,其特征在于,所述预设参数合成模型包括LSTM参数合成模型。
5.一种语音合成***,其特征在于,所述语音合成***包括:
语音获取模块,用于根据特定文本,获取发音人对应录制的录制语音;
语音合成模块,用于:
从所述录制语音中提取出基频信息f01,并对所述录制语音进行分析处理,获取所述录制语音对应的音素时长信息;
根据所述特定文本以及得到的所述音素时长信息,利用预设参数合成模型,生成基频信息f00和频谱信息cep0;
利用所述录制语音的基频信息f01和所述预设参数合成模型生成的基频信息f00,对所述录制语音的基频信息f01进行调域调整,得到最终基频信息;
利用得到的最终基频信息和所述频谱信息cep0,通过声码器重构得到对应的合成语音。
6.如权利要求5所述的语音合成***,其特征在于,所述语音合成模块用于:
对所述录制语音进行自动切分,得到对应的音素边界,根据得到的模型训练模块,用于利用语音数据库训练所述预设参数合成模型,并统计所述语音数据库对应的基频信息的均值
Figure FDA0002458525720000022
和标准差s0
7.如权利要求6所述的语音合成***,其特征在于,所述语音合成模块用于:
根据所述录制语音的基频信息f01,统计所述基频信息f01对应的均值
Figure FDA0002458525720000031
和标准差s1,并对所述基频信息f01进行调域调整,得到调整后的基频信息f02
Figure FDA0002458525720000032
将调整后得到的所述基频信息f02与所述基频信息f00进行加权叠加,得到最终基频信息f03
f03=α*f02+(1-α)*f00
其中,α为加权系数。
8.如权利要求6或7所述的语音合成***,其特征在于,所述预设参数合成模型包括LSTM参数合成模型。
CN201810517280.1A 2018-05-25 2018-05-25 语音合成方法及*** Active CN108766413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810517280.1A CN108766413B (zh) 2018-05-25 2018-05-25 语音合成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810517280.1A CN108766413B (zh) 2018-05-25 2018-05-25 语音合成方法及***

Publications (2)

Publication Number Publication Date
CN108766413A CN108766413A (zh) 2018-11-06
CN108766413B true CN108766413B (zh) 2020-09-25

Family

ID=64006070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810517280.1A Active CN108766413B (zh) 2018-05-25 2018-05-25 语音合成方法及***

Country Status (1)

Country Link
CN (1) CN108766413B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808026B (zh) * 2019-11-04 2022-08-23 金华航大北斗应用技术有限公司 一种基于lstm的电声门图语音转换方法
WO2021127821A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN111192566B (zh) * 2020-03-03 2022-06-24 云知声智能科技股份有限公司 英文语音合成方法及装置
CN113409756B (zh) * 2020-03-16 2022-05-03 阿里巴巴集团控股有限公司 语音合成方法、***、设备及存储介质
CN111583903B (zh) * 2020-04-28 2021-11-05 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备
CN111782867B (zh) * 2020-05-20 2022-12-30 厦门快商通科技股份有限公司 声纹检索方法、***、移动终端及存储介质
CN111883104B (zh) * 2020-07-08 2021-10-15 马上消费金融股份有限公司 语音切割方法、语音转换网络模型的训练方法及相关设备
CN111968678B (zh) * 2020-09-11 2024-02-09 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、设备及可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000058943A1 (fr) * 1999-03-25 2000-10-05 Matsushita Electric Industrial Co., Ltd. Systeme et procede de synthese de la parole
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
CN102005205B (zh) * 2009-09-03 2012-10-03 株式会社东芝 情感语音合成方法和装置
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103456295B (zh) * 2013-08-05 2016-05-18 科大讯飞股份有限公司 歌唱合成中基频参数生成方法及***
CN103632663B (zh) * 2013-11-25 2016-08-17 内蒙古大学 一种基于hmm的蒙古语语音合成前端处理的方法
CN104361896B (zh) * 2014-12-04 2018-04-13 上海流利说信息技术有限公司 语音质量评价设备、方法和***
CN105679306B (zh) * 2016-02-19 2019-07-09 云知声(上海)智能科技有限公司 语音合成中预测基频帧的方法及***
CN106205571A (zh) * 2016-06-24 2016-12-07 腾讯科技(深圳)有限公司 一种歌声语音的处理方法和装置

Also Published As

Publication number Publication date
CN108766413A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108766413B (zh) 语音合成方法及***
US11392642B2 (en) Image processing method, storage medium, and computer device
Chi et al. Multiresolution spectrotemporal analysis of complex sounds
US20210319809A1 (en) Method, system, medium, and smart device for cutting video using video content
EP3848887A1 (en) Gan network-based vehicle damage image enhancement method and apparatus
WO2017067246A1 (zh) 声学模型的生成方法和装置及语音合成方法和装置
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
CN111489424A (zh) 虚拟角色表情生成方法、控制方法、装置和终端设备
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
DE102014118075B4 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
CN112133277B (zh) 样本生成方法及装置
CN111128116B (zh) 一种语音处理方法、装置、计算设备及存储介质
TW202036534A (zh) 語音合成的方法、裝置及設備
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN111613224A (zh) 一种个性化语音合成方法及装置
CN114449313B (zh) 视频的音画面播放速率调整方法及装置
TWI548268B (zh) 浮水印載入裝置及浮水印載入的方法
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
CN104185032B (zh) 一种视频识别方法及***
CN117115318B (zh) 口型动画合成方法及装置和电子设备
CN112750423B (zh) 个性化语音合成模型构建方法、装置、***及电子设备
US20240105203A1 (en) Enhanced audio file generator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing

Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.