CN111429878A - 一种自适应语音合成方法及装置 - Google Patents
一种自适应语音合成方法及装置 Download PDFInfo
- Publication number
- CN111429878A CN111429878A CN202010167018.6A CN202010167018A CN111429878A CN 111429878 A CN111429878 A CN 111429878A CN 202010167018 A CN202010167018 A CN 202010167018A CN 111429878 A CN111429878 A CN 111429878A
- Authority
- CN
- China
- Prior art keywords
- recording
- voice
- text
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000003062 neural network model Methods 0.000 claims abstract description 72
- 230000003068 static effect Effects 0.000 claims abstract description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 48
- 238000003786 synthesis reaction Methods 0.000 claims description 48
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种自适应语音合成方法及装置,包括:利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练;利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音。有效的解决了现有技术中由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低的问题,提高了用户的体验感。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种自适应语音合成方法及装置。
背景技术
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理***中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练,然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练,所述提出了自适应语音合成***,即利用目标发音人少量的录音和文本数据快速构建合成***,产生目标发音人音色的合成语音。但是这种方法存在以下缺点:由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低,影响了用户的体验感。
发明内容
针对上述所显示出来的问题,本方法基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练,最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成。
一种自适应语音合成方法,包括以下步骤:
利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。
优选的,所述设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:
预先建立空白录音文本库;
获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
基于所述目标录音文本,接收用户的当前录音。
优选的,在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前,所述方法还包括:
获取所述当前录音中的每一句语音;
去除所述每一句语音中超过预设时长的静音段;
对所述每一句语音作去噪和去混响的预处理;
检测预处理之后的当前语音是否完整;
若是,则使用所述目标录音文本对应的标注;
否则,提醒用户所述预处理之后的当前语音不满足需求。
优选的,所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练,包括:
提取所述预处理之后的当前语音的声学特征参数;
提取目标录音文本内容中的上下文相关联的第一语言学信息;
根据所述声学特征参数和所述第一语言学信息生成训练数据;
利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。
优选的,所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音,包括:
获取所述待合成文本的第二语言学信息;
将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;
根据所述语音特征参数获取静态语音参数;
将所述静态语音参数输入到合成器中进行合成;
合成完毕后输出合成语音。
一种自适应语音合成装置,该装置包括:
第一训练模块,用于利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
录音模块,用于设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
第二训练模块,用于利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
合成模块,用于利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。
优选的,所述录音模块,包括:
建立子模块,用于预先建立空白录音文本库;
第一获取子模块,用于获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
推送子模块,用于接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定子模块,用于确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
接收子模块,用于基于所述目标录音文本,接收用户的当前录音。
优选的,所述装置还包括:
获取模块,用于获取所述当前录音中的每一句语音;
去除模块,用于去除所述每一句语音中超过预设时长的静音段;
预处理模块,用于对所述每一句语音作去噪和去混响的预处理;
检测模块,用于检测预处理之后的当前语音是否完整;
确定模块,用于当所述检测模块检测所述预处理之后的当前语音是完整时,则使用所述目标录音文本对应的标注;
提醒模块,用于当所述检测模块检测所述预处理之后的当前语音不是完整时,提醒用户所述预处理之后的当前语音不满足需求。
优选的,所述第二训练模块,包括:
第一提取子模块,用于提取所述预处理之后的当前语音的声学特征参数;
第二提取子模块,用于提取目标录音文本内容中的上下文相关联的第一语言学信息;
生成子模块,用于根据所述声学特征参数和所述第一语言学信息生成训练数据;
训练子模块,用于利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。
优选的,所述合成模块,包括:
第二获取子模块,用于获取所述待合成文本的第二语言学信息;
获得子模块,用于将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;
第三获取子模块,用于根据所述语音特征参数获取静态语音参数;
合成子模块,用于将所述静态语音参数输入到合成器中进行合成;
输出子模块,用于合成完毕后输出合成语音。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种自适应语音合成方法的工作流程图;
图2为本发明所提供的一种自适应语音合成方法的另一工作流程图;
图3为本发明所提供的一种自适应语音合成装置的结构图;
图4为本发明所提供的一种自适应语音合成装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理***中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练,然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练,所述提出了自适应语音合成***,即利用目标发音人少量的录音和文本数据快速构建合成***,产生目标发音人音色的合成语音。但是这种方法存在以下缺点:1、由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低,影响了用户的体验感。2、不同用户的录音环境差异很大,录入的语音数据会包含过长的静音段、噪声、混响等干扰,影响模型训练效果。3、用户的实际发音录音文本不一致,出现丢字、多字、重复、读错、过长的停顿等现象,都会导致音频数据与文本标注不匹配,从而影响模型训练效果。为了解决上述问题,本实施例公开了一种基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练,最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成的方法。
一种自适应语音合成方法,如图1所示,包括以下步骤:
步骤S101、利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
步骤S102、设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
步骤S103、利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练;
步骤S104、利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音;
在本实施例中,利用大量的高质量预设录音和设录音对应的文本标注数据对预设神经网络模型进行训练,来得到训练后的预设神经网络模型,然后用户根据自己的爱好和需求选择合适的目标录音文本进行录音,获得少量的当前录音,然后根据上述少量录音对训练后的预设神经网络模型进行二次训练,即可得到一个可以合成自己语音的新模型,根据上述新模型即可提取任一待合成文本的静态语音参数输入到合成器中获得用户的合成语音,特别的,上述大量的预设语音和预设语音对应的文本标注数据可以为任意一人的录音数据即可,并非需要用户本身的录音数据。上述预设神经网络模型包括时长模型和声学模型,即既注重用户语音合成的时长同时根据用户音色的不同合成不同的语音。
上述技术方案的工作原理为:利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练,利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音。
上述技术方案的有益效果为:用户可以根据预设录音对预设神经网络模型进行训练,然后根据自己的当前录音对训练后的预设神经网络模型进行二次训练,最后根据二次训练后预设神经网络模型来对自己的录音文本进行语音合成,由于第一次预设神经网路模型的训练是根据大量高质量预设录音训练的,故而模型合成的语音质量和精度都是极高的,根据当前录音对预设神经网络模型进行二次训练可以获得一个合成自己语音的模型,并且合成的语音质量和精度也是极高的,有效的解决了现有技术中由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低的问题,提高了用户的体验感。并且用户可以在录音文本库中挑选目标文本进行录音,使得选择多样化,解决了现有技术中由于不同用户的录音环境差异很大,录入的语音数据会包含过长的静音段、噪声、混响等干扰,影响模型训练效果的问题。
在一个实施例中,设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:
预先建立空白录音文本库;
获取N个录音文本输入到空白录音文本库中形成录音文本库;
接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,第一录音文本为录音文本中任一录音文本;
确定M个第一录音文本中用户选择的第一录音文本为目标录音文本;
基于目标录音文本,接收用户的当前录音。
上述技术方案的有益效果为:通过提供用户可选的第一录音文本来使用户根据自身年龄、文化水平、地域、使用场景的情况来选择适合自己的目标录音文本,使用户有多个不同的选择,进一步的提高了用户的体验感。
在一个实施例中,在利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练之前,上述方法还包括:
获取当前录音中的每一句语音;
去除每一句语音中超过预设时长的静音段;
对每一句语音作去噪和去混响的预处理;
检测预处理之后的当前语音是否完整;
若是,则使用目标录音文本对应的标注;
否则,提醒用户预处理之后的当前语音不满足需求;
在本实施例中,上述检测预处理之后的当前语音是否完整的步骤为:若发现处理之后的当前语音中有***错误或删除错误,则提示用户该条录音质量不满足需求,用户可选择重复当前文本或者切换一条新文本重新录音。如果没有***和删除错误,但是有替换错误,则该条语音可以接受,并使用识别器识别出的文本替换原始录音文本来生成标注。若没有上述识别错误,则使用原始录音文本对应的标注。
上述技术方案的有益效果为:通过对录入的语音做降噪和去混响处理,去除多余的静音段,提升了语音质量,同时为后边语音的合成提供了一个良好的样本。通过检测预处理之后的当前语音是否完整,根据当前语音质量选择重新录制或者对文本标注做修正,保证录音与文本标注的一致性。提升数据质量。
在一个实施例中,如图2所示,利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练,包括:
步骤S201、提取预处理之后的当前语音的声学特征参数;
步骤S202、提取目标录音文本内容中的上下文相关联的第一语言学信息;
步骤S203、根据声学特征参数和第一语言学信息生成训练数据;
步骤S204、利用训练数据对训练后的预设神经网络模型进行二次训练。
上述技术方案的有益效果为:通过利用声学特征参数和第一语言学信息二次训练预设神经网络模型,提升了语音特征参数建模的准确性,也为合成语音所需要的静态语音参数的提取提供了一个良好模型。
在一个实施例中,利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音,包括:
获取待合成文本的第二语言学信息;
将第二语言学信息输入到二次训练后的预设神经网络模型中获得语音特征参数;
根据语音特征参数获取静态语音参数;
将静态语音参数输入到合成器中进行合成;
合成完毕后输出合成语音;
在本实施例中,上述语音特征参数包括动态语音参数,根据建立的模型将动态语音参数转化为静态语音参数。
上述技术方案的有益效果为:通过获取静态语音参数来合成语音,相比于动态语音参数更稳定,同时也去除了不稳定因素,使得合成的语音质量更高。
在一个实施例中,包括:
第1步:使用高质量的多发音人录音和文本标注数据训练多发音人混合基础神经网络模型(采用前馈神经网络加RNN-LSTM的模型结构)。在神经网络输入中加入说话人嵌入信息,以提升音色建模的稳定性;
第2步:在保证音素覆盖度的原则下,设计录音文本库,录音文本库数量远大于实际需要录制的句子数目N。为每个用户随机挑选N句录音文本,对于每一条录音文本,用户都可以选择跳过,并切换一条新的录音文本;
第3步:用户每录入一句语音,将录制的音频经过音频预处理模块,去除录音中过长的静音段,并且对输入音频做降噪和去混响处理;
第4步:将处理过的音频送入音频质量评估模块做语音识别检测,若发现有***错误或删除错误,则提示用户该条录音质量不满足需求,用户可选择重复当前文本或者切换一条新文本重新录音。如果没有***和删除错误,但是有替换错误,则该条语音可以接受,并使用识别器识别出的文本替换原始录音文本来生成标注。若没有上述识别错误,则使用原始录音文本对应的标注;
第5步:使用预处理过的音频提取声学特征参数(包含LF0,MCEP,BAP参数),使用语音识别确认过的录音文本经过前端分析模块,提取上下文相关的语言学信息。使用上述语音特征参数和语言学信息生成神经网络模型的训练数据,以第1步中的基本模型作为源模型,采用自适应技术重训练时长和声学神经网络模型;
第6步:在合成阶段,根据输入的待合成文本,经过前端模型得到上下文相关语言学信息,使用第5步训练得到的时长和声学神经网络模型做推理,即可得到语音特征参数(包含动态特征参数),再经过参数生成模块得到平滑的静态语音特征参数,将特征参数送入合成器即可得到目标发音人的合成语音。
上述技术方案的有益效果为:1.解决了现有***录音文本固定,无法更改的问题,在框定的范围内,给用户自由选择录音文本的空间,提升读音正确性和流畅度。2.对录音做降噪和去混响处理,去除多余的静音段,提升语音质量。3.对录音文件做质量评估,根据录音质量选择重新录制或者对文本标注做修正,保证录音与文本标注的一致性。提升数据质量,充分利用自适应***中为数不多的训练数据。4.采用神经网络模型(前馈网络加RNN-LSTM结构),并结合动态参数建模和最大似然参数生成算法,提升语音特征参数建模的准确性。
本实施例还公开了一种自适应语音合成装置,如图3所示,该装置包括:
第一训练模块301,用于利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
录音模块302,用于设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
第二训练模块303,用于利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练;
合成模块304,用于利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音。
在一个实施例中,录音模块,包括:
建立子模块,用于预先建立空白录音文本库;
第一获取子模块,用于获取N个录音文本输入到空白录音文本库中形成录音文本库;
推送子模块,用于接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,第一录音文本为录音文本中任一录音文本;
确定子模块,用于确定M个第一录音文本中用户选择的第一录音文本为目标录音文本;
接收子模块,用于基于目标录音文本,接收用户的当前录音。
在一个实施例中,上述装置还包括:
获取模块,用于获取当前录音中的每一句语音;
去除模块,用于去除每一句语音中超过预设时长的静音段;
预处理模块,用于对每一句语音作去噪和去混响的预处理;
检测模块,用于检测预处理之后的当前语音是否完整;
确定模块,用于当检测模块检测预处理之后的当前语音是完整时,则使用目标录音文本对应的标注;
提醒模块,用于当检测模块检测预处理之后的当前语音不是完整时,提醒用户预处理之后的当前语音不满足需求。
在一个实施例中,如图4所示,第二训练模块,包括:
第一提取子模块3031,用于提取预处理之后的当前语音的声学特征参数;
第二提取子模块3032,用于提取目标录音文本内容中的上下文相关联的第一语言学信息;
生成子模块3033,用于根据声学特征参数和第一语言学信息生成训练数据;
训练子模块3034,用于利用训练数据对训练后的预设神经网络模型进行二次训练。
在一个实施例中,合成模块,包括:
第二获取子模块,用于获取待合成文本的第二语言学信息;
获得子模块,用于将第二语言学信息输入到二次训练后的预设神经网络模型中获得语音特征参数;
第三获取子模块,用于根据语音特征参数获取静态语音参数;
合成子模块,用于将静态语音参数输入到合成器中进行合成;
输出子模块,用于合成完毕后输出合成语音。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种自适应语音合成方法,其特征在于,包括以下步骤:
利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。
2.根据权利要求1所述自适应语音合成方法,其特征在于,所述设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:
预先建立空白录音文本库;
获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
基于所述目标录音文本,接收用户的当前录音。
3.根据权利要求1所述自适应语音合成方法,其特征在于,在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前,所述方法还包括:
获取所述当前录音中的每一句语音;
去除所述每一句语音中超过预设时长的静音段;
对所述每一句语音作去噪和去混响的预处理;
检测预处理之后的当前语音是否完整;
若是,则使用所述目标录音文本对应的标注;
否则,提醒用户所述预处理之后的当前语音不满足需求。
4.根据权利要求1所述自适应语音合成方法,其特征在于,所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练,包括:
提取所述预处理之后的当前语音的声学特征参数;
提取目标录音文本内容中的上下文相关联的第一语言学信息;
根据所述声学特征参数和所述第一语言学信息生成训练数据;
利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。
5.根据权利要求1所述自适应语音合成方法,其特征在于,所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音,包括:
获取所述待合成文本的第二语言学信息;
将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;
根据所述语音特征参数获取静态语音参数;
将所述静态语音参数输入到合成器中进行合成;
合成完毕后输出合成语音。
6.一种自适应语音合成装置,其特征在于,该装置包括:
第一训练模块,用于利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
录音模块,用于设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
第二训练模块,用于利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
合成模块,用于利用二次训练后的预设神经网络模型提取所述待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。
7.根据权利要求6所述自适应语音合成装置,其特征在于,所述录音模块,包括:
建立子模块,用于预先建立空白录音文本库;
第一获取子模块,用于获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
推送子模块,用于接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定子模块,用于确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
接收子模块,用于基于所述目标录音文本,接收用户的当前录音。
8.根据权利要求6所述自适应语音合成装置,其特征在于,所述装置还包括:
获取模块,用于获取所述当前录音中的每一句语音;
去除模块,用于去除所述每一句语音中超过预设时长的静音段;
预处理模块,用于对所述每一句语音作去噪和去混响的预处理;
检测模块,用于检测预处理之后的当前语音是否完整;
确定模块,用于当所述检测模块检测所述预处理之后的当前语音是完整时,则使用所述目标录音文本对应的标注;
提醒模块,用于当所述检测模块检测所述预处理之后的当前语音不是完整时,提醒用户所述预处理之后的当前语音不满足需求。
9.根据权利要求6所述自适应语音合成装置,其特征在于,所述第二训练模块,包括:
第一提取子模块,用于提取所述预处理之后的当前语音的声学特征参数;
第二提取子模块,用于提取目标录音文本内容中的上下文相关联的第一语言学信息;
生成子模块,用于根据所述声学特征参数和所述第一语言学信息生成训练数据;
训练子模块,用于利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。
10.根据权利要求6所述自适应语音合成装置,其特征在于,所述合成模块,包括:
第二获取子模块,用于获取所述待合成文本的第二语言学信息;
获得子模块,用于将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;
第三获取子模块,用于根据所述语音特征参数获取静态语音参数;
合成子模块,用于将所述静态语音参数输入到合成器中进行合成;
输出子模块,用于合成完毕后输出合成语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167018.6A CN111429878B (zh) | 2020-03-11 | 2020-03-11 | 一种自适应语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167018.6A CN111429878B (zh) | 2020-03-11 | 2020-03-11 | 一种自适应语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429878A true CN111429878A (zh) | 2020-07-17 |
CN111429878B CN111429878B (zh) | 2023-05-26 |
Family
ID=71546451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010167018.6A Active CN111429878B (zh) | 2020-03-11 | 2020-03-11 | 一种自适应语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429878B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634856A (zh) * | 2020-12-10 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 语音合成模型训练方法和语音合成方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000214876A (ja) * | 1999-01-25 | 2000-08-04 | Sanyo Electric Co Ltd | 日本語音声合成方法 |
US6212501B1 (en) * | 1997-07-14 | 2001-04-03 | Kabushiki Kaisha Toshiba | Speech synthesis apparatus and method |
US20090306986A1 (en) * | 2005-05-31 | 2009-12-10 | Alessio Cervone | Method and system for providing speech synthesis on user terminals over a communications network |
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成***及其实现方法 |
CN103366731A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音合成方法及*** |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105047192A (zh) * | 2015-05-25 | 2015-11-11 | 上海交通大学 | 基于隐马尔科夫模型的统计语音合成方法及装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN109545194A (zh) * | 2018-12-26 | 2019-03-29 | 出门问问信息科技有限公司 | 唤醒词预训练方法、装置、设备及存储介质 |
CN110473547A (zh) * | 2019-07-12 | 2019-11-19 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
CN110556129A (zh) * | 2019-09-09 | 2019-12-10 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
-
2020
- 2020-03-11 CN CN202010167018.6A patent/CN111429878B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6212501B1 (en) * | 1997-07-14 | 2001-04-03 | Kabushiki Kaisha Toshiba | Speech synthesis apparatus and method |
JP2000214876A (ja) * | 1999-01-25 | 2000-08-04 | Sanyo Electric Co Ltd | 日本語音声合成方法 |
US20090306986A1 (en) * | 2005-05-31 | 2009-12-10 | Alessio Cervone | Method and system for providing speech synthesis on user terminals over a communications network |
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成***及其实现方法 |
CN103366731A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音合成方法及*** |
CN105047192A (zh) * | 2015-05-25 | 2015-11-11 | 上海交通大学 | 基于隐马尔科夫模型的统计语音合成方法及装置 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105261355A (zh) * | 2015-09-02 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN109545194A (zh) * | 2018-12-26 | 2019-03-29 | 出门问问信息科技有限公司 | 唤醒词预训练方法、装置、设备及存储介质 |
CN110473547A (zh) * | 2019-07-12 | 2019-11-19 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
CN110556129A (zh) * | 2019-09-09 | 2019-12-10 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634856A (zh) * | 2020-12-10 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 语音合成模型训练方法和语音合成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111429878B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148427B (zh) | 音频处理方法、装置、***、存储介质、终端及服务器 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
CN101739870B (zh) | 交互式语言学习***及交互式语言学习方法 | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
CN109285537B (zh) | 声学模型建立、语音合成方法、装置、设备及存储介质 | |
CN110390928B (zh) | 一种自动拓增语料的语音合成模型训练方法和*** | |
KR100659212B1 (ko) | 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
CN111599338B (zh) | 一种稳定可控的端到端语音合成方法及装置 | |
US8781835B2 (en) | Methods and apparatuses for facilitating speech synthesis | |
CN111429878B (zh) | 一种自适应语音合成方法及装置 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN110782866A (zh) | 一种演唱声音转换器 | |
CN115472185A (zh) | 一种语音生成方法、装置、设备及存储介质 | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
CN110310620B (zh) | 基于原生发音强化学习的语音融合方法 | |
KR20050041749A (ko) | 방송 음성 데이터를 이용한 영역 및 화자 의존 음성 합성장치, 음성 합성용 데이터베이스 구축방법 및 음성 합성서비스 시스템 | |
KR20010046852A (ko) | 속도변환을 이용한 대화형 언어 교습 시스템 및 그 방법 | |
CN113628609A (zh) | 自动音频内容生成 | |
CN114078464B (zh) | 音频处理方法、装置及设备 | |
CN114420086B (zh) | 语音合成方法和装置 | |
CN112750423B (zh) | 个性化语音合成模型构建方法、装置、***及电子设备 | |
US20230169961A1 (en) | Context-aware prosody correction of edited speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |