CN110136687A - 一种基于语音训练克隆口音及声韵方法 - Google Patents

一种基于语音训练克隆口音及声韵方法 Download PDF

Info

Publication number
CN110136687A
CN110136687A CN201910420416.1A CN201910420416A CN110136687A CN 110136687 A CN110136687 A CN 110136687A CN 201910420416 A CN201910420416 A CN 201910420416A CN 110136687 A CN110136687 A CN 110136687A
Authority
CN
China
Prior art keywords
sound
voice
text
phoneme
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910420416.1A
Other languages
English (en)
Other versions
CN110136687B (zh
Inventor
邝翠珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shuzixinghe Technology Co Ltd
Original Assignee
Shenzhen Shuzixinghe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shuzixinghe Technology Co Ltd filed Critical Shenzhen Shuzixinghe Technology Co Ltd
Priority to CN201910420416.1A priority Critical patent/CN110136687B/zh
Publication of CN110136687A publication Critical patent/CN110136687A/zh
Application granted granted Critical
Publication of CN110136687B publication Critical patent/CN110136687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于语音训练克隆口音及声韵方法,公开了以训练文本使用代表不同语调的典型分类文本,经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元,从中提取音素、语音片段单元最为音库内容,比较全面的保留了用户个性化的语音中口音、声韵等特征,克隆模拟语音时,根据文本特征代表的语调和训练经验获得对应的音素组,经过声韵矫正、缓差对齐矫正合成的语音,实现口音及声调的保真克隆。

Description

一种基于语音训练克隆口音及声韵方法
技术领域
本发明涉及语音克隆技术领域,尤其涉及一种基于语音训练克隆口音及音调方法。
背景技术
现在语音技术是科技研究最热点最前沿的技术领域之一,语音技术也是许多Google、讯飞等国际型科技公司大力研究的课题,国外有家LYREBIRD(天琴鸟)网站平台提供语音克隆的服务,用户只要通过网站平台的30句左右的文本进行朗读训练后,用户就能获得输入文本内容的的朗读语音,并且所获语音的音质和用户语音相近,现在成为热点,许多用户都在各大视频网站平台发布这种语音克隆的视频,但LYREBIRD(天琴鸟)网站平台和现有的其他语音模式克隆技术一样,声音的音质虽然和用户语音很接近,是很大的突破,但所发的语音仍然是机械的电子音,全世界的声学工程师也一直致力于研究让机器“说人话”,但搞出来的成果大多数还是跟人类真实的声音有很大差距,生硬、不自然一直是通病;究其根本,就是现有语音模拟克隆技术基本都是基于音质音调的强制一致,没有克隆模拟出用户的语调、韵律、口音等能代表用户个性化特征的语音内容。
发明内容
鉴于以上的技术问题,克隆语音的语音表达的意思往往和用户本身的本意难以统一。
为解这些问题,本发明提供一一种基于语音训练语音克隆口音及音调方法,以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,也根据文本的语调和训练经验获得对应的音素单元,经过缓差矫正阶差进行合成,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个性化的语音特征;具体的技术方案首先部署数据库、***软硬件环境,配置用户注册模块、用户模块等常规***的必要模块,还包括如下模块、步骤及要素。
步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入***,并将采集后的语音转换成语音数字信号推送或等待***进行运算处理。
步骤二、构建低通滤波算法;为了最大限度的降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容,就需要进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;一种实施例:采用巴特沃斯滤波算法构建低通滤波 ,巴特沃斯滤波的特点是通频带内的频率响应曲线最大限度平坦,没有起伏,而在阻频带则逐渐下降为零,采用的是巴特沃斯传递函数,允许从直流到某个截止频率(fCUTOFF) 的信号通过,将通用滤波器二阶传递函数的高通和带通系数均设为零,即得到一个低通滤波器传递公式,巴特沃斯低通滤波器可用如下振幅的平方对频率的公式表示:
其中, n为 滤波器的阶数, 等于截止频率也就是等于振幅下降为3dB时的频率, 为通频带边缘频率,通过本公式1的传递函数,获取过滤的用户的音频数据;对所述音频数据进行解析。
优选地,根据所述的低通滤波传递公式,以MATLAB作为滤波的分析运算、编写程序的工具, 最新版本的MATLAB可以利用MATLAB编译器和C/C++数学库和图形库,将自己的MATLAB程序自动转换为独立于MATLAB运行的C和C++代码,允许用户编写可以和MATLAB进行交互的C或C++语言程序;因此滤波运算后的语音数据方便***程序无缝对接。
步骤三、语音训练所用文本的选择方法:为充分获得用户语音的发音特征,训练文本必须涵盖有多样性的典型,本发明采用训练文本选择的方法有:
a、所用文本词句单词,需要至少一次涵盖所有的音素、特殊组合发音的音节。
b、设置不同长度的语句,以获得用户朗读时候的换气等必要动作所造成的声韵特征。
c、尽可能涵盖多种典型语气的文本语句,例如疑问句,惊讶句、兴奋句、严肃语句等等,以获得用户在不同文本内涵意思,自然对语气声调影响的特征。
d、在***中设置语调类,分别映射对应文本内容、音标、音素、语音片段单元等,实施例:疑问声调、陈述声调、感叹声调等。
步骤四、创建用户音库,对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到***中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。
优选地,所述创建用户音库,将所述经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本中音标对应的语音片段,用户语音训练英语朗读是基于文本内容的,文本的范围局限在很小的范围,将句子文本分拆的音标映射语音分拆成音素、单词、音节。
一种基于音素音节分拆语音的实施例:采循环递推打分分拆识别法,首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型。
先假设音素、音节、单词被朗读的时长为标准时长,在被测语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为理想匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别等等一并保存到***中。
步骤五、创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到***中用户信息的相关数据库的声韵特征库表格。
优选地,所述记录用户声韵特征信息,常规语音克隆技术所模拟的用户语音,只在音质上相近,缺少真人语音此起彼伏的声韵内容,因此本发明分析用户语音声调声韵特征,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准,等待***在克隆语音时候调用,用于修正克隆语音的声韵。
一种声韵特征记载的实施例:声音强度只能使用无纲量的相对单位,现在最常用的是分贝(decibel,缩写为dB)。通用计算公式如下
分子是测量值的声压,分母是人类所能听到的最小声压(本发明设定为20微帕,)吗,公式2适合于声压震幅平方值运算,公式3适合针对声压震幅绝对平均值运算。
安卓***中获得音源数据的类有两个:android.media.MediaRecorder和android.media.AudioRecord,通过申请语音接口权限:<uses-permission android:name="android.permission.RECORD_AUDIO" />获得音源数据的类:android.media.MediaRecorder和android.media.AudioRecord,经过本发明技术人员的多次试验,这两个类相比 使用android.media.AudioRecord的结果更为平稳,将语音数据用read(byte[] audioData, int offsetInBytes, int sizeInBytes)方法从缓冲区读取到***预先设定的数组audioData后,再等待调用提高运算效率,为了避免极端异常的帧幅值的影响造成巨大误差。
优选地,将语音分成帧长为12ms的时间段获取其绝对值的平均值,使计算的结果更加稳定。
通过如上所述的方法求得各个语音帧时间段平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标等一并记载到***中的声韵特征库。
步骤六、根据用户私有音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号等文本特征识别文本语调类别,识别无结果是默认陈述语调。
进一步,将文本按照步骤三所述的方法分拆成音素、音节、单词,并根据分拆的音标等特征文本在用户私有音库中检索其对应的音素或语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类为陈述的类别设为检索优选的结果。
这样将文本对应一组音素、语音片段单元组y = ( , , ,…..),并将音所述音素、语音片段单元的标准时长分别调出,获得s = ( , , ,…..),待***进一步的运算整理。
步骤七、声韵矫正,每个人的语音会因换气习惯、肺活量等因素的影响,朗读不同长度的文本会有不同的声韵特征,根据目标克隆语音的预判时长对合成语音进行声韵矫正运算,使得克隆所得语音更加个性化。
一种声韵矫正的方法,根据步骤六中所述的语音帧时长,进行叠加求和运算:
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录。
读取记录中帧组声强数据组,读取为b=(, , ,…..),,按照步骤五的技术方法,计算步骤六目标克隆语音y的在其内部帧单元的声强a=(, , ,…..),从目标克隆语音的第一帧开始,修正声韵的声强强度,本发明独创的计算公式如下:
第i帧声强,声韵特征库中检索到合乎条件的第i帧声强,f为***设置的声韵修正阀值,K为***预设的声韵修正系数,在i大于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强。
本发明通过实验优选地,***设置的声韵修正阀值f赋值为28dB,***预设声韵修正系数k赋值为0.13。
步骤八、缓差对齐矫正合成语音(阶差、 断点过渡修正),使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差,合成出的声音会变得非常刺耳机械,因此音素、语音片段合成时候需要做缓冲对齐的修正,才会让克隆出的语音平缓自然,本发明创建了一种缓差对齐的语音合成矫正的方法来克服这些技术缺陷。
通过步骤七,我们获得经过声韵语调修正过的目标克隆语音,其构成是一组被矫正运算过的音素、语音片段单元,其内容为新值的:y=( , , ,…..);则每个相邻的音素或语音片段单元就需要进行缓冲对齐的矫正,取任意两个相邻音素或语音片段单元进行矫正运算。
按照步骤5所述的技术方法分别将音素或语音片段单元进行分帧。
优选地,将帧长设定为12ms。
通过分帧,并通过步骤五所述的技术方法分别获得两组序列语音帧的声音强度组对应为c=( , , ,…..)、对应根为d=( , , ,…..),分别将、根据时间轴上的分布找到重新开始时段设定,根据时长参数分别获得相应的时间段1至h、1至的语音帧。
α=INT(音素时长/帧时长*η)。
β=INT(音素时长/帧时长*η)。
η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正。
优选地,η赋值为0.085。
音素的临界合成点声音强度L设定为:
L为临界合成点声音强度。
以变量i对 音素中的帧从1开始编号,将音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式:
以变量i对 音素中的帧从1开始编号,将音素中从第一帧开始到第β个帧结束修正声音强度的公式:
通过以上所述及公示6、7、8,就可以完成相邻音素或语音片段单元的语音合成对声音强度的矫正,通过循环依次将所有相邻的音素或语音片段单元进行同样的矫正合成,就能完成目标克隆语音整体的合成矫正,得到声调和谐自然的克隆语音的效果。
通过上述的技术方案的语音克隆,从最为本源的用户训练语音中提取音素、语音片段单元作为音库内容,比较全面的保留了用户个性化的语音中口音、音调等特征,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个性化的语音特征,独创了语音合成中涉及声韵、语调矫正的技术手法,相比于现有技术具有显著的进步。
特别申明:在本说明书中所述的 “实施例”等,指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说,结合任一实施例描述一个具体特征、要素或者特点时,所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中; 实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述,但本发明的保护范围并不局限于此,本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式,可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进,对于本领域技术人员来说,其他的用途也将是明显的,可轻易想到实施的非实质性变化或替换,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
附图说明
图1 为一种基于语音训练克隆口音及声韵方法整体逻辑框架图。
图2 为缓差对齐的语音合成矫正的方法中,两音素合成对齐矫正前后的语音强度对比波形示意图。

Claims (5)

1.一种基于语音训练克隆口音及声韵方法,其特征包括的步骤和要素有:以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,也根据文本的语调和训练经验获得对应的音素单元,经过缓差矫正阶差进行合成克隆语音,包括如下模块、步骤及要素:
步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入***,并将采集后的语音转换成语音数字信号推送或等待***进行运算处理;
步骤二、构建低通滤波算法;降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;
优选地,以MATLAB作为滤波的分析运算、编写程序的工具,滤波运算后的语音数据方便***程序无缝对接;
步骤三、训练文本必须涵盖有多样性的典型;
步骤四、创建用户音库,用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到***中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中;
步骤五、创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到***中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待***在克隆语音时候调用,用于修正克隆语音的声韵;
优选地,将语音分成帧长为12ms的时间段获取其绝对值的平均值,使计算的结果更加稳定;
步骤六、根据用户私有音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号等文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本按照步骤三所述的方法分拆成音素、音节、单词,并根据分拆的音标等特征文本在用户私有音库中检索其对应的音素或语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类为陈述的类别设为检索优选的结果,这样将文本对应一组音素、语音片段单元组y = ( , , ,…..),并将音所述音素、语音片段单元的标准时长分别调出,获得s = ( , , ,…..),待***进一步的运算整理;
步骤七、声韵矫正,每个人的语音会因换气习惯、肺活量等因素的影响,朗读不同长度的文本会有不同的声韵特征,根据目标克隆语音的预判时长对合成语音进行声韵矫正运算,使得克隆所得语音更加个性化;
步骤八、缓差对齐矫正合成语音,使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差,合成出的声音会变得非常刺耳机械,音素、语音片段单元合成时候做缓冲对齐的修正,让克隆出的语音平缓自然。
2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征还包含的步骤及要素:采用训练文本选择的方法有:
a、所用文本词句单词,需要至少一次涵盖所有的音素、特殊组合发音的音节;
b、设置不同长度的语句,以获得用户朗读时候的换气等必要动作所造成的声韵特征;
c、尽可能涵盖多种典型语气的文本语句,例如疑问句,惊讶句、兴奋句、严肃语句等等,以获得用户在不同文本内涵意思,自然对语气声调影响的特征;
d、在***中设置语调类,分别映射对应文本内容、音标、音素、语音片段单元等,实施例:疑问声调、陈述声调、感叹声调等。
3.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征还包含的步骤及要素:优选地,所述创建用户音库,将所述经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本中音标对应的语音片段,用户语音训练英语朗读是基于文本内容的,文本的范围局限在很小的范围,将句子文本分拆的音标映射语音分拆成音素、单词、音节,采循环递推打分分拆识别法,首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先假设音素、音节、单词被朗读的时长为标准时长,在被测语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为理想匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别等等一并保存到***中。
4.一种声韵矫正的方法,其特征包含的步骤及要素:根据权利要求1-4的技术方法为基础,所述的语音帧时长,进行叠加求和运算
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,并读取记录中帧组声强数据组,读取为b=(, , ,…..),按照权利要求1-5的技术方法,计算权利要求1-5中目标克隆语音y的在其内部帧单元的声强a=(,,,…..),从目标克隆语音的第一帧开始,修正声韵的声强强度,本发明独创的计算公式如下:
第i帧声强,声韵特征库中检索到合乎条件的第i帧声强,f为***设置的声韵修正阀值,K为***预设的声韵修正系数,在i大于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强;
优选地,***设置的声韵修正阀值f赋值为28dB,***预设声韵修正系数k赋值为0.13。
5.一种缓差对齐的语音合成矫正的方法,其特征包含的步骤及要素:根据权利要求1-5的技术方法,获得经过声韵语调修正过的目标克隆语音,其构成是一组被矫正运算过的音素、语音片段单元,其内容为新值的:y=( , , ,…..);则每个相邻的音素或语音片段单元就需要进行缓冲对齐的矫正,取任意两个相邻音素或语音片段单元进行矫正运算;
分别将音素或语音片段单元进行分帧;
优选地,将帧长设定为12ms;
通过分帧,并通过权利要求1-5的技术方法所述的技术方法分别获得两组序列语音帧的声音强度组对应为c=( , , ,…..)、对应根为d=(,, ,…..),分别将、根据时间轴上的分布找到重新开始时段设定,根据时长参数分别获得相应的时间段1至h、1至的语音帧;
α=INT(音素时长/帧时长*η);
β=INT(音素时长/帧时长*η);
η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正;
优选地,η赋值为0.085;
音素的临界合成点声音强度L设定为:
L为临界合成点声音强度;
以变量i对音素中的帧从1开始编号,将音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式:
以变量i对音素中的帧从1开始编号,将音素中从第一帧开始到第β个帧结束修正声音强度的公式:
通过以上所述及公示6、7、8,就可以完成相邻音素或语音片段单元的语音合成对声音强度的矫正,通过循环依次将所有相邻的音素或语音片段单元进行同样的矫正合成,完成目标克隆语音整体的合成矫正,得到声调和谐自然的克隆语音的效果。
CN201910420416.1A 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法 Active CN110136687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910420416.1A CN110136687B (zh) 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910420416.1A CN110136687B (zh) 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法

Publications (2)

Publication Number Publication Date
CN110136687A true CN110136687A (zh) 2019-08-16
CN110136687B CN110136687B (zh) 2021-06-15

Family

ID=67571554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910420416.1A Active CN110136687B (zh) 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法

Country Status (1)

Country Link
CN (1) CN110136687B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503956A (zh) * 2019-09-17 2019-11-26 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备
CN110889987A (zh) * 2019-12-16 2020-03-17 安徽必果科技有限公司 一种用于英语口语矫正的智能点评方法
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111696521A (zh) * 2019-12-18 2020-09-22 新加坡依图有限责任公司(私有) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及***
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成***及方法
CN113160794A (zh) * 2021-04-30 2021-07-23 京东数字科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230410A1 (en) * 2003-05-13 2004-11-18 Harless William G. Method and system for simulated interactive conversation
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN1954361A (zh) * 2004-05-11 2007-04-25 松下电器产业株式会社 声音合成装置和方法
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
CN101606190A (zh) * 2007-02-19 2009-12-16 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及***
CN109493846A (zh) * 2018-11-18 2019-03-19 深圳市声希科技有限公司 一种英语口音识别***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230410A1 (en) * 2003-05-13 2004-11-18 Harless William G. Method and system for simulated interactive conversation
CN1954361A (zh) * 2004-05-11 2007-04-25 松下电器产业株式会社 声音合成装置和方法
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101606190A (zh) * 2007-02-19 2009-12-16 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及***
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN109493846A (zh) * 2018-11-18 2019-03-19 深圳市声希科技有限公司 一种英语口音识别***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503956A (zh) * 2019-09-17 2019-11-26 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备
CN110503956B (zh) * 2019-09-17 2023-05-12 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备
CN110889987A (zh) * 2019-12-16 2020-03-17 安徽必果科技有限公司 一种用于英语口语矫正的智能点评方法
CN111696521A (zh) * 2019-12-18 2020-09-22 新加坡依图有限责任公司(私有) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN111696521B (zh) * 2019-12-18 2023-08-08 新加坡依图有限责任公司(私有) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成***及方法
CN112786026B (zh) * 2019-12-31 2024-05-07 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成***及方法
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及***
CN113160794A (zh) * 2021-04-30 2021-07-23 京东数字科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备
CN113160794B (zh) * 2021-04-30 2022-12-27 京东科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备

Also Published As

Publication number Publication date
CN110136687B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110136687A (zh) 一种基于语音训练克隆口音及声韵方法
CN105845125B (zh) 语音合成方法和语音合成装置
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
US20020143542A1 (en) Training of text-to-speech systems
CN109741732A (zh) 命名实体识别方法、命名实体识别装置、设备及介质
US20050171778A1 (en) Voice synthesizer, voice synthesizing method, and voice synthesizing system
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
EP2462586B1 (en) A method of speech synthesis
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
CN111613224A (zh) 一种个性化语音合成方法及装置
Pravena et al. Development of simulated emotion speech database for excitation source analysis
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
Baljekar Speech synthesis from found data
CN109378015B (zh) 一种语音学习***及方法
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
US10643600B1 (en) Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus
JP4744338B2 (ja) 合成音声生成装置
CN115910032A (zh) 音素对齐模型训练方法、计算机设备及计算机存储介质
Krug et al. Articulatory synthesis for data augmentation in phoneme recognition
Mustafa et al. Developing an HMM-based speech synthesis system for Malay: a comparison of iterative and isolated unit training
Mortensen et al. Tusom2021: A phonetically transcribed speech dataset from an endangered language for universal phone recognition experiments
US9905218B2 (en) Method and apparatus for exemplary diphone synthesizer
Kessens et al. On automatic phonetic transcription quality: lower word error rates do not guarantee better transcriptions
JP4580317B2 (ja) 音声合成装置および音声合成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant