CN107507619B - 语音转换方法、装置、电子设备及可读存储介质 - Google Patents
语音转换方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN107507619B CN107507619B CN201710812770.XA CN201710812770A CN107507619B CN 107507619 B CN107507619 B CN 107507619B CN 201710812770 A CN201710812770 A CN 201710812770A CN 107507619 B CN107507619 B CN 107507619B
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- frame unit
- converted
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元;提取每个所述待转换帧单元的梅尔倒谱特征;根据音素字典及每个待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到目标帧单元;计算转换代价,得到最佳路径;对最佳路径上的目标帧单元进行处理,得到目标语音。该方法在音素字典中计算得到多个候选帧单元,相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度,同时将传统的单帧的计算改进为多帧的计算,极大地改善了合成语音不连续,音质较差的技术问题。
Description
技术领域
本发明涉及语音信息处理技术领域,具体而言,涉及一种语音转换方法、装置、电子设备及可读存储介质。
背景技术
语音合成技术经过将近半个世纪的发展,已经取得了***的成果,在人工智能等领域发挥着极其重要的作用。其中,TTS(Text-to-Speech,又称文语转换)是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术,但是TTS合成的语音一般存在以下两方面的问题:一是音色局限于少量的播音员样本,无法满足个性化的需求;而是韵律不自然,合成痕迹明显。
音色转换(又称语音转换)是在不改变语音内容的前提下,将当前说话人音色直接转换为输出说话人音色的技术,优点在于韵律自然,个性化音色保持较好。目前,基于语音特征字典查找的语音转换方法是非参数语音转换技术中主流的方法,该方法的思路如下:①提取原始语音库和目标语音库特征,建立特征字典,进行平行训练获取映射规则;②提取待转换语音特征向量,根据映射规则,在目标特征字典中为每一个特征向量寻找K近邻目标特征向量;③计算目标代价和连接代价,采用维特比算法在K近邻特征矩阵中搜索最优路径;④连接选中目标的语音特征向量,并转换为语音。该方法的不足在于,每次K近邻特征向量查找需要遍历整个目标特征字典,计算速度慢,对***性能要求很高。同时,在计算连接代价时以单帧为单元,没有考虑语音帧间的平滑特性,导致语音瞬时信息的缺失,造成合成语音不连续,极大地影响了语音音质。
发明内容
为了克服现有技术中的上述不足,本发明所要解决的技术问题是提供一种语音转换方法、装置、电子设备及可读存储介质,其能够在保证合成语音连续的前提下,确保频谱细节不被丢失。
本发明第一方面的目的在于提供一种语音转换方法,所述方法包括:
基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧;
提取每个所述待转换帧单元的梅尔倒谱特征;
根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;
根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元;
计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;
对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。
可选地,所述方法还包括对语音数据进行预处理;
所述对语音数据进行预处理的步骤包括:
采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典;
建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系;
将原始语音特征字典按照已标注的音素信息进行归类得到音素字典;
提取原始语音与目标语音的基频特征,计算基频均值及基频方差;
根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。
本发明第二方面的目的在于提供一种语音转换装置,所述装置包括:
切分模块,用于基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧;
提取模块,用于提取每个所述待转换帧单元的梅尔倒谱特征;
计算模块,用于根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;
匹配模块,用于根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元;
所述计算模块,还用于计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;
处理模块,用于对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。
可选地,所述装置还包括:预处理模块;
所述预处理模块对语音数据进行预处理的方式包括:
采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典;
建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系;
将原始语音特征字典按照已标注的音素信息进行归类得到音素字典;
提取原始语音与目标语音的基频特征,计算基频均值及基频方差;
根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。
本发明第三方面的目的在于提供一种电子设备,所述电子设备包括:处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行本发明第一方面所述的语音转换方法。
本发明第四方面的目的在于提供一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在电子设备执行本发明第一方面所述的语音转换方法。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元;提取每个所述待转换帧单元的梅尔倒谱特征;根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元;计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。所述方法在待转换说话人的音素字典中计算得到多个候选帧单元,相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度,同时将传统的单帧的计算改进为多帧的计算,极大地改善了合成语音不连续,音质较差的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的电子设备的方框示意图。
图2是本发明第一实施例提供的语音转换方法的一种步骤流程图。
图3是本发明第一实施例提供的语音转换方法的另一种步骤流程图。
图4是图3中步骤S170的子步骤流程图。
图5是帧单元结构示意图。
图6是将帧单元同时添加到对应的多个语音音素集合的示意图。
图7是本发明实施例提供的维特比路径搜索的示意图。
图8是图1或图3中步骤S160的子步骤流程图。
图9是本发明第二实施例提供的语音转换装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参照图1,是本发明较佳实施例提供的一种电子设备100的方框示意图。所述电子设备100可以包括语音转换装置300、存储器111、存储控制器112及处理器113。
所述存储器111、存储控制器112及处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述语音转换装置300可以包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述电子设备100的操作***(operatingsystem,OS)中的软件功能模块。所述处理器113用于执行所述存储器111中存储的可执行模块,例如所述语音转换装置300所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序。所述处理器113以及其他可能的组件对存储器111的访问可在所述存储控制器112的控制下进行。
所述处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
第一实施例
请参照图2,图2是本发明较佳实施例提供的语音转换方法的步骤流程图。所述方法应用于上面描述的电子设备100,下面对语音转换方法的步骤做具体的描述。
步骤S110,基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元。
在本实施例中,可以通过标注的方式选择需要进行语音转换的语音范围,可选地,可以调用自动语音标注工具进行标注的方式从待转换说话人的语音中选择待转换语音。
在获得标注的待转换语音后,采用预设切分规则对待转换语音进行切分,使得切分后的每个帧单元包括多个连续语音帧。
步骤S120,提取每个所述待转换帧单元的梅尔倒谱特征。
在本实施例中,步骤S120包括:
对所述待转换帧单元进行时频域变化得到每一待转换帧单元的频谱信息。
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
步骤S130,根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元。
所述步骤S130可以包括以下子步骤。
由每个所述待转换帧单元的梅尔倒谱特征构成每个所述待转换帧单元的特征向量。
计算各个待转换帧单元的特征向量与音素字典中各帧单元的特征向量之间的欧式距离并进行排序。
采用K近邻算法从所述音素字典中筛选出各个待转换帧单元对应的多个候选帧单元。
其中,所述K近邻算法是一种分类算法,K近邻算法是将在一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别时,也将该样本归类到这个类别的算法。
步骤S140,根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元。
请参照图3,在本实施例中,所述方法还包括步骤S170。
步骤S170,对语音数据进行预处理。
对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行平行训练,以建立待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系及待转换说话人与目标音色说话人之间基频的映射关系。在该过程中由于是对原始语音和目标语音进行平行训练,要求原始语音和目标语音内容逐条对应,内容一致。
请参照图4,在本实施例中,步骤S170包括以下子步骤。
子步骤S171,采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元。
在本实施例中,为了建立原始语音与目标语音之间的映射关系,需要进行平行训练,即原始语音库与目标语音库内容一致,且时长足够,为了保证音色转换的效果,要求包含足够的所有的语素信息。
请参照图5,在本实施例中,考虑到帧单元之间的平滑连接和语音的瞬时信息,本方案选取连续的奇数帧(q=2p+1)为一个帧单元,其中心帧为第p+1帧,前后各p帧,相邻两个帧单元之间重叠2p帧。可以理解的是,子步骤S171中采用了预设切分规则和步骤S110中预设切分规则相同。
对于原始语音,帧序列可以表示为X=[x(1),x(2),x(3),...,x(n),...,x(N)],第n个单元可以表示为x(n)=[xn-p,xn-p+1,...,xn,...,xn+p+1,xn+p],其中xn表示帧序列中的第n帧。同理,对目标语音也可以做相同的单元划分操作。
子步骤S172,提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典。
在本实施例中,经快速傅里叶变换之后得到每一帧频谱信息,通过梅尔滤波器组提取梅尔倒谱特征。通过提取的梅尔倒谱特征构建原始语音特征字典及目标语音特征字典。
子步骤S173,建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系。
在本实施例中,采用DTW(Dynamic Time Warping,动态时间归整)算法,建立原始语音帧与目标语音帧之间的对应关系。所述原始语音与目标语音之间的对应关系可以表示为:Z=[z1,z2,...,zl,...zL],其中为原始语音的帧单元与目标语音的帧单元的配对。上述对应关系的建立为音色转换阶段的通过原始语音的帧单元查找目标语音的帧单元提供基础。
子步骤S174,将原始语音特征字典按照已标注的音素信息进行归类得到音素字典。
在本实施例中,预先对原始语音中各条语音音素信息进行标注,根据各个原始语音的帧单元在原始语音中的位置,将各个原始语音的帧单元归类到各个音素字典中。请参照图6,由于帧单元包含多个连续帧,因此可能出现一个帧单元跨越两个(或两个以上)语音音素集合的情况,为了保证转换的质量,将该帧单元同时添加到对应的至少一个音素字典中。
归类的方式得到音素字典,基于音素字典计算得到多个候选帧单元的方式,相对于现有技术从整个技术特征字典中查找能节省计算资源,提高计算速度。
子步骤S175,提取原始语音与目标语音的基频特征,计算基频均值及基频方差。
子步骤S176,根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。
在本实施例中,浊音的激励是周期性的脉冲串,脉冲串的频率就是基音频率,因此基频也是语音的重要特征,基频提取的准确性直接影响合成语音的个性化音色的保持,以及节奏韵律。在统计学上,可以将统计特征(均值,方差)不同的两个相同的分布(如正态分布等)进行相互转换。因此,将原始语音和目标语音基频特征视为服从正态分布,计算基频均值和基频方差,就可以建立原始语音和目标语音之间基频的映射关系。建立原始语音和目标语音之间基频的映射关系以便在后续语音转换阶段通过待转换语音获得目标语音的基频特征。
步骤S150,计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径。
在本实施例中,步骤S150通过以下方式得到待转换语音转换为目标音色说话人语音的最佳路径。
计算待转换帧单元与目标帧单元之间的目标代价,及相邻时刻的目标帧单元之间的转移代价。
根据计算得到的目标代价及转移代价采用维特比算法搜索得到最佳路径。
可选地,利用欧式距离计算得到待转换帧单元与目标帧单元之间的目标代价,及相邻时刻的目标帧单元之间的转移代价。维特比算法搜索相当于一个带权重的有向无环图的最小代价路径的搜索过程。
所述目标代价的计算公式可以如下:
其中,可以表示为带权重的有向无环图中各结点的自身权重,可以理解为本实施例中的目标代价。描述了待转换帧单元X(t)与目标帧单元之间的相似程度,权重越小表示两者越相似。其中X(t)(i,d)和Yk'(t)(i,d)表示t时刻单元中第i帧的第d维数据。
在带权重的有向无环图中结点之间的转移权重即为连接代价,
描述了t时刻目标帧单元与(t+1)与t+1目标帧单元的相似程度,权重越小表示两者越相似,过渡越平滑。根据以上原则,就可以在目标帧单元矩阵中搜索的到最优路径。请参照图7,路径(由图4中带箭头线组成)上的每一个结点即为每一个时刻上的最优选择。
步骤S160,对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。
在本实施例中,请参照图8,所述步骤S160可以包括以下子步骤。
子步骤S161,根据所述原始语音的帧单元与目标语音的帧单元之间的对应关系,获得待转换帧单元对应的目标帧单元的梅尔倒谱特征。
子步骤S162,对所述最佳路径上的各个目标帧单元的梅尔倒谱特征,按照时间顺序和预设的切分规则进行平滑连接处理。
在本实施例中,由于相邻目标帧单元之间有2p帧的帧叠,连接成特征矩阵时,需要加瞬时窗平滑来保证语音听觉上的连续性。对于每一个目标帧单元,进行如下操作。
即对目标帧单元中每一帧乘以一个权重系数,在本实施例中用指数函数表示瞬时窗w,公式表示如下,
w=exp(-λ|a|),a=[p,p-1,...,0,...,p-1,p]
其中,λ为标量值,用于调节瞬时窗w形状。λ越大,越凸显中心帧信息,削弱相邻帧的瞬时信息;反之,λ越小,越兼顾相邻帧瞬时信息,削弱中心帧信息,因此选择合适的λ可以同时兼顾二者。在加窗之前,需要归一化瞬时窗各元素,使其和值为1。
子步骤S163,根据待转换说话人与目标音色说话人之间基频的映射关系,获得待转换帧单元对应的目标帧单元的基频特征。
将待转换语音的语音基频序列与对应的目标音色说话人的目标语音的基频均值相减,所得的差值与目标语音的基频方差和待转换语音的基频方差之商相乘,相乘得到的乘积与目标语音的基频均值相加即得到目标语音的基频序列。目标语音的基频序列的计算公式可以为:
子步骤S164,将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱。
在本实施例中,可选地调用STRAIGHT工具包将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱。
子步骤S165,将目标语音的频谱进行频时域转换得到目标音色说话人的目标语音。
在本实施例中,采用傅里叶逆变换将目标语音的频谱转换为目标音色说话人的目标语音。
第二实施例
请参照图9,图9为本发明较佳实施例提供的语音转换装置300的结构框图。所述语音转换装置300包括:切分模块310、提取模块320、计算模块330、匹配模块340及处理模块350。
所述切分模块310用于基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧。
所述提取模块320用于提取每个所述待转换帧单元的梅尔倒谱特征。
在本实施例中,所述提取模块320提取所述待转换帧单元的梅尔倒谱特征的方式包括:
对所述待转换帧单元进行时频域变化得到每一帧单元的频谱信息;
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
所述计算模块330用于根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元。
在本实施例中,所述计算模块330根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元的方式包括:
由每个所述待转换帧单元的梅尔倒谱特征构成每个所述待转换帧单元的特征向量;
计算各个待转换帧单元的特征向量与音素字典中各帧单元的特征向量之间的欧式距离并进行排序;
采用K近邻算法从所述音素字典中筛选出各个待转换帧单元对应的多个候选帧单元。
所述匹配模块340用于根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元。
所述计算模块330还用于计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径。
在本实施例中,所述计算模块330计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径的方式包括:
计算待转换帧单元与目标帧单元之间的目标代价,及相邻时刻的目标帧单元之间的转移代价;
根据计算得到的目标代价及转移代价采用维特比算法搜索得到最佳路径。
所述处理模块350用于对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。
在本实施例中,所述处理模块350对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音的方式包括:
根据所述原始语音的帧单元与目标语音的帧单元之间的对应关系,获得待转换帧单元对应的目标帧单元的梅尔倒谱特征;
对所述最佳路径上的各个目标帧单元的梅尔倒谱特征,按照时间顺序和预设的切分规则进行平滑连接处理;
根据待转换说话人与目标音色说话人之间基频的映射关系,获得待转换帧单元对应的目标帧单元的基频特征;
将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱;
将目标语音的频谱进行频时域转换得到目标音色说话人的目标语音。
请再次参照图9,在本实施例中,所述语音转换装置300还包括:预处理模块360。
所述预处理模块360对语音数据进行预处理的方式包括:
采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典;
建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系;
将原始语音特征字典按照已标注的音素信息进行归类得到音素字典;
提取原始语音与目标语音的基频特征,计算基频均值及基频方差;
根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。
本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元;提取每个所述待转换帧单元的梅尔倒谱特征;根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元;计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。所述方法在待转换说话人的音素字典中计算得到多个候选帧单元,相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度,同时考虑到帧间平滑和语音的瞬时信息,将传统的单帧的计算改进为包含多帧的单元的计算,并在连接单元时做了加窗平滑处理,将传统的单帧的计算改进为多帧的计算,极大地改善了合成语音不连续,音质较差的技术问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音转换方法,其特征在于,所述方法包括:
基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧;
提取每个所述待转换帧单元的梅尔倒谱特征;
由每个所述待转换帧单元的梅尔倒谱特征构成每个所述待转换帧单元的特征向量;
计算各个待转换帧单元的特征向量与音素字典中各帧单元的特征向量之间的欧式距离并进行排序;
采用K近邻算法从所述音素字典中筛选出各个待转换帧单元对应的多个候选帧单元;
根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元,其中,所述预先得到的待转换说话人的帧单元由所述预设切分规则对待转换说话人对应的原始语音库中的原始语音进行切分得到;
计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;
对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:对语音数据进行预处理的步骤,该步骤包括:
采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典;
建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系;
将原始语音特征字典按照已标注的音素信息进行归类得到音素字典;
提取原始语音与目标语音的基频特征,计算基频均值及基频方差;
根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。
3.根据权利要求2所述的方法,其特征在于,所述计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径的步骤包括:
计算待转换帧单元与目标帧单元之间的目标代价,及相邻时刻的目标帧单元之间的转移代价;
根据计算得到的目标代价及转移代价采用维特比算法搜索得到最佳路径。
4.根据权利要求2所述的方法,其特征在于,所述对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音的步骤包括:
根据所述原始语音的帧单元与目标语音的帧单元之间的对应关系,获得待转换帧单元对应的目标帧单元的梅尔倒谱特征;
对所述最佳路径上的各个目标帧单元的梅尔倒谱特征,按照时间顺序和预设的切分规则进行平滑连接处理;
根据待转换说话人与目标音色说话人之间基频的映射关系,获得待转换帧单元对应的目标帧单元的基频特征;
将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱;
将目标语音的频谱进行频时域转换得到目标音色说话人的目标语音。
5.一种语音转换装置,其特征在于,所述装置包括:
切分模块,用于基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧;
提取模块,用于提取每个所述待转换帧单元的梅尔倒谱特征;
计算模块,用于由每个所述待转换帧单元的梅尔倒谱特征构成每个所述待转换帧单元的特征向量;
计算各个待转换帧单元的特征向量与音素字典中各帧单元的特征向量之间的欧式距离并进行排序;
采用K近邻算法从所述音素字典中筛选出各个待转换帧单元对应的多个候选帧单元;
匹配模块,用于根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元,其中,所述预先得到的待转换说话人的帧单元由所述预设切分规则对待转换说话人对应的原始语音库中的原始语音进行切分得到;
所述计算模块,还用于计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;
处理模块,用于对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。
6.如权利要求5所述的语音转换装置,其特征在于,所述装置还包括:预处理模块;
所述预处理模块对语音数据进行预处理的方式包括:
采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典;
建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系;
将原始语音特征字典按照已标注的音素信息进行归类得到音素字典;
提取原始语音与目标语音的基频特征,计算基频均值及基频方差;
根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。
7.如权利要求6所述的语音转换装置,其特征在于,所述计算模块计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径的方式包括:
计算待转换帧单元与目标帧单元之间的目标代价,及相邻时刻的目标帧单元之间的转移代价;
根据计算得到的目标代价及转移代价采用维特比算法搜索得到最佳路径。
8.如权利要求6所述的语音转换装置,其特征在于,所述处理模块对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音的方式包括:
根据所述原始语音的帧单元与目标语音的帧单元之间的对应关系,获得待转换帧单元对应的目标帧单元的梅尔倒谱特征;
对所述最佳路径上的各个目标帧单元的梅尔倒谱特征,按照时间顺序和预设的切分规则进行平滑连接处理;
根据待转换说话人与目标音色说话人之间基频的映射关系,获得待转换帧单元对应的目标帧单元的基频特征;
将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱;
将目标语音的频谱进行频时域转换得到目标音色说话人的目标语音。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行权利要求1-4中任意一项所述的语音转换方法。
10.一种可读存储介质,所述可读存储介质包括计算机程序,其特征在于:所述计算机程序运行时控制所述可读存储介质所在电子设备执行权利要求1-4中任意一项所述的语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710812770.XA CN107507619B (zh) | 2017-09-11 | 2017-09-11 | 语音转换方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710812770.XA CN107507619B (zh) | 2017-09-11 | 2017-09-11 | 语音转换方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107507619A CN107507619A (zh) | 2017-12-22 |
CN107507619B true CN107507619B (zh) | 2021-08-20 |
Family
ID=60695368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710812770.XA Active CN107507619B (zh) | 2017-09-11 | 2017-09-11 | 语音转换方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107507619B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817197B (zh) * | 2019-03-04 | 2021-05-11 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN111048109A (zh) * | 2019-12-25 | 2020-04-21 | 广州酷狗计算机科技有限公司 | 声学特征的确定方法、装置、计算机设备及存储介质 |
CN111213205B (zh) * | 2019-12-30 | 2023-09-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN112562728B (zh) * | 2020-11-13 | 2024-06-18 | 百果园技术(新加坡)有限公司 | 生成对抗网络训练方法、音频风格迁移方法及装置 |
CN112614481A (zh) * | 2020-12-08 | 2021-04-06 | 浙江合众新能源汽车有限公司 | 一种汽车提示音的语音音色定制方法及*** |
CN112634920B (zh) * | 2020-12-18 | 2024-01-02 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN113345453B (zh) * | 2021-06-01 | 2023-06-16 | 平安科技(深圳)有限公司 | 歌声转换方法、装置、设备及存储介质 |
CN113782050A (zh) * | 2021-09-08 | 2021-12-10 | 浙江大华技术股份有限公司 | 声音变调方法、电子设备及存储介质 |
CN114582365B (zh) * | 2022-05-05 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 音频处理方法和装置、存储介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103531196A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种波形拼接语音合成的选音方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104575488A (zh) * | 2014-12-25 | 2015-04-29 | 北京时代瑞朗科技有限公司 | 一种基于文本信息的波形拼接语音合成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101399044B (zh) * | 2007-09-29 | 2013-09-04 | 纽奥斯通讯有限公司 | 语音转换方法和*** |
-
2017
- 2017-09-11 CN CN201710812770.XA patent/CN107507619B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103531196A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种波形拼接语音合成的选音方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104575488A (zh) * | 2014-12-25 | 2015-04-29 | 北京时代瑞朗科技有限公司 | 一种基于文本信息的波形拼接语音合成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107507619A (zh) | 2017-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107507619B (zh) | 语音转换方法、装置、电子设备及可读存储介质 | |
CN107705802B (zh) | 语音转换方法、装置、电子设备及可读存储介质 | |
US10891944B2 (en) | Adaptive and compensatory speech recognition methods and devices | |
Kameoka et al. | ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion | |
CN106683677B (zh) | 语音识别方法及装置 | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
US11810546B2 (en) | Sample generation method and apparatus | |
US11049491B2 (en) | System and method for prosodically modified unit selection databases | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、***、设备及介质 | |
US20230169953A1 (en) | Phrase-based end-to-end text-to-speech (tts) synthesis | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
US20240161727A1 (en) | Training method for speech synthesis model and speech synthesis method and related apparatuses | |
US10079011B2 (en) | System and method for unit selection text-to-speech using a modified Viterbi approach | |
Marxer et al. | Low-latency instrument separation in polyphonic audio using timbre models | |
Deng et al. | Automatic Chord estimation on seventhsbass Chord vocabulary using deep neural network | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
CN113314101B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
Patil et al. | Hidden-Markov-model based statistical parametric speech synthesis for Marathi with optimal number of hidden states | |
US20080147385A1 (en) | Memory-efficient method for high-quality codebook based voice conversion | |
CN112786017B (zh) | 语速检测模型的训练方法及装置、语速检测方法及装置 | |
CN112885380B (zh) | 一种清浊音检测方法、装置、设备及介质 | |
Yarra et al. | A frame selective dynamic programming approach for noise robust pitch estimation | |
Park et al. | Discriminative weight training for unit-selection based speech synthesis. | |
CN117975931A (zh) | 语音合成方法、电子设备以及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |