CN111108558B - 语音转换方法、装置、计算机设备及计算机可读存储介质 - Google Patents

语音转换方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111108558B
CN111108558B CN201980003120.8A CN201980003120A CN111108558B CN 111108558 B CN111108558 B CN 111108558B CN 201980003120 A CN201980003120 A CN 201980003120A CN 111108558 B CN111108558 B CN 111108558B
Authority
CN
China
Prior art keywords
target
feature
voice
converted
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980003120.8A
Other languages
English (en)
Other versions
CN111108558A (zh
Inventor
刘洋
李柏
丁万
黄东延
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youbixuan Intelligent Robot Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Publication of CN111108558A publication Critical patent/CN111108558A/zh
Application granted granted Critical
Publication of CN111108558B publication Critical patent/CN111108558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音转换方法、装置、计算机设备及计算机可读存储介质。本发明中语音转换方法包括:获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;对所述待转换语音进行特征提取,得到待转换特征;将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。该语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。

Description

语音转换方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明涉及音频处理技术领域,尤其涉及一种语音转换方法、装置、计算机设备及计算机可读存储介质。
背景技术
语音转换技术是一种保持语义内容不变的情况下,将源语音转换为目标语音的技术,其中,源语音为第一人声发出的语音,目标语音为第二人声发出的语音,也即将第一人声发出的源语音通过语音转换技术,转换为语义相同的第二人声发出的目标语音。
随着深度神经网络技术的快速发展,基于深度学习的语音转换方法转换的语音相似度高且语音质量好、流畅度好。目前基于深度学习的语音转换方法主要包括两个步骤,首先用大量的语音数据训练转换模型,再用训练好的模型来进行语音转换。因为训练对计算资源要求很高,离线端的资源很少,性能很低,用来做训练容易出现资源耗尽的情况,即使能够训练,效率也很低,时间成本太高,难以使用。因此,目前基于深度学习的语音转换功能要依托在线的高性能的服务器才能够实现,离线状态下无法使用。
发明内容
基于此,有必要针对上述问题,提出了一种离线状态下仍能够进行高质量语音转换的语音转换方法、装置、计算机设备及存储介质。
一种语音转换方法,所述方法包括:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
一种语音转换的装置,所述装置包括:
获取模块,用于获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
格式转换模块,用于将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
特征提取模块,用于对所述待转换语音进行特征提取,得到待转换特征;
特征转换模块,用于将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
结果模块,用于根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
采用本发明实施例,具有如下有益效果:
上述语音转换方法、装置、计算机设备及计算机可读存储介质,通过获取待转换语音和原始转换模型,由于原始转换模型无法在离线状态下工作,因此提取待转换语音的特征得到待转换特征,将原始转换模型的格式转换为离线格式后,根据待转换特征和离线格式的目标转换模型可以得到目标特征,然后根据目标特征得到目标语音。这种语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中语音转换方法的应用环境图;
图2为一个实施例中语音转换方法的流程图;
图3为一个实施例中语音转换方法的流程图;
图4为一个实施例中对待转换语音进行分段处理示意图;
图5为一个实施例中语音转换装置的结构框图;
图6为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中语音转换方法应用环境图。如图1所示,该语音转换方法应用于语音转换***。该语音转换***包括终端,终端具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。终端包括话筒、转换单元和播放器,话筒用于获取待转换语音,转换单元用于将待转换语音转换成与待转换语音语音内容相同但声音不同的目标语音,播放器用于播放目标语音。
如图2所示,在一个实施例中,提供了一种语音转换方法。该方法既可以应用于终端,也可以应用于服务器,还可以应用于其他语音转换装置中。本实施例以应用于语音转换装置举例说明。在离线状态下,语音转换装置获取待转换语音后,通过下述语音转换方法,可以得到与待转换语音语音内容相同且声音不同的目标语音。该语音转换方法具体包括如下步骤:
步骤202:获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式。
其中,待转换语音是指以待转换人声发出且待转换为目标人声发出的声音。
其中,在线格式是指仅在网络连接的状态下方可打开或正常工作的文件的保存格式。
其中,原始转换模型是指输入为待转换语音的待转换特征,输出为目标语音的目标特征的模型,用于在网络连接的状态下,根据待转换语音的待转换特征获取目标语音的目标特征。
步骤204:将所述原始转换模型进行格式转换,得到离线格式的目标转换模型。
其中,离线格式是指与网络断开连接的状态下仍可打开或正常工作的文件的保存格式。
其中,目标转换模型用于在网络断开连接的状态下,根据待转换语音的待转换特征可以得到目标语音的目标特征。
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型。示例性的,原始转换模型是由TensorFlow(谷歌开发的机器学习库,采用python语言)框架训练出来的模型文件,原始转换模型的保存格式为在线格式CheckPoint(简写ckpt),可以将其保存格式转换为离线格式JetSoft Shield Now(简写jsn),以得到目标转换模型。ckpt格式的原始转换模型记录的信息比较多,比如训练原始转换模型时用到的一些参数、数据,在离线状态下语音转换的过程不需要这部分数据,因此在将原始转换模型的保存格式转换成jsn格式时会去掉多余的数据,这相当于对模型文件进行了简化和压缩,可以提高离线状态下的运行速度,进而提高语音转换的速度,实现语音的实时转换。
步骤206:对所述待转换语音进行特征提取,得到待转换特征。
其中,待转换特征用于输入目标转换模型以获取所述待转换语音对应的目标特征。
根据所述待转换语音得到所述待转换语音的频谱特征,如所述待转换语音的梅尔频谱,提取所述转换语音的特征,根据这些特征确定所述待转换语音的待转换特征。
步骤208:将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征。
其中,目标特征用于获取与待转换语音语音内容相同且声音不同的目标语音。
在离线状态下,当所述目标转换模型处于运行状态时,将所述待转换特征输入到所述目标转换模型,所述目标转换模型直接输出与所述待转换特征对应的目标特征。
步骤210:根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
其中,目标语音是指目标人声发出的语音内容与所述待转换语音相同,声音与所述待转换语音不同的语音。
根据目标特征可以得到目标语音的基频、频谱包络和非周期性等特征,确定目标语音的梅尔频谱,根据目标语音的梅尔频谱可以得到目标语音。示例性的,待转换特征为二进制化的130维的序列化数据,输入目标转换模型得到的目标特征也为130维的序列化数据,经过反归一化得到目标语音的lf0、mgc、bap特征数据,再用SPTK将其转换为f0、sp、ap特征,由目标语音的f0、sp、ap可以确定目标语音的梅尔频谱,由目标语音的梅尔频谱可以获取目标语音。
上述语音转换方法,通过获取待转换语音和原始转换模型,由于原始转换模型无法在离线状态下工作,因此提取待转换语音的特征得到待转换特征,将原始转换模型的格式转换为离线格式后,根据待转换特征和离线格式的目标转换模型可以得到目标特征,然后根据目标特征得到目标语音。这种语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。
在一个实施例中,步骤206对所述待转换语音进行特征提取,得到待转换特征,包括:对所述待转换语音进行周期特征提取和非周期特征提取,得到所述待转换语音对应的周期特征和非周期特征,所述周期特征包括基频和频谱包络;根据所述周期特征和所述非周期特征得到待转换特征。
由于人说话时声道中存在多个产生声学能量的声源,其中非周期声源包括在唇、齿、喉、声道等处产生的送气声、摩擦声、***声,而周期声源则是在声门处由声带振动产生,因此待转换语音中包括周期成分和非周期成分,相应的待转换语音的频谱特征中包括周期性特征和非周期特征。在本实施例中,以待转换语音的梅尔频谱为频谱特征进行说明。
其中,基频(Fundamental Frequency,f0)是指一组正弦波组成原始信号,频率最低的正弦波为基频,其他为泛音。频谱包络(spectral envelope,sp)是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线。非周期序列(aperiodic parameter,ap)是指语音的非周期信号参数。
其中,周期特征是指待转换语音的梅尔频谱中的基频和频谱包络。
其中,非周期特征是指待转换语音的梅尔频谱中的非周期序列。
根据所述周期特征和所述非周期特征,可以通过处理可以得到作为目标转换模型的输入的特征数据,该特征数据为待转换特征。示例性的,根据所述周期特征和所述非周期特征,得到一组特征数据,将特征数据进行计算和格式转换得到待转换特征。
在一个实施例中,根据所述周期特征和所述非周期特征得到待转换特征,包括:根据所述周期特征和所述非周期特征得到目标维度特征,所述目标维度特征的维度高于所述周期特征和所述非周期特征的维度的和;对所述目标维度特征进行格式转换,得到所述待转换特征。
其中,目标维度特征是指根据所述周期特征和所述非周期特征得到的维度高于所述周期特征和所述非周期特征的维度的好的特征。将低维的所述周期特征和所述非周期特征映射得到高维的目标维度特征,可以提高合成语音的质量。
示例性的,根据所述待转换语音的梅尔频谱得到所述周期特征f0和sp,所述非周期特征ap,用语音信号处理工具包(Speech Signal Processing Toolkit,SPTK)对三个特征进行处理得到1维的lF0(对F0取对数),41维的mgc和1维的波段非周期性(bandaperiodicity,bap),根据lf0计算1维的是否发音(voice,un voice,简写为vuv)数据,对lf0、mgc、bap分别求一阶导数和二阶导数,各得到1×2、41×2、1×2维数据。最后对数据vuv,lf0及其导数,mgc及其导数,bap及其导数进行归一化处理,得到总计为130维的序列化数据。将该130维的序列化数据作为目标维度特征。
将目标维度特征进行格式转换,以使其满足目标转换模型的输入的格式要求,经格式转换得到的特征数据即为所述待转换特征。示例性的,当所述目标转换模型的输入的格式要求为二进制数据,则对所述目标维度特征进行二进制转换,得到的二进制数据即为所述待转换特征。
在一个实施例中,所述目标转换模型基于计算机统一设备架构递归神经网络工具包框架(Computed Unified Device Architecture RecurREnt Neural Network Toolkit,CURRENNT)运行。
其中,CURRENNT是一种深度并行神经网络(Recurrent Neural Network,RNN)的开源并行实现,它通过英伟达的计算机统一设备架构(Computed Unified DeviceArchitecture,CUDA)支持图形处理单元(Graphics Processing Unit,GPU)。CURRENNT支持带有长短期记忆(Long Short-Term Memory,LSTM)存储单元的单向和双向RNN,从而克服了梯度消失的问题。
将所述目标转换模型置于CURRENNT中,所述目标转换模型处于运行状态,此时将所述待转换特征放入同一CURRENNT中,所述待转换特征将输入所述目标转换模型,所述目标转换模型输出与所述待转换特征对应的目标特征。
如图3所示,在一个实施例中,所述方法还包括:
步骤306:对所述待转换语音进行分段处理,得到多个分段语音。
由于离线设备的计算资源有限,若所述待转换语音时长较长时,直接对待转换语音进行转换,运行速度慢,无法实现语音的实时转换。将所述待转换语音进行分段处理,得到多个分段语音,由于分段语音时长短,可以快速进行转换,从而可以大大提高运行速度。示例性的,所述待转换语音时长大于预设时长时,将所述待转换语音按照预设条件进行分段。如图4所示,将所述待转换语音41按照时长平均分成3段,得到3个分段语音42。
步骤308:对所述多个分段语音进行特征提取,得到多个分段特征。
其中,分段特征是指每个分段语音对应的待转换特征。
分别对每个分段语音进行特征提取,根据提取得到的特征得到每个分段语音对应的待转换特征,即得到每个分段语音的分段特征。
步骤310:将每个所述分段特征并行的输入所述目标转换模型,得到每个所述分段特征对应的目标分段特征。
其中,目标分段特征是指每个分段特征对应的目标特征。
得到多个分段特征后,调用中央处理器(central processing unit,CPU)的多个核同时转换多个分段特征,开启多个进程,每个进程都单独执行将分段特征输入到目标转换模型中,得到该分段特征对应的目标分段特征。将每个所述分段特征并行输入所述目标转换模型中,比每个所述分段特征依次进行转换速度要快很多,从而有利于实现语音的实时转换。
步骤312:根据每个所述分段特征对应的目标分段特征得到目标语音。
可以将每个所述分段特征对应的目标分段特征合成在得到目标特征,根据目标特征获得目标语音;还可以根据目标分段特征得到其对应的目标分段语音,将分段语音合成得到目标语音。示例性的,待转换语音被分段成5个分段语音,根据5个分段语音得到5个相应的分段特征,将5个相应的分段特征输入目标转换模型得到5个相应的目标分段特征,根据5个相应的目标分段特征得到5个相应的目标分段语音,将5个相应的目标分段语音合成可以得到目标语音。
在一个实施例中,多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征包括重叠特征,步骤312根据每个所述分段特征对应的目标分段特征得到目标语音,包括:根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音。
如图4所示,为了防止所述待转换语音41由于分段处理造成后续提取特征时存在误差或者丢失某些特征,可以在分段处理时,多个分段语音42中在时间上相邻的任意两个分段语音42包括重叠部分421。
其中,重叠特征是指多个分段语音42中在时间上相邻的任意两个分段语音42包括的重叠部分421经转换得到对应的目标特征。
将每个所述分段特征对应的目标分段特征合并在一起得到合并特征,根据所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征,对合并特征进行调整可以得到目标特征,再根据目标特征可以获取目标语音。示例性的,待转换语音被分段处理成2个分段语音,经过转换得到2个目标分段特征,目标分段特征I为(A+CA),目标分段特征II为(CB+B),标分段特征I和目标分段特征II的重叠特征为C,在得到目标特征过程中,可以保留目标分段特征I中重叠特征C的前1/2即CA前,保留目标分段特征II中重叠特征C的后1/2即CB后,目标特征为(A+CA前+CB后+B),根据目标特征获取目标语音。
在一个实施例中,根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音,包括:获取特征权重集,所述特征权重集包括第一特征权重和第二特征权重,所述第一特征权重和第二特征权重为在时间上相邻的任意两个目标分段特征中的重叠特征对应的权重;根据每个所述分段特征对应的目标分段特征、所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征以及所述特征权重集得到所述目标语音。
其中,特征权重集用于确定在时间上相邻的任意两个目标分段特征的重叠特征分别在这两个目标分段特征中的权重大小。
示例性的,待转换语音被分段处理成2个分段语音,经过转换得到2个目标分段特征,目标分段特征I为(A+CA),目标分段特征II为(CB+B),标分段特征I和目标分段特征II的重叠特征为C,特征权重集中第一特征权重为m,用于确定重叠特征C在目标分段特征I中的权重,第二特征权重为n,用于确定重叠特征C在目标分段特征II中的权重,待转换语音的目标特征为(A+m×CA+n×CB+B),根据目标特征获取目标语音。
如图5所示,在一个实施例中,提供了一种语音转换装置,该装置包括:
获取模块502,用于获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
格式转换模块504,用于将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
特征提取模块506,用于对所述待转换语音进行特征提取,得到待转换特征;
特征转换模块508,用于将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
结果模块510,用于根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
上述语音转换装置,通过获取待转换语音和原始转换模型,由于原始转换模型无法在离线状态下工作,因此提取待转换语音的特征得到待转换特征,将原始转换模型的格式转换为离线格式后,根据待转换特征和离线格式的目标转换模型可以得到目标特征,然后根据目标特征得到目标语音。这种语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。
在一个实施例中,所述特征提取模块506用于对所述待转换语音进行周期特征提取和非周期特征提取,得到所述待转换语音对应的周期特征和非周期特征,所述周期特征包括基频和频谱包络;根据所述周期特征和所述非周期特征得到待转换特征。
在一个实施例中,所述特征提取模块506具体用于根据所述周期特征和所述非周期特征得到目标维度特征,所述目标维度特征的维度高于所述周期特征和所述非周期特征的维度的和;对所述目标维度特征进行格式转换,得到所述待转换特征。
在一个实施例中,所述目标转换模型基于计算机统一设备架构递归神经网络工具包框架运行。
在一个实施例中,所述特征提取模块506用于对所述待转换语音进行分段处理,得到多个分段语音,对所述多个分段语音进行特征提取,得到多个分段特征;所述特征转换模块508用于将每个所述分段特征并行的输入所述目标转换模型,得到每个所述分段特征对应的目标分段特征;所述结果模块510用于根据每个所述分段特征对应的目标分段特征得到目标语音。
在一个实施例中,多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征包括重叠特征,所述结果模块510用于根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音。
在一个实施例中,所述结果模块510用于获取特征权重集,所述特征权重集包括第一特征权重和第二特征权重,所述第一特征权重和第二特征权重为在时间上相邻的任意两个目标分段特征中的重叠特征对应的权重;根据每个所述分段特征对应的目标分段特征、所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征以及所述特征权重集得到所述目标语音。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器,还可以语音转换装置。如图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语音转换方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语音转换方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
上述计算机设备,通过获取待转换语音和原始转换模型,由于原始转换模型无法在离线状态下工作,因此提取待转换语音的特征得到待转换特征,将原始转换模型的格式转换为离线格式后,根据待转换特征和离线格式的目标转换模型可以得到目标特征,然后根据目标特征得到目标语音。这种语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。
在一个实施例中,所述对所述待转换语音进行特征提取,得到待转换特征,包括:对所述待转换语音进行周期特征提取和非周期特征提取,得到所述待转换语音对应的周期特征和非周期特征,所述周期特征包括基频和频谱包络;根据所述周期特征和所述非周期特征得到待转换特征。
在一个实施例中,所述根据所述周期特征和所述非周期特征得到待转换特征,包括:根据所述周期特征和所述非周期特征得到目标维度特征,所述目标维度特征的维度高于所述周期特征和所述非周期特征的维度的和;对所述目标维度特征进行格式转换,得到所述待转换特征。
在一个实施例中,所述目标转换模型基于计算机统一设备架构递归神经网络工具包框架运行。
在一个实施例中,所述对所述待转换语音进行特征提取,得到待转换特征,包括:对所述待转换语音进行分段处理,得到多个分段语音;对所述多个分段语音进行特征提取,得到多个分段特征;所述将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征,包括:将每个所述分段特征并行的输入所述目标转换模型,得到每个所述分段特征对应的目标分段特征;所述根据所述目标转换模型输出的目标特征得到目标语音,包括:根据每个所述分段特征对应的目标分段特征得到目标语音。
在一个实施例中,多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征包括重叠特征;所述根据每个所述分段特征对应的目标分段特征得到目标语音,包括:根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音。
在一个实施例中,所述根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音,包括:获取特征权重集,所述特征权重集包括第一特征权重和第二特征权重,所述第一特征权重和第二特征权重为在时间上相邻的任意两个目标分段特征中的重叠特征对应的权重;根据每个所述分段特征对应的目标分段特征、所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征以及所述特征权重集得到所述目标语音。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同。
上述计算机可读存储介质,通过获取待转换语音和原始转换模型,由于原始转换模型无法在离线状态下工作,因此提取待转换语音的特征得到待转换特征,将原始转换模型的格式转换为离线格式后,根据待转换特征和离线格式的目标转换模型可以得到目标特征,然后根据目标特征得到目标语音。这种语音转换方法不仅可以在离线状态下高质量进行语音转换,而且运行速度快,可以实现语音的实时转换。
在一个实施例中,所述对所述待转换语音进行特征提取,得到待转换特征,包括:对所述待转换语音进行周期特征提取和非周期特征提取,得到所述待转换语音对应的周期特征和非周期特征,所述周期特征包括基频和频谱包络;根据所述周期特征和所述非周期特征得到待转换特征。
在一个实施例中,所述根据所述周期特征和所述非周期特征得到待转换特征,包括:根据所述周期特征和所述非周期特征得到目标维度特征,所述目标维度特征的维度高于所述周期特征和所述非周期特征的维度的和;对所述目标维度特征进行格式转换,得到所述待转换特征。
在一个实施例中,所述目标转换模型基于计算机统一设备架构递归神经网络工具包框架运行。
在一个实施例中,所述对所述待转换语音进行特征提取,得到待转换特征,包括:对所述待转换语音进行分段处理,得到多个分段语音;对所述多个分段语音进行特征提取,得到多个分段特征;所述将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征,包括:将每个所述分段特征并行的输入所述目标转换模型,得到每个所述分段特征对应的目标分段特征;所述根据所述目标转换模型输出的目标特征得到目标语音,包括:根据每个所述分段特征对应的目标分段特征得到目标语音。
在一个实施例中,多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征包括重叠特征;所述根据每个所述分段特征对应的目标分段特征得到目标语音,包括:根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音。
在一个实施例中,所述根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音,包括:获取特征权重集,所述特征权重集包括第一特征权重和第二特征权重,所述第一特征权重和第二特征权重为在时间上相邻的任意两个目标分段特征中的重叠特征对应的权重;根据每个所述分段特征对应的目标分段特征、所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征以及所述特征权重集得到所述目标语音。
需要说明的是,上述语音转换方法、语音转换装置、计算机设备及计算机可读存储介质属于一个总的发明构思,语音转换方法、语音转换装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种语音转换方法,所述方法包括:
获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
对所述待转换语音进行特征提取,得到待转换特征;
将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同;
其中,所述对所述待转换语音进行特征提取,得到待转换特征,包括:
对所述待转换语音进行分段处理,得到多个分段语音;
对所述多个分段语音进行特征提取,得到多个分段特征;
所述将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征,包括:
将每个所述分段特征并行的输入所述目标转换模型,得到每个所述分段特征对应的目标分段特征;
所述根据所述目标转换模型输出的目标特征得到目标语音,包括:
根据每个所述分段特征对应的目标分段特征得到目标语音;
其中,多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征包括重叠特征;所述根据每个所述分段特征对应的目标分段特征得到目标语音,包括:
根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音;
其中,所述根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音,包括:
获取特征权重集,所述特征权重集包括第一特征权重和第二特征权重,所述第一特征权重和第二特征权重为在时间上相邻的任意两个目标分段特征中的重叠特征对应的权重;
根据每个所述分段特征对应的目标分段特征、所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征以及所述特征权重集得到所述目标语音。
2.根据权利要求1所述的语音转换方法,其特征在于,所述对所述待转换语音进行特征提取,得到待转换特征,包括:
对所述待转换语音进行周期特征提取和非周期特征提取,得到所述待转换语音对应的周期特征和非周期特征,所述周期特征包括基频和频谱包络;
根据所述周期特征和所述非周期特征得到待转换特征。
3.根据权利要求2所述的语音转换方法,其特征在于,所述根据所述周期特征和所述非周期特征得到待转换特征,包括:
根据所述周期特征和所述非周期特征得到目标维度特征,所述目标维度特征的维度高于所述周期特征和所述非周期特征的维度的和;
对所述目标维度特征进行格式转换,得到所述待转换特征。
4.根据权利要求1所述的语音转换方法,其特征在于,所述目标转换模型基于计算机统一设备架构递归神经网络工具包框架运行。
5.一种语音转换装置,其特征在于,所述装置包括:
获取模块,用于获取待转换语音和原始转换模型,所述原始转换模型的格式为在线格式;
格式转换模块,用于将所述原始转换模型进行格式转换,得到离线格式的目标转换模型;
特征提取模块,用于对所述待转换语音进行特征提取,得到待转换特征;
特征转换模块,用于将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征;
结果模块,用于根据所述目标转换模型输出的目标特征得到目标语音,所述目标语音的语音内容和所述待转换语音相同,所述目标语音的声音与所述待转换语音不同;
其中,所述对所述待转换语音进行特征提取,得到待转换特征,包括:
对所述待转换语音进行分段处理,得到多个分段语音;
对所述多个分段语音进行特征提取,得到多个分段特征;
所述将所述待转换特征输入所述目标转换模型,得到所述目标转换模型输出的目标特征,包括:
将每个所述分段特征并行的输入所述目标转换模型,得到每个所述分段特征对应的目标分段特征;
所述根据所述目标转换模型输出的目标特征得到目标语音,包括:
根据每个所述分段特征对应的目标分段特征得到目标语音;
其中,多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征包括重叠特征;所述根据每个所述分段特征对应的目标分段特征得到目标语音,包括:
根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音;
其中,所述根据每个所述分段特征对应的目标分段特征和所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征得到所述目标语音,包括:
获取特征权重集,所述特征权重集包括第一特征权重和第二特征权重,所述第一特征权重和第二特征权重为在时间上相邻的任意两个目标分段特征中的重叠特征对应的权重;
根据每个所述分段特征对应的目标分段特征、所述多个所述目标分段特征中的在时间上相邻的任意两个目标分段特征的重叠特征以及所述特征权重集得到所述目标语音。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述语音转换方法的步骤。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述语音转换方法的步骤。
CN201980003120.8A 2019-12-20 2019-12-20 语音转换方法、装置、计算机设备及计算机可读存储介质 Active CN111108558B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/126865 WO2021120145A1 (zh) 2019-12-20 2019-12-20 语音转换方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111108558A CN111108558A (zh) 2020-05-05
CN111108558B true CN111108558B (zh) 2023-08-04

Family

ID=70427470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003120.8A Active CN111108558B (zh) 2019-12-20 2019-12-20 语音转换方法、装置、计算机设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111108558B (zh)
WO (1) WO2021120145A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103430234A (zh) * 2011-03-17 2013-12-04 国际商业机器公司 具有编码信息的语音变换
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN107610717A (zh) * 2016-07-11 2018-01-19 香港中文大学 基于语音后验概率的多对一语音转换方法
CN107785030A (zh) * 2017-10-18 2018-03-09 杭州电子科技大学 一种语音转换方法
CN110097890A (zh) * 2019-04-16 2019-08-06 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100484666B1 (ko) * 2002-12-31 2005-04-22 (주) 코아보이스 성도특성 변환을 이용한 음색변환장치 및 방법
CN1534595A (zh) * 2003-03-28 2004-10-06 中颖电子(上海)有限公司 语音转换合成装置及其方法
CN1645363A (zh) * 2005-01-04 2005-07-27 华南理工大学 便携式即时方言互译装置及其方法
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
CN105023570B (zh) * 2014-04-30 2018-11-27 科大讯飞股份有限公司 一种实现声音转换的方法及***
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9922138B2 (en) * 2015-05-27 2018-03-20 Google Llc Dynamically updatable offline grammar model for resource-constrained offline device
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107767879A (zh) * 2017-10-25 2018-03-06 北京奇虎科技有限公司 基于音色的音频转换方法及装置
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103430234A (zh) * 2011-03-17 2013-12-04 国际商业机器公司 具有编码信息的语音变换
CN107610717A (zh) * 2016-07-11 2018-01-19 香港中文大学 基于语音后验概率的多对一语音转换方法
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN107785030A (zh) * 2017-10-18 2018-03-09 杭州电子科技大学 一种语音转换方法
CN110097890A (zh) * 2019-04-16 2019-08-06 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应耀鹏等.《跨软件的文本转语音APP的设计与开发》.《福建电脑》.2019,第35卷(第4期),第115-116页. *

Also Published As

Publication number Publication date
WO2021120145A1 (zh) 2021-06-24
CN111108558A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
US11848002B2 (en) Synthesis of speech from text in a voice of a target speaker using neural networks
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
US8571857B2 (en) System and method for generating models for use in automatic speech recognition
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
US11741942B2 (en) Text-to-speech synthesis system and method
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN108492818B (zh) 文本到语音的转换方法、装置和计算机设备
US9009050B2 (en) System and method for cloud-based text-to-speech web services
US11049491B2 (en) System and method for prosodically modified unit selection databases
CN111048064A (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
CN107240401B (zh) 一种音色转换方法及计算设备
WO2021134581A1 (zh) 基于韵律特征预测的语音合成方法、装置、终端及介质
WO2023116660A2 (zh) 一种模型训练以及音色转换方法、装置、设备及介质
KR20210032809A (ko) 동시 통역 방법 및 장치
CN112712789A (zh) 跨语言音频转换方法、装置、计算机设备和存储介质
JP2023162265A (ja) テキストエコー消去
US20240161727A1 (en) Training method for speech synthesis model and speech synthesis method and related apparatuses
CN113506586A (zh) 用户情绪识别的方法和***
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN111108558B (zh) 语音转换方法、装置、计算机设备及计算机可读存储介质
CN112201253A (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231211

Address after: Room 601, 6th Floor, Building 13, No. 3 Jinghai Fifth Road, Beijing Economic and Technological Development Zone (Tongzhou), Tongzhou District, Beijing, 100176

Patentee after: Beijing Youbixuan Intelligent Robot Co.,Ltd.

Address before: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen UBTECH Technology Co.,Ltd.

TR01 Transfer of patent right