CN113470664A - 语音转换方法、装置、设备及存储介质 - Google Patents
语音转换方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113470664A CN113470664A CN202110737292.7A CN202110737292A CN113470664A CN 113470664 A CN113470664 A CN 113470664A CN 202110737292 A CN202110737292 A CN 202110737292A CN 113470664 A CN113470664 A CN 113470664A
- Authority
- CN
- China
- Prior art keywords
- audio
- information
- matrix
- predicted
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000033764 rhythmic process Effects 0.000 claims abstract description 27
- 238000012952 Resampling Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 104
- 238000001228 spectrum Methods 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 230000000306 recurrent effect Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 125000004122 cyclic group Chemical group 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及人工智能,提供一种语音转换方法、装置、设备及存储介质。该方法能够划分样本音频,得到第一音频片段,对第一音频片段进行重采样处理,得到第二音频片段,编码第一音频片段及第二音频片段,得到文本信息及音频特征,解码文本信息及音频特征,得到预测音频,编码预测音频进行编码处理,得到预测文本,计算第一损失值及第二损失值并调整预设学习器的网络参数,得到转换模型,将转换音频输入至转换模型中,得到初始音频,基于期望音色信息更新初始音频中的音色信息,得到目标音频。本发明能够实现对转换音频中的音色信息及音频节奏的转换,提高语音转换效果。此外,本发明还涉及区块链技术,所述目标音频可存储于区块链中。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音转换方法、装置、设备及存储介质。
背景技术
在目前的语音转换方式中,由于这种方式无法衡量出变分自编码器对于内容信息与说话人信息的解耦能力,造成在语音转换过程中只能做到转变说话人的音色,而无法做到节奏及韵律的自由转换。
发明内容
鉴于以上内容,有必要提供一种语音转换方法、装置、设备及存储介质,能够实现对转换音频中的音色信息及音频节奏的转换,从而提高语音转换效果。
一方面,本发明提出一种语音转换方法,所述语音转换方法包括:
获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
根据本发明优选实施例,所述对所述第一音频片段进行重采样处理,得到第二音频片段包括:
获取所述第一音频片段中每帧音频的音频频率;
根据预设值对所述音频频率进行处理,得到第一频率;
根据所述第一频率更新所述音频频率,得到所述第二音频片段。
根据本发明优选实施例,所述第一编码器包括多个编码卷积网络及第一循环神经网络,每个编码卷积网络包括编码卷积层及编码归一化层,所述基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息包括:
对所述第一音频片段进行预处理,得到第一梅谱信息;
基于所述多个编码卷积网络对所述第一梅谱信息进行处理,得到网络输出结果,包括:基于所述编码卷积层对所述第一梅谱信息进行卷积处理,得到卷积结果;基于所述编码归一化层对所述卷积结果进行归一化处理,得到归一化结果,并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息,直至所述多个编码卷积网络都参与处理所述第一梅谱信息,得到所述网络输出结果;
基于所述第一循环神经网络分析所述网络输出结果,得到所述文本信息。
根据本发明优选实施例,所述第二编码器包括第二循环神经网络及全连接网络,所述基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征包括:
对所述第二音频片段进行预处理,得到第二梅谱信息;
基于所述第二循环神经网络提取所述第二梅谱信息中的特征,得到特征信息;
获取所述全连接网络中的权值矩阵及偏置向量;
基于所述权值矩阵及所述偏置向量对所述特征信息进行分析,得到所述音频特征。
根据本发明优选实施例,所述解码器包括第三循环神经网络、多个解码卷积网络及第四循环神经网络,每个解码卷积网络包括解码卷积层及解码归一化层,所述基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频包括:
获取所述文本信息中每个维度的第一元素数量,并获取所述音频特征中每个维度的第二元素数量;
若所述第一元素数量与所述第二元素数量相同,从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素,所述第一预设标签用于指示言语信息;
从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素,所述第二预设标签用于指示节奏信息;
计算每个所述文本元素与相应元素位置上的每个所述音频元素的总和,得到目标元素;
基于所述目标元素更新所述第二预设标签对应的维度中的元素,得到输入矩阵;
基于所述第三循环神经网络对所述输入矩阵进行特征提取,得到第一特征信息;
基于所述多个解码卷积网络对所述第一特征信息进行反卷积处理,得到第二特征信息;
基于所述第四循环神经网络分析所述第二特征信息,得到预测梅谱信息;
基于梅谱映射表对所述预测梅谱信息进行映射处理,得到所述预测音频。
根据本发明优选实施例,所述基于所述第二音频片段及所述预测音频计算第一损失值包括:
对所述第二音频片段进行向量映射,得到目标矩阵,并对所述预测音频进行向量映射,得到预测矩阵;
获取所述目标矩阵中的矩阵元素作为目标矩阵元素,并确定所述目标矩阵元素在所述目标矩阵中的矩阵位置;
从所述预测矩阵中获取与所述矩阵位置对应的矩阵元素作为预测矩阵元素;
计算所述目标矩阵元素与所述预测矩阵元素的差值,得到多个元素差值,并计算所述多个元素差值的平均值,得到所述第二损失值。
根据本发明优选实施例,所述基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频包括:
确定基于所述第二音频片段生成所述目标矩阵的编码方式;
基于所述编码方式生成所述初始音频所对应的初始矩阵;
基于预先训练好的音色提取模型分析所述初始矩阵,得到所述音色信息;
基于所述编码方式对所述期望音色信息进行编码,得到期望向量;
根据所述期望向量更新所述初始矩阵中的所述音色信息,得到期望矩阵,并根据所述期望矩阵生成所述目标音频。
另一方面,本发明还提出一种语音转换装置,所述语音转换装置包括:
获取单元,用于获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
处理单元,用于对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
编码单元,用于基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
解码单元,用于基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
所述编码单元,还用于基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
计算单元,用于基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
调整单元,用于根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
所述获取单元,还用于当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
更新单元,用于将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
另一方面,本发明还提出一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述语音转换方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述语音转换方法。
由以上技术方案可以看出,本发明通过所述第一损失值及所述第二损失值调整所述网络参数,能够提高所述转换模型的解耦能力,同时,通过重采样处理后的第二音频片段对所述预设学习器进行分析,使生成的转换模型能够做到节奏及韵律的自由转换,双重提高了语音的转换效果,通过所述转换模型生成的所述初始音频及所述期望音色信息,能够实现对所述转换音频中的音色信息及音频节奏的转换,从而提高了本发明的适用场景。
附图说明
图1是本发明语音转换方法的较佳实施例的流程图。
图2是本发明语音转换装置的较佳实施例的功能模块图。
图3是本发明实现语音转换方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明语音转换方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述语音转换方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。
所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器。
在本发明的至少一个实施例中,所述样本音频用于训练所述预设学习器,使所述预设学习器收敛以生成转换模型。
所述预设学习器中的网络参数都是预先配置的。
在本发明的至少一个实施例中,所述电子设备可以从多个渠道获取到所述样本音频,例如,所述多个渠道可以是电影片段。
在本发明的至少一个实施例中,所述第一编码器包括多个编码卷积网络及第一循环神经网络,每个编码卷积网络包括编码卷积层及编码归一化层。
所述第二编码器包括第二循环神经网络及全连接网络。
所述解码器包括第三循环神经网络、多个解码卷积网络及第四循环神经网络,每个解码卷积网络包括解码卷积层及解码归一化层。
S11,对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段。
在本发明的至少一个实施例中,所述第一音频片段是经过对所述样本音频进行随机划分后而生成的片段。
所述第二音频片段是对所述第一音频片段中每帧音频频率进行转变而生成的片段。
在本发明的至少一个实施例中,所述电子设备对所述第一音频片段进行重采样处理,得到第二音频片段包括:
获取所述第一音频片段中每帧音频的音频频率;
根据预设值对所述音频频率进行处理,得到第一频率;
根据所述第一频率更新所述音频频率,得到所述第二音频片段。
其中,所述预设值可以根据需求设置。
所述第一频率的取值可以大于所述音频频率,所述第一频率的取值也可也小于所述音频频率。
通过上述实施方式,能够根据需求调整所述第一音频片段中的节奏信息。
S12,基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征。
在本发明的至少一个实施例中,所述文本信息是指所述第一音频片段所表征出的言语信息,所述文本信息与所述第一音频片段的生成用户无关,也就是说,不同用户针对同一文本所表征出的文本信息相同。
在本发明的至少一个实施例中,所述音频特征包括所述第二音频片段中的音色及节奏信息。
在本发明的至少一个实施例中,所述电子设备基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息包括:
对所述第一音频片段进行预处理,得到第一梅谱信息;
基于所述多个编码卷积网络对所述第一梅谱信息进行处理,得到网络输出结果,包括:基于所述编码卷积层对所述第一梅谱信息进行卷积处理,得到卷积结果;基于所述编码归一化层对所述卷积结果进行归一化处理,得到归一化结果,并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息,直至所述多个编码卷积网络都参与处理所述第一梅谱信息,得到所述网络输出结果;
基于所述第一循环神经网络分析所述网络输出结果,得到所述文本信息。
通过所述第一编码器的网络结构能够从所述第一音频片段中准确的抽取出所述文本信息,以便后续对第二损失值的计算。
在本发明的至少一个实施例中,所述电子设备基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征包括:
对所述第二音频片段进行预处理,得到第二梅谱信息;
基于所述第二循环神经网络提取所述第二梅谱信息中的特征,得到特征信息;
获取所述全连接网络中的权值矩阵及偏置向量;
基于所述权值矩阵及所述偏置向量对所述特征信息进行分析,得到所述音频特征。
通过所述第二编码器的网络结构能够准确的提取出所述第二音频片段中的节奏信息。
S13,基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频。
在本发明的至少一个实施例中,所述预测音频是指根据所述预设学习器对所述样本音频进行转换而生成的音频。
在本发明的至少一个实施例中,所述电子设备基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频包括:
获取所述文本信息中每个维度的第一元素数量,并获取所述音频特征中每个维度的第二元素数量;
若所述第一元素数量与所述第二元素数量相同,从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素,所述第一预设标签用于指示言语信息;
从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素,所述第二预设标签用于指示节奏信息;
计算每个所述文本元素与相应元素位置上的每个所述音频元素的总和,得到目标元素;
基于所述目标元素更新所述第二预设标签对应的维度中的元素,得到输入矩阵;
基于所述第三循环神经网络对所述输入矩阵进行特征提取,得到第一特征信息;
基于所述多个解码卷积网络对所述第一特征信息进行反卷积处理,得到第二特征信息;
基于所述第四循环神经网络分析所述第二特征信息,得到预测梅谱信息;
基于梅谱映射表对所述预测梅谱信息进行映射处理,得到所述预测音频。
其中,所述梅谱映射表中存储有梅谱值与音素的映射关系。
通过上述实施方式,能够在所述第一元素数量与所述第二元素数量相同时,生成包含有所述文本信息及所述音频特征的输入矩阵,从而能够提高所述预测音频的准确性。
在本发明的至少一个实施例中,若所述第一元素数量与所述第二元素数量不相同,所述电子设备拼接所述文本信息及所述音频特征,得到所述输入矩阵。
通过上述实施方式,能够快速生成所述输入矩阵,提高所述预测音频的生成效率。
S14,基于所述第一编码器对所述预测音频进行编码处理,得到预测文本。
在本发明的至少一个实施例中,所述预测文本是指所述预测音频中的言语信息。当所述预设学习器的转换准确度为100%时,所述预测文本与所述文本信息相同。
在本发明的至少一个实施例中,所述电子设备基于所述第一编码器对所述预测音频进行编码处理的方式与所述电子设备基于所述第一编码器对所述第一音频片段进行编码处理的方式相同,本发明对此不再赘述。
S15,基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值。
在本发明的至少一个实施例中,所述第一损失值是指所述第二编码器及所述解码器处理所述第二音频片段的损失总和。
所述第二损失值是指所述第一编码器处理所述第一音频片段的损失值。
在本发明的至少一个实施例中,所述电子设备基于所述第二音频片段及所述预测音频计算第一损失值包括:
对所述第二音频片段进行向量映射,得到目标矩阵,并对所述预测音频进行向量映射,得到预测矩阵;
获取所述目标矩阵中的矩阵元素作为目标矩阵元素,并确定所述目标矩阵元素在所述目标矩阵中的矩阵位置;
从所述预测矩阵中获取与所述矩阵位置对应的矩阵元素作为预测矩阵元素;
计算所述目标矩阵元素与所述预测矩阵元素的差值,得到多个元素差值,并计算所述多个元素差值的平均值,得到所述第二损失值。
通过上述实施方式,能够准确的量化出所述第二音频片段生成所述预测音频的损失情况,从而提高所述转换模型的转换准确性。
具体地,所述电子设备可以根据所述第二音频片段的音色及节奏信息对所述第二音频片段进行向量映射,得到所述目标矩阵。
在本发明的至少一个实施例中,所述电子设备基于所述文本信息及所述预测文本计算第二损失值包括:
计算所述文本信息中的信息元素与所述预测文本中相应位置上的文本元素的差值,得到多个运算差值;
计算所述多个运算差值的平均值,得到所述第二损失值。
S16,根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型。
在本发明的至少一个实施例中,所述网络参数包括所述第一编码器、所述第二编码器及所述解码器中的初始配置参数。
所述转换模型是指所述预设学习器收敛时的模型。
在本发明的至少一个实施例中,所述电子设备根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型包括:
根据下列公式计算目标损失值:
Lloss=Lcontent+α×Lrecon;
其中,Lloss是指所述目标损失值,Lcontent是指所述第二损失值,α是指配置权值,α通常设定为0.5,Lrecon是指所述第一损失值;
根据所述目标损失值调整所述网络参数,直至所述预设学习器收敛,停止调整所述网络参数,得到所述转换模型。
通过上述实施方式,能够确保所述转换模型的转换准确性。
S17,当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息。
在本发明的至少一个实施例中,所述转换请求携带的信息包括,但不限于:第一音频路径及第二音频路径。
所述转换音频是指需要进行语音转换的音频。所述期望音色信息是指转换需求中的目标音色信息。
在本发明的至少一个实施例中,所述电子设备根据所述转换请求获取转换音频及期望音色信息包括:
解析所述转换请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取与第一地址标签对应的信息作为第一路径,所述第一地址标签用于指示需要进行语音转换的音频存储地址;
从所述数据信息中获取与第二地址标签对应的信息作为第二路径,所述第二地址标签用于指示目标用户的音色存储地址;
从所述第一路径中获取所述转换音频,并从所述第二路径中获取所述期望音色信息。
通过所述第一地址标签及所述第二地址标签能够准确的确定出所述第一路径及所述第二路径,从而提高所述转换音频及所述期望音色信息的获取效率。
S18,将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
在本发明的至少一个实施例中,所述初始音频是指改变所述转换音频中的节奏信息而生成的音频。
所述目标音频是指改变所述初始音频中的音色信息而生成的音频。
需要强调的是,为进一步保证上述目标音频的私密和安全性,上述目标音频还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述电子设备基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频包括:
确定基于所述第二音频片段生成所述目标矩阵的编码方式;
基于所述编码方式生成所述初始音频所对应的初始矩阵;
基于预先训练好的音色提取模型分析所述初始矩阵,得到所述音色信息;
基于所述编码方式对所述期望音色信息进行编码,得到期望向量;
根据所述期望向量更新所述初始矩阵中的所述音色信息,得到期望矩阵,并根据所述期望矩阵生成所述目标音频。
通过上述实施方式,能够生成具有所述期望音色信息的目标音频,同时,生成的所述目标音频中的节奏信息与所述转换音频有所不同,实现了对所述转换音频中的音色信息及节奏信息的改变,提高了所述目标音频的适应场景。
在本发明的至少一个实施例中,所述适应场景可以包括,但不限于:声音模仿秀、说唱等场景。
由以上技术方案可以看出,本发明通过所述第一损失值及所述第二损失值调整所述网络参数,能够提高所述转换模型的解耦能力,同时,通过重采样处理后的第二音频片段对所述预设学习器进行分析,使生成的转换模型能够做到节奏及韵律的自由转换,双重提高了语音的转换效果,通过所述转换模型生成的所述初始音频及所述期望音色信息,能够实现对所述转换音频中的音色信息及音频节奏的转换,从而提高了本发明的适用场景。
如图2所示,是本发明语音转换装置的较佳实施例的功能模块图。所述语音转换装置11包括获取单元110、处理单元111、编码单元112、解码单元113、计算单元114、调整单元115及更新单元116。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
获取单元110获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器。
在本发明的至少一个实施例中,所述样本音频用于训练所述预设学习器,使所述预设学习器收敛以生成转换模型。
所述预设学习器中的网络参数都是预先配置的。
在本发明的至少一个实施例中,所述获取单元110可以从多个渠道获取到所述样本音频,例如,所述多个渠道可以是电影片段。
在本发明的至少一个实施例中,所述第一编码器包括多个编码卷积网络及第一循环神经网络,每个编码卷积网络包括编码卷积层及编码归一化层。
所述第二编码器包括第二循环神经网络及全连接网络。
所述解码器包括第三循环神经网络、多个解码卷积网络及第四循环神经网络,每个解码卷积网络包括解码卷积层及解码归一化层。
处理单元111对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段。
在本发明的至少一个实施例中,所述第一音频片段是经过对所述样本音频进行随机划分后而生成的片段。
所述第二音频片段是对所述第一音频片段中每帧音频频率进行转变而生成的片段。
在本发明的至少一个实施例中,所述处理单元111对所述第一音频片段进行重采样处理,得到第二音频片段包括:
获取所述第一音频片段中每帧音频的音频频率;
根据预设值对所述音频频率进行处理,得到第一频率;
根据所述第一频率更新所述音频频率,得到所述第二音频片段。
其中,所述预设值可以根据需求设置。
所述第一频率的取值可以大于所述音频频率,所述第一频率的取值也可也小于所述音频频率。
通过上述实施方式,能够根据需求调整所述第一音频片段中的节奏信息。
编码单元112基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征。
在本发明的至少一个实施例中,所述文本信息是指所述第一音频片段所表征出的言语信息,所述文本信息与所述第一音频片段的生成用户无关,也就是说,不同用户针对同一文本所表征出的文本信息相同。
在本发明的至少一个实施例中,所述音频特征包括所述第二音频片段中的音色及节奏信息。
在本发明的至少一个实施例中,所述编码单元112基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息包括:
对所述第一音频片段进行预处理,得到第一梅谱信息;
基于所述多个编码卷积网络对所述第一梅谱信息进行处理,得到网络输出结果,包括:基于所述编码卷积层对所述第一梅谱信息进行卷积处理,得到卷积结果;基于所述编码归一化层对所述卷积结果进行归一化处理,得到归一化结果,并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息,直至所述多个编码卷积网络都参与处理所述第一梅谱信息,得到所述网络输出结果;
基于所述第一循环神经网络分析所述网络输出结果,得到所述文本信息。
通过所述第一编码器的网络结构能够从所述第一音频片段中准确的抽取出所述文本信息,以便后续对第二损失值的计算。
在本发明的至少一个实施例中,所述编码单元112基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征包括:
对所述第二音频片段进行预处理,得到第二梅谱信息;
基于所述第二循环神经网络提取所述第二梅谱信息中的特征,得到特征信息;
获取所述全连接网络中的权值矩阵及偏置向量;
基于所述权值矩阵及所述偏置向量对所述特征信息进行分析,得到所述音频特征。
通过所述第二编码器的网络结构能够准确的提取出所述第二音频片段中的节奏信息。
解码单元113基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频。
在本发明的至少一个实施例中,所述预测音频是指根据所述预设学习器对所述样本音频进行转换而生成的音频。
在本发明的至少一个实施例中,所述解码单元113基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频包括:
获取所述文本信息中每个维度的第一元素数量,并获取所述音频特征中每个维度的第二元素数量;
若所述第一元素数量与所述第二元素数量相同,从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素,所述第一预设标签用于指示言语信息;
从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素,所述第二预设标签用于指示节奏信息;
计算每个所述文本元素与相应元素位置上的每个所述音频元素的总和,得到目标元素;
基于所述目标元素更新所述第二预设标签对应的维度中的元素,得到输入矩阵;
基于所述第三循环神经网络对所述输入矩阵进行特征提取,得到第一特征信息;
基于所述多个解码卷积网络对所述第一特征信息进行反卷积处理,得到第二特征信息;
基于所述第四循环神经网络分析所述第二特征信息,得到预测梅谱信息;
基于梅谱映射表对所述预测梅谱信息进行映射处理,得到所述预测音频。
其中,所述梅谱映射表中存储有梅谱值与音素的映射关系。
通过上述实施方式,能够在所述第一元素数量与所述第二元素数量相同时,生成包含有所述文本信息及所述音频特征的输入矩阵,从而能够提高所述预测音频的准确性。
在本发明的至少一个实施例中,若所述第一元素数量与所述第二元素数量不相同,所述解码单元113拼接所述文本信息及所述音频特征,得到所述输入矩阵。
通过上述实施方式,能够快速生成所述输入矩阵,提高所述预测音频的生成效率。
所述编码单元112基于所述第一编码器对所述预测音频进行编码处理,得到预测文本。
在本发明的至少一个实施例中,所述预测文本是指所述预测音频中的言语信息。当所述预设学习器的转换准确度为100%时,所述预测文本与所述文本信息相同。
在本发明的至少一个实施例中,所述编码单元112基于所述第一编码器对所述预测音频进行编码处理的方式与所述编码单元112基于所述第一编码器对所述第一音频片段进行编码处理的方式相同,本发明对此不再赘述。
计算单元114基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值。
在本发明的至少一个实施例中,所述第一损失值是指所述第二编码器及所述解码器处理所述第二音频片段的损失总和。
所述第二损失值是指所述第一编码器处理所述第一音频片段的损失值。
在本发明的至少一个实施例中,所述计算单元114基于所述第二音频片段及所述预测音频计算第一损失值包括:
对所述第二音频片段进行向量映射,得到目标矩阵,并对所述预测音频进行向量映射,得到预测矩阵;
获取所述目标矩阵中的矩阵元素作为目标矩阵元素,并确定所述目标矩阵元素在所述目标矩阵中的矩阵位置;
从所述预测矩阵中获取与所述矩阵位置对应的矩阵元素作为预测矩阵元素;
计算所述目标矩阵元素与所述预测矩阵元素的差值,得到多个元素差值,并计算所述多个元素差值的平均值,得到所述第二损失值。
通过上述实施方式,能够准确的量化出所述第二音频片段生成所述预测音频的损失情况,从而提高所述转换模型的转换准确性。
具体地,所述计算单元114可以根据所述第二音频片段的音色及节奏信息对所述第二音频片段进行向量映射,得到所述目标矩阵。
在本发明的至少一个实施例中,所述计算单元114基于所述文本信息及所述预测文本计算第二损失值包括:
计算所述文本信息中的信息元素与所述预测文本中相应位置上的文本元素的差值,得到多个运算差值;
计算所述多个运算差值的平均值,得到所述第二损失值。
调整单元115根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型。
在本发明的至少一个实施例中,所述网络参数包括所述第一编码器、所述第二编码器及所述解码器中的初始配置参数。
所述转换模型是指所述预设学习器收敛时的模型。
在本发明的至少一个实施例中,所述调整单元115根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型包括:
根据下列公式计算目标损失值:
Lloss=Lcontent+α×Lrecon;
其中,Lloss是指所述目标损失值,Lcontent是指所述第二损失值,α是指配置权值,α通常设定为0.5,Lrecon是指所述第一损失值;
根据所述目标损失值调整所述网络参数,直至所述预设学习器收敛,停止调整所述网络参数,得到所述转换模型。
通过上述实施方式,能够确保所述转换模型的转换准确性。
当接收到转换请求时,所述获取单元110根据所述转换请求获取转换音频及期望音色信息。
在本发明的至少一个实施例中,所述转换请求携带的信息包括,但不限于:第一音频路径及第二音频路径。
所述转换音频是指需要进行语音转换的音频。所述期望音色信息是指转换需求中的目标音色信息。
在本发明的至少一个实施例中,所述获取单元110根据所述转换请求获取转换音频及期望音色信息包括:
解析所述转换请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取与第一地址标签对应的信息作为第一路径,所述第一地址标签用于指示需要进行语音转换的音频存储地址;
从所述数据信息中获取与第二地址标签对应的信息作为第二路径,所述第二地址标签用于指示目标用户的音色存储地址;
从所述第一路径中获取所述转换音频,并从所述第二路径中获取所述期望音色信息。
通过所述第一地址标签及所述第二地址标签能够准确的确定出所述第一路径及所述第二路径,从而提高所述转换音频及所述期望音色信息的获取效率。
更新单元116将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
在本发明的至少一个实施例中,所述初始音频是指改变所述转换音频中的节奏信息而生成的音频。
所述目标音频是指改变所述初始音频中的音色信息而生成的音频。
需要强调的是,为进一步保证上述目标音频的私密和安全性,上述目标音频还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述更新单元116基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频包括:
确定基于所述第二音频片段生成所述目标矩阵的编码方式;
基于所述编码方式生成所述初始音频所对应的初始矩阵;
基于预先训练好的音色提取模型分析所述初始矩阵,得到所述音色信息;
基于所述编码方式对所述期望音色信息进行编码,得到期望向量;
根据所述期望向量更新所述初始矩阵中的所述音色信息,得到期望矩阵,并根据所述期望矩阵生成所述目标音频。
通过上述实施方式,能够生成具有所述期望音色信息的目标音频,同时,生成的所述目标音频中的节奏信息与所述转换音频有所不同,实现了对所述转换音频中的音色信息及节奏信息的改变,提高了所述目标音频的适应场景。
在本发明的至少一个实施例中,所述适应场景可以包括,但不限于:声音模仿秀、说唱等场景。
由以上技术方案可以看出,本发明通过所述第一损失值及所述第二损失值调整所述网络参数,能够提高所述转换模型的解耦能力,同时,通过重采样处理后的第二音频片段对所述预设学习器进行分析,使生成的转换模型能够做到节奏及韵律的自由转换,双重提高了语音的转换效果,通过所述转换模型生成的所述初始音频及所述期望音色信息,能够实现对所述转换音频中的音色信息及音频节奏的转换,从而提高了本发明的适用场景。
如图3所示,是本发明实现语音转换方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如语音转换程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作***以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成获取单元110、处理单元111、编码单元112、解码单元113、计算单元114、调整单元115及更新单元116。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种语音转换方法,所述处理器13可执行所述计算机可读指令从而实现:
获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种语音转换方法,其特征在于,所述语音转换方法包括:
获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
2.如权利要求1所述的语音转换方法,其特征在于,所述对所述第一音频片段进行重采样处理,得到第二音频片段包括:
获取所述第一音频片段中每帧音频的音频频率;
根据预设值对所述音频频率进行处理,得到第一频率;
根据所述第一频率更新所述音频频率,得到所述第二音频片段。
3.如权利要求1所述的语音转换方法,其特征在于,所述第一编码器包括多个编码卷积网络及第一循环神经网络,每个编码卷积网络包括编码卷积层及编码归一化层,所述基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息包括:
对所述第一音频片段进行预处理,得到第一梅谱信息;
基于所述多个编码卷积网络对所述第一梅谱信息进行处理,得到网络输出结果,包括:基于所述编码卷积层对所述第一梅谱信息进行卷积处理,得到卷积结果;基于所述编码归一化层对所述卷积结果进行归一化处理,得到归一化结果,并将所述归一化结果确定为下一个编码卷积网络的第一梅谱信息,直至所述多个编码卷积网络都参与处理所述第一梅谱信息,得到所述网络输出结果;
基于所述第一循环神经网络分析所述网络输出结果,得到所述文本信息。
4.如权利要求1所述的语音转换方法,其特征在于,所述第二编码器包括第二循环神经网络及全连接网络,所述基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征包括:
对所述第二音频片段进行预处理,得到第二梅谱信息;
基于所述第二循环神经网络提取所述第二梅谱信息中的特征,得到特征信息;
获取所述全连接网络中的权值矩阵及偏置向量;
基于所述权值矩阵及所述偏置向量对所述特征信息进行分析,得到所述音频特征。
5.如权利要求1所述的语音转换方法,其特征在于,所述解码器包括第三循环神经网络、多个解码卷积网络及第四循环神经网络,每个解码卷积网络包括解码卷积层及解码归一化层,所述基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频包括:
获取所述文本信息中每个维度的第一元素数量,并获取所述音频特征中每个维度的第二元素数量;
若所述第一元素数量与所述第二元素数量相同,从所述文本信息中提取与第一预设标签对应的维度中的元素作为文本元素,所述第一预设标签用于指示言语信息;
从所述文本信息中提取与第二预设标签对应的维度中的元素作为音频元素,所述第二预设标签用于指示节奏信息;
计算每个所述文本元素与相应元素位置上的每个所述音频元素的总和,得到目标元素;
基于所述目标元素更新所述第二预设标签对应的维度中的元素,得到输入矩阵;
基于所述第三循环神经网络对所述输入矩阵进行特征提取,得到第一特征信息;
基于所述多个解码卷积网络对所述第一特征信息进行反卷积处理,得到第二特征信息;
基于所述第四循环神经网络分析所述第二特征信息,得到预测梅谱信息;
基于梅谱映射表对所述预测梅谱信息进行映射处理,得到所述预测音频。
6.如权利要求1所述的语音转换方法,其特征在于,所述基于所述第二音频片段及所述预测音频计算第一损失值包括:
对所述第二音频片段进行向量映射,得到目标矩阵,并对所述预测音频进行向量映射,得到预测矩阵;
获取所述目标矩阵中的矩阵元素作为目标矩阵元素,并确定所述目标矩阵元素在所述目标矩阵中的矩阵位置;
从所述预测矩阵中获取与所述矩阵位置对应的矩阵元素作为预测矩阵元素;
计算所述目标矩阵元素与所述预测矩阵元素的差值,得到多个元素差值,并计算所述多个元素差值的平均值,得到所述第二损失值。
7.如权利要求6所述的语音转换方法,其特征在于,所述基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频包括:
确定基于所述第二音频片段生成所述目标矩阵的编码方式;
基于所述编码方式生成所述初始音频所对应的初始矩阵;
基于预先训练好的音色提取模型分析所述初始矩阵,得到所述音色信息;
基于所述编码方式对所述期望音色信息进行编码,得到期望向量;
根据所述期望向量更新所述初始矩阵中的所述音色信息,得到期望矩阵,并根据所述期望矩阵生成所述目标音频。
8.一种语音转换装置,其特征在于,所述语音转换装置包括:
获取单元,用于获取样本音频,并获取预设学习器,所述预设学习器包括第一编码器、第二编码器及解码器;
处理单元,用于对所述样本音频进行划分,得到第一音频片段,并对所述第一音频片段进行重采样处理,得到第二音频片段;
编码单元,用于基于所述第一编码器对所述第一音频片段进行编码处理,得到文本信息,并基于所述第二编码器对所述第二音频片段进行编码处理,得到音频特征;
解码单元,用于基于所述解码器对所述文本信息及所述音频特征进行解码处理,得到预测音频;
所述编码单元,还用于基于所述第一编码器对所述预测音频进行编码处理,得到预测文本;
计算单元,用于基于所述第二音频片段及所述预测音频计算第一损失值,并基于所述文本信息及所述预测文本计算第二损失值;
调整单元,用于根据所述第一损失值及所述第二损失值调整所述预设学习器的网络参数,得到转换模型;
所述获取单元,还用于当接收到转换请求时,根据所述转换请求获取转换音频及期望音色信息;
更新单元,用于将所述转换音频输入至所述转换模型中,得到初始音频,并基于所述期望音色信息更新所述初始音频中的音色信息,得到目标音频。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的语音转换方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110737292.7A CN113470664B (zh) | 2021-06-30 | 2021-06-30 | 语音转换方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110737292.7A CN113470664B (zh) | 2021-06-30 | 2021-06-30 | 语音转换方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113470664A true CN113470664A (zh) | 2021-10-01 |
CN113470664B CN113470664B (zh) | 2024-01-30 |
Family
ID=77876563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110737292.7A Active CN113470664B (zh) | 2021-06-30 | 2021-06-30 | 语音转换方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113470664B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134655A (zh) * | 2022-06-28 | 2022-09-30 | 中国平安人寿保险股份有限公司 | 视频生成方法和装置、电子设备、计算机可读存储介质 |
CN116612781A (zh) * | 2023-07-20 | 2023-08-18 | 深圳市亿晟科技有限公司 | 一种音频数据可视化处理方法、装置、设备及存储介质 |
CN117476027A (zh) * | 2023-12-28 | 2024-01-30 | 南京硅基智能科技有限公司 | 语音转换方法及装置、存储介质、电子装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073423A1 (en) * | 2002-10-11 | 2004-04-15 | Gordon Freedman | Phonetic speech-to-text-to-speech system and method |
CN106920547A (zh) * | 2017-02-21 | 2017-07-04 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
JP2018004977A (ja) * | 2016-07-04 | 2018-01-11 | 日本電信電話株式会社 | 音声合成方法、システム及びプログラム |
CN107818794A (zh) * | 2017-10-25 | 2018-03-20 | 北京奇虎科技有限公司 | 基于节奏的音频转换方法及装置 |
CN111899719A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112365882A (zh) * | 2020-11-30 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112466275A (zh) * | 2020-11-30 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音转换及相应的模型训练方法、装置、设备及存储介质 |
-
2021
- 2021-06-30 CN CN202110737292.7A patent/CN113470664B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073423A1 (en) * | 2002-10-11 | 2004-04-15 | Gordon Freedman | Phonetic speech-to-text-to-speech system and method |
JP2018004977A (ja) * | 2016-07-04 | 2018-01-11 | 日本電信電話株式会社 | 音声合成方法、システム及びプログラム |
CN106920547A (zh) * | 2017-02-21 | 2017-07-04 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
CN107818794A (zh) * | 2017-10-25 | 2018-03-20 | 北京奇虎科技有限公司 | 基于节奏的音频转换方法及装置 |
CN111899719A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112365882A (zh) * | 2020-11-30 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112466275A (zh) * | 2020-11-30 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音转换及相应的模型训练方法、装置、设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134655A (zh) * | 2022-06-28 | 2022-09-30 | 中国平安人寿保险股份有限公司 | 视频生成方法和装置、电子设备、计算机可读存储介质 |
CN115134655B (zh) * | 2022-06-28 | 2023-08-11 | 中国平安人寿保险股份有限公司 | 视频生成方法和装置、电子设备、计算机可读存储介质 |
CN116612781A (zh) * | 2023-07-20 | 2023-08-18 | 深圳市亿晟科技有限公司 | 一种音频数据可视化处理方法、装置、设备及存储介质 |
CN116612781B (zh) * | 2023-07-20 | 2023-09-29 | 深圳市亿晟科技有限公司 | 一种音频数据可视化处理方法、装置、设备及存储介质 |
CN117476027A (zh) * | 2023-12-28 | 2024-01-30 | 南京硅基智能科技有限公司 | 语音转换方法及装置、存储介质、电子装置 |
CN117476027B (zh) * | 2023-12-28 | 2024-04-23 | 南京硅基智能科技有限公司 | 语音转换方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113470664B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113470664A (zh) | 语音转换方法、装置、设备及存储介质 | |
CN107978311A (zh) | 一种语音数据处理方法、装置以及语音交互设备 | |
WO2020248393A1 (zh) | 语音合成方法、***、终端设备和可读存储介质 | |
CN113470684A (zh) | 音频降噪方法、装置、设备及存储介质 | |
CN111696029B (zh) | 虚拟形象视频生成方法、装置、计算机设备及存储介质 | |
CN112508118B (zh) | 针对数据偏移的目标对象行为预测方法及其相关设备 | |
CN112951203B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN113450822A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN113470672B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN113408268A (zh) | 槽位填充方法、装置、设备及存储介质 | |
CN113035228A (zh) | 声学特征提取方法、装置、设备及存储介质 | |
JP2023542760A (ja) | オーディオデータ処理方法、装置、機器、記憶媒体及びプログラム | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113435196A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN113570391B (zh) | 基于人工智能的社群划分方法、装置、设备及存储介质 | |
CN113268597B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN113438374B (zh) | 智能外呼处理方法、装置、设备及存储介质 | |
CN113077783B (zh) | 小语种语音语料扩增方法、装置及电子设备和存储介质 | |
CN113536770A (zh) | 基于人工智能的文本解析方法、装置、设备及存储介质 | |
CN117496927A (zh) | 基于扩散模型的音乐音色风格转换方法及*** | |
CN116564322A (zh) | 语音转换方法、装置、设备及存储介质 | |
CN113486680A (zh) | 文本翻译方法、装置、设备及存储介质 | |
CN113421594B (zh) | 语音情感识别方法、装置、设备及存储介质 | |
CN114842880A (zh) | 智能客服语音节奏调节方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |