WO2022141842A1 - 基于深度学习的语音训练方法、装置、设备以及存储介质 - Google Patents

基于深度学习的语音训练方法、装置、设备以及存储介质 Download PDF

Info

Publication number
WO2022141842A1
WO2022141842A1 PCT/CN2021/083233 CN2021083233W WO2022141842A1 WO 2022141842 A1 WO2022141842 A1 WO 2022141842A1 CN 2021083233 W CN2021083233 W CN 2021083233W WO 2022141842 A1 WO2022141842 A1 WO 2022141842A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
phoneme
neural network
mel spectrum
trained
Prior art date
Application number
PCT/CN2021/083233
Other languages
English (en)
French (fr)
Inventor
孙奥兰
王健宗
程宁
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022141842A1 publication Critical patent/WO2022141842A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present application relates to the technical field of artificial intelligence, and to the technical field of speech processing, in particular to a deep learning-based speech training method, device, computer equipment, and storage medium.
  • sequence-to-sequence model system training requires a large amount of training data sets and computing resources for model learning, and it is difficult to achieve efficient speech synthesis in the inference stage.
  • Some systems try to reduce the pressure on computing resources with different model structure techniques based on the sequence-to-sequence model, such as by using convolutional neural networks in the encoding-decoding stage, this model can be trained quickly, but The problem is that sequence reasoning is still required, which is relatively inefficient.
  • some models use a self-attention mechanism to parallelize the structure of spectrum generation, but the training stage of the attention layer is very difficult and time-consuming. Training, efficient inference, and high-quality speech synthesis models.
  • Embodiments of the present application provide a deep learning-based speech training method, device, computer equipment, and storage medium to solve the technical problem of lacking a speech synthesis model that can simultaneously achieve high-efficiency training, high-efficiency reasoning, and high-quality.
  • a deep learning-based voice training method comprising the following steps:
  • the student neural network is trained through the hidden variables and the first Mel spectrum value provided by the trained teacher neural network, and the trained student neural network is obtained when the first loss function of the student neural network converges.
  • a voice training device based on deep learning comprising the following modules:
  • a first phoneme encoding module used for encoding the first phoneme sequence to obtain the first phoneme encoding value
  • a duration prediction processing module for performing duration prediction processing on the first phoneme coding value to obtain a first pronunciation duration prediction value
  • An extension processing module for performing extension processing on each phoneme in the first phoneme sequence based on the first pronunciation duration prediction value, to obtain the extension feature of each phoneme in the first phoneme sequence;
  • a first mel spectral value transformation module for transforming the extended feature of each phoneme in the first phoneme sequence into a first mel spectral value
  • the student neural network training module is used to train the student neural network through the hidden variables provided by the trained teacher neural network and the first Mel spectrum value. Student Neural Networks.
  • a computer device comprising a memory, a processor, and a computer program stored in the memory and running on the processor, and the processor implements the following steps when executing the computer program:
  • a computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the following steps are implemented:
  • the student neural network is trained through the hidden variables and the first Mel spectrum value provided by the trained teacher neural network, and the trained student neural network is obtained when the first loss function of the student neural network converges.
  • the deep learning-based speech training method, device, computer equipment and storage medium can solve the technical problem of the lack of a speech synthesis model that can simultaneously achieve efficient training, efficient reasoning and high quality.
  • the sample data used for the training of the student neural network is simultaneously input into a pre-trained teacher neural network, and the above-mentioned teacher neural network provides the hidden variables and the reference mel spectrum value and supervises the machine learning process of the student neural network. , in order to improve the efficiency of training and inference, and reduce the demand for hardware resources, while maintaining a good training effect as much as possible.
  • the teacher neural network has been pre-trained, it does not occupy a lot of system resources.
  • the structure of the student neural network is relatively simple, and the system resources occupied during training are not large. Therefore, it can be trained on a single GPU resource, and the trained student neural network can synthesize speech in real time on the CPU due to its simple structure.
  • the advantages of this system can be quickly applied in a variety of speech synthesis scenarios. to provide an end-to-end speech synthesis solution.
  • FIG. 1 is a schematic diagram of an application environment of a voice training method based on deep learning in an embodiment of the present application
  • FIG. 2 is a flowchart of a deep learning-based voice training method in an embodiment of the present application
  • Fig. 3 is the flow chart of the training method of the teacher neural network in the speech training method based on deep learning in one embodiment of the present application;
  • FIG. 4 is a flowchart of a method for generating latent variables in a deep learning-based voice training method according to an embodiment of the present application
  • FIG. 5 is a schematic structural diagram of a voice training device based on deep learning in an embodiment of the present application.
  • FIG. 6 is a schematic diagram of a computer device in an embodiment of the present application.
  • a voice training method based on deep learning is provided, which is to supervise and train a student neural network through a trained teacher neural network, and the student network includes a phoneme encoder, Pronunciation duration predictor and decoder.
  • the training of the student neural network includes the following steps:
  • S101 Encode the first phoneme sequence to obtain a first phoneme encoded value.
  • a phoneme is the smallest phonetic unit divided according to the natural properties of speech. It is analyzed according to the pronunciation action in the syllable, and an action constitutes a phoneme. For example, decompose a single word into multiple syllables, and then decompose each syllable into its corresponding multiple phonemes. For further example, for the word sequence "ping”, there are two corresponding syllables, namely “ping" and “an”; the syllable “ping” can be further decomposed into phonemes “p” and “ing”, and the phoneme “an” " is further broken down into the phonemes "a” and "n".
  • one Chinese character corresponds to one syllable; in English, one word corresponds to one syllable, and other languages are similar.
  • the first phoneme sequence is a phoneme sequence used for training the student's neural network, and it needs to be encoded to obtain the first phoneme code value. Specifically, the first phoneme sequence is transformed and compressed into a fixed-length vector. Specifically, the first phoneme sequence is transformed and compressed by the phoneme encoder in the student neural network.
  • the above phoneme encoder has a four-layer structure: the first layer includes an embedding layer (Embedding Layer), a fully connected layer (Fully Connected Layer), and a linear rectification function (ReLU, Rectified Linear Unit); the second layer includes a one-dimensional convolutional neural network. Layer (CNN, Convolutional Neural Networks); the third layer includes linear rectification units; the fourth layer includes Batch Normalization.
  • S102 Perform a duration prediction process on the first phoneme encoded value to obtain a first pronunciation duration prediction value.
  • the pronunciation duration predictor of the student neural network is used to predict the pronunciation duration of each phoneme in the first phoneme code value.
  • the pronunciation duration predictor has a three-layer structure: the first layer includes a one-dimensional convolutional neural network layer; the second layer includes a linear rectification layer; and the third layer includes a batch normalization layer.
  • S103 Perform expansion processing on each phoneme in the first phoneme sequence based on the first pronunciation duration prediction value to obtain an expanded feature of each phoneme in the first phoneme sequence.
  • each phoneme in the first phoneme sequence is expanded according to the acoustic feature extracted from the true value of the Mel spectrum corresponding to the first phoneme sequence by the trained teacher neural network to obtain the first phoneme Extended features for each phoneme in the sequence.
  • the teacher neural network extracts the extended feature of each phoneme in the real language from the input first phoneme code value and the true value of the Mel spectrum corresponding to the first phoneme sequence, as the extended feature of each phoneme in the first phoneme sequence.
  • S104 Transform the extended feature of each phoneme in the first phoneme sequence into a first mel spectrum value.
  • the expanded features of each phoneme in the first phoneme sequence are input to the decoder through the student neural network, which is transformed into the first mel spectral value.
  • the decoder of the student neural network has a three-layer structure: the first layer includes a one-dimensional convolutional neural network layer; the second layer includes a linear rectification layer; and the third layer includes a batch normalization layer.
  • a linear layer is also included after the decoder.
  • S105 Train the student neural network by using the hidden variables provided by the trained teacher neural network and the first Mel spectrum value, and obtain the trained student neural network when the first loss function of the student neural network converges.
  • the training method of teacher-student neural network is a kind of transfer learning in machine learning. Transfer learning is to transfer the achievable performance of a trained model to another model, the latter has a relatively simple structure compared to the former, while for the teacher-student neural network, the teacher neural network is often a more complex network. , has better performance and versatility, but more system resources are required to train the teacher neural network. Therefore, in order to save the system resources required for training, the trained teacher neural network can be used to provide a soft target (soft target). target) to guide another student neural network with a simpler structure and less system resource consumption to learn, so that the student neural model with a simple structure and less parameter computation can also obtain similar performance to the teacher network through training.
  • a soft target soft target
  • the first phoneme sequence used to train the student neural network and the true value of the Mel spectrum corresponding to the first phoneme sequence are also input into the pre-trained teacher neural network, and the teacher neural network can output the latent variables to the student neural network as well as by the teacher neural network.
  • the Mel spectrum value generated according to the first phoneme sequence is used to evaluate the training effect of the student neural network. When the first loss function of the student neural network is trained to converge, the trained student neural network is obtained.
  • the above-mentioned first loss function for evaluating the training effect of the student neural network is the mean absolute error sum between the mel spectrum value and the predicted value of the mel spectrum:
  • f i is the mel spectrum value generated by the teacher neural network according to the first phoneme sequence
  • gi is the mel spectrum value generated by the student neural network according to the first phoneme sequence
  • the first loss function is the Huber loss function:
  • y is the mel spectrum value generated by the teacher neural network according to the first phoneme sequence
  • f(x) is the mel spectrum value generated by the student neural network according to the first phoneme sequence
  • is the expected training effect before the training starts And the preset hyperparameters.
  • the voice training method based on deep learning further includes:
  • the above vocoder is a neural network that can convert Mel spectral values into speech that can be recognized by the human ear.
  • the vocoder can use existing neural networks such as WaveNET, MelGAN, WaveGlow, etc., and pre-train it. Afterwards, the mel spectral values output by the trained student neural network are received and converted into speech.
  • the lighter and faster MelGAN is preferred as the vocoder.
  • the deep learning-based voice training method, device, computer equipment and storage medium provided by this application simultaneously input sample data for student neural network training into a pre-trained teacher neural network, and the above teacher neural network provides hidden variables And the reference mel spectrum value and supervise the machine learning process of the student neural network to improve the efficiency of training and inference, and reduce the demand for hardware resources, while maintaining a good training effect as much as possible.
  • the deep learning model of the teacher-student neural network provided in this application, since the teacher neural network has been pre-trained, it does not occupy a lot of system resources. At the same time, the structure of the student neural network is relatively simple, and the system resources occupied during training are not large.
  • a method for pre-training a teacher neural network for supervising and training a student neural network where the teacher neural network includes a phoneme encoder, a spectral encoder, an attention processing mechanism, and a decoder.
  • the steps of pre-training the teacher neural network include:
  • S201 Encode the second phoneme sequence to obtain a second phoneme key encoding value.
  • the second phoneme sequence is a phoneme sequence used for training the teacher neural network, which needs to be encoded to obtain the second phoneme code value.
  • the second phoneme sequence is transformed and compressed by the phoneme encoder in the teacher neural network.
  • the above phoneme encoder has a four-layer structure: the first layer includes an embedding layer; the second layer includes a fully connected layer; the third layer includes a linear rectification function; the fourth layer includes an N-layer gated residual (Residual Gated) structure and holes Residual Convolutional Networks.
  • S202 Perform coding after shifting the real mel spectrum value corresponding to the second phoneme sequence to the left by a preset value to obtain a second mel spectrum coding value.
  • the teacher neural network also has a spectral encoder that provides contextual encoding of spectral frames, taking into account previous spectral frames.
  • the spectral encoder includes a fully connected layer, a linear rectification function, and an N-layer gated residual structure.
  • a fully connected layer and a linear rectification function are applied to each frame of the input spectrum.
  • This encoded result is input to an N-layer gated residual structure and a more fine-grained gated residual network.
  • the true mel spectral value corresponding to the second phoneme sequence input to the teacher neural network is shifted one position to the left when input, and the model can be used to predict the next spectral frame based on the current input phoneme and the previous spectral frame.
  • S203 Perform attention mechanism processing on the second phoneme code value and the second Mel spectrum code value to obtain the second phoneme code value and the second Mel spectrum code value of the attention summation.
  • the attention mechanism adopts a dot product attention mechanism, where the second phoneme encoding value includes the output of the phoneme encoder, and the sum of the output of the phoneme encoder and the phoneme encoding.
  • the second mel spectrally encoded value is the output of the spectral encoder.
  • the attention score is the weighted mean of the output of the phoneme encoder and the sum of the phoneme encoding vectors, and the weight is the matching value of the sum of the output of the phoneme encoder and the phoneme encoding and the output of the spectral encoder. In this way, the model will tend to choose the phoneme associated with the next spectral frame.
  • the input of the decoder of the teacher neural network is the sum of the output of the encoder and the attention score, which in turn passes through an N-layer gated residual convolutional network followed by a convolutional layer with a linear rectification function to obtain the correct number of channels, and Finally, a sigmoid prediction layer is input to obtain the predicted spectral values.
  • S205 Perform self-training on the teacher neural network according to the real mel spectral value and the second mel spectral value corresponding to the second phoneme sequence, until the second loss function of the teacher neural network converges, and a trained teacher neural network is obtained.
  • the teacher network uses the second mel spectrum value generated from the second phoneme sequence and the real mel spectrum value corresponding to the second phoneme sequence as training data for self-training until the second loss function converges.
  • the above-mentioned second loss function for evaluating the self-training effect of the teacher neural network is the mean absolute error sum between the real mel spectral value corresponding to the second phoneme sequence and the second mel spectral value :
  • f i is the true mel spectral value corresponding to the second phoneme sequence
  • g i is the mel spectral value generated by the teacher neural network from the second phoneme sequence.
  • the step of generating latent variables by the pre-trained teacher neural network includes:
  • the trained teacher neural network encodes the first phoneme sequence to obtain a third phoneme key encoding value
  • the trained teacher neural network encodes the true value of the Mel spectrum corresponding to the first phoneme sequence by shifting it to the left by a preset value to obtain a third encoded value of the Mel spectrum;
  • the trained teacher neural network performs attention mechanism processing on the encoding value of the third phoneme and the real encoding value of the third Mel spectrum, and obtains the encoding value of the third phoneme and the real encoding value of the third Mel spectrum with the attention summation;
  • S305 Output the third phoneme code value of the attention sum, the real code value of the third Mel spectrum, and the third Mel spectrum value as latent variables to the student neural network through the trained teacher neural network.
  • steps S301-304 are similar to the steps S201-204 of pre-training the teacher neural network, the difference is that the input is the first phoneme sequence used to train the student neural network and the true value of the Mel spectrum corresponding to the first phoneme sequence.
  • the steps for training the teacher neural network are the same and will not be repeated here.
  • the above-mentioned step S305 is to convert the input first phoneme sequence and the corresponding Mel spectrum real value of the first phoneme sequence into the third phoneme code value of the attention summation, the third Mel spectrum real code value, and the third Mel spectrum value. output to the student neural network as a latent variable.
  • the above hidden variable is used to provide a soft target to a student neural network with a simpler structure to guide the student neural network to learn, so as to improve the learning speed and efficiency.
  • a voice training apparatus 100 based on deep learning corresponds to the voice training method based on deep learning in the above embodiment. It includes the following modules: a first phoneme encoding module 101 , a duration prediction processing module 102 , an expansion processing module 103 , a first mel spectral value transformation module 104 , and a student neural network training module 105 .
  • the first phoneme encoding module 101 is used for encoding the first phoneme sequence to obtain the first phoneme encoding value
  • a duration prediction processing module 102 configured to perform duration prediction processing on the first phoneme encoded value to obtain a first pronunciation duration prediction value
  • the extension processing module 103 is used to perform extension processing on each phoneme in the first phoneme sequence based on the first pronunciation duration prediction value, to obtain the extension feature of each phoneme in the first phoneme sequence;
  • a first mel spectral value transformation module 104 configured to transform the extended feature of each phoneme in the first phoneme sequence into a first mel spectral value
  • the student neural network training module 105 is used to train the student neural network through the hidden variables provided by the trained teacher neural network and the first Mel spectrum value, and when the first loss function of the student neural network converges, the trained neural network is obtained. student neural network.
  • the teacher neural network in the deep learning-based voice training device includes the following modules:
  • the second phoneme encoding module is used to encode the second phoneme sequence to obtain the second phoneme key encoding value
  • the second mel spectrum coding module is used to encode the real mel spectrum value corresponding to the second phoneme sequence by shifting the preset value to the left to obtain the second mel spectrum coding value;
  • an attention mechanism processing module configured to perform attention mechanism processing on the second phoneme coding value and the second mel spectrum coding value to obtain the second phoneme coding value and the second mel spectrum coding value of the attention summation;
  • the second Mel spectrum value transformation module is used to transform the second prime code value of the attention summation and the second Mel spectrum real code value into the second Mel spectrum value;
  • the teacher neural network self-training module is used for self-training the teacher neural network according to the real mel spectrum and the second mel spectrum corresponding to the second phoneme sequence, until the second loss function of the teacher neural network converges, and the training is obtained. Good teacher neural network.
  • the student neural network training module 105 in the deep learning-based voice training device further includes:
  • the third phoneme coding unit is used for the trained teacher neural network to encode the first phoneme sequence to obtain the third phoneme key coding value;
  • the third Mel spectrum encoding unit is used for the trained teacher neural network to encode the true value of the Mel spectrum corresponding to the first phoneme sequence by shifting the preset value to the left to obtain the third Mel spectrum encoding value;
  • the attention mechanism processing unit the trained teacher neural network performs attention mechanism processing on the third phoneme code value and the third Mel spectrum real code value, and obtains the third phoneme code value of the attention sum and the third Mel spectrum code value.
  • er spectrum real encoded value
  • a third mel spectral value transforming unit configured to transform the third phoneme coded value and the third mel spectral coded value added by the attention into a third mel spectral value
  • the hidden variable output unit is used to use the trained teacher neural network to use the third phoneme code value of the attention summation, the third Mel spectrum real code value, and the third Mel spectrum value as The latent variables are output to the student neural network.
  • the first loss function selects the mean absolute error sum between the first Mel spectrum value and the third Mel spectrum value; or, the first loss function selects the Huber loss function.
  • the extended processing module 103 is specifically configured to perform the analysis on the first phoneme according to the feature extracted from the true value of the Mel spectrum corresponding to the first phoneme sequence by the trained teacher neural network. Each phoneme in the phoneme sequence is expanded to obtain an expanded feature of each phoneme in the first phoneme sequence.
  • the deep learning-based voice training apparatus 100 further includes:
  • a vocoder connection module for connecting the trained student neural network to a pre-trained vocoder
  • an input phoneme sequence conversion module which is used to convert the input phoneme sequence into a corresponding Mel spectrum value through the trained student neural network
  • a speech output module for converting the mel spectral value into speech by the vocoder.
  • Each module in the above-mentioned deep learning-based voice training device may be implemented in whole or in part by software, hardware, and combinations thereof.
  • the above modules can be embedded in or independent of the processor in the computer device in the form of hardware, or stored in the memory in the computer device in the form of software, so that the processor can call and execute the operations corresponding to the above modules.
  • a computer device in one embodiment, the computer device may be a server or a workstation, and an internal structure diagram thereof may be shown in FIG. 6 .
  • the computer device includes a processor, memory, a network interface, and a database connected by a system bus. Among them, the processor of the computer device is used to provide computing and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium, an internal memory.
  • the nonvolatile storage medium stores an operating system, a computer program, and a database.
  • the internal memory provides an environment for the execution of the operating system and computer programs in the non-volatile storage medium.
  • the database of the computer device is used to store data involved in the deep learning-based speech training method.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer program implements a deep learning-based speech training method when executed by the processor.
  • a computer device including a memory, a processor, and a computer program stored in the memory and running on the processor, when the processor executes the computer program, the deep learning-based voice in the above-mentioned embodiment is implemented Steps of the training method, such as steps 101 to 105 shown in FIG. 2 and other extensions of the method and extensions of related steps.
  • the processor executes the computer program
  • the functions of each module/unit of the deep learning-based voice training apparatus in the above-mentioned embodiments such as the functions of modules 101 to 105 shown in FIG. 5 , are implemented. In order to avoid repetition, details are not repeated here.
  • the processor may be a central processing unit (Central Processing Unit, CPU), or other general-purpose processors, digital signal processors (Digital Signal Processors, DSPs), application specific integrated circuits (Application Specific Integrated Circuits, ASICs), off-the-shelf processors. Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor can be a microprocessor or the processor can also be any conventional processor, etc.
  • the processor is the control center of the computer device, and uses various interfaces and lines to connect various parts of the entire computer device.
  • the memory can be used to store the computer program and/or module, and the processor implements the computer by running or executing the computer program and/or module stored in the memory and calling the data stored in the memory various functions of the device.
  • the memory may mainly include a stored program area and a stored data area, wherein the stored program area may store an operating system, an application program required for at least one function (such as a sound playback function, an image playback function, etc.), etc.; the storage data area may store Data (such as audio data, video data, etc.) created according to the usage of the mobile phone, etc.
  • the memory may be integrated in the processor, or may be provided separately from the processor.
  • a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, the steps of the deep learning-based voice training method in the foregoing embodiment are implemented, for example, as shown in FIG. 2 Steps 101 to 105 and other extensions of the method and extensions of related steps.
  • the functions of each module/unit of the deep learning-based voice training apparatus in the above-mentioned embodiments, such as the functions of modules 101 to 105 shown in FIG. 5 are implemented. In order to avoid repetition, details are not repeated here.
  • Nonvolatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in various forms such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Synchlink DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDRSDRAM double data rate SDRAM
  • ESDRAM enhanced SDRAM
  • SLDRAM synchronous chain Synchlink DRAM
  • memory bus Radbus
  • RDRAM direct RAM
  • DRAM direct memory bus dynamic RAM
  • RDRAM memory bus dynamic RAM
  • RDRAM memory bus dynamic RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

提供了一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质,应用于人工智能技术领域,提供通过教师-学生神经网络训练语音合成模型的方法,能够高效、快速、低资源消耗、低训练语音合成模型。方法包括:对第一音素序列进行编码得到第一音素编码值(S101);对第一音素编码值进行时长预测处理得到第一发音时长预测值(S102);对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征(S103);将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值(S104);通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络(S105)。

Description

基于深度学习的语音训练方法、装置、设备以及存储介质
本申请要求于2020年12月29日提交中国专利局、申请号为202011593537.5,发明名称为“基于深度学习的语音训练方法、装置、设备以及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,并且涉及语音处理技术领域,尤其涉及一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质。
背景技术
现有的基于深度学习的语音合成技术,大多数基于序列-到-序列(seq2seq)的方案,如Tacotron2,相较于传统的统计参数模型算法,给语音合成的效果带来显著的提升。发明人意识到,相对来说,序列-到-序列的模型***训练,需要大量的的训练数据集以及计算资源来进行模型的学习,且在推理阶段也很难做到高效率的语音合成。一些***尝试在序列-到-序列的模型基础上,用不同的模型结构的技巧来降低计算资源上的压力,例如通过在编码-解码阶段采用卷积神经网络,这个模型能够快速的训练,但是问题是仍旧需要序列推理,这个相对来说推理效率还是比较低的。为了避免序列化的推理阶段,一些模型采用了自注意力机制,来并行化频谱生成的结构,但是注意力层的训练阶段是十分困难并且耗时的,目前为止缺乏一种能够同时做到高效训练、高效推理和高品质的语音合成模型。
发明内容
本申请实施例提供一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质,以解决目前缺乏一种能够同时做到高效训练,高效推理和高品质的语音合成模型的技术问题。
在本申请的一个方面,提供了一种基于深度学习的语音训练方法,包括以下步骤:
对第一音素序列进行编码,得到第一音素编码值;
对第一音素编码值进行时长预测处理,得到第一发音时长预测值;
基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征;
将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。
在本申请的另一个方面,提供了一种基于深度学习的语音训练装置,包括以下模块:
第一音素编码模块,用于对第一音素序列进行编码,得到第一音素编码值;
时长预测处理模块,用于对第一音素编码值进行时长预测处理,得到第一发音时长预测值;
扩展处理模块,用于基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征;
第一梅尔频谱值变换模块,用于将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
学生神经网络训练模块,用于通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。
在本申请的另一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
对第一音素序列进行编码,得到第一音素编码值;
对第一音素编码值进行时长预测处理,得到第一发音时长预测值;
基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征;
将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。在本申请的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
对第一音素序列进行编码,得到第一音素编码值;
对第一音素编码值进行时长预测处理,得到第一发音时长预测值;
基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征;
将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。
本申请提供的基于深度学习的语音训练方法、装置、计算机设备以及存储介质能够解决目前缺乏一种能够同时做到高效训练,高效推理和高品质的语音合成模型的技术问题。具体地,将用于学生神经网络训练的样本数据同时输入到一个预先训练好的教师神经网络,并且由上述教师神经网络提供隐变量以及参考的梅尔频谱值并监督学生神经网络的机器学习过程,以提高训练和推理效率,并且降低对于硬件资源的需求,同时又尽可能的保持良好的训练效果。通过本申请提供的教师-学生神经网络的深度学习模型,由于教师神经网络已经预先训练好,因此占用的***资源并不多,同时学生神经网络的结构较为简单,训练时占用的***资源也不多,因此能够在单GPU资源上进行训练,并且训练好的学生神经网络由于结构较为简单,可以在CPU上进行实时合成语音,该***的优势可以在多种语音合成场景进行快速的落地应用,以提供端到端的语音合成方案。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例中基于深度学习的语音训练方法的应用环境示意图;
图2是本申请一个实施例中基于深度学习的语音训练方法的流程图;
图3是本申请一个实施例中基于深度学习的语音训练方法中教师神经网络的训练方法的流程图;
图4是本申请一个实施例中基于深度学习的语音训练方法中生成隐变量的方法的流程图;
图5是本申请一个实施例中基于深度学习的语音训练方装置的结构示意图;
图6是本申请一个实施例中计算机设备的一个示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在一个具体的实施例中,如图所示,提供一种基于深度学习的语音训练方法,是通过一个训练好的教师神经网络对一个学生神经网络进行监督训练,上述学生网络包括音素编码器、发音时长预测器以及解码器。具体地,对学生神经网络的训练包括以下步骤:
S101:对第一音素序列进行编码,得到第一音素编码值。
音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。例如,将单个词分解为多个音节,进而将每个音节分解为对应的多个音素。进一步例如,对于词序列“平安”,其对应的音节有两个,分别为“ping”和“an”;可将音节“ping”进一步分解为音素“p”和“ing”,将音素“an”进一步分解为音素“a”和“n”。在本申请实施例中,在中文中,一个汉字对应一个音节;在英文中,一个单词对应一个音节,其他语言类似。
第一音素序列是用于训练学生神经网络的音素序列,需要进行对其编码得到第一音素编码值,具体是将第一音素序列变换压缩到一个固定长度的向量。具体地,是通过学生神经网络中的音素编码器对第一音素序列进行变换压缩。上述音素编码器具有四层结构:第一层包括嵌入层(Embedding Layer)、全连接层(Fully Connected Layer)、线性整流函数(ReLU,Rectified Linear Unit);第二层包括一维卷积神经网络层(CNN,Convolutional Neural Networks);第三层包括线性整流单元;第四层包括批标准化(Batch Normalization)。
S102:对第一音素编码值进行时长预测处理,得到第一发音时长预测值。
根据编码后的第一音素编码值,通过学生神经网络的发音时长预测器,以预测出第一音素编码值中的各个音素的发音时长。具体地,发音时长预测器具有三层结构:第一层包括一维卷积神经网络层;第二层包括线性整流层;第三层包括批标准化层。
S103:基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征。
对每个音素的扩展特征进行声学特征预测处理,得到每个音素的声学特征,将每个音素的声学特征合成为文本声学特征,可以采用如下方式实现:确定每个音素的扩展特征对应的上下文特征;对每个音素的扩展特征对应的上下文特征进行线性变换,得到每个音素的声学特征;将每个音素的声学特征按照每个音素在目标文本中的顺序进行拼接,得到声学特征。
在一个具体的实施例中,根据训练好的教师神经网络从与第一音素序列对应的梅尔频谱真实值抽取的声学特征对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征。
教师神经网络从输入的第一音素编码值以及第一音素序列对应的梅尔频谱真实值中抽取真实语言中的每个音素的扩展特征,作为第一音素序列中的每个音素的扩展特征。
S104:将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值。
由于人耳对声音的感知是非线性的,为了模拟人耳听觉对实际频率的敏感程度,常常在线性频谱图中加上梅尔滤波函数转换为非线性的梅尔频谱。
将第一音素序列中的每个音素的扩展特征输入到通过学生神经网络的解码器,将其变换为第一梅尔频谱值。具体的,学生神经网络的解码器具有三层结构:第一层包括一维卷积神经网络层;第二层包括线性整流层;第三层包括批标准化层。解码器之后还包括一个线性层。
S105:通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。
教师-学生神经网络的训练方法,属于机器学习中的迁移学习的一种。迁移学习是将一个训练好的模型的能够实现的性能迁移到另一个模型上,后者相对于前者具有相对简单的结构,而对于教师-学生神经网络,教师神经网络往往是一个更加复杂的网络,具有较好的性能和泛用性,但是在训练该教师神经网络需要使用更多的***资源,因此为了节省训练所需要的***资源,可以用训练好的教师神经网络提供一个软目标(soft target)来指导另外一个结构更加简单、消耗***资源更加少的的学生神经网络来学习,使得结构简单、参数运算量少的学生神经模型也能够通过训练而获得和教师网络相近的性能。
用于训练学生神经网络的第一音素序列以及与第一音素序列对应的梅尔频谱真实值也输入预先训练好的教师神经网络,教师神经网络可以向学生神经网络输出隐变量以及由教师神经网络根据第一音素序列生成的梅尔频谱值,作为评估学生神经网络的训练效果。训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。
在一个具体的实施例中,上述用于评估学生神经网络训练效果的第一损失函数是梅尔频谱值和梅尔频谱预测值之间的均值绝对误差和:
Figure PCTCN2021083233-appb-000001
其中f i是教师神经网络根据第一音素序列生成的梅尔频谱值,g i是学生神经网络根据第一音素序列生成的梅尔频谱值;
或,第一损失函数是Huber损失函数:
Figure PCTCN2021083233-appb-000002
其中,y是是教师神经网络根据第一音素序列生成的梅尔频谱值,f(x)是学生神经网络根据第一音素序列生成的梅尔频谱值,δ是训练开始前根据预期的训练效果而预设的超参数。
在一个具体的实施例中,基于深度学习的语音训练方法在步骤S105之后,还包括:
S111:将训练好的学生神经网络连接到一个预训练好的声码器;
S112:通过训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值;
S113:通过声码器将梅尔频谱值转换为语音。
上述声码器是一种能够将梅尔频谱值转换成人耳能够识别的语音的神经网络,声码器可以选用现有的WaveNET、MelGAN、WaveGlow等的现有的神经网络,将其预先训练好之后,接收训练好的学生神经网络所输出的梅尔频谱值,并且将其转换为语音。在一个优选的实施例中,优选更加轻量、速度更快的MelGAN作为声码器。
本申请提供的基于深度学习的语音训练方法、装置、计算机设备以及存储介质将用于学生神经网络训练的样本数据同时输入到一个预先训练好的教师神经网络,并且由上述教师神经网络提供隐变量以及参考的梅尔频谱值并监督学生神经网络的机器学习过程,以提高训练和推理效率,并且降低对于硬件资源的需求,同时又尽可能的保持良好的训练效果。通过本申请提供的教师-学生神经网络的深度学习模型,由于教师神经网络已经预先训练好,因此占用的***资源并不多,同时学生神经网络的结构较为简单,训练时占用的***资源也不多,因此能够在单GPU资源上进行训练,并且训练好的学生神经网络由于结构较为简单,可以在CPU上进行实时合成语音,该***的优势可以在多种语音合成场景进行快速的落地应用,以提供端到端的语音合成方案。
在另一个具体的实施例中,提供了对用于监督训练学生神经网络的教师神经网络进行预先训练的方法,上述教师神经网络包括音素编码器、频谱编码器、注意力处理机制以及解码器。具体地,预先训练教师神经网络的步骤包括:
S201:对第二音素序列进行编码,得到第二音素键编码值。
第二音素序列是用于训练教师神经网络的音素序列,需要进行对其编码得到第二音素编码值,具体地,是通过教师神经网络中的音素编码器对第二音素序列进行变换压缩。上述音素编码器具有四层结构:第一层包括个嵌入层;第二层包括全连接层;第三层包括线性整流函数;第四层包括N层门控残差(Residual Gated)结构和空洞残差卷积网络。
S202:对与第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码,得到第二梅尔频谱编码值。
教师神经网络还具有频谱编码器,该频谱编码器提供了频谱帧的上下文编码,将之前的频谱帧考虑在内。频谱编码器包括全连接层、线性整流函数以及N层门控残差结构。首先,全连接层和线性整流函数被应用到输入频谱的每一帧。这个编码结果输入到N层门控残差结构和细粒度更高的门控残差网络。教师神经网络所输入与第二音素序列对应的真实梅尔频谱值在输入时向左偏移一个位置,模型就可以被用于根据当前输入的音素和之前的频谱帧预测下一个频谱帧。
S203:对第二音素编码值以及第二梅尔频谱编码值进行注意力机制处理,得到注意力加和 的第二音素编码值以及第二梅尔频谱编码值。
注意力机制采用了点积注意力机制,其中的第二音素编码值包括音素编码器的输出、以及音素编码器的输出和音素编码的和。第二梅尔频谱编码值是频谱编码器的输出。注意力分数是音素编码器的输出和音素编码向量和的加权均值,权重是音素编码器的输出和音素编码的和以及频谱编码器的输出的匹配值。这种方式的话,模型会倾向于选择相关于下一个频谱帧的音素。
S204:注意力加和的第二素编码值以及第二梅尔频谱真实编码值变换为第二梅尔频谱值。
教师神经网络的解码器的输入是编码器的输出和注意力分数加和,再依次通过N层门控残差卷积网络以及带有线性整流函数的卷积层来获得正确数量的通道,并且最后输入一个S型生长曲线(sigmoid)预测层以获取预测的频谱值。
S205:根据与第二音素序列对应的真实梅尔频谱值和第二梅尔频谱值对教师神经网络进行自训练,直至教师神经网络的第二损失函数收敛,得到训练好的教师神经网络。
教师网络使用根据第二音素序列生成的第二梅尔频谱值以及与第二音素序列对应的真实梅尔频谱值作为训练数据进行自训练,直至第二损失函数收敛。
在一个具体的实施例中,上述用于评估教师神经网络自训练效果的第二损失函数是与第二音素序列对应的真实梅尔频谱值和第二梅尔频谱值之间的均值绝对误差和:
Figure PCTCN2021083233-appb-000003
其中f i是与第二音素序列对应的真实梅尔频谱值,g i是教师神经网络根据第二音素序列生成的梅尔频谱值。
在另一个具体的实施例中,预先训练好的教师神经网络生成隐变量的步骤包括:
S301:训练好的教师神经网络对第一音素序列进行编码,得到第三音素键编码值;
S302:训练好的教师神经网络对与第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码,得到第三梅尔频谱编码值;
S303:训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理,得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值;
S304:将注意力加和的第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值;
S305:通过训练好的教师神经网络将注意力加和的第三音素编码值以及第三梅尔频谱真实编码值、第三梅尔频谱值作为隐变量输出到学生神经网络。
上述步骤S301-304与预先训练教师神经网络的步骤S201-204相似,区别在于输入的是用于训练学生神经网络的第一音素序列以及第一音素序列对应的梅尔频谱真实值,其他与预先训练教师神经网络的步骤相同,在此不在赘述。
上述步骤S305是将输入第一音素序列以及第一音素序列对应的梅尔频谱真实值转换为注意力加和的第三音素编码值以及第三梅尔频谱真实编码值、第三梅尔频谱值作为隐变量输出到学生神经网络。上述隐变量是用于向一个结构更加简单的学生神经网络提供一个软目标(soft target)以指导该学生神经网络进行学习,以提高学习速度以及效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在另一个实施例中,提供一种基于深度学习的语音训练装置100,该基于深度学习的语音训练装置与上述实施例中基于深度学习的语音训练方法一一对应。包括以下模块:第一音素编码模块101、时长预测处理模块102、扩展处理模块103、第一梅尔频谱值变换模块104、学生神经网络训练模块105。
第一音素编码模块101,用于对第一音素序列进行编码,得到第一音素编码值;
时长预测处理模块102,用于对第一音素编码值进行时长预测处理,得到第一发音时长预测值;
扩展处理模块103,用于基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理,得到第一音素序列中的每个音素的扩展特征;
第一梅尔频谱值变换模块104,用于将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
学生神经网络训练模块105,用于通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练,训练至学生神经网络的第一损失函数收敛时,得到训练好的学生神经网络。
在另一个实施例中,基于深度学习的语音训练装置中的教师神经网络包括以下模块:
第二音素编码模块,用于对第二音素序列进行编码,得到第二音素键编码值;
第二梅尔频谱编码模块,用于对与第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码,得到第二梅尔频谱编码值;
注意力机制处理模块,用于对第二音素编码值以及第二梅尔频谱编码值进行注意力机制处理,得到注意力加和的第二音素编码值以及第二梅尔频谱编码值;
第二梅尔频谱值变换模块,用于将注意力加和的第二素编码值以及第二梅尔频谱真实编码值变换为第二梅尔频谱值;
教师神经网络自训练模块,用于根据与第二音素序列对应的真实梅尔频谱和第二梅尔频谱对所述教师神经网络进行自训练,直至教师神经网络的第二损失函数收敛,得到训练好的教师神经网络。
在另一个具体的实施例中,基于深度学习的语音训练装置中的学生神经网络训练模块105,还包括:
第三音素编码单元,用于训练好的教师神经网络对第一音素序列进行编码,得到第三音素键编码值;
第三梅尔频谱编码单元,用于训练好的教师神经网络对与第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码,得到第三梅尔频谱编码值;
注意力机制处理单元,所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理,得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值;
第三梅尔频谱值变换单元,用于将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值;
隐变量输出单元,用于通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
在另一个具体的实施例中,第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和;或,所述第一损失函数选用Huber损失函数。
在另一个具体的实施例中,扩展处理模块103具体用于根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征。
在另一个具体的实施例中,基于深度学习的语音训练装置100还包括:
声码器连接模块,用于将所述训练好的学生神经网络连接到一个预训练好的声码器;
输入音素序列转换模块,用于通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值;
语言输出模块,用于通过所述声码器将所述梅尔频谱值转换为语音。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于基于深度学习的语音训练装置的具体限定可以参见上文中对于基于深度学习的语音 训练方法的限定,在此不再赘述。上述基于深度学习的语音训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或者工作站,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于深度学习的语音训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的语音训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于深度学习的语音训练方法的步骤,例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中基于深度学习的语音训练装置的各模块/单元的功能,例如图5所示模块101至模块105的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于深度学习的语音训练方法的步骤,例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中基于深度学习的语音训练装置的各模块/单元的功能,例如图5所示模块101至模块105的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等,所述计算机可读存储介质可以是非易失性,也可以是易失性。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、 模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种基于深度学习的语音训练方法,其中,包括以下步骤:
    对第一音素序列进行编码,得到第一音素编码值;
    对所述第一音素编码值进行时长预测处理,得到第一发音时长预测值;
    基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征;
    将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
    通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络。
  2. 根据权利要求1所述的基于深度学习的语音训练方法,其中,训练所述教师神经网络的步骤包括:
    对第二音素序列进行编码,得到第二音素键编码值;
    对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码,得到第二梅尔频谱编码值;
    对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理,得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值;
    将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值;
    根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练,直至所述教师神经网络的第二损失函数收敛,得到训练好的所述教师神经网络。
  3. 根据权利要求2所述的基于深度学习的语音训练方法,其中,在所述通过预先训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络的步骤中,还包括:
    所述训练好的教师神经网络对所述第一音素序列进行编码,得到第三音素键编码值;
    所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码,得到第三梅尔频谱编码值;
    所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理,得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值;
    将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值;
    通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
  4. 根据权利要求3所述的基于深度学习的语音训练方法,其中:
    所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和;
    或,所述第一损失函数选用Huber损失函数。
  5. 根据权利要求3所述的基于深度学习的语音训练方法,其中,所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括:
    根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征。
  6. 根据权利要求1所述的基于深度学习的语音训练方法,其中,所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络的步骤之后,还包括:
    将所述训练好的学生神经网络连接到一个预训练好的声码器;
    通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值;
    通过所述声码器将所述梅尔频谱值转换为语音。
  7. 一种基于深度学习的语音训练装置,其中,包括以下模块:
    第一音素编码模块,用于对第一音素序列进行编码,得到第一音素编码值;
    时长预测处理模块,用于对所述第一音素编码值进行时长预测处理,得到第一发音时长预测值;
    扩展处理模块,用于基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征;
    第一梅尔频谱值变换模块,用于将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
    学生神经网络训练模块,用于通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络。
  8. 根据权利要求7所述的基于深度学习的语音训练装置,其中,所述教师神经网络包括以下模块:
    第二音素编码模块,用于对第二音素序列进行编码,得到第二音素键编码值;
    第二梅尔频谱编码模块,用于对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码,得到第二梅尔频谱编码值;
    注意力机制处理模块,用于对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理,得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值;
    第二梅尔频谱值变换模块,用于将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值;
    教师神经网络自训练模块,用于根据与所述第二音素序列对应的真实梅尔频谱和所述第二梅尔频谱对所述教师神经网络进行自训练,直至所述教师神经网络的第二损失函数收敛,得到训练好的所述教师神经网络。
  9. 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现以下步骤:
    对第一音素序列进行编码,得到第一音素编码值;
    对所述第一音素编码值进行时长预测处理,得到第一发音时长预测值;
    基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征;
    将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
    通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络。
  10. 根据权利要求9所述的计算机设备,其中,训练所述教师神经网络的步骤包括:
    对第二音素序列进行编码,得到第二音素键编码值;
    对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码,得到第二梅尔频谱编码值;
    对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理,得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值;
    将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值;
    根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练,直至所述教师神经网络的第二损失函数收敛,得到训练好的所述教师神经网络。
  11. 根据权利要求10所述的计算机设备,其中,在所述通过预先训练好的教师神经网络 提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络的步骤中,还包括:
    所述训练好的教师神经网络对所述第一音素序列进行编码,得到第三音素键编码值;
    所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码,得到第三梅尔频谱编码值;
    所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理,得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值;
    将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值;
    通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
  12. 根据权利要求11所述的计算机设备,其中:
    所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和;
    或,所述第一损失函数选用Huber损失函数。
  13. 根据权利要求11所述的计算机设备,其中,所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括:
    根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征。
  14. 根据权利要求9所述的计算机设备,其中,所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络的步骤之后,还包括:
    将所述训练好的学生神经网络连接到一个预训练好的声码器;
    通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值;
    通过所述声码器将所述梅尔频谱值转换为语音。
  15. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如下步骤的计算机可读指令,所述步骤包括:
    对第一音素序列进行编码,得到第一音素编码值;
    对所述第一音素编码值进行时长预测处理,得到第一发音时长预测值;
    基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征;
    将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值;
    通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络。
  16. 根据权利要求15所述的计算机可读存储介质,其中,训练所述教师神经网络的步骤包括:
    对第二音素序列进行编码,得到第二音素键编码值;
    对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码,得到第二梅尔频谱编码值;
    对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理,得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值;
    将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值;
    根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练,直至所述教师神经网络的第二损失函数收敛,得到训练好的所述教师神经 网络。
  17. 根据权利要求16所述的计算机可读存储介质,其中,在所述通过预先训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络的步骤中,还包括:
    所述训练好的教师神经网络对所述第一音素序列进行编码,得到第三音素键编码值;
    所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码,得到第三梅尔频谱编码值;
    所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理,得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值;
    将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值;
    通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
  18. 根据权利要求17所述的计算机可读存储介质,其中:
    所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和;
    或,所述第一损失函数选用Huber损失函数。
  19. 根据权利要求17所述的计算机可读存储介质,其中,所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括:
    根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理,得到所述第一音素序列中的每个音素的扩展特征。
  20. 根据权利要求15所述的计算机可读存储介质,其中,所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练,训练至所述学生神经网络的第一损失函数收敛时,得到训练好的所述学生神经网络的步骤之后,还包括:
    将所述训练好的学生神经网络连接到一个预训练好的声码器;
    通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值;
    通过所述声码器将所述梅尔频谱值转换为语音。
PCT/CN2021/083233 2020-12-29 2021-03-26 基于深度学习的语音训练方法、装置、设备以及存储介质 WO2022141842A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011593537.5 2020-12-29
CN202011593537.5A CN112735389A (zh) 2020-12-29 2020-12-29 基于深度学习的语音训练方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
WO2022141842A1 true WO2022141842A1 (zh) 2022-07-07

Family

ID=75607746

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/083233 WO2022141842A1 (zh) 2020-12-29 2021-03-26 基于深度学习的语音训练方法、装置、设备以及存储介质

Country Status (2)

Country Link
CN (1) CN112735389A (zh)
WO (1) WO2022141842A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524896A (zh) * 2023-04-24 2023-08-01 北京邮电大学 一种基于发音生理建模的发音反演方法及***

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362836B (zh) * 2021-06-02 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 训练声码器方法、终端及存储介质
CN113327576B (zh) * 2021-06-03 2024-04-23 多益网络有限公司 语音合成方法、装置、设备及存储介质
CN113707127B (zh) * 2021-08-30 2023-12-15 中国科学院声学研究所 一种基于线性自注意力的语音合成方法及***
CN113763987A (zh) * 2021-09-06 2021-12-07 中国科学院声学研究所 一种语音转换模型的训练方法及装置
CN114267375B (zh) * 2021-11-24 2022-10-28 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质
CN114913877A (zh) * 2022-05-12 2022-08-16 平安科技(深圳)有限公司 一种声韵母发音时长预测方法、结构、终端及存储介质
CN115798455B (zh) * 2023-02-07 2023-06-02 深圳元象信息科技有限公司 语音合成方法、***、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160049144A1 (en) * 2014-08-18 2016-02-18 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及***
CN111583904A (zh) * 2020-05-13 2020-08-25 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN111968618A (zh) * 2020-08-27 2020-11-20 腾讯科技(深圳)有限公司 语音合成方法、装置
CN112002303A (zh) * 2020-07-23 2020-11-27 云知声智能科技股份有限公司 一种基于知识蒸馏的端到端语音合成训练方法及***
CN112116903A (zh) * 2020-08-17 2020-12-22 北京大米科技有限公司 语音合成模型的生成方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160049144A1 (en) * 2014-08-18 2016-02-18 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及***
CN111583904A (zh) * 2020-05-13 2020-08-25 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112002303A (zh) * 2020-07-23 2020-11-27 云知声智能科技股份有限公司 一种基于知识蒸馏的端到端语音合成训练方法及***
CN112116903A (zh) * 2020-08-17 2020-12-22 北京大米科技有限公司 语音合成模型的生成方法、装置、存储介质及电子设备
CN111968618A (zh) * 2020-08-27 2020-11-20 腾讯科技(深圳)有限公司 语音合成方法、装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524896A (zh) * 2023-04-24 2023-08-01 北京邮电大学 一种基于发音生理建模的发音反演方法及***

Also Published As

Publication number Publication date
CN112735389A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
WO2022141842A1 (zh) 基于深度学习的语音训练方法、装置、设备以及存储介质
CN112133282B (zh) 轻量级多说话人语音合成***及电子设备
CN109036371B (zh) 用于语音合成的音频数据生成方法及***
CN109859736B (zh) 语音合成方法及***
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
Kastner et al. Representation mixing for tts synthesis
WO2021179910A1 (zh) 文本语音的前端转换方法、装置、设备和存储介质
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
WO2021006117A1 (ja) 音声合成処理装置、音声合成処理方法、および、プログラム
JP2021012351A (ja) 音声合成処理装置、音声合成処理方法、および、プログラム
CN113066511A (zh) 一种语音转换方法、装置、电子设备和存储介质
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
CN115762489A (zh) 语音识别模型的数据处理***及方法、语音识别方法
KR20230075340A (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备
CN112735377B (zh) 语音合成方法、装置、终端设备及存储介质
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN113628608A (zh) 语音生成方法、装置、电子设备及可读存储介质
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
CN115376484A (zh) 基于多帧预测的轻量级端到端语音合成***构建方法
CN112687262A (zh) 语音转换方法、装置、电子设备及计算机可读存储介质
WO2023102931A1 (zh) 韵律结构的预测方法、电子设备、程序产品及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21912612

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21912612

Country of ref document: EP

Kind code of ref document: A1