CN117252213B - 使用合成语音作为监督信息的端到端语音翻译方法 - Google Patents

使用合成语音作为监督信息的端到端语音翻译方法 Download PDF

Info

Publication number
CN117252213B
CN117252213B CN202310824069.5A CN202310824069A CN117252213B CN 117252213 B CN117252213 B CN 117252213B CN 202310824069 A CN202310824069 A CN 202310824069A CN 117252213 B CN117252213 B CN 117252213B
Authority
CN
China
Prior art keywords
speech
voice
translation
original
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310824069.5A
Other languages
English (en)
Other versions
CN117252213A (zh
Inventor
熊德意
薛征山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310824069.5A priority Critical patent/CN117252213B/zh
Publication of CN117252213A publication Critical patent/CN117252213A/zh
Application granted granted Critical
Publication of CN117252213B publication Critical patent/CN117252213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种使用合成语音作为监督信息的端到端语音翻译方法,首先对待翻译的三元组原始语音翻译数据进行预处理,得到包含合成语音的四元组语音翻译数据;然后构建语音翻译模型,利用四元组的语音翻译数据作为样本训练该语音翻译模型,其中,设计了对齐适配器模块,用于将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;同时,在共享解码器端,将合成语音的logits分布蒸馏到原始语音的logits分布上。最后利用训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。本发明使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升翻译效果。

Description

使用合成语音作为监督信息的端到端语音翻译方法
技术领域
本发明涉及语音翻译技术领域,特别是涉及一种使用合成语音作为监督信息的端到端语音翻译方法。
背景技术
语音翻译技术包括两种:(1)语音到语音翻译(Speech-to-Speech,即S2S),它将一种语言的音频信号自动翻译成另一种语言的音频信号。 (2)语音到文本翻译(Speech-to-Text,即S2T),它将一种语言的音频信号自动翻译成另一种语言的文本。这两种技术,广泛应用在同传***中。例如腾讯同传、百度同传、搜狗同传、有道同传和讯飞同传等。
本专利属于S2T技术,即将源语言语音,转换成目标语言的文本。根据实现方式的不同,可以分为级联语音翻译和端到端语音翻译。级联语音翻译,它将语音识别(AutomaticSpeech Recognition,ASR)和机器翻译(Machine Translation,MT)串联起来,即先将源语音识别为源文本,再将源文本翻译生成目标文本的过程。这种方案的优点是:(1)语音识别和机器翻译,这两部分可以单独优化,从而降低了语音翻译任务的难度。(2)ASR和MT都有丰富的数据,所以单独的语音识别和机器翻译,都有很好的效果。但是这种方法的缺点也很明显:(1)错误传播;语音识别模型得到的源文本如果存在错误,这些错误很可能在翻译过程中被放大,从而使最后翻译结果出现比较大的偏差。(2)高时延;语音识别模型和文本翻译模型只能串行地计算,时延高,翻译效率相对低,尤其在实时语音翻译场景,对翻译效率的要求是非常高的。此外,由于在实际场景中级联***对任务进行了进一步的分解,增加了中间的处理模块,虽然可以提高***的整体性能,但这也会进一步提高时延,降低翻译效率。(3)语音信息丢失;将语音识别为文本的过程中,语音中包含的语气、情感、音调等信息会丢失,这些信息通常不以文字的形式表达。同一句话,在不同的语气中表达的意思很可能是不同的。这些信息,对于翻译来说,也是有帮助的。端到端语音翻译,是相对于级联语音翻译而言,它直接建模语音到目标文本的转换,是目前业界的研究热点。它的优点是:(1)避免了错误传播问题;(2)时延显著降低;(3)模型部署轻便。缺点是:(1)建模复杂度高;涉及到模态的转换;(2)训练数据稀缺,这是影响端到端语音翻译最大的瓶颈。
端到端语音翻译技术(End-to-End S2T),当前的技术方案主要是是多任务学习(MultiTask Learning)、知识蒸馏(Knowledge Distillation,KD)、语音文本混合学习(Speech-Text manifold mixup learning)和对比学习(Contrastive Learning)等。这些方案,都可以有效提升端到端语音翻译的效果。多任务学习,就是为模型加入额外的训练目标来指导模型的学习,通过引入其它模型的知识为语音翻译模型提供监督学习信号来辅助训练,从而缓解语音翻译训练数据不足的问题。知识蒸馏是将相对模型效果较好的文本翻译知识,蒸馏到模型相对较复杂,效果较差的语音翻译模型上,从而提升语音翻译的效果。语音文本混合学习,本质上是一种数据增强的技术,通过构造更多的数据来提升语音翻译的效果。对比学习的方法,则是在同一个训练batch内,拉近互译句对的距离,同时拉远非互译句对的距离,以此来提升语音翻译的效果。以上这些技术,都没有考虑语音翻译鲁棒性的问题,而是站在模态拉近的角度上,改进模型的翻译结果。
鲁棒性,是语音翻译的一个重要的方向。鲁棒性问题,主要表现在,对于相同的文本,由不同的人通过语音说出来,甚至是对于相同句子由相同人的不同轮次说出来,模型的翻译效果也不完全一致。鲁棒性解决的问题是,对于相同文本对应的语音,不管是不同人,还是相同人,在各种场景条件下,翻译结果均应当保持一致,或者翻译结果质量更高。不同人或者相同人,在不同的情况下,说相同的话,其说话的语音时长、停顿等可能会不同,这里统称为音色不同,音色不同会影响语音翻译的鲁棒性。
发明内容
本发明的目的是针对端到端语音翻译鲁棒性的技术问题,而提供一种使用合成语音作为监督信息的端到端语音翻译方法。该方法使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升语音翻译效果。
为实现本发明的目的所采用的技术方案是:
一种使用合成语音作为监督信息的端到端语音翻译方法,包括以下步骤:
步骤1:对待翻译的三元组原始语音翻译数据进行预处理,得到四元组的语音翻译数据;其中,三元组是:原始语音、原始语音对应的转录文本和原始语音对应的翻译文本,四元组是:原始语音、转录文本对应的合成语音、转录文本和翻译文本;
步骤2:构建语音翻译模型,利用步骤1得到的四元组的语音翻译数据作为样本训练该语音翻译模型;
所述语音翻译模型包括5个模块:语音编码器模块、文本编码器模块、共享编码器模块、对齐适配器模块和共享解码器模块;
语音编码器模块,用于将四元组语音翻译数据中的原始语音和合成语音编码成实数向量,该实数向量,代表了语音在模型中的语音特征;
文本编码器模块,用于将四元组语音翻译数据中的转录文本编码成词向量;
共享编码器模块,用于获得原始语音、合成语音、转录文本的语义表示;
共享解码器模块,作用是采用自回归的方法,获得推理结果;
对齐适配器模块,作用是将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;
定义样本,/>分别表示原始语音、合成语音、转录文本和目标翻译文本,/>表示模型参数,在样本D、模型参数/>条件下,建立以下损失函数:
1、原始语音翻译成目标翻译文本的损失
2、原始语音识别为转录文本的损失
3、转录文本机器翻译成目标翻译文本的损失
4、合成语音翻译成目标翻译文本的损失
对于上述四个损失函数,其中,表示原始语音和目标翻译文本对,/>表示合成语音和目标翻译文本对,/>表示原始语音和转录文本对,/>表示转录文本和目标翻译文本对;/>表示在模型参数/>条件下,/>翻译成/>的概率;/>表示在模型参数/>条件下,/>识别成/>的概率;/>表示在模型参数/>条件下,/>翻译成/>的概率;
5、对齐适配器的损失
其中,表示/>经过对齐适配器的输出,/>表示/>经过共享编码器的输出,MSE表示均方误差损失;
6、合成语音向原始语音知识蒸馏的损失
其中,是共享解码器模块第/>步骤的输出logits,logits表示词表中所有词在位置i的概率分布,每一步会产生一个logits;是温度系数,/>表示在输入为/>、参数为/>、第/>时刻输出token是/>是温度系数,/>表示在输入为/>、参数为/>、第/>时刻输出token是/>的概率,token是指在logits中具体的某个词;表示在输入为/>、参数为/>、第/>时刻输出token是/>的概率;/>表示词表规模,/>表示目标翻译长度,KD表示知识蒸馏;
综合上述6个损失函数,最终的整个语音翻译模型的损失函数为
步骤3,利用步骤2得到的训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。
在上述技术方案中,步骤1包括以下步骤:
步骤1.1:生成和原始语音对应的转录文本相对应的合成语音数据;
步骤1.2:将步骤1.1得到的合成语音的采样率调节至与原始语音的采样率相同;
步骤1.3:计算步骤1.2得到的合成语音的时长以及原始语音的时长,并计算合成语音和原始语音之间的压缩率,压缩率 = 合成语音的时长 / 原始语音的时长;
步骤1.4:将压缩率不满足要求的原始语音与合成语音过滤掉,并同步把相应的转录文本和翻译文本过滤掉;
步骤1.5:对于步骤1.4处理后的原始语音与合成语音,将合成语音的时长转化到和原始语音的语音时长一致;
步骤1.6:将步骤1.5处理后的合成语音添加进原始语音翻译数据,得到四元组的语音翻译数据。
在上述技术方案中,步骤1.1中,通过espnet2-TTS***生成和原始语音对应的文本相对应的合成语音。
在上述技术方案中,步骤1.4中,将压缩率<0.4和压缩率>3的原始语音与合成语音过滤掉,并同步把相应的转录文本和翻译文本过滤掉。
在上述技术方案中,步骤2中,所述语音编码器模块是在Wav2vec2.0开源语音预训练模型后加两层CNN。
在上述技术方案中,步骤2中,所述共享编码器模块,采用经典的TransformerEncoder结构。
在上述技术方案中,步骤2中,所述共享解码器模块,采用经典的TransformerDecoder结构。
在上述技术方案中,步骤2中,所述对齐适配器模块,采用经典的TransformerEncoder结构。
与现有技术相比,本发明的有益效果是:
本发明使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升翻译效果。
附图说明
图1为本发明的使用合成语音作为监督信息的端到端语音翻译方法的流程图。
图2为本发明的语音翻译模型的架构原理图。
对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参见附图1,一种使用合成语音作为监督信息的端到端语音翻译方法,包括以下步骤:
步骤1:对待翻译的三元组原始语音翻译数据进行预处理,得到四元组的语音翻译数据。具体步骤如下:
步骤1.1:原始语音翻译数据是三元组结构,三个元组分别是:原始语音、原始语音对应的转录文本和原始语音对应的翻译文本,首先利用文本-语音合成***将三元组中的原始语音对应的转录文本合成相应的语音,即生成和原始语音对应的转录文本相对应的合成语音数据。本实施例中采用的是开源espnet2-TTS***,通过espnet2-TTS***生成和所述原始语音对应的转录文本相对应的合成语音。
步骤1.2:因espnet2-TTS***生成的合成语音的采样率是22k,与原始语音的采样率(16k)不一样,所以需要通过ffmpeg工具,将步骤1.1得到的合成语音采样率转换成16k。
步骤1.3:计算步骤1.2得到的合成语音的时长以及原始语音的时长,并计算合成语音和原始语音之间的压缩率,压缩率 = 合成语音的时长 / 原始语音的时长。
步骤1.4:将压缩率<0.4和压缩率>3的原始语音与合成语音过滤掉,并同步把相应的转录文本和翻译文本过滤掉。
步骤1.5:对于步骤1.4处理后的原始语音与合成语音,通过ffmpeg工具,将合成语音的时长转化到和原始语音的语音时长一致(理想情况下要完全一致,但是ffmpeg工具转化过程会有损失,所以最终时长其实不是完全一致,有很小的差距,大概是1%以内,假如原始语音的时长是1秒的话,合成语音的时长大概是1.00x或者0.99x 秒)。
因为ffmpeg工具是可以把一个语音拉长或者缩短,其控制由参数atempo控制,这个参数的取值是0.5到100;所以如果压缩率=0.49,因为小于0.5,所以需要使用多个atempo参数,本发明采用的办法是将压缩率=0.49取开平方的值(0.7)作为参数atempo的值,并堆叠2个atempo(atempo=0.7)就可以了。
步骤1.6:将步骤1.5处理后的合成语音添加进原始语音翻译数据,从而得到四元组的语音翻译数据,四个元组分别是:原始语音、合成语音、转录文本和翻译文本。
步骤2:构建语音翻译模型,利用步骤1得到的四元组的语音翻译数据作为样本训练该语音翻译模型。
参见附图2,所述语音翻译模型包括5个模块:语音编码器模块、文本编码器模块、共享编码器模块、对齐适配器模块和共享解码器模块。
语音编码器模块:作用是将四元组语音翻译数据中的原始语音和合成语音编码成实数向量,这个实数向量,代表了语音在模型中的语音特征,参与后续模型的训练。语音编码器模块的具体实现是在Wav2vec开源语音预训练模型后加两层CNN(ConvolutionalNeural Networks,卷积神经网络)。
文本编码器模块:作用是将四元组语音翻译数据中的转录文本编码成词向量。
共享编码器模块:采用经典的Transformer Encoder结构,作用是获得原始语音、合成语音、转录文本的语义表示,其中,参数layer(Encoder的层数)=6,multi-heads(多头注意力个数)=8。
共享解码器模块:采用经典的Transformer Decoder结构,其中参数layer(Dncoder的层数)=6,multi-heads(多头注意力个数)=8。作用是采用自回归的方法,获得推理结果。
对齐适配器模块:和共享编码器一样的结构,采用经典的Transformer Encoder结构。作用是将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近,从而消除了不同说话人或者同一说话人的语音变化所带来的负面影响(也就是不同说话人或者同一说话人说同样的话,它们的语义表示趋于一致)。
定义样本,/>分别表示原始语音、合成语音、转录文本和目标翻译文本,/>表示模型参数,在样本/>、模型参数/>条件下,建立以下损失函数:
1、原始语音翻译成目标翻译文本的损失
2、原始语音识别为转录文本的损失
3、转录文本机器翻译成目标翻译文本的损失
4、合成语音翻译成目标翻译文本的损失
对于上述损失函数,其中,表示原始语音和目标翻译文本对,/>表示合成语音和目标翻译文本对,/>表示原始语音和转录文本对,/>表示转录文本和目标翻译文本对;/>表示在模型参数/>条件下,/>翻译成/>的概率;/>表示在模型参数/>条件下,/>识别成/>的概率;/>表示在模型参数/>条件下,/>翻译成/>的概率;ST表示语音翻译(Speech Translation),ASR表示语音识别(Automatic Speech Recognition),MT表示机器翻译(Machine Translation);
5、对齐适配器的损失
其中,表示/>经过对齐适配器的输出,/>表示/>经过共享编码器的输出,MSE(meansquared error)表示均方误差损失;
6、合成语音向原始语音知识蒸馏的损失
其中,是共享解码器模块第/>步骤的输出logits(logits表示词表中所有词在位置i的概率分布),/>是温度系数,/>表示在输入为/>、参数为/>、第/>时刻输出token是/>的概率(在推理过程中,每一步会产生一个logits,token是指在logits中具体的某个词);/>表示在输入为/>、参数为/>、第/>时刻输出token是/>的概率;/>表示词表规模,/>表示目标翻译长度,KD表示知识蒸馏(Knowledge Distillation)。
综合上述6个损失函数,最终的整个语音翻译模型的损失函数为
步骤3,利用步骤2得到的训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims (8)

1.一种使用合成语音作为监督信息的端到端语音翻译方法,其特征在于,包括以下步骤:
步骤1:对待翻译的三元组原始语音翻译数据进行预处理,得到四元组的语音翻译数据;其中,三元组是:原始语音、原始语音对应的转录文本和原始语音对应的翻译文本,四元组是:原始语音、合成语音、转录文本和翻译文本;
步骤2:构建语音翻译模型,利用步骤1得到的四元组的语音翻译数据作为样本训练该语音翻译模型;
所述语音翻译模型包括5个模块:语音编码器模块、文本编码器模块、共享编码器模块、对齐适配器模块和共享解码器模块;
语音编码器模块,用于将四元组语音翻译数据中的原始语音和合成语音编码成实数向量,该实数向量,代表了语音在模型中的语音特征;
文本编码器模块,用于将四元组语音翻译数据中的转录文本编码成词向量;
共享编码器模块,用于获得原始语音以及合成语音和转录文本的语义表示;
共享解码器模块,作用是采用自回归的方法,获得推理结果;
对齐适配器模块,作用是将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;
定义样本D=(s,s′,x,y),s,s′,x,y分别表示原始语音、合成语音、转录文本和目标翻译文本,θ表示模型参数,在样本D和模型参数θ条件下,建立以下损失函数:
1、原始语音翻译成目标翻译文本的损失LST(D;θ):
LST(D;θ)=-∑(s,y)∈DlogP(y|s;θ)
2、原始语音识别为转录文本的损失LASR(D;θ):
LASR(D;θ)=-∑(s,x)∈DlogP(x|s;θ)
3、转录文本机器翻译成目标翻译文本的损失LMT(D;θ):
LMT(D;θ)=-∑(x,y)∈DlogP(y|x;θ)
4、合成语音翻译成目标翻译文本的损失LST′(D;θ):
LST′(D;θ)=-∑(s′,y)∈DlogP(y|s′;θ)
对于上述4个损失函数,其中,(s,y)表示原始语音和目标翻译文本对,(s′,y)表示合成语音和目标翻译文本对,(s,x)表示原始语音和转录文本对,(x,y)表示转录文本和目标翻译文本对;P(y|s;θ)表示在模型参数θ条件下,s翻译成y的概率;P(x|s;θ)表示在模型参数θ条件下,s识别成x的概率;P(y|x;θ)表示在模型参数θ条件下,x翻译成y的概率;
5、对齐适配器的损失Lalign(D;θ):
Lalign(D;θ)=∑(s,s′)∈DMSE(s*,s′*)
其中,s表示原始语音,s′表示合成语音,s*表示s经过对齐适配器的输出,s′*表示s′经过共享编码器的输出,MSE表示均方误差损失;
6、合成语音向原始语音知识蒸馏的损失LKD(D;θ):
其中,logits表示词表中所有词在位置i的概率分布,每一步会产生一个logits;τ是温度系数,P(yt=k|y<t,s,θ)表示在输入为s、模型参数为θ和第t时刻输出token是k时的概率,token是指在logits中具体的某个词;P(yt=k|y<t,s′,θ)表示在输入为s′、模型参数为θ和第t时刻输出token是k时的概率;V表示词表规模,N表示目标翻译长度,KD表示知识蒸馏;
综合上述6个损失函数,最终的整个语音翻译模型的损失函数为L(D;θ):
L(D;θ)=LST(D;θ)+LASR(D;θ)+LMT(D;θ)+LST′(D;θ)+Lalign(D;θ)+LKD(D;θ)
步骤3,利用步骤2得到的训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。
2.根据权利要求1所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤1包括以下步骤:
步骤1.1:生成和原始语音对应的转录文本相对应的合成语音数据;
步骤1.2:将步骤1.1得到的合成语音的采样率调节至与原始语音的采样率相同;
步骤1.3:计算步骤1.2得到的合成语音的时长以及原始语音的时长,并计算合成语音和原始语音之间的压缩率,压缩率=合成语音的时长/原始语音的时长;
步骤1.4:将压缩率不满足要求的原始语音与合成语音过滤掉,并同步把相应的转录文本和翻译文本过滤掉;
步骤1.5:对于步骤1.4处理后的原始语音与合成语音,将合成语音的时长转化到和原始语音的语音时长一致;
步骤1.6:将步骤1.5处理后的合成语音添加进原始语音翻译数据,得到四元组的语音翻译数据。
3.根据权利要求2所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤1.1中,通过espnet2-TTS***生成和原始语音对应的文本相对应的合成语音。
4.根据权利要求2所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤1.4中,将压缩率<0.4和压缩率>3的原始语音与合成语音过滤掉,并同步把相应的转录文本和翻译文本过滤掉。
5.根据权利要求1所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤2中,所述语音编码器模块是在Wav2vec2.0开源语音预训练模型后加两层CNN。
6.根据权利要求1所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤2中,所述共享编码器模块,采用经典的Transformer Encoder结构。
7.根据权利要求1所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤2中,所述共享解码器模块,采用经典的Transformer Decoder结构。
8.根据权利要求1所述的使用合成语音作为监督信息的端到端语音翻译方法,其特征在于:步骤2中,所述对齐适配器模块,采用经典的Transformer Encoder结构。
CN202310824069.5A 2023-07-06 2023-07-06 使用合成语音作为监督信息的端到端语音翻译方法 Active CN117252213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310824069.5A CN117252213B (zh) 2023-07-06 2023-07-06 使用合成语音作为监督信息的端到端语音翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310824069.5A CN117252213B (zh) 2023-07-06 2023-07-06 使用合成语音作为监督信息的端到端语音翻译方法

Publications (2)

Publication Number Publication Date
CN117252213A CN117252213A (zh) 2023-12-19
CN117252213B true CN117252213B (zh) 2024-05-31

Family

ID=89125402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310824069.5A Active CN117252213B (zh) 2023-07-06 2023-07-06 使用合成语音作为监督信息的端到端语音翻译方法

Country Status (1)

Country Link
CN (1) CN117252213B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020038343A (ja) * 2018-08-30 2020-03-12 国立研究開発法人情報通信研究機構 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN112204653A (zh) * 2019-03-29 2021-01-08 谷歌有限责任公司 通过机器学习的直接的语音到语音翻译
CN112951213A (zh) * 2021-02-09 2021-06-11 中国科学院自动化研究所 端到端的在线语音检测与识别方法、***及设备
CN113505611A (zh) * 2021-07-09 2021-10-15 中国人民解放军战略支援部队信息工程大学 在生成对抗中获得更好的语音翻译模型的训练方法和***
CN114842834A (zh) * 2022-03-31 2022-08-02 中国科学院自动化研究所 一种语音文本联合预训练方法及***
CN115828943A (zh) * 2022-12-28 2023-03-21 沈阳雅译网络技术有限公司 一种基于语音合成数据的语音翻译模型建模方法和设备
CN115985298A (zh) * 2022-12-20 2023-04-18 沈阳雅译网络技术有限公司 基于语音文本自动对齐混合自训练的端到端语音翻译方法
CN116227503A (zh) * 2023-01-06 2023-06-06 沈阳雅译网络技术有限公司 一种基于ctc的非自回归端到端语音翻译方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020038343A (ja) * 2018-08-30 2020-03-12 国立研究開発法人情報通信研究機構 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
CN112204653A (zh) * 2019-03-29 2021-01-08 谷歌有限责任公司 通过机器学习的直接的语音到语音翻译
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN112951213A (zh) * 2021-02-09 2021-06-11 中国科学院自动化研究所 端到端的在线语音检测与识别方法、***及设备
CN113505611A (zh) * 2021-07-09 2021-10-15 中国人民解放军战略支援部队信息工程大学 在生成对抗中获得更好的语音翻译模型的训练方法和***
CN114842834A (zh) * 2022-03-31 2022-08-02 中国科学院自动化研究所 一种语音文本联合预训练方法及***
CN115985298A (zh) * 2022-12-20 2023-04-18 沈阳雅译网络技术有限公司 基于语音文本自动对齐混合自训练的端到端语音翻译方法
CN115828943A (zh) * 2022-12-28 2023-03-21 沈阳雅译网络技术有限公司 一种基于语音合成数据的语音翻译模型建模方法和设备
CN116227503A (zh) * 2023-01-06 2023-06-06 沈阳雅译网络技术有限公司 一种基于ctc的非自回归端到端语音翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
End-to-End Speech Translation with Knowledge Distillation;Yuchen Liu et.;《arXiv》;20190417;全文 *
基于Transformer Transducer的端到端实时语音翻译的研究;邹剑云;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20220615(第6期);全文 *

Also Published As

Publication number Publication date
CN117252213A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN107545903B (zh) 一种基于深度学习的语音转换方法
Zhang et al. Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet
WO2022048405A1 (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112767958B (zh) 一种基于零次学习的跨语种音色转换***及方法
Kameoka et al. ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
Zhao et al. Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams.
CN114023316A (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
Liu et al. Voice conversion with transformer network
Luong et al. Bootstrapping non-parallel voice conversion from speaker-adaptive text-to-speech
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
Kameoka et al. Fasts2s-vc: Streaming non-autoregressive sequence-to-sequence voice conversion
An et al. Speech Emotion Recognition algorithm based on deep learning algorithm fusion of temporal and spatial features
CN112735404A (zh) 一种语音反讽检测方法、***、终端设备和存储介质
Wang et al. Speech augmentation using wavenet in speech recognition
Wu et al. Audio-Visual Multi-Talker Speech Recognition in a Cocktail Party.
Dai et al. Cloning one’s voice using very limited data in the wild
Moritani et al. Stargan-based emotional voice conversion for japanese phrases
Fu et al. Cycletransgan-evc: A cyclegan-based emotional voice conversion model with transformer
CN117252213B (zh) 使用合成语音作为监督信息的端到端语音翻译方法
US11715457B1 (en) Real time correction of accent in speech audio signals
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
Tan et al. Denoised senone i-vectors for robust speaker verification
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
CN116524962A (zh) 一种基于Conformer结构与多任务学习框架的语音情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant