CN110246487B - 用于单通道的语音识别模型的优化方法及*** - Google Patents

用于单通道的语音识别模型的优化方法及*** Download PDF

Info

Publication number
CN110246487B
CN110246487B CN201910511791.7A CN201910511791A CN110246487B CN 110246487 B CN110246487 B CN 110246487B CN 201910511791 A CN201910511791 A CN 201910511791A CN 110246487 B CN110246487 B CN 110246487B
Authority
CN
China
Prior art keywords
voice
person
model
output
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910511791.7A
Other languages
English (en)
Other versions
CN110246487A (zh
Inventor
钱彦旻
张王优
常煊恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910511791.7A priority Critical patent/CN110246487B/zh
Publication of CN110246487A publication Critical patent/CN110246487A/zh
Application granted granted Critical
Publication of CN110246487B publication Critical patent/CN110246487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种用于单通道的语音识别模型的优化方法。该方法包括:接收各带有真实标签向量的单人语音,多人混合语音,将从各单人语音提取的语音特征输入至目标教师模型,得到各单人语音对应的目标软标签向量;将多人混合语音输入至端到端学生模型,确定输出排列;根据确定输出排列的多人混合语音内每个人的输出标签向量,确定知识蒸馏损失和直接损失;当根据知识蒸馏损失和直接损失确定的联合误差未收敛时,根据联合误差对端到端学生模型进行优化。本发明实施例还提供一种用于单通道的语音识别模型的优化***。本发明实施例能够更容易学习出好的参数,同时模型较为精简,更好的参数使其训练的学生模型有着更好的性能。

Description

用于单通道的语音识别模型的优化方法及***
技术领域
本发明涉及语音识别领域,尤其涉及一种用于单通道的语音识别模型的优化方法及***。
背景技术
随着智能语音的发展,越来越多设备都具备了语音识别的功能,但由于考虑到不同设备的使用场景,在设备制造时,有的设备仅搭载单个麦克风,有的设备搭载有多个麦克风,也就是所谓的单通道、多通道。由于只有单麦克风,因此,这类设备在处理类似于宴会类型的、有多个人同时讲话混合在一起的语音对话时,识别的性能较差。为此通常会使用:基于双向长短期记忆网络-循环神经网络的单通道多说话人语音识别的知识蒸馏方法,或端到端单通道多说话人语音识别***来进行训练。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
基于双向长短期记忆网络-循环神经网络的单通道多说话人语音识别的知识蒸馏方法:采用的模型属于传统方法,相较于端到端模型更为复杂,训练过程繁琐;而端到端单通道多说话人语音识别***:由于同时存在多人说话的语音信号,该模型仅能利用混合语音的信息,在训练时缺少单个说话人的语音信息,较难训练出好的效果,与单说话人语音识别***相比性能差距较大。
发明内容
为了至少解决现有技术中传统模型较为复杂,训练过程繁琐,训练效果不佳、性能较差的问题。
第一方面,本发明实施例提供一种用于单通道的语音识别模型的优化方法,包括:
接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;
当根据所述知识蒸馏损失和直接损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
第二方面,本发明实施例提供一种用于单通道的语音识别模型的优化***,包括:
目标软标签确定程序模块,用于接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
输出排列确定程序模块,用于将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
损失确定程序模块,用于根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;
优化程序模块,用于当根据所述知识蒸馏损失和直接损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于单通道的语音识别模型的优化方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于单通道的语音识别模型的优化方法的步骤。
本发明实施例的有益效果在于:利用在单人说话语料库上训练好的教师模型的输出作为目标训练标签,并在训练时融入单个说话人的语音信息,这种软标签能够提供更多的信息,使得学生模型能够更容易学习出好的参数,同时模型较为精简,更好的参数使其训练的学生模型有着更好的性能。此外还采用了课程学习的策略,通过将训练数据按照说话人的信噪比(SNR)进行排序,更好地利用了数据中的信息,进一步提升了模型性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于单通道的语音识别模型的优化方法的流程图;
图2是本发明一实施例提供的一种用于单通道的语音识别模型的优化方法的基于知识蒸馏的端到端单通道多说话人语音识别模型架构示意图;
图3是本发明一实施例提供的一种用于单通道的语音识别模型的优化方法的端到端多说话人联合CTC/基于注意力的编码器-解码器***的比较列表数据图;
图4是本发明一实施例提供的一种用于单通道的语音识别模型的优化方法的不同课程学***均CER&WER)列表数据图;
图5是本发明一实施例提供的一种用于单通道的语音识别模型的优化***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于单通道的语音识别模型的优化方法的流程图,包括如下步骤:
S11:接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
S12:将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
S13:根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;
S14:当根据所述知识蒸馏损失和直接损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
在本实施方式中,现有的方法通常不使用教师模型,通常在训练时只用学生模型的输出标签向量与真实标签向量进行误差计算;而本方法中引入了教师模型。教师模型通常使用到知识蒸馏中,在使用中,通常是把能力强大、表现出色的教师模型的知识迁移给更紧凑的学生模型,虽然在以监督方式直接训练的学生模型时,其能力不能与教师模型相匹配,但经过知识蒸馏,学生模型的预测能力会更接近教师模型的预测能力。
对于步骤S11,为了优化学生语音识别模型的识别效果,首先确定要学习的目标教师模型,其中,所述目标教师模型可以为预先训练好的教师模型。训练中,还需要一定的训练数据,包括:一些带有真实标签向量的单人语音,以及这些单人语音合成的多人混合语音。其中,标签可以理解为语音对应的文本,但经过字典映射过了,方便计算机处理。分别将单人语音输入到目标教师模型中,进而,得到对应的目标软标签向量,其中,软标签向量包含重叠语音隐藏的补充信息,以及对单说话人模型的理解。
对于步骤S12,将步骤S11中确定的多人混合语音输入至需要学习的端到端学生模型,输出多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,其中,置换不变性方法(PIT)是一种用来解决多个预测标签(输出标签)与多个真实标签配对的算法,在本例中,模型在处理混合语音时,会分别输出多个说话人语音所对应的标签,但是在训练时需要能够计算每个输出标签与相应的真实标签的误差,例如输出2个说话人语音对应的标签,而并不知道模型的2个输出标签实际分别对应的是哪个说话人(比如预测的两个标签向量分别是P1和P2,真实标签是Y1和Y2,不知道应该P1-Y1,P2-Y2还是P1-Y2,P2-Y1),因此采用了置换不变性方法来帮助配对。进而,确定多人混合语音内每个人的输出标签向量的输出排列。
对于步骤S13,通过在步骤S12中配对后确定好的输出排列的多人混合语音内每个人的输出标签向量,分别确定与各目标软标签向量的知识蒸馏损失,以及各单人语音真实标签向量的直接损失,在优化过程中,不但考虑了现有技术中的由于使用真实标签向量所产生的直接损失,还进一步的考虑到了知识蒸馏的教师模型会产生的知识蒸馏损失,多维度的顾及到各个方面会产生的损失。
对于步骤S14,在步骤S13中确定的知识蒸馏损失和直接损失确定的联合误差未收敛,计算出联合误差后,通过反向传播算法(机器学习中通用的算法)将误差反向传播回输出前面的每一层网络中,用于更新网络参数,这个更新参数的过程就是训练,进而确定优化后的用于单通道的语音识别学生模型。
通过该实施方式可以看出,利用在单人说话语料库上训练好的教师模型的输出作为目标训练标签,这种软标签能够提供更多的信息,使得学生模型能够更容易学习出好的参数,同时模型较为精简,更好的参数使其训练的学生模型有着更好的性能。
作为一种实施方式,在本实施例中,所述将所述多人混合语音输入至端到端学生模型包括:
通过所述端到端学生模型内的被训练的神经网络对所述多人混合语音的语音特征进行特征投影,划分出所述多人混合语音内每个人的语音特征;
基于所述每个人的语音特征,通过所述端到端学生模型内的编码器确定出对应的连接时序分类(CTC)得分;
通过所述端到端学生模型内的解码器,将所述连接时序分类(CTC)最小得分对应的特征排列,转换为对应的输出标签向量;其中,所述标签向量通过字典映射,可以得到对应的文本序列。
在本实施方式中,在优化训练阶段中,基于所述每个人的语音特征,通过所述端到端学生模型内的编码器确定与所述教师模型对应的特征排列组合,进而确定所述各特征排列组合对应的连接时序分类(CTC)得分集合,再通过置换不变性方法确定所述各特征排列组合中总得分最小的特征排列。通过端到端学生模型内的解码器,将所述连接时序分类(CTC)最小总得分对应的特征排列,转换为对应的输出标签向量。
而在识别阶段中,不需要教师模型,也不需要进行置换不变性训练,直接根据解码器确定的结果顺序排列,通过计算出的得分确定相应的解码结果。
通过该实施方式可以看出,通过置换不变性训练确定出最小得分对应的特征排列,可以将识别中的误差降到最低,提高识别效果。
作为一种实施方式,在本实施例中,在所述划分出所述多人混合语音内每个人的语音特征之后,所述方法还包括:
通过所述端到端学生模型内的注意力模块,对所述多人混合语音内每个人的语音特征进一步特征提取,确定出对应的注意力分数,以使得所述多人混合语音与所述单人输出标签向量时间对齐齐。
在本实施方式中,注意力分数的计算是在置换不变性训练之后,首先按照置换不变性训练得到的输出排列,对编码器输出的每个人的中间表示进行相应重排,然后计算出对应每个说话人的中间表示与相应教师模型的中间表示之间的注意力分数。
通过该实施方式可以看出,注意力模块为了解决端到端语音识别***中的输出文本与输入音频在时间上不对齐的问题,进一步提取了语音特征,从而提高了语音识别模型的识别效果。
作为一种实施方式,在本实施例中,在所述确定出对应的注意力分数之后,所述方法还包括:
通过将各特征排列对应的所述连接时序分类(CTC)得分与所述注意力分数按照预设的识别模式加权,确定出各特征排列的联合得分;
将联合得分中最小得分的特征排列,转换为对应的输出标签向量。
在本实施方式中,不同的识别模式的有着不同的训练方向,而不同的方向所对应着不一样的加权比重。根据确定好的预设识别模式确定出不同的加权占比,进而,通过所述加权占比对CTC得分以及注意力分数进行加权计算。例如,某一特征排列对应的CTC分数为2.34,注意力分数为3.22,加权占比各占一半时,确定该特征排列的得分为2.78。在确定各特征排列对应的最终得分后,选取得分最小的,也就是误差最小的特征排列,将其转换为对应的输出标签向量。
通过该实施方式可以看出,通过调整加权占比来满足优化语音识别模型的各种需求,进一步提高了语音识别模型的识别效果。
作为一种实施方式,在本实施例中,在所述通过所述端到端学生模型内的被训练的神经网络对所述多人混合语音的语音特征进行特征投影之后,所述方法还包括:
根据所述端到端学生模型新添加的说话人自适应模块,获取所述多人混合语音内每个人的相关信息,以确定所述每个人的语音特征后,额外的确定所述每个人的上下文变量。
在本实施方式中,在端到端学生模型中每个说话人对应的编码器之前增加序列概要网络,输入的是混合语音编码器的输出,其输出经过投影变换到与输入相同的维度,然后乘在原输入上,作为新的特征,然后接到后面每个人对应的编码器中,具体的如图2所示,例如,在图2所示的基于知识蒸馏的端到端单通道多说话人语音识别模型架构示意图中的编码器1和编码器2,分别加入一个相同结构的序列概要网络。
通过该实施方式可以看出,由于训练过程与先前完全一致,而新加入的模块在训练过程中学习到与每个人相关的信息,从而能够输出包含每个人信息的上下文变量,进而更多的数据提高了语音识别模型的识别效果。
作为一种实施方式,在本实施例中,在所述接收各带有真实标签向量的单人语音之后,所述方法还包括:
通过所述各单人语音内人的语音和背景噪声,确定各单人语音的信噪比;
根据所述信噪比的大小对所述多人混合语音数据进行排序,以使得在语音识别模型的优化中达到循序渐进。
在本实施方式中,信噪比是语音信号中人的语音和背景噪声的功率比值的对数值,其大小代表语音的相对强度,值越大表示噪声相对越弱,因而更容易识别其中的语音。
通过该实施方式可以看出,将训练数据按照说话人的信噪比排序,是为了在训练过程中模拟人的学习过程,即从简单的样本开始,逐渐增加难度,达到循序渐进的效果,从而实现更好的训练效果。
作为一种实施方式,所述根据所述知识蒸馏损失和直接损失确定的联合误差包括:
根据预设的训练模式对所述知识蒸馏损失和直接损失加权求和,确定出联合误差。
为了满足不同的识别需求,在训练过程中,可以根据不同的使用环境设置不同的训练模式。进而通过不同的加权比值,训练符合不同需求的语音识别模型。
通过该实施方式可以看出,通过设置不同的训练模式,在训练的过程中,按照不同的加权比值对知识蒸馏损失和直接损失进行联合误差的确定,满足不同需求的识别环境。进而提高了语音识别模型的识别效果。
对上述步骤进行进一步具体的实施,本方法使用的端到端语音识别模型是联合基于CTC/注意力的编码器-解码器。该模型的优点在于它使用CTC作为次要任务来增强基于注意力的编码器-解码器的对准能力。后来,通过在编码器中引入分离阶段,修改了该模型以适应多说话人场景。输入语音混合首先在编码器中明确地分成多个矢量序列,每个矢量序列代表一个说话人源。这些序列被送入解码器以计算条件概率。
O表示S个说话人的输入语音混合。编码器由三个阶段组成:
编码器-Mix(EncoderMix),编码器-SD(EncoderSD)和编码器-Rec(EncoderRec)。
编码器-Mix:混合编码器,将O编码为中间表示H,其次,表示H由S个独立的说话者不同(SD)编码器处理;
编码器-SD,具有S输出Hs(s=1,…,S),每个都对应于一个说话人的表示。在最后阶段,对于每个流s(s=1,…,S);
Encoder-Rec将特征序列Hs转换为高级表示GS
编码器可以按以下步骤编写:
H=EncoderMix(O)
Hs=EncoderSD(Hs),s=1,…,S
Gs=EncoderRec(Hs),s=1,…,S
CTC目标函数在编码器之后连接,其优点有两个折叠。第一种是训练序列到序列模型的编码器作为辅助任务。第二个是在多说话人的情况下,CTC目标函数用于执行如下述公式所示的无置换训练,也称为PIT(permutation invariant training,置换不变训练)。
Figure GDA0003065213330000091
其中YS是从表示GS计算的输出序列变量,π(s)是{1,…,S}的置换π中的第s个元素,R是S个说话者的参考标号。之后,具有最小CTC损失的置换
Figure GDA0003065213330000109
用于基于注意力的解码器中的参考标记,以便降低计算成本。
基于注意力的解码器网络用于解码每个流GS并生成相应的输出标签序列YS。对于每对表示和参考标签索引
Figure GDA0003065213330000101
解码过程被描述为以下等式:
Figure GDA0003065213330000102
Figure GDA0003065213330000103
Figure GDA0003065213330000104
Figure GDA0003065213330000105
其中
Figure GDA00030652133300001010
表示上下文向量,
Figure GDA00030652133300001011
是解码器的隐藏状态,
Figure GDA00030652133300001012
是参考标签序列中的第n个元素。在训练期间,R中的参考标签
Figure GDA00030652133300001013
被用作教师强迫的历史,而不是上述
Figure GDA00030652133300001014
公式中的
Figure GDA00030652133300001015
序列历史。
Figure GDA00030652133300001016
定义了基于注意力的编码器-解码器预测的目标标签序列Y={y1,...,yN}的概率,其中,Y代表的是序列,而带下标(如n)的y代表Y中的某个子序列,如yn表示Y中第n个序列,yn-1表示Y中第n-1个序列,对应的
Figure GDA00030652133300001017
表示第n个序列向量,y1:n-1表示Y中第1到n-1个序列,在patt方程式中,第n个时间步的yn概率取决于前一个序列y1:n-1。最终损失函数定义为:
Figure GDA0003065213330000106
Figure GDA0003065213330000107
Figure GDA0003065213330000108
其中λ是插值因子,0≤λ≤1。
基于注意力的解码器的修改,称为说话人并行注意。其动机是补偿编码器的分离能力,提高模型的分离性能。该想法是利用针对不同流的个体注意模块,凭借选择性特性来过滤噪声信息:
Figure GDA0003065213330000111
与交叉熵准则中使用的硬目标相比,声称软目标可以提供额外的有用信息,从而获得更好的性能。在多语音语音识别任务中,也可以使用这种方法来提高基于注意力的解码器网络的准确性。为了获得软标签向量,并行单个说话者的语音通过仅包含一个说话者的语音训练的模型。软标签向量包含由重叠语音隐藏的补充信息以及具有更好建模能力的单说话人模型的洞察力。
模型架构如图2所示。混合语音和相应的单个语音分别表示为O和OS(s=1,…,S)。因此,端到端教师模型将源语音OS作为计算目标序列中每个步骤的教师日志的输入。并且相应的输出表示为
Figure GDA0003065213330000112
被视为学生模型的目标分布。因此,师生学习的损失函数可表示如下:
Figure GDA0003065213330000113
其中基于注意力的解码器之后的知识蒸馏损失
Figure GDA0003065213330000114
被计算为学生模型和教师模型的预测之间的交叉熵,
Figure GDA0003065213330000117
是由CTC损失确定的最佳排列。
在方法中,修改了基于注意力的解码器
Figure GDA0003065213330000115
的损失函数。新形式是基于交叉熵(CE)的原始损失与基于KL-发散损失的项的加权和,即:
Figure GDA0003065213330000116
其中η是权重系数。
在以前的方法中,端到端的多说话人ASR***受到了培训,无视数据的相似性和差异性。然而,在一些研究中,声称数据的顺序对训练过程有影响,称为课程学***衡条件下失真。
在本方法中,关注重叠语音的SNR水平,其被定义为来自两个发言者的源语音之间的能量比。也可以使用其他因素,但方法是相同的。当生成混合语音时,随机选择能量比以模拟实际条件。当SNR较大时,高能量语音更清晰,但能量较低的语音表现不佳。相反,当SNR较小时,可以以类似的性能识别混合语音中的每个话语,因此模型可以从每个说话者学习知识。重新排列训练数据,具体来说,在训练开始时,按照说话人的语音SNR的升序迭代训练集中的小型小组,之后,训练恢复到随机顺序的训练集。
为了验证本方法的效果,使用MERL1发布的工具,人工生成基于华尔街日报(WSJ0)语音语料库的单声道双说话人混合信号。训练,开发和评估数据分别来自WSJ0 SI-84,Dev93和Eval92,每个数据集的持续时间如下:培训88.2小时,开发1.1小时,评估0.9小时。
输入特征是80维log-Mel滤波器组系数,每个帧具有音调特征,与它们的delta和delta系数连接。使用Kaldi工具包提取所有特征,并将其归一化为零均值和单位方差。
在本方法中,不同的神经网络模型具有相同的深度和相似的大小,因此它们的性能是可比的。编码器由两个VGG(Visual Geometry Group,视觉几何组)驱动的CNN(Convolutional Neural Network,积神经网络)模块和三个带投影的BLSTMP(bidirectional long-short term memory recurrent neural networks withprojection,双向长短期记忆递归神经网络)组成,而解码器网络仅具有一个具有300个单元的单向长短期记忆(LSTM)层。所有网络都是基于ESPnet框架构建的。AdaDelta优化器,ρ=0.95和∈=1e-8用于训练。在训练期间,因子λ被设置为0.2。
对于师生培训,首先对WSJ0的原始干净语音训练数据集进行端到端教师模型的培训。在本方法中,WSJ0 Dev93和Eval92的教师模型的WER(Word Error Rate,词错误率)分别为8.0%和2.1%。然后我们将混合语音数据和相应的个人语音数据同时输入到师生模块中。权重系数η设定为0.5时,获得了最佳性能。
在解码阶段,将联合CTC/注意分数和预训练的单词级RNN语言模型(RNNLM)的得分相结合,该模型具有1层LSTM和1000个细胞,并且训练有关WSJ0 SI-84的转录,以浅层融合的方式。波束宽度设定为30,解码期间使用的内插因子λ为0.3,RNNLM的权重为1.0。
师生培训与课程学习实验,首先评估了WSJ0中混合语音测试数据集的基线端到端方法和本方法提出的性能。结果在图3所示的端到端多说话人联合CTC/基于注意力的编码器-解码器***的比较列表中给出。第一种方法是用于多说话者语音的基于CTC/关注的联合编码器-解码器网络,其中关注-解码器模块在每个说话者的表示之间共享。第二种方法将单一注意力扩展到说话人并行注意模块。将这两种方法视为基线***。
然后逐步应用师生学***均WER相对减少7%和6%。这证明了说话人并行关注方法具有更强的消除当前个体说话者无关信息的能力,并且可以利用教师模型的关注输出分布的知识更好地学习。接下来,将课程学习策略应用于教师学习框架,以进一步提高绩效。正如在图3中所看到的,提出的结合师生培训,发言人并行注意和课程学习的端到端方法显着提高了双语混合语音识别的性能,WER和CER(Character Error Rate,字符错误率)的相对改进率超过15%。
为了研究课程学***均CER&WER)列表所示。
当训练数据按照SNR的降序排序时,模型的表现比用相反顺序训练的模型差,甚至比用随机排序的数据训练的模型更差,这证明了本方法的推测。当SNR很小时,两个说话人之间的能量差异是微妙的,模型学习分离能力。之后,具有更大SNR的数据提高了准确性。
将序列级知识蒸馏和课程学习技术应用于基于联合CTC/注意力的编码器-解码器框架的多说话人端到端语音识别***。使用单语言端到端语音识别教师模型来计算软标签向量作为目标分布以计算最终损失函数。为了充分利用训练数据,进一步按照SNR的升序重新排列数据。
如图5所示为本发明一实施例提供的一种用于单通道的语音识别模型的优化***的结构示意图,该***可执行上述任意实施例所述的用于单通道的语音识别模型的优化方法,并配置在终端中。
本实施例提供的一种用于单通道的语音识别模型的优化***包括:目标软标签确定程序模块11,输出排列确定程序模块12,损失确定程序模块13和优化程序模块14。
其中,目标软标签确定程序模块11用于接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;输出排列确定程序模块12用于将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;损失确定程序模块13用于根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;优化程序模块14用于当根据所述知识蒸馏损失和直接损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
进一步地,所述输出排列确定程序模块用于:
通过所述端到端学生模型内的被训练的神经网络对所述多人混合语音的语音特征进行特征投影,划分出所述多人混合语音内每个人的语音特征;
基于所述每个人的语音特征,通过所述端到端学生模型内的编码器确定出对应的连接时序分类(CTC)得分;
通过所述端到端学生模型内的解码器,将所述连接时序分类(CTC)最小得分对应的特征排列,转换为对应的输出标签向量;其中,所述标签向量通过字典映射,可以得到对应的文本序列。
进一步地,所述输出排列确定程序模块还用于:
通过所述端到端学生模型内的注意力模块,对所述多人混合语音内每个人的语音特征进一步特征提取,确定出对应的注意力分数,以使得所述多人混合语音与所述单人输出标签向量时间对齐齐。
进一步地,所述输出排列确定程序模块还用于:
通过将各特征排列对应的所述连接时序分类(CTC)得分与所述注意力分数按照预设的识别模式加权,确定出各特征排列的联合得分;
将联合得分中最小得分的特征排列,转换为对应的输出标签向量。
进一步地,所述输出排列确定程序模块还用于:
根据所述端到端学生模型新添加的说话人自适应模块,获取所述多人混合语音内每个人的相关信息,以确定所述每个人的语音特征后,额外的确定所述每个人的上下文变量。
进一步地,所述目标软标签确定程序模块用于:
通过所述各单人语音内人的语音和背景噪声,确定各单人语音的信噪比;
根据所述信噪比的大小对所述多人混合语音数据进行排序,以使得在语音识别模型的优化中达到循序渐进。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于单通道的语音识别模型的优化方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接损失;
当根据所述知识蒸馏损失和直接损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于单通道的语音识别模型的优化方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于单通道的语音识别模型的优化方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有语音识别功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于单通道的语音识别模型的优化方法,包括:
接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接的损失;
当根据所述知识蒸馏损失和直接的损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
2.根据权利要求1所述的方法,其中,所述将所述多人混合语音输入至端到端学生模型包括:
通过所述端到端学生模型内的被训练的神经网络对所述多人混合语音的语音特征进行特征投影,划分出所述多人混合语音内每个人的语音特征;
基于所述每个人的语音特征,通过所述端到端学生模型内的编码器确定出对应的连接时序分类(CTC)得分;
通过所述端到端学生模型内的解码器,将所述连接时序分类(CTC)最小得分对应的特征排列,转换为对应的输出标签向量;其中,所述标签向量通过字典映射,可以得到对应的文本序列。
3.根据权利要求2所述的方法,其中,在所述划分出所述多人混合语音内每个人的语音特征之后,所述方法还包括:
通过所述端到端学生模型内的注意力模块,对所述多人混合语音内每个人的语音特征进一步特征提取,确定出对应的注意力分数,以使得所述多人混合语音与单人输出标签向量时间对齐。
4.根据权利要求3所述的方法,其中,在所述确定出对应的注意力分数之后,所述方法还包括:
通过将各特征排列对应的所述连接时序分类(CTC)得分与所述注意力分数按照预设的识别模式加权,确定出各特征排列的联合得分;
将联合得分中最小得分的特征排列,转换为对应的输出标签向量。
5.根据权利要求2所述的方法,其中,在所述通过所述端到端学生模型内的被训练的神经网络对所述多人混合语音的语音特征进行特征投影之后,所述方法还包括:
根据所述端到端学生模型新添加的说话人自适应模块,获取所述多人混合语音内每个人的相关信息,以确定所述每个人的语音特征后,额外的确定所述每个人的上下文变量。
6.根据权利要求1所述的方法,其中,在所述接收各带有真实标签向量的单人语音之后,所述方法还包括:
通过所述各单人语音内人的语音和背景噪声,确定各单人语音的信噪比;
根据所述信噪比的大小对所述多人混合语音数据进行排序,以使得在语音识别模型的优化中达到循序渐进。
7.根据权利要求1所述的方法,其中,所述根据所述知识蒸馏损失和直接的损失确定的联合误差包括:
根据预设的训练模式对所述知识蒸馏损失和直接的损失加权求和,确定出联合误差。
8.一种用于单通道的语音识别模型的优化***,包括:
目标软标签确定程序模块,用于接收各带有真实标签向量的单人语音,以及由所述各单人语音合成的多人混合语音,分别将从所述各单人语音提取的语音特征输入至目标教师模型,得到所述各单人语音对应的目标软标签向量;
输出排列确定程序模块,用于将所述多人混合语音输入至端到端学生模型,输出所述多人混合语音内每个人的输出标签向量,通过置换不变性方法(PIT)将所述多人混合语音内每个人的输出标签向量与所述各单人语音的真实标签向量进行配对,确定所述多人混合语音内每个人的输出标签向量的输出排列;
损失确定程序模块,用于根据通过配对后确定输出排列的多人混合语音内每个人的输出标签向量,确定与所述各目标软标签向量的知识蒸馏损失,以及与所述各单人语音真实标签向量的直接的损失;
优化程序模块,用于当根据所述知识蒸馏损失和直接的损失确定的联合误差未收敛时,根据所述联合误差对所述端到端学生模型进行反向传播,以更新所述端到端学生模型,直至所述联合误差收敛,确定优化后的用于单通道的语音识别学生模型。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN201910511791.7A 2019-06-13 2019-06-13 用于单通道的语音识别模型的优化方法及*** Active CN110246487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511791.7A CN110246487B (zh) 2019-06-13 2019-06-13 用于单通道的语音识别模型的优化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511791.7A CN110246487B (zh) 2019-06-13 2019-06-13 用于单通道的语音识别模型的优化方法及***

Publications (2)

Publication Number Publication Date
CN110246487A CN110246487A (zh) 2019-09-17
CN110246487B true CN110246487B (zh) 2021-06-22

Family

ID=67886903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511791.7A Active CN110246487B (zh) 2019-06-13 2019-06-13 用于单通道的语音识别模型的优化方法及***

Country Status (1)

Country Link
CN (1) CN110246487B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852390A (zh) * 2019-11-13 2020-02-28 山东师范大学 一种基于校园行为序列的学生成绩分类预测方法及***
CN111062489B (zh) * 2019-12-11 2023-10-20 北京知道创宇信息技术股份有限公司 一种基于知识蒸馏的多语言模型压缩方法、装置
CN111179911B (zh) * 2020-01-02 2022-05-03 腾讯科技(深圳)有限公司 目标语音提取方法、装置、设备、介质和联合训练方法
CN111199727B (zh) * 2020-01-09 2022-12-06 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质
CN111261140B (zh) * 2020-01-16 2022-09-27 云知声智能科技股份有限公司 韵律模型训练方法及装置
CN111341341B (zh) * 2020-02-11 2021-08-17 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111048064B (zh) * 2020-03-13 2020-07-07 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111506702A (zh) * 2020-03-25 2020-08-07 北京万里红科技股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN111768762B (zh) * 2020-06-05 2022-01-21 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN111696519A (zh) * 2020-06-10 2020-09-22 苏州思必驰信息科技有限公司 藏语声学特征模型的构建方法及***
CN111554268B (zh) * 2020-07-13 2020-11-03 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN111899727B (zh) * 2020-07-15 2022-05-06 思必驰科技股份有限公司 用于多说话人的语音识别模型的训练方法及***
CN112070233B (zh) * 2020-08-25 2024-03-22 北京百度网讯科技有限公司 模型联合训练方法、装置、电子设备和存储介质
CN111933121B (zh) * 2020-08-31 2024-03-12 广州市百果园信息技术有限公司 一种声学模型训练方法及装置
CN112233655B (zh) * 2020-09-28 2024-07-16 上海声瀚信息科技有限公司 一种提高语音命令词识别性能的神经网络训练方法
CN112365885B (zh) * 2021-01-18 2021-05-07 深圳市友杰智新科技有限公司 唤醒模型的训练方法、装置和计算机设备
CN112365886B (zh) * 2021-01-18 2021-05-07 深圳市友杰智新科技有限公司 语音识别模型的训练方法、装置和计算机设备
CN113609965B (zh) * 2021-08-03 2024-02-13 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113380268A (zh) * 2021-08-12 2021-09-10 北京世纪好未来教育科技有限公司 模型训练的方法、装置和语音信号的处理方法、装置
CN113707123B (zh) * 2021-08-17 2023-10-20 慧言科技(天津)有限公司 一种语音合成方法及装置
CN113782006A (zh) * 2021-09-03 2021-12-10 清华大学 一种语音提取方法、装置及设备
CN116978359A (zh) * 2022-11-30 2023-10-31 腾讯科技(深圳)有限公司 音素识别方法、装置、电子设备及存储介质
CN116805004B (zh) * 2023-08-22 2023-11-14 中国科学院自动化研究所 零资源跨语言对话模型训练方法、装置、设备和介质
CN117351997B (zh) * 2023-12-05 2024-02-23 清华大学 基于反向知识蒸馏的合成音频检测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及***
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置
CN109711544A (zh) * 2018-12-04 2019-05-03 北京市商汤科技开发有限公司 模型压缩的方法、装置、电子设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及***
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
CN109711544A (zh) * 2018-12-04 2019-05-03 北京市商汤科技开发有限公司 模型压缩的方法、装置、电子设备及计算机存储介质
CN109637546A (zh) * 2018-12-29 2019-04-16 苏州思必驰信息科技有限公司 知识蒸馏方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADAPTIVE PERMUTATION INVARIANT TRAINING WITH AUXILIARY INFORMATION FOR MONAURAL MULTI-TALKER SPEECH RECOGNITION;Chang Xuankai et al.;《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING(ICASSP)》;20180420;第5974-5978页 *
END-TO-END MONAURAL MULTI-SPEAKER ASR SYSTEM WITHOUT PRETRAINING;Chang Xuankai et al.;《International Conference on Acoustics Speech and Single Processing ICASSP》;20190517;第6256-6260页 *
Single-channel multi-talker speech recognition with permutation invariant training;Qian Yanmin et al.;《SPEECH COMMUNICATION》;20181130;第1-11页 *

Also Published As

Publication number Publication date
CN110246487A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110246487B (zh) 用于单通道的语音识别模型的优化方法及***
CN109637546B (zh) 知识蒸馏方法和装置
CN111899727B (zh) 用于多说话人的语音识别模型的训练方法及***
CN110706692B (zh) 儿童语音识别模型的训练方法及***
US20200402497A1 (en) Systems and Methods for Speech Generation
CN108922518B (zh) 语音数据扩增方法和***
CN111081259B (zh) 基于说话人扩充的语音识别模型训练方法及***
CN105741832B (zh) 一种基于深度学习的口语评测方法和***
CN110459240A (zh) 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及***
CN111243576A (zh) 语音识别以及模型训练方法、装置、设备和存储介质
Liu et al. End-to-end accent conversion without using native utterances
CN107871496B (zh) 语音识别方法和装置
Du et al. Speaker augmentation for low resource speech recognition
CN110600013B (zh) 非平行语料声音转换数据增强模型训练方法及装置
Zhang et al. Improving end-to-end single-channel multi-talker speech recognition
CN103594087A (zh) 提高口语评测性能的方法及***
CN111667728B (zh) 语音后处理模块训练方法和装置
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN111862934A (zh) 语音合成模型的改进方法和语音合成方法及装置
Li et al. Mutual-learning sequence-level knowledge distillation for automatic speech recognition
CN109559749A (zh) 用于语音识别***的联合解码方法及***
CN109637527A (zh) 对话语句的语义解析方法及***
Park et al. Unsupervised data selection for speech recognition with contrastive loss ratios
Tao et al. DNN Online with iVectors Acoustic Modeling and Doc2Vec Distributed Representations for Improving Automated Speech Scoring.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201028

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant