CN110517664A - 多方言识别方法、装置、设备及可读存储介质 - Google Patents

多方言识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110517664A
CN110517664A CN201910852557.0A CN201910852557A CN110517664A CN 110517664 A CN110517664 A CN 110517664A CN 201910852557 A CN201910852557 A CN 201910852557A CN 110517664 A CN110517664 A CN 110517664A
Authority
CN
China
Prior art keywords
dialect
feature
languages
loss function
diagnostic horizon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910852557.0A
Other languages
English (en)
Other versions
CN110517664B (zh
Inventor
许丽
潘嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910852557.0A priority Critical patent/CN110517664B/zh
Publication of CN110517664A publication Critical patent/CN110517664A/zh
Application granted granted Critical
Publication of CN110517664B publication Critical patent/CN110517664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种多方言识别方法、装置、设备及可读存储介质,通过预先构建的方言识别模型进行方言的识别,其中,该方言识别模型通过包括多种方言的训练语料训练得到,而且该方言识别模型的训练过程中不仅局限于语料的语音内容,还引入了方言所属的方言种类,结合方言所属的方言种类对方言识别模型进行优化,使得方言识别模型能够准确识别多种方言,使得用户不必再进行语音识别模式的切换,简化了用户操作,提高了多方言识别的准确率和效率。

Description

多方言识别方法、装置、设备及可读存储介质
技术领域
本申请涉及语音识别技术领域,更具体地说,涉及一种多方言识别方法、装置、设备及可读存储介质。
背景技术
目前,越来越多的人工智能应用的入口依赖于语音识别,例如,实现不同语种不同国家人民之间的无障碍交流的翻译机、大大减少人力资源的机器人客服、解放双手的语音输入法、控制家电设备更便捷自然的智能家居(家电),它们的入口都依赖于语音识别,因此语音识别的准确率显得尤为重要。
然而,现有的语音识别方案,通常只支持普通话的识别,如果用户使用方言,则识别的正确率会严重下降。或者虽然支持方言的识别,但是需要用户手动操作选择方言对应的识别模式,这需要用户主动配合,如果用户普通话和方言夹杂,则很难意识到主动去切换模式,并且在多人会话交流的场景,如果有多种方言的说话人出现,频繁切换明显会导致效率低下,用户体验变差。
因此,如何提高方言识别的准确率和效率成为亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种多方言方法、装置、设备及可读存储介质,用于。
为了实现上述目的,现提出的方案如下:
一种多方言识别方法,包括:
接收语音数据;
对所述语音数据提取方言识别特征;
将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
上述方法,优选的,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
上述方法,优选的,所述方言识别模型包括:特征提取器,分类器和判别器;其中,
所述特征提取器的输入为所述方言识别特征,输出为表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;
所述分类器的输入为所述表征特征,输出为所述语音数据的识别结果;
所述判别器的输入为所述表征特征,输出为所述语音数据所属的方言种类,或者,输出为所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。
上述方法,优选的,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,
所述梯度反转层的输入为所述表征特征,输出为所述表征特征;
所述语种判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言种类;
所述属性判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言属性类别。
上述方法,优选的,在对所述方言识别模型进行训练时,
所述梯度反转层将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。
上述方法,优选的,在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。
上述方法,优选的,若所述判别器包括梯度反转层和语种判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述语种判别层的损失函数加权构成;
或者,
若所述判别器包括梯度反转层、语种判别层和属性判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数加权构成。
上述方法,优选的,若所述判别器包括梯度反转层、语种判别层和属性判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数,以及语种判别层和所述属性判别层的语种属性一致性损失函数加权构成。
上述方法,优选的,所述语种判别层为包含控制门的神经网络;所述神经网络的层数大于1;
所述神经网络的每个层的输入根据所述控制门的输出与上一层输出的特征得到;
所述控制门的输入为所述上一层输出的特征对应的所述分类器输出的向量。
一种多方言识别装置,包括:
接收模块,用于接收语音数据;
提取模块,用于对所述语音数据提取方言识别特征;
识别模块,用于将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
上述装置,优选的,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
上述装置,优选的,所述方言识别模型包括:特征提取器,分类器和判别器;其中,
所述特征提取器用于获取所述方言识别特征,并输出表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;
所述分类器用于获取所述表征特征,并输出所述语音数据的识别结果;
所述判别器用于获取所述表征特征,并输出所述语音数据所属的方言种类,或者,输出所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。
上述装置,优选的,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,
所述梯度反转层用于获取所述表征特征,并输出所述表征特征;
所述语种判别层用于获取所述梯度反转层输出的表征特征,并输出所述语音数据所属的方言种类;
所述属性判别层用于获取所述梯度反转层输出的表征特征,并输出所述语音数据所属的方言属性类别。
上述装置,优选的,所述梯度反转层用于在对所述方言识别模型进行训练时,将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层用于在对所述方言识别模型进行训练时,将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。
上述装置,优选的,所述方言识别模型在训练时的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。
上述装置,优选的,若所述判别器包括梯度反转层和语种判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数和所述语种判别层的损失函数加权构成;
或者,
若所述判别器包括梯度反转层、语种判别层和属性判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数加权构成。
上述装置,优选的,若所述判别器包括梯度反转层、语种判别层和属性判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数,以及语种判别层和所述属性判别层的语种属性一致性损失函数加权构成。
上述装置,优选的,所述语种判别层为包含控制门的神经网络;所述神经网络的层数大于1;
所述神经网络的每个层的输入是根据所述控制门的输出与上一层输出的特征得到的;
所述控制门的输入为所述上一层输出的特征对应的所述分类器输出的向量。
一种多方言识别设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上任一项所述的多方言识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的信多方言识别方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的多方言识别方法、装置、设备及可读存储介质,通过预先构建的方言识别模型进行方言的识别,其中,该方言识别模型通过包括多种方言的训练语料训练得到,而且该方言识别模型的训练过程中不仅局限于语料的语音内容,还引入了方言所属的方言种类,结合方言所属的方言种类对方言识别模型进行优化,使得方言识别模型能够准确识别多种方言,使得用户不必再进行语音识别模式的切换,简化了用户操作,提高了多方言识别的准确率和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的多方言识别方法的一种实现流程图;
图2为本申请实施例公开的方言识别模型的一种结构示意图;
图3为本申请实施例公开的第一判别器的一种结构示意图;
图4为本申请实施例公开的方言识别模型的另一种结构示意图;
图5为本申请实施例公开的第二判别器的一种结构示意图;
图6为本申请实施例公开的多方言识别装置的一种结构示意图;
图7为本申请实施例公开的多方言识别设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人研究发现,现有的语音识别方案在进行方言识别时,使用的是独立的方言识别模型,例如,要识别第一方言的语音,需要使用第一方言识别模型,要识别第二方言的语音,则需要使用第二方言识别模型,第一方言和第二方言为不同的方言,第一方言识别模型通过第一方言的训练语料训练得到,第二方言识别模型通过第二方言的训练语料训练得到,这样,如果要能支持N种方言的语音的识别,则需要训练N个方言识别模型。这种语音识别方案存在以下不足:
1、开发时间长,成本高:在方言识别模型的训练阶段,需要针对每一种方言分别收集大量的方言音频数据,并通过人工对音频内容进行转写,而对于方言来说,音频数据收集和人工转写的难度较大,成本较高,因此,当希望增加一种新的方言的识别能力时,往往需要较长的开发时间和较高的开发成本。
2、用户使用的便利性差:在需要进行语音识别时,需要用户根据说话人所使用的方言进行方言识别模式的切换,即需要用户主动配合,如果用户普通话和方言夹杂,则很难意识到主动去切换模式,并且在多人会话交流的场景,如果有多种方言的说话人出现,频繁切换明显会导致效率低下,用户体验变差。
为了克服上述不足或者至少部分地克服上述不足,本申请方案的基本思想是:使用包含多种方言的训练语料训练一个方言识别模型,从而可以基于一个方言识别模型识别多种方言的语音,一方面,相对于每种方言单独训练识别模型,本申请中训练方言识别模型所使用的训练语料中每种方言的训练语料所需数量较少,另一方面,在实际应用过程中,避免用户在多种方言模式间进行切换,提高用户使用的便利性。
下面对本申请方案进行详细说明:
本申请提供的多方言识别方法可以应用于电子设备中,该电子设备可以包括但不限于以下任意一种:智能手机、电脑、翻译机、机器人、智能家居(家电),遥控器等。
请参看图1,图1为本申请实施例提供的多方言识别方法的一种实现流程图,可以包括:
步骤S11:接收语音数据。
该语音数据即是待识别的语音数据,可以是电子设备通过拾音设备(如麦克风或麦克风阵列)接收的用户输入的方言的语音数据,也可以是普通话的语音数据,或者是方言和普通话夹杂的语音数据。
步骤S12:对语音数据提取方言识别特征。
该方言识别特征可以是声学特征,该声学特征一般为语音数据的频谱特征,例如,Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征,或者,FBank特征等。
在提取方言识别特征时,可以先将语音数据划分为若干语音帧,提取每一帧语音帧的方言识别特征。
步骤S13:将方言识别特征输入预先构建的方言识别模型,得到语音数据的识别结果(即语音数据的具体语音内容);该方言识别模型为利用至少标注有语音内容和所属方言种类(也可以简称语种)的训练语料训练得到。
在将语音数据划分为若干语音帧的情况下,将每一语音帧的方言识别特征输入预先构建的方言识别模型,得到每一帧语音帧的识别结果,语音数据的所有语音帧的识别结果构成该语音数据的识别结果。
在中国,方言种类繁多,下面仅举例说明其中几种,例如:四川话、河南话、福州话、南昌话、广州话、长沙话等。本申请实施例中,训练语料中可以包括上述几种方言的训练样本,还可以更多方言种类的训练样本,当然也可以包括所有方言种类的训练样本。具体训练语料中包括哪些方言的训练样本,可以根据实际需要支持的方言种类确定,例如,若要支持四川话、广州话和长沙话,则训练语料中需要同时包括若干四川话的语音数据,若干广州话的语音数据和若干长沙话的语音数据。
在方言识别模型的训练过程中,对于每一训练样本,除了对该训练样本的语音内容进行识别外,还对该训练样本所属方言种类进行判别,进而基于语音内容的识别结果以及方言种类的判别结果对方言识别模型进行优化训练。
本申请实施例提供的多方言识别方法,通过预先构建的方言识别模型进行方言的识别,其中,该方言识别模型通过包括多种方言的训练语料训练得到,而且该方言识别模型的训练过程中不仅局限于语料的语音内容,还引入了方言所属的方言种类,结合方言所属的方言种类对方言识别模型进行优化,使得方言识别模型能够准确识别多种方言(包括普通话),从而用户不必再进行语音识别模式的切换,简化了用户操作,提高了多方言识别的准确率和效率。
另外,由于对方言识别模型的训练过程中,不需要每个方言都需要大量的标记数据(相对于训练专用于识别某一方言的方言识别模型来说,所需的样本数量较少),因而音频数据收集和人工转写的难度降低,成本也就随之降低,因此,当希望增加一种新的方言的识别能力时,可以在较短时间内以较小的成本增加新方言的识别能力。
下面对本申请实施例提供的方言识别模型的具体实现方式进行说明。
请参阅图2,图2为本申请实施例提供的方言识别模型的一种结构示意图如图2所示,可以包括:
第一特征提取器21,第一分类器22和第一判别器23;其中,
第一特征提取器21的输入为步骤S12提取的各帧语音帧的方言识别特征,第一特征提取器21的输出为各帧语音帧对应的表征特征,该表征特征为比方言识别特征更具有区分性的特征。也就是说,第一特征提取器21用于从方言识别特征中提取表征输入的语音数据(即步骤S11中接收的语音数据)的内在特性的特征,该特征是用于方言识别的高级特征。具体的,对应任意一帧语音帧(为便于叙述,记为第一语音帧),当第一特征提取器21接收到第一语音帧的方言识别特征时,从该第一语音帧的方言识别特征中提取该第一语音帧对应的表征特征,该第一语音帧对应的表征特征是表征该第一语音帧内在特性的特征。
第一特征提取器21的具体形式可以为卷积神经网络(Convolutional NeuralNetworks,CNN),或者,循环神经网络(Recurrent Neural Network,RNN)等深度神经网络。
第一分类器22的输入为第一特征提取器21输出的表征特征,第一分类器22的输出为语音数据的识别结果,即对应第一语音帧,第一分类器22用于确定第一语音帧的语音内容。具体的,对应第一语音帧,第一分类器22的输入为第一语音帧对应的表征特征,第一分类器22的输出为与第一语音帧对应的语音内容的状态表示。
第一分类器22的具体形式可以为浅层的神经网络,例如,两层的DNN(Deep NeuralNetwork,深度神经网络)网络。本申请不对第一分类器22的具体形式做具体限定。第一分类器22的输出的具体形式可以为字、音节、音素和音素状态(音素状态是比音素粒度更小的一个单位)中的任意一种。具体是哪种形式跟第一分类器22的建模单元有关:
若第一分类器22以字为建模单元进行建模,则第一分类器22的输出为字的状态表示,即对应第一语音帧,第一分类器22用于确定输入方言识别模型的第一语音帧的方言识别特征表征哪个字。
若第一分类器22以音节为建模单元进行建模,则第一分类器22的输出为音节的状态表示,即对应第一语音帧,第一分类器22用于确定输入方言识别模型的第一语音帧的方言识别特征表征哪个音节。
若第一分类器22以音素为建模单元进行建模,则第一分类器22的输出为音素的状态表示,即对应第一语音帧,第一分类器22用于确定输入方言识别模型的第一语音帧的方言识别特征表征哪个音素。
若第一分类器22以音素状态为建模单元进行建模,则第一分类器22的输出为音素状态的状态表示,即对应第一语音帧,第一分类器22用于确定输入方言识别模型的第一语音帧的方言识别特征表征哪个音素状态。
第一判别器23的输入为第一特征提取器21输出的表征特征,第一判别器23的输出为语音数据所属的方言种类。具体的,对应第一语音帧,第一判别器23的输入为第一语音帧对应的表征特征,第一判别器23的输出为与第一语音帧对应的方言种类的状态表示,即第一判别器23用于确定输入方言识别模型的第一语音帧的方言识别特征表征哪个方言种类。
需要说明的是,本申请实施例中,第一判别器23主要用于在方言识别模型的训练阶段对方言模型进行优化训练,因而,在利用训练好的方言识别模型进行语音识别的过程中,第一判别器23输出的判别结果可以输出给用户,也可以不输出给用户。或者,可以为用户提供查看接口,在用户对该查看接口进行操作时,再将第一判别器23输出的判别结果输出给用户。
本实施例中,在对方言识别模型训练时采用反向传播算法(BackpropagationAlgorithm),该算法由信号的正向传播和误差的反向传播两个过程组成。其中,信号的正向传播是指方言识别模型接收样本的方言识别特征并输出样本的语音识别结果的过程,其信号传播方向是从第一特征提取器21到第一分类器22,以及从第一特征提取器21到第一判别器23。而误差(用梯度表征)的反向传播是指将第一判别器23输出的样本的方言种类判别结果与样本的真实方言种类的误差返回到方言识别模型输入端的过程,其信号传输方向是从第一判别器23到第一特征提取器21。
下面结合第一判别器23的具体结构说明第一判别器23用于方言识别模型的优化训练的具体实现方式。
请参阅图3,图3为本申请实施例提供的第一判别器23的一种结构示意图,可以包括:
第一梯度反转层31(为便于叙述,将第一梯度反转层31用R表示)和第一语种判别层32;其中,
第一梯度反转层31定义如下:
z=R(z) (1)
公式(1)是第一梯度反转层31正向传播的计算公式,其中,z是第一梯度反转层31的输入,即第一特征提取器21输出的表征特征f,R(z)是梯度反转层的输出,这里R()表示经过R层,不作处理,可见,在前向传播过程中,第一梯度反转层31的输出是第一梯度反转层31的输入,即第一梯度反转层31对输入特征不做任何处理而直接传给下一层(即第一语种判别层32)。具体的,对应第一语音帧,第一梯度反转层31的输入为第一语音帧的表征特征,第一梯度反转层31的输出仍然为第一语音帧的表征特征。
公式(2)是第一梯度反转层31反向传播的计算公式,其中,是第一梯度反转层31的梯度,E是单位矩阵,α为预先设定的超参数,可见第一梯度反转层31的梯度是超参数与一个负的单位矩阵的乘积。
根据链式法则,输出的梯度等于输入的梯度乘以其自己的梯度(用公式表示为:若h(x)=f(g(x)),则h′(x)=f′(g(x))g′(x)),则第一梯度反转层31的输出梯度等于输入梯度(即第一语种判别层32的梯度,表征第一语种判别层32的输出误差)乘以-αE,由于负号的存在,因此可以看做将输入梯度的值取负后传给前一层(即第一特征提取器21)。第一梯度反转层31在前向传播时对输入特征不做处理,在反向传播时对输入梯度做取反处理(即将输入梯度乘以-αE),使得取反处理结果的正负号与输入梯度的正负号相反,因此称该层为梯度反转层。
根据梯度下降法,模型参数的更新方向为梯度方向(即梯度未做取反处理)时,模型将以最快速度达到最优解。而本申请实施例中,第一梯度反转层31将第一语种判别层32的梯度反转后传给第一特征提取器21,使得第一特征提取器21的更新方向与第一语种判别层32的方向相反,即第一语种判别层32的训练目标是尽可能准的识别出样本属于的方言种类,而第一特征提取器21的训练目标是尽可能识别不准样本的方言种类,因此通过第一梯度反转层31引入了对抗训练。
第一语种判别层32可以是一个浅层的神经网络,例如,两层的DNN网络,本申请不对第一语种判别层32的具体网络形式做具体限定。第一语种判别层32的输入为第一梯度反转层31输出的表征特征,输出为语音数据所属的方言种类。具体的,对应第一语音帧,第一语种判别层32的输入为第一梯度反转层31输出的第一语音帧的表征特征,第一语种判别层32的输出为第一语音帧所属的方言种类的状态表示。
由前述内容可知,本申请通过第一梯度反转层31引入了对抗训练,其目的有两方面,一方面是训练第一语种判别层32更准确的判断出输入方言识别模型的特征属于何种方言,另一方面通过第一梯度反转层31将第一语种判别层32的梯度反向往前传,训练第一特征提取器21提取更不具有语种区分性的特征,即使得第一特征提取器21提取的特征所表征的语音内容属于不同的方言种类的条件概率分布一致。语音内容属于不同的方言种类的条件概率分布一致是指语音内容在不同种类的方言中的发音相似和相同,例如,四川话的音素a、东北话的音素a和河南话的音素a它们的特征分布是一致的,即四川话的音素a、东北话的音素a和河南话的音素a的发音相似或相同。
为了使得第一语种判别层32学习到的特征分布是与语音内容的方言种类的条件概率分布相关的,本申请实施例中在第一语种判别层32引入了控制门,通过控制门控制第一语种判别层32学习不同语音内容的方言种类的条件概率分布。本申请实施例中,控制门的输入为第一分类器22的输出,为便于说明,下面以第一分类器22以音素为建模单元进行建模为例进行说明。
对于第一语种判别层32的任意一层(为便于叙述,记为第k层),第k层的输入根据控制门的输出与第k-1层输出的特征得到;控制门的输入为第k-1输出的特征对应的第一分类器22输出的向量。具体用公式可以表示为:
g(ci)=σ(Vci+b) (4)
其中,hi是第一语种判别层32的第k-1层输出的与第i帧语音帧对应特征,ci是hi对应的第一分类器22输出的one hot向量,即第i帧语音帧对应的音素向量。例如,假设第一分类器22采用83个音素作为分类器的建模单元,那么ci是一个83维的向量,其中每一维分别对应1个音素,如果第i帧语音帧对应的音素是a,则在83维的向量中,a对应的那一维是1,其他维全部是0。g(ci)为控制门,其中,σ是激活函数,V是矩阵权重,b是偏置权重,也就是说,音素向量ci经过矩阵变换后得到控制门,通过控制门将第k-1层的特征与其对应的音素融合在一起输入第k层,使第一语种判别层32学习到跟音素的方言种类的条件概率分布相关的信息。需要说明的是,如果k为1,则第k-1层是指第一梯度反转层31。
第一语种判别层32的输出层有M个节点,M=N*C,其中N是方言种类个数,C是第一分类器22建模单元的总数,如音素总数;该M个节点分为C组,每一组节点对应一个音素,用于表征该音素属于各个方言种类的判别情况,通常是指该音素属于各个方言种类的概率;每次对第一语种判别层32的输出层的节点参数进行更新时,仅更新与方言识别模型输入的方言识别特征对应的识别结果对应的那一组节点的参数。
例如,假设该模型共训练20种方言,语音建模单元是83个音素,那么M=20*83=1660个节点,其中每20个节点一组,即每20个节点对应一个音素,表征该音素属于20种方言中的各个方言的概率。每次对第一语种判别层32的输出层的节点参数进行更新时,确定第一分类器22输出的与输入方言识别模型的第i帧语音帧的方言识别特征对应的音素预测结果,则仅对该音素预测结果对应的那一组20个节点的参数进行更新。
在模型训练过程中,损失函数是模型不可缺少的一部分。本申请实施例中,对应第一分类器22和第一判别器23分别设置了损失函数,方言识别模型的损失函数由第一分类器22的损失函数和第一判别器23的损失函数的加权构成。
第一分类器22的损失函数用于表征第一分类器22预测输出的样本的语音内容与样本的真实语音内容之间的差异。第一判别器23的损失函数用于表征第一判别器23预测输出的样本的语种类别与样本的真实语种类别之间的差异。
第一分类器22的损失函数和第一判别器23的损失函数可以相同,也可以不同。在对第一分类器22的损失函数和第一判别器23的损失函数进行加权时,第一分类器22的损失函数的权重和第一判别器23的损失函数的权重可以相同,也可以不同。
可选的,第一分类器22的损失函数和第一判别器23的损失函数可以均为交叉熵函数。交叉熵是信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息,当两个概率分布相同时,交叉熵为最小值。下面以第一分类器22为例,对交叉熵函数(用L1表示)进行说明:
其中,I表示一次输入方言识别模型的语音帧的方言特征的总个数(即方言识别模型每次能够同时处理I个语音帧的方言特征),i表示第i个语音帧,F表示第一特征提取器21,F(xi)表示第i个语音帧xi的方言识别特征在第一特征提取器21的输出,Y表示第一分类器22,Y(F(xi))表示第i个语音帧xi的方言识别特征在一分类器22的输出,表示第i个语音帧xi的方言识别特征对应的真实的语音内容,Ly是交叉熵,这里是Y(F(xi))和的交叉熵。
通过最小化该损失函数,也就是最小化第一分类器22的输出与真实结果的交叉熵,可以训练模型使得输出更接近真实结果,也就是模型的识别结果更接近真实结果,识别率也就越高。
本申请实施例中,第一判别器23预测输出样本的语种类别是由第一语种判别层32实现的,因此,第一判别器23对应的损失函数即为第一语种判别层32对应的损失函数。
假设方言识别模型的损失函数用L表征,第一分类器22的损失函数用L1表征,第一语种判别层32的损失函数由L2表征,则:
L=a×L1+b×L2。
可选的,L=L1+L2,即a=b=1。
在模型训练过程中,通过最小化L、L1和L2进行模型参数的更新。通过最小化L使得方言识别模型具备识别多用方言能力,通过最小化L1,使得第一分类器22具有更强的声学区分能力,通过最小化L2,使得第一判别器23具有更强的方言识别能力,同时由于第一判别器23中的梯度反转层的作用,使得第一特征提取器21生成的特征具有方言混淆性,该方言混淆性是指不同方言种类的方言特征经过第一特征提取器21生成的表征特征的分布一致,第一判别器23无法分辨输入的特征是何种方言。在上述的对抗训练过程中,第一判别器23的能力越来越强,促使第一特征提取器21生成的特征的方言混淆性越来越好,以使第一判别器23无法判别;当第一特征提取器21生成的特征的方言混淆性越来越好时,第一判别器23为了能准确判别,又会进一步提升判别能力,最终达到一个平衡状态,即第一特征提取器21提取的特征足够好时,第一判别器23无法判别,这时第一特征提取器21提取的特征分布基本一致,从而在语音识别时不再需要区分不同语种的方言,直接进行语音识别即可,达到多方言识别的效果。
前述实施例中,均是基于标注有语音内容和所属方言种类的训练语料对方言识别模型进行训练为例进行说明。发明人在实现本申请的过程中发现,在对方言识别模型训练过程中,如果引入方言属性信息,可以进一步提高方言识别模型的识别效果。其中,方言属性信息具体可以为语音数据所属的方言属性类别,比如方言片区,以中文为例,中国方言可以分为七大片区:官话方言、湘方言、赣方言、吴方言、闽方言、粤方言和客家方言。其中,官话方言还可以细分为:北方官话(北京官话、东北官话、胶辽官话、冀鲁官话、中原官话和兰银官话的统称)、西南官话和江淮官话。
基于此,本申请实施例提供的方言识别模型可以为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
也就是说,在方言识别模型的训练过程中,除了对训练样本的语音内容进行识别外,还对训练样本所属方言种类和训练样本所属的方言属性类别分别进行判别,基于语音内容的识别结果、方言种类的判别结果以及方言属性类别的判别结果对方言识别模型进行优化训练,从而进一步提高方言识别模型的识别结果的准确率。
基于此,本申请实施例提供的方言识别模型的另一种结构示意图如图4所示,可以包括:
第二特征提取器41,第二分类器42和第二判别器43;其中,
第二特征提取器41的输入为步骤S12提取的各帧语音帧的方言识别特征,第二特征提取器41的输出为各帧语音帧对应的表征特征,该表征特征为比方言识别特征更具有区分性的特征。也就是说,第二特征提取器41用于从方言识别特征中提取表征输入的语音数据(即步骤S11中接收的语音数据)的内在特性的特征,该特征是用于方言识别的高级特征。具体的,对应第一语音帧,当第二特征提取器41接收到第一语音帧的方言识别特征时,从该第一语音帧的方言识别特征中提取该第一语音帧对应的表征特征,该第一语音帧对应的表征特征是表征该第一语音帧内在特性的特征。
第二特征提取器41的具体形式可以为CNN,或者,RNN等深度神经网络。
第二分类器42的输入为第二特征提取器41输出的表征特征,第二分类器42的输出为语音数据的识别结果,即对应第一语音帧,第二分类器42用于确定第一语音帧的语音内容。具体的,对应第一语音帧,第二分类器42的输入为第一语音帧对应的表征特征,第二分类器42的输出为与第一语音帧对应的语音内容的状态表示。
第二分类器42的具体形式可以为浅层的神经网络,例如,两层的DNN网络。本申请不对第二分类器42的具体形式做具体限定。第二分类器42的输出的具体形式可以为字、音节、音素和音素状态中的任意一种。具体是哪种形式跟第二分类器42的建模单元有关,第二分类器42的建模单元的具体实现方式可以参看前述第一分类器22的建模单元的实现方式,这里不再详述。
第二判别器43的输入为第二特征提取器41输出的表征特征,第二判别器43的输出为语音数据所属的方言种类以及语音数据所属的方言属性类别。具体的,对应第一语音帧,第二判别器43的输入为第一语音帧对应的表征特征,第二判别器43的输出为与第一语音帧对应的方言种类的状态表示以及第一语音帧所属的方言属性类别的状态表示,即第二判别器43用于确定输入方言识别模型的第一语音帧的方言识别特征表征哪个方言种类,以及该第一语音帧的方言识别特征表征哪个方言属性类别。
与前述第一判别器23相似,本申请实施例中,第二判别器43主要用于在方言识别模型的训练阶段对方言模型进行优化训练,因而,在利用训练好的方言识别模型进行语音识别的过程中,第二判别器43输出的判别结果可以输出给用户,也可以不输出给用户。或者,可以为用户提供查看接口,在用户对该查看接口进行操作时,再将第二判别器43输出的判别结果输出给用户。
本实施例中,在对方言识别模型训练时采用反向传播算法(BackpropagationAlgorithm),该算法由信号的正向传播和误差的反向传播两个过程组成。其中,信号的正向传播是指方言识别模型接收样本的方言识别特征并输出样本的语音识别结果的过程,其信号传播方向是从第二特征提取器41到第二分类器42,以及从第二特征提取器41到第二判别器43。而误差的反向传播是指将第二判别器43输出的样本的方言种类判别结果和方言属性类别判别结果与样本的真实方言种类和方言属性类别的误差返回到方言识别模型输入端的过程,其信号传输方向是从第二判别器43到第二特征提取器41。
下面结合第二判别器43的具体结构说明第二判别器43用于方言识别模型的优化训练的具体实现方式。
请参阅图5,图5为本申请实施例提供的第二判别器43的一种结构示意图,可以包括:
第二梯度反转层51(为便于叙述,将第二梯度反转层51用R表示)、第二语种判别层52和属性判别层53;其中,
第二梯度反转层51的定义和第一梯度反转层31的定义相同,即:
z=R(z) (1)
公式(1)是第二梯度反转层51正向传播的计算公式,其中,z是第二梯度反转层51的输入,即第二特征提取器41输出的表征特征f,R(z)是第二梯度反转层51的输出,这里R()表示经过R层,不作处理,可见,在前向传播过程中,第二梯度反转层51的输出是第二梯度反转层51的输入,即第二梯度反转层51对输入特征不做任何处理而直接传给下一层(即第二语种判别层52和属性判别层53)。具体的,对应第一语音帧,第二梯度反转层51的输入为第一语音帧的表征特征,第二梯度反转层51的输出仍然为第一语音帧的表征特征。
公式(2)是第二梯度反转层51反向传播的计算公式,其中,是第二梯度反转层51的梯度,E是单位矩阵,α为预先设定的超参数,可见第二梯度反转层51的梯度是超参数与一个负的单位矩阵的乘积。
根据链式法则,输出的梯度等于输入的梯度乘以其自己的梯度,则第二梯度反转层51的输出梯度等于输入梯度(即第二语种判别层52的梯度与属性判别层53的梯度之和)乘以-αE,由于负号的存在,因此可以看做将输入梯度的值取负后传给前一层(即第二特征提取器41)。第二梯度反转层51在前向传播时对输入特征不做处理,在反向传播时对输入梯度做取反处理(即将输入梯度乘以-αE),使得取反处理结果的正负号与输入梯度的正负号相反,因此称该层为梯度反转层。
根据梯度下降法,模型参数的更新方向为梯度方向(即梯度未做取反处理)时,模型将以最快速度达到最优解。而本申请实施例中,第二梯度反转层51将第二语种判别层52的梯度和属性判别层53的梯度取反转后传给第二特征提取器41,使得第二特征提取器41的参数更新方向与第二语种判别层52和属性判别层53的梯度方向相反,即第二语种判别层52的训练目标是尽可能准的识别出样本属于的方言种类,属性判别层53的训练目标是尽可能准确的识别出样本所属的方言属性类别,而第二特征提取器41的训练目标是尽可能识别不准样本的方言种类和方言属性类别,因此通过第二梯度反转层51引入了对抗训练。
第二语种判别层52可以是一个浅层的神经网络,例如,两层的DNN网络,本申请不对第二语种判别层52的具体网络形式做具体限定。第二语种判别层52的输入为第二梯度反转层51输出的表征特征,输出为语音数据所属的方言种类。具体的,对应第一语音帧,第二语种判别层52的输入为第二梯度反转层51输出的第一语音帧的表征特征,第二语种判别层52的输出为第一语音帧所属的方言种类的状态表示。
属性判别层53可以是一个浅层的神经网络,例如,两层的DNN网络,本申请不对属性判别层53的具体网络形式做具体限定。属性判别层53的输入为第二梯度反转层51输出的表征特征,输出为语音数据所属的方言属性类别。具体的,对应第一语音帧,属性判别层53的输入为第二梯度反转层51输出的第一语音帧的表征特征,属性判别层53的输出为第一语音帧所属的方言属性类别的状态表示。
由前述内容可知,本申请通过第二梯度反转层51引入了对抗训练,目的有两方面,一方面是训练第二语种判别层52和属性判别层53更准确的判断出输入方言识别模型的特征属于何种方言,以及所属的方言属性类别,另一方面通过第二梯度反转层51将第二语种判别层52和属性判别层53的梯度反向往前传,训练第二特征提取器41生成更不具有语种区分性和属性类别区分性的特征,即,使得第二特征提取器41提取的特征所表征的语音内容属于不同的方言种类的条件概率分布一致,并且第二特征提取器41提取的特征所表征的语音内容所属方言的属性类别的条件概率分布一致。语音内容所属的方言属性类别的条件概率分布一致是指不同的方言属于同一属性类别。例如,河南话和东北话都属于北方官话。
为了使得第二语种判别层52学习到的特征分布是与语音内容的方言种类的条件概率分布相关的,本申请实施例中在第二语种判别层52引入了控制门,通过控制门控制第二语种判别层52学习不同语音内容的方言种类的条件概率分布。本申请实施例中,控制门的输入为第二分类器42的输出,控制门的具体实现方式可以参看第一语种判别层32中控制门的实现方式,这里不再详述。
为了使得属性判别层53学习到的特征分布是与语音内容所属的方言属性类别的条件概率分布相关的,本申请实施例中在属性判别层53中也引入了控制门,通过控制门控制属性判别层53学习不同语音内容的方言属性类别的条件概率分布。本申请实施例中,控制门的输入为第二分类器42的输出,属性判别层53中控制门的结构与第二语种判别层52中控制门的结构相同,具体如公式(3)-(4)所示:
g(ci)=σ(Vci+b) (4)
为便于说明,下面仍然以第二分类器42以音素为建模单元进行建模为例进行说明。
在属性判别层53中,上述公式(3)-(4)的含义是:对于属性判别层53的任意一层(为便于叙述,记为第k层),第k层的输入根据控制门的输出与第k-1层输出的特征得到;控制门的输入为第k-1输出的特征对应的第二分类器42输出的向量。
具体的,在属性判别层53中,hi是属性判别层53的第k-1层输出的与第i帧语音帧对应的特征,ci是hi对应的第二分类器42输出的one hot向量,即第i帧语音帧对应的音素向量。例如,假设第二分类器42采用83个音素作为第二分类器42的建模单元,那么ci是一个83维的向量,其中每一维分别对应1个音素,如果第i帧语音帧对应的音素是a,则在83维的向量中,a对应的那一维是1,其他维全部是0。g(ci)为控制门,其中,σ是激活函数,V是矩阵权重,b是偏置权重,也就是说,音素向量ci经过矩阵变换后得到控制门,通过控制门将第k-1层的特征与其对应的音素融合在一起输入第k层,使属性判别层53学习到跟音素的方言属性类别的条件概率分布相关的信息。需要说明的是,如果k为1,则第k-1层是指第二梯度反转层51。
属性判别层53的输出层有Q个节点,Q=P*C,其中P是方言属性类别的个数,C是第二分类器42建模单元的总数,如音素总数;该Q个节点分为C组,每一组节点对应一个音素,用于表征该音素的方言属性类别的判别情况,通常是指该音素属于各个方言属性类别的概率;每次对属性判别层53的输出层的节点参数进行更新时,仅更新与方言识别模型输入的方言识别特征对应的识别结果对应的那一组节点的参数。
例如,假设该模型共训练7种方言属性类别(对应方言的7大片区),语音建模单元是83个音素,那么Q=7*83=581个节点,其中每7个节点一组,即每7个节点对应一个音素,表征该音素属于7种方言属性类别中的各个方言属性类别的概率。每次对属性判别层53的输出层的节点参数进行更新时,确定第二分类器42输出的与输入方言识别模型的第i帧语音帧的方言识别特征对应的音素预测结果,则仅对该音素预测结果对应的那一组7个节点的参数进行更新。
下面说明在引入属性判别层53的情况下,方言识别模型中损失函数的设置情况。
在引入属性判别层53的情况下,本申请实施例中对方言识别模型设置损失函数的一种实现方式可以为:对应第二分类器42,第二语音判别层52和属性判别层53分别设置了损失函数,方言识别模型的损失函数由第二分类器42的损失函数、第二语音判别层52的损失函数和属性判别层53的损失函数加权构成。
第二分类器42的损失函数用于表征第二分类器42预测输出的样本的语音内容与样本的真实语音内容之间的差异。第二语音判别层52的损失函数用于表征第二语音判别层52预测输出的样本的语种类别与样本的真实语种类别之间的差异。属性判别层53的损失函数用于表征属性判别层53预测输出的样本的方言属性类别与样本的真实方言属性类别之间的差异。
第二分类器42的损失函数、第二语音判别层52的损失函数和属性判别层53的损失函数可以相同,也可以不同。在对第二分类器42的损失函数、第二语音判别层52的损失函数和属性判别层53的损失函数进行加权时,第二分类器42的损失函数的权重、第二语音判别层52的损失函数的权重和属性判别层53的损失函数的权重可以相同,也可以不同。
可选的,第二分类器42的损失函数、第二语音判别层52的损失函数和属性判别层53的损失函数可以均为交叉熵函数。
假设方言识别模型的损失函数用L表征,第二分类器42的损失函数用L1表征,第二语种判别层52的损失函数由L2表征,属性判别层53的损失函数由L3表征,则:
L=a×L1+b×L2+c×L3。
可选的,L=L1+L2+L3,即a=b=c=1。
在模型训练过程中,通过最小化L、L1和L2+L3进行模型参数的更新。通过最小化L使得方言识别模型具备识别多用方言能力,通过最小化L1,使得第二分类器42具有更强的声学区分能力,通过最小化L2+L3,使得第二判别器43具有更强的方言识别能力,同时由于第二判别器43中的梯度反转层的作用,使得第二特征提取器41生成的特征具有方言混淆性,该方言混淆性是指不同方言种类的方言特征经过第二特征提取器41生成的表征特征的分布一致,第二判别器43无法分辨输入的特征是何种方言。在上述的对抗训练过程中,第二判别器43的能力越来越强,促使第二特征提取器41生成的特征的方言混淆性越来越好,以使第二判别器43无法判别;当第二特征提取器41生成的特征的方言混淆性越来越好时,第二判别器43为了能准确判别,又会进一步提升判别能力,最终达到一个平衡状态,即第二特征提取器41提取的特征足够好时,第二判别器43无法判别,这时第二特征提取器41提取的特征分布基本一致,从而在语音识别时不再需要区分不同语种的方言,直接进行语音识别即可,达到多方言识别的效果。
另外,考虑到方言属性类别与方言种类具有一定的相关性,方言属性类别和方言种类具有一定的相关性是指方言属性类别与方言种类存在一对一或者一对多的关系,例如采用方言所属的片区作为方言属性类别,那么方言片区和方言种类存在一对多的关系,比如,四川话属于西南官话,河南话和东北话属于北方官话,如果一个样本被判断为方言种类是四川话,那么属性类别的判断结果应该是西南官话,如果不是,说明方言种类判断结果和方言属性判断结果不一致,需要进一步优化。为了优化这个误差,本申请在对方言识别模型设置损失函数时,引入了语种属性一致性损失函数,通过该语种属性一致性损失函数来进一步强化特征分布的一致性学习。这里定义语种属性一致性损失L4如下:
其中,I表示一次输入方言识别模型的语音帧的方言特征的总个数,DKL是KL散度(Kullback-Leibler divergence),qouti是第i帧语音帧的特征在属性判别层53的输出,q′outi是根据第i帧语音帧的特征在第二语种判别层52的输出转化得到的特征输出。第二语种判别层52输出的是表征第i帧语音帧所属的方言种类的状态表示,而属性判别层53的输出的是表征第i帧语音帧所属的方言属性类别的状态表示,因此,在计算KL散度时,需要对二者进行归一化,本申请实施例中,归一化是指:将第二语种判别层52输出的表征第i帧语音帧所属的属性类别的状态表示,转化为第i帧语音帧所属的属性类别的状态表示。该转化过程可以是根据预置的转化规则转化得到。
在引入语种属性一致性损失函数的情况下,方言识别模型的损失函数由第二分类器42的损失函数,第二语种判别层52的损失函数,属性判别层53的损失函数,以及第二语种判别层52和属性判别层53的语种属性一致性损失函数加权构成。用公式可以表示为:
L=a×L1+b×L2+c×L3+d×L4。
可选的,L=L1+L2+L3+L4,即a=b=c=d=1。
在模型训练过程中,通过最小化L、L1和L2+L3+L4进行模型参数的更新。通过最小化L使得方言识别模型具备识别多用方言能力,通过最小化L1,使得第二分类器42具有更强的声学区分能力,通过最小化L2+L3+L4,使得第二判别器43具有更强的方言识别能力,同时由于第二判别器43中的梯度反转层的作用,使得第二特征提取器41生成的特征具有方言混淆性,该方言混淆性是指不同方言种类的方言特征经过第二特征提取器41生成的表征特征的分布一致,第二判别器43无法分辨输入的特征是何种方言。在上述的对抗训练过程中,第二判别器43的能力越来越强,促使第二特征提取器41生成的特征的方言混淆性越来越好,以使第二判别器43无法判别;当第二特征提取器41生成的特征的方言混淆性越来越好时,第二判别器43为了能准确判别,又会进一步提升判别能力,最终达到一个平衡状态,即第二特征提取器41提取的特征足够好时,第二判别器43无法判别,这时第二特征提取器41提取的特征分布基本一致,从而在语音识别时不再需要区分不同语种的方言,直接进行语音识别即可,达到多方言识别的效果。
与方法实施例相对应,本申请实施还提供一种多方言识别装置,本申请实施例提供的多方言识别装置的一种结构示意图如图6所示,可以包括:
接收模块61,提取模块62和识别模块63;其中,
接收模块61用于接收语音数据;
提取模块62用于对所述语音数据提取方言识别特征;
识别模块63用于将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
本申请实施例提供的多方言识别装置,通过预先构建的方言识别模型进行方言的识别,其中,该方言识别模型通过包括多种方言的训练语料训练得到,而且该方言识别模型的训练过程中不仅局限于语料的语音内容,还引入了方言所属的方言种类,结合方言所属的方言种类对方言识别模型进行优化,使得方言识别模型能够准确识别多种方言,从而用户不必再进行语音识别模式的切换,简化了用户操作,提高了多方言识别的准确率和效率。
在一可选的实施例中,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
在一可选的实施例中,所述方言识别模型包括:特征提取器,分类器和判别器;其中,
所述特征提取器用于获取所述方言识别特征,并输出表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;
所述分类器用于获取所述表征特征,并输出所述语音数据的识别结果;
所述判别器用于获取所述表征特征,并输出所述语音数据所属的方言种类,或者,输出所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。
在一可选的实施例中,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,
所述梯度反转层用于获取所述表征特征,并输出所述表征特征;
所述语种判别层用于获取所述梯度反转层输出的表征特征,并输出所述语音数据所属的方言种类;
所述属性判别层用于获取所述梯度反转层输出的表征特征,并输出所述语音数据所属的方言属性类别。
在一可选的实施例中,所述梯度反转层用于在对所述方言识别模型进行训练时,将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层用于在对所述方言识别模型进行训练时,将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。
在一可选的实施例中,所述方言识别模型在训练时的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。
在一可选的实施例中,若所述判别器包括梯度反转层和语种判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数和所述语种判别层的损失函数加权构成;
或者,
若所述判别器包括梯度反转层、语种判别层和属性判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数加权构成。
在一可选的实施例中,若所述判别器包括梯度反转层、语种判别层和属性判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数,以及语种判别层和所述属性判别层的语种属性一致性损失函数加权构成。
在一可选的实施例中,所述语种判别层为包含控制门的神经网络;所述神经网络的层数大于1;
所述神经网络的每个层的输入是根据所述控制门的输出与上一层输出的特征得到的;
所述控制门的输入为所述上一层输出的特征对应的所述分类器输出的向量。
本申请实施例提供的多方言识别装置可应用于多方言识别设备,如PC终端、智能手机、翻译机、机器人、智能家居(家电)、遥控器、云平台、服务器及服务器集群等。可选的,图7示出了多方言识别设备的硬件结构框图,参照图7,多方言识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
接收语音数据;
对所述语音数据提取方言识别特征;
将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
接收语音数据;
对所述语音数据提取方言识别特征;
将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种多方言识别方法,其特征在于,包括:
接收语音数据;
对所述语音数据提取方言识别特征;
将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
2.根据权利要求1所述的方法,其特征在于,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
3.根据权利要求1或2所述的方法,其特征在于,所述方言识别模型包括:特征提取器,分类器和判别器;其中,
所述特征提取器的输入为所述方言识别特征,输出为表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;
所述分类器的输入为所述表征特征,输出为所述语音数据的识别结果;
所述判别器的输入为所述表征特征,输出为所述语音数据所属的方言种类,或者,输出为所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。
4.根据权利要求3所述的方法,其特征在于,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,
所述梯度反转层的输入为所述表征特征,输出为所述表征特征;
所述语种判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言种类;
所述属性判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言属性类别。
5.根据权利要求4所述的方法,其特征在于,在对所述方言识别模型进行训练时,
所述梯度反转层将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。
6.根据权利要求4所述的方法,其特征在于,在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。
7.根据权利要求6所述的方法,其特征在于,若所述判别器包括梯度反转层和语种判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述语种判别层的损失函数加权构成;
或者,
若所述判别器包括梯度反转层、语种判别层和属性判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数加权构成。
8.根据权利要求6所述的方法,其特征在于,若所述判别器包括梯度反转层、语种判别层和属性判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数,以及语种判别层和所述属性判别层的语种属性一致性损失函数加权构成。
9.根据权利要求4-8任意一项所述的方法,其特征在于,所述语种判别层为包含控制门的神经网络;所述神经网络的层数大于1;
所述神经网络的每个层的输入根据所述控制门的输出与上一层输出的特征得到;
所述控制门的输入为所述上一层输出的特征对应的所述分类器输出的向量。
10.一种多方言识别装置,其特征在于,包括:
接收模块,用于接收语音数据;
提取模块,用于对所述语音数据提取方言识别特征;
识别模块,用于将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
11.一种多方言识别设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-9中任一项所述的多方言识别方法的各个步骤。
12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的信多方言识别方法的各个步骤。
CN201910852557.0A 2019-09-10 2019-09-10 多方言识别方法、装置、设备及可读存储介质 Active CN110517664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910852557.0A CN110517664B (zh) 2019-09-10 2019-09-10 多方言识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910852557.0A CN110517664B (zh) 2019-09-10 2019-09-10 多方言识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110517664A true CN110517664A (zh) 2019-11-29
CN110517664B CN110517664B (zh) 2022-08-05

Family

ID=68632012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852557.0A Active CN110517664B (zh) 2019-09-10 2019-09-10 多方言识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110517664B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105786A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 一种多采样率语音识别方法、装置、***及存储介质
CN111292727A (zh) * 2020-02-03 2020-06-16 北京声智科技有限公司 一种语音识别方法及电子设备
CN111369981A (zh) * 2020-03-02 2020-07-03 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111460214A (zh) * 2020-04-02 2020-07-28 北京字节跳动网络技术有限公司 分类模型训练方法、音频分类方法、装置、介质及设备
CN111653274A (zh) * 2020-04-17 2020-09-11 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111798836A (zh) * 2020-08-03 2020-10-20 上海茂声智能科技有限公司 一种自动切换语种方法、装置、***、设备和存储介质
CN111833844A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 用于语音识别和语种分类的混合模型的训练方法及***
CN112017630A (zh) * 2020-08-19 2020-12-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN112951240A (zh) * 2021-05-14 2021-06-11 北京世纪好未来教育科技有限公司 模型训练、语音识别方法及装置、电子设备及存储介质
CN113053367A (zh) * 2021-04-16 2021-06-29 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN113593525A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音分类模型训练和口音分类方法、装置和存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
CN103578465A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语音辨识方法及电子装置
US20150221305A1 (en) * 2014-02-05 2015-08-06 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
US20160284344A1 (en) * 2013-12-19 2016-09-29 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别***及方法、客户端设备及云端服务器
CN106887226A (zh) * 2017-04-07 2017-06-23 天津中科先进技术研究院有限公司 一种基于人工智能识别的语音识别算法
US20180053500A1 (en) * 2016-08-22 2018-02-22 Google Inc. Multi-accent speech recognition
CN108281137A (zh) * 2017-01-03 2018-07-13 中国科学院声学研究所 一种全音素框架下的通用语音唤醒识别方法及***
CN108510976A (zh) * 2017-02-24 2018-09-07 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN108682420A (zh) * 2018-05-14 2018-10-19 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
US20180350343A1 (en) * 2017-05-31 2018-12-06 Lenovo (Singapore) Pte. Ltd. Provide output associated with a dialect
CN109979432A (zh) * 2019-04-02 2019-07-05 科大讯飞股份有限公司 一种方言翻译方法及装置
CN110033756A (zh) * 2019-04-15 2019-07-19 北京达佳互联信息技术有限公司 语种识别方法、装置、电子设备及存储介质
CN110033760A (zh) * 2019-04-15 2019-07-19 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
CN103578465A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语音辨识方法及电子装置
US20160284344A1 (en) * 2013-12-19 2016-09-29 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
US20150221305A1 (en) * 2014-02-05 2015-08-06 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别***及方法、客户端设备及云端服务器
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
US20180053500A1 (en) * 2016-08-22 2018-02-22 Google Inc. Multi-accent speech recognition
CN108281137A (zh) * 2017-01-03 2018-07-13 中国科学院声学研究所 一种全音素框架下的通用语音唤醒识别方法及***
CN108510976A (zh) * 2017-02-24 2018-09-07 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN106887226A (zh) * 2017-04-07 2017-06-23 天津中科先进技术研究院有限公司 一种基于人工智能识别的语音识别算法
US20180350343A1 (en) * 2017-05-31 2018-12-06 Lenovo (Singapore) Pte. Ltd. Provide output associated with a dialect
CN108682420A (zh) * 2018-05-14 2018-10-19 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
CN109979432A (zh) * 2019-04-02 2019-07-05 科大讯飞股份有限公司 一种方言翻译方法及装置
CN110033756A (zh) * 2019-04-15 2019-07-19 北京达佳互联信息技术有限公司 语种识别方法、装置、电子设备及存储介质
CN110033760A (zh) * 2019-04-15 2019-07-19 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNLEI ZHANG: "Semi-supervised Learning with Generative Adversarial Networks for Arabic Dialect Identification", 《 ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
王慧勇: "基于神经网络的多方言口音汉语语音识别***研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105786A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 一种多采样率语音识别方法、装置、***及存储介质
CN111292727A (zh) * 2020-02-03 2020-06-16 北京声智科技有限公司 一种语音识别方法及电子设备
CN111292727B (zh) * 2020-02-03 2023-03-24 北京声智科技有限公司 一种语音识别方法及电子设备
CN111369981A (zh) * 2020-03-02 2020-07-03 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111369981B (zh) * 2020-03-02 2024-02-23 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111460214A (zh) * 2020-04-02 2020-07-28 北京字节跳动网络技术有限公司 分类模型训练方法、音频分类方法、装置、介质及设备
CN111460214B (zh) * 2020-04-02 2024-04-19 北京字节跳动网络技术有限公司 分类模型训练方法、音频分类方法、装置、介质及设备
CN111653274A (zh) * 2020-04-17 2020-09-11 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111653274B (zh) * 2020-04-17 2023-08-04 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111833844A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 用于语音识别和语种分类的混合模型的训练方法及***
CN111798836A (zh) * 2020-08-03 2020-10-20 上海茂声智能科技有限公司 一种自动切换语种方法、装置、***、设备和存储介质
CN111798836B (zh) * 2020-08-03 2023-12-05 上海茂声智能科技有限公司 一种自动切换语种方法、装置、***、设备和存储介质
CN112017630B (zh) * 2020-08-19 2022-04-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质
CN112017630A (zh) * 2020-08-19 2020-12-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质
CN113593525A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音分类模型训练和口音分类方法、装置和存储介质
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN113053367A (zh) * 2021-04-16 2021-06-29 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN113053367B (zh) * 2021-04-16 2023-10-10 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN112951240A (zh) * 2021-05-14 2021-06-11 北京世纪好未来教育科技有限公司 模型训练、语音识别方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110517664B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及***
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
WO2018227780A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN103578471B (zh) 语音辨识方法及其电子装置
CN110473523A (zh) 一种语音识别方法、装置、存储介质及终端
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN107704482A (zh) 方法、装置以及程序
CN107818164A (zh) 一种智能问答方法及其***
CN109036391A (zh) 语音识别方法、装置及***
CN107195296A (zh) 一种语音识别方法、装置、终端及***
CN106935239A (zh) 一种发音词典的构建方法及装置
CN104575497B (zh) 一种声学模型建立方法及基于该模型的语音解码方法
CN108899013A (zh) 语音搜索方法、装置和语音识别***
CN106297773A (zh) 一种神经网络声学模型训练方法
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
CN107437417A (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN106875936A (zh) 语音识别方法及装置
CN110349597A (zh) 一种语音检测方法及装置
Liu et al. Feature fusion of speech emotion recognition based on deep learning
CN107679225A (zh) 一种基于关键词的回复生成方法
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant