CN113160795B - 语种特征提取模型训练方法、装置、设备及存储介质 - Google Patents
语种特征提取模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113160795B CN113160795B CN202110467103.9A CN202110467103A CN113160795B CN 113160795 B CN113160795 B CN 113160795B CN 202110467103 A CN202110467103 A CN 202110467103A CN 113160795 B CN113160795 B CN 113160795B
- Authority
- CN
- China
- Prior art keywords
- feature
- language
- feature extraction
- extraction model
- examples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 133
- 230000009467 reduction Effects 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 28
- 238000009826 distribution Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及人工智能技术领域,并公开了一种语种特征提取模型训练方法、装置、设备及存储介质,所述方法包括:在降维层对语音样本的特征向量进行降维处理,得到降维特征向量;根据降维特征向量确定上下文特征;重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本包括的正例和反例;通过预设的特征提取模型的损失函数,对正例和反例的预测结果计算误差;根据所述误差更新语种特征提取模型的模型参数。实现了将上下文对比预测编码用于语种特征的提取,且用语音样本的特征向量均值表征语种特征,稀释掉了和语种无关的特征,提高语种特征提取模型训练的效率及准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语种特征提取模型训练方法、装置、设备及存储介质。
背景技术
对比预测编码是深度学习中的一种对比学习方法,由于采用了对比学习方案,可以有效的找到样本之间的差异,在多个领域有着广泛应用。例如,在语音领域,可以通过当前样本的上文信息,来预测该样本后面的发音特征,在一些语音相关任务,比如说话人确认、以及音素分类问题有着良好的效果。
但由于在语种特征模型的训练过程中,缺乏有效的把对比学习机制和语种区分任务联系在一起,使得现有的语种特征模型无法将对比预测编码应用于语种识别,且可能把和语种无关的语速、声音大小、性别等信息考虑进去,进而影响了语种识别效果。
发明内容
本申请提供了一种语种特征提取模型训练方法、装置、设备及存储介质,能够实现将上下文对比预测编码用于语种特征的提取,且用语音样本的特征向量均值表征语种特征,在语种特征提取模型的训练过程中稀释掉了和语种无关的特征,能够提高语种特征提取模型训练的效率及准确性。
第一方面,本申请提供了一种语种特征提取模型训练方法,所述方法包括:
在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量;
将所述降维特征向量输入时序模型,获取上文特征和下文特征;
合并所述上文特征和所述下文特征,得到上下文特征;
重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值;
通过预设的特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新语种特征提取模型的模型参数。
第二方面,本申请还提供了一种语种特征提取模型训练装置,包括:
处理模块,用于在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量;
获取模块,用于将所述降维特征向量输入时序模型,获取上文特征和下文特征;
得到模块,用于合并所述上文特征和所述下文特征,得到上下文特征;
预测模块,用于重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值;
更新模块,用于通过预设的特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新语种特征提取模型的模型参数。
第三方面,本申请还提供了一种语种特征提取模型训练设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的语种特征提取模型训练方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的语种特征提取模型训练方法的步骤。
本申请公开了一种语种特征提取模型训练方法、装置、设备及存储介质,首先,通过对语音样本的特征向量进行降维处理,得到降维特征向量;再根据降维特征向量确定语音样本的语种的上下文特征;并重新定义语音样本的正例和反例,进而根据上下文特征预测每帧语音样本包括的正例和反例。实现了将上下文对比预测编码用于语种特征的提取,且用语音样本的特征向量均值表征语种特征,稀释掉了和语种无关的特征,进而通过预设特征提取模型的损失函数,对正例和反例的预测结果计算误差,根据误差更新所述预设语种特征提取模型的模型参数。提高对语种特征提取模型训练的效率及准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语种特征提取模型训练方法的示意流程图;
图2是本申请实施例提供的特征编码器的结构示意图;
图3是本申请实施例提供的语种特征提取模型的结构示意图;
图4是本申请实施例提供的语种特征提取模型训练装置的结构示意图;
图5是本申请实施例提供的语种特征提取模型训练设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种语种特征提取模型训练方法、装置、设备及存储介质。本申请实施例提供的语种特征提取模型训练方法可用于通过对语音样本的特征向量进行降维处理,得到降维特征向量;再根据降维特征向量确定语音样本的语种的上下文特征;并重新定义语音样本的正例和反例,进而根据上下文特征预测每帧语音样本包括的正例和反例。实现了将上下文对比预测编码用于语种特征的提取,且用语音样本的特征向量均值表征语种特征,稀释掉了和语种无关的特征,进而通过预设特征提取模型的损失函数,对正例和反例的预测结果计算误差,根据误差更新所述预设语种特征提取模型的模型参数。提高对语种特征提取模型训练的效率及准确性。
例如,本申请的实施例提供的语种特征提取模型训练方法,可应用于终端或者服务器,通过将上下文对比预测编码用于语种特征的提取,且用语音样本的特征向量均值表征语种特征,稀释掉了和语种无关的特征,进而提高对语种特征提取模型训练的效率及准确性。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请一实施例提供的语种特征提取模型训练方法的示意流程图。该语种特征提取模型训练方法可以由终端或者服务器实现,所述终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等;所述服务器可以是单个服务器或者服务器集群。
如图1所示,本实施例提供的语种特征提取模型训练方法,具体包括:步骤S101至步骤S105。详述如下:
S101、在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量。
其中,预设语种特征提取模型包括特征编码器。该特征编码器可以是包括预设卷积层数的神经网络,用于对输入的语音样本进行采样,得到语音样本的特征向量。具体地,输入的语音样本可以是音频文件,例如,该音频文件的每一帧均是脉冲编码调制采样点(Pulse Code Modulatioon,PCM),将该音频文件输入预设卷积层(假设五层)的神经网络,经过该神经网络采样处理后,输出每帧(每帧包括160个PCM采样点)语音样本分别对应的特征向量。
在一实施例中,在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量,包括:将语音样本输入特征编码器,获得每帧语音样本各自对应的特征向量;通过降维层对各特征向量分别进行降维处理,得到每帧语音样本各自对应的降维特征向量。例如,假设每帧语音样本为512维的特征向量,在本实施例中,通过降维层将512维的特征向量进行特征维度变换,经过一个512×40的线性变换,映射成40维的特征向量。该40维的特征向量为当前帧的语音样本对应的降维特征向量。通过降维层对特征向量进行维度转换,即可以减少后面时序模型的参数量,方便特征对比的同时,能够得到更紧凑的特征表达。
示例性地,如图2所示,图2是本申请实施例提供的特征编码器的结构示意图。由图2可知,在本实施例中,特征编码器200的输入为以帧为单位的语音样本201,输出为每帧语音样本各自对应的特征向量202。需要说明的是,图2所示的特征编码器200为包括5层卷积层的卷积神经网络,其不构成对特征编码器200的限定,特征编码器200还可以是其他类型的神经网络。每帧语音样本经过特征编码器200后,得到各自对应的特征向量202,在本实施例中,由图2可知,每帧语音样本各自对应的特征向量202为512维的特征向量。
S102、将所述降维特征向量输入时序模型,获取上文特征和下文特征。
其中,时序模型包括自回归模型和反向的自回归模型。例如,自回归模型包括门控循环单元,反向的自回归模型包括反向的门控循环单元。通过门控循环单元对前t帧语音样本对应的降维特征向量进行分析,获取对第t帧语音样本通过门控循环单元进行编码解码之后得到的信息,将该信息作为上文特征;通过反向的门控循环单元对最后一帧到第t+1帧语音样本对应的降维特征向量进行分析,获取对第t+1帧语音样本经反向门控循环单元进行编码解码之后得到的信息,将该信息作为下文特征。
在一实施例中,将降维特征向量输入时序模型,获取上文特征和下文特征,包括:将前t帧语音样本对应的降维特征向量输入自回归模型,获取上文特征;将最后一帧到第t+1帧语音样本对应的降维特征向量输入反向的自回归模型,获取下文特征。
其中,自回归模型包括编码器-解码器,在输入数据和学习目标都为序列且长度可变时,使用两个相耦合的基于上下文连接的RNN分别作为编码器和解码器。例如,语言模型中的RNN构架seq2seq。编码器在工作时对输入的原始文本(本实施例中为语音样本的降维特征向量)进行处理,并输出编码之后的向量到解码器,解码器根据编码器的输出生成新序列,在本实施例中,自回归模型的解码器输出的第t帧语音样本的降维特征向量的新序列,为上文特征,反向自回归模型的解码器输出的第t+1帧语音样本的降维特征向量的新序列,为下文特征。在本实施例中,通过两个时序模型分别获取上文特征和下文特征,实现了将上下文对比预测编码用于语种特征的提取。
S103,合并所述上文特征和所述下文特征,得到上下文特征。
在一实施例中,将上文特征和下文特征进行合并,具体地,可以将上文特征的最后一个特征和下文特征的第一个特征拼接在一起,得到上下文特征。例如,上文特征是128维的特征向量,下文特征也是128维的特征向量,将上文特征和下文特征进行合并之后,得到的上下文特征为256维的特征向量。
S104,重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值。
在一实施例中,重新定义语音样本的正例和反例,包括:确定语音样本的目标语种;将每一批量的语音样本中,语种与所述目标语种相同的语音样本定义为正例;将每一批量的语音样本中,语种与所述目标语种不相同的语音样本定义为反例。例如,假设一个批量(mini-batch)的语音样本中,有10个汉语,10个英语。确定语音样本的目标语种为汉语,则将汉语作为正例,将英语作为反例。具体地,在本申请的实施例中,将对应正例样本的特征都替换为该正例样本对应语种的特征均值,得到对应正例的特征向量。同理,将反例样本的特征都替换为反例样本对应语种的特征均值,得到对应反例的特征向量。需要说明的是,与目标语种不同的每种语言可以组成一种反例,由所有反例构成反例集,反例集包括与语音样本的目标语种不同的每种语音样本对应的若干反例。每组反例中,反例样本的个数与该组对应的语种的所有语音样本的个数相同,每组反例样本的特征向量为该组反例对应的语种的所有语音样本的特征向量的平均值。
在一实施例中,根据上下文特征预测每帧语音样本包括的正例和反例,包括:计算上下文特征与每帧语音样本的降维特征向量的内积,根据计算得到的内积结果和预设相关度,预测每帧语音样本为正例或反例。
具体地,以计算得到的内积结果作为上下文特征与每帧语音样本的相关度,若当前帧的语音样本与上下文特征的内积结果大于预设相关度,则确定当前帧的语音样本与上下文特征高度相关,预测当前帧的语音样本为正例;若当前帧的语音样本与上下文特征的内积结果小于或等于预设相关度,则确定当前帧的语音样本与上下文特征相关度不高,预测当前帧的语音样本为反例。
需要说明的是,在计算上下文特征与每帧语音样本的降维特征向量的内积之前,需要通过矩阵变化将上下文特征变换为与降维特征向量为相同维度的向量。具体地,矩阵维度变换的过程可参考现有的向量维度线性变换的过程,在此不再详述。
S105,通过预设的特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新语种特征提取模型的模型参数。
其中,预设的特征提取模型的损失函数包括对抗噪声损失函数。该损失函数的目的是尽可能使生成样本分布拟合真实样本分布。在本申请的实施例中,采用该损失函数的目的是尽可能使预测的正例和反例的分布与真实的正例和反例的分布相拟合。具体地,在本实施例中,以预测的正例和反例的分布和真实的正例和反例的分布的散度来表示损失函数的值,当损失函数的值越接近0,则表示预测的正例和反例的分布越接近真实的正例和反例,预测的正例和反例的误差越小;反之,当损失函数的值越接近1,则表示预测的正例和反例的分布越远离真实的正例和反例,预测的正例和反例的误差越大。
示例性地,通过预设的特征提取模型的损失函数,确定预测的正例与反例的误差,包括:通过对抗噪声损失函数,将预测的正例和反例的第一分布与实际的正例和反例的第二分布进行拟合,得到预测的正例和反例的误差。
具体地,对抗噪声损失函数可以表示为:
其中,J(D)(θD,θG)表示预测的正例和反例的第一分布与实际的正例和反例的第二分布的拟合程度(也称为第一分布与第二分布的散度),代表预测的正例和反例的误差,θD表示预测的正例和反例的第一分布,θG表示实际的正例与反例的第二分布,表示预测的正例的分布函数,/>表示预测的反例的分布函数,D(X)表示语种特征提取模型的鉴别器,用于对训练样本X进行真伪鉴别。
需要说明的是,在根据对抗噪声损失函数,确定预测的正例和反例的误差的过程中,对于同一批量样本中和正例具有相同标签(语种)的其他样本,可以不作为反例或者正例去考虑,也就不参与损失函数的计算;另外,对于同一批量样本中如果没有包括正例,则该类别的样本也不参与损失函数的计算,可以有效提高损失函数的计算效率。
在一实施例中,根据误差更新预设的语种特征提取模型的模型参数,包括:根据误差通过反向传播更新语种特征提取模型的模型参数。
具体地,特征提取模型的损失函数值对应为预测的正例和反例的误差,在得到预测的正例和反例的误差后,使用梯度下降算法使得误差值逐渐减小,在误差值逐渐减小过程中,不断从后往前逐层更新语种特征提取模型的参数,直至误差值取极小值且趋于稳定时,完成对语种特征提取模型的模型参数更新。
其中,对语种特征提取模型的参数更新过程,其实是优化语种特征提取模型的鉴别器D(X)的参数的过程。具体地,通过Adam梯度下降算法更新鉴别器D(X)的参数θd。示例性地,通过Adam梯度下降算法更新鉴别器的参数θd的过程可以用如下公式表示:
其中,J(D)表示鉴别器D(X)的代价函数,代价函数的值用于表示对输入样本进行真伪鉴别的误差值。
在本申请的实施例中,鉴别器D(X)的代价函数为预设的语种特征提取模型的损失函数,具体为对抗噪声损失函数。在本实施例中,通过使用Adam梯度下降算法,当J(D)的值逐渐减小并趋于稳定的过程中,根据公式可以计算得到随着J(D)的值不断变化的θd,基于计算得到的θd的值不断更新该参数θd。
示例性地,如图3所示,图3是本申请实施例提供的语种特征提取模型的结构示意图。由图3可知,语种特征提取模型300包括特征编码器200和时序模型301。具体地,特征编码器200和时序模型301的具体解释可参阅本申请实施例前述的描述,在此不再赘述。
通过上述分析可知,本申请实施例提供的语种特征提取模型训练方法,通过对语音样本的特征向量进行降维处理,得到降维特征向量;再根据降维特征向量确定语音样本的语种的上下文特征;并重新定义语音样本的正例和反例,进而根据上下文特征预测每帧语音样本包括的正例和反例。实现了将上下文对比预测编码用于语种特征的提取,且用语音样本的特征向量均值表征语种特征,稀释掉了和语种无关的特征,进而通过预设的特征提取模型的损失函数,对正例和反例的预测结果计算误差,根据误差更新语种特征提取模型的模型参数。提高对语种特征提取模型训练的效率及准确性。
请参阅图4,图4是本申请实施例提供的语种特征提取模型训练装置的结构示意图,该语种特征提取模型训练装置用于执行图1所示的语种特征提取模型训练方法。该语种特征提取模型训练装置可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图4所示,语种特征提取模型训练装置400包括:
处理模块401,用于在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量;
获取模块402,用于将所述降维特征向量输入时序模型,获取上文特征和下文特征;
得到模块403,用于合并所述上文特征和所述下文特征,得到上下文特征;
预测模块404,用于重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值;
更新模块405,用于通过预设的特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新语种特征提取模型的模型参数。
在一实施例中,所述预设语种特征提取模型包括特征编码器,处理模块401,包括:
获得单元,用于将所述语音样本输入所述特征编码器,获得每帧语音样本各自对应的所述特征向量;
处理单元,用于通过所述降维层对各所述特征向量分别进行降维处理,得到每帧语音样本各自对应的所述降维特征向量。
在一实施例中,所述时序模型包括自回归模型和反向的自回归模型;获取模块402,包括:
第一获取单元,用于将前t帧语音样本对应的降维特征向量输入自回归模型,获取上文特征;
第二获取单元,用于将最后一帧到第t+1帧语音样本对应的降维特征向量输入反向的自回归模型,获取下文特征。
在一实施例中,所述重新定义语音样本的正例和反例,包括:
确定语音样本的目标语种;
将每一批量的语音样本中,语种与所述目标语种相同的语音样本定义为正例;
将每一批量的语音样本中,语种与所述目标语种不相同的语音样本定义为反例。
在一实施例中,所述根据所述上下文特征预测每个所述语音样本包括的正例和反例,包括:
计算所述上下文特征与每帧语音样本的降维特征向量的内积;
根据计算得到的内积结果和预设相关度,预测每帧语音样本为正例或反例。
在一实施例中,所述预设特征提取模型的损失函数包括对抗噪声损失函数,所述通过所述预设特征提取模型的损失函数,确定预测的正例和反例的误差,包括:
通过所述对抗噪声损失函数,将预测的正例和反例与实际的正例和反例进行拟合,通过拟合结果确定预测的正例和反例的误差。
在一实施例中,所述根据所述误差更新所述预设语种特征提取模型的模型参数,包括:
根据所述误差通过反向传播更新所述预设语种特征提取模型的模型参数。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和各模块的具体工作过程,可以参考图1所述的语种特征提取模型训练方法实施例中的对应过程,在此不再赘述。
上述的语种特征提取模型训练方法可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的装置上运行。
请参阅图5,图5是本申请实施例提供的语种特征提取模型训练设备的结构示意性框图。该语种特征提取模型训练设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语种特征提取模型训练方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语种特征提取模型训练方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量;
将所述降维特征向量输入时序模型,获取上文特征和下文特征;
合并所述上文特征和所述下文特征,得到上下文特征;
重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值;
通过所述预设特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新所述预设语种特征提取模型的模型参数。
在一实施例中,所述预设语种特征提取模型包括特征编码器,所述在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量,包括:
将所述语音样本输入所述特征编码器,获得每帧语音样本各自对应的所述特征向量;
通过所述降维层对各所述特征向量分别进行降维处理,得到每帧语音样本各自对应的所述降维特征向量。
在一实施例中,所述时序模型包括自回归模型和反向的自回归模型;所述将所述降维特征向量输入时序模型,获取上文特征和下文特征,包括:
将前t帧语音样本对应的降维特征向量输入自回归模型,获取上文特征;
将最后一帧到第t+1帧语音样本对应的降维特征向量输入反向的自回归模型,获取下文特征。
在一实施例中,所述重新定义语音样本的正例和反例,包括:
确定语音样本的目标语种;
将每一批量的语音样本中,语种与所述目标语种相同的语音样本定义为正例;
将每一批量的语音样本中,语种与所述目标语种不相同的语音样本定义为反例。
在一实施例中,所述根据所述上下文特征预测每个所述语音样本包括的正例和反例,包括:
计算所述上下文特征与每帧语音样本的降维特征向量的内积;
根据计算得到的内积结果和预设相关度,预测每帧语音样本为正例或反例。
在一实施例中,所述预设特征提取模型的损失函数包括对抗噪声损失函数,所述通过所述预设特征提取模型的损失函数,确定预测的正例和反例的误差,包括:
通过所述对抗噪声损失函数,将预测的正例和反例与实际的正例和反例进行拟合,通过拟合结果确定预测的正例和反例的误差。
在一实施例中,所述根据所述误差更新所述预设语种特征提取模型的模型参数,包括:
根据所述误差通过反向传播更新所述预设语种特征提取模型的模型参数。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请图1所示实施例提供的语种特征提取模型训练方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种语种特征提取模型训练方法,其特征在于,所述方法包括:
在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量;
将所述降维特征向量输入时序模型,获取上文特征和下文特征;其中,所述时序模型包括自回归模型和反向的自回归模型;所述将所述降维特征向量输入时序模型,获取上文特征和下文特征,包括:将前t帧语音样本对应的降维特征向量输入自回归模型,获取上文特征;将最后一帧到第t+1帧语音样本对应的降维特征向量输入反向的自回归模型,获取下文特征;合并所述上文特征和所述下文特征,得到上下文特征;
重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值;所述重新定义语音样本的正例和反例,包括:确定语音样本的目标语种;将每一批量的语音样本中,语种与所述目标语种相同的语音样本定义为正例;将每一批量的语音样本中,语种与所述目标语种不相同的语音样本定义为反例;所述根据所述上下文特征预测每个所述语音样本包括的正例和反例,包括:计算所述上下文特征与每帧语音样本的降维特征向量的内积;根据计算得到的内积结果和预设相关度,预测每帧语音样本为正例或反例;
通过预设的特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新语种特征提取模型的模型参数;其中,所述预设特征提取模型的损失函数包括对抗噪声损失函数,所述通过所述预设特征提取模型的损失函数,确定预测的正例和反例的误差,包括:通过所述对抗噪声损失函数,将预测的正例和反例与实际的正例和反例进行拟合,通过拟合结果确定预测的正例和反例的误差。
2.根据权利要求1所述的语种特征提取模型训练方法,其特征在于,所述预设语种特征提取模型包括特征编码器,所述在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量,包括:
将所述语音样本输入所述特征编码器,获得每帧语音样本各自对应的所述特征向量;
通过所述降维层对各所述特征向量分别进行降维处理,得到每帧语音样本各自对应的所述降维特征向量。
3.根据权利要求1所述的语种特征提取模型训练方法,其特征在于,所述根据所述误差更新所述预设语种特征提取模型的模型参数,包括:
根据所述误差通过反向传播更新所述预设语种特征提取模型的模型参数。
4.一种语种特征提取模型训练装置,其特征在于,包括:
处理模块,用于在预设语种特征提取模型的降维层对语音样本的特征向量进行降维处理,得到降维特征向量;
获取模块,用于将所述降维特征向量输入时序模型,获取上文特征和下文特征;其中,所述时序模型包括自回归模型和反向的自回归模型;所述将所述降维特征向量输入时序模型,获取上文特征和下文特征,包括:将前t帧语音样本对应的降维特征向量输入自回归模型,获取上文特征;将最后一帧到第t+1帧语音样本对应的降维特征向量输入反向的自回归模型,获取下文特征;
得到模块,用于合并所述上文特征和所述下文特征,得到上下文特征;
预测模块,用于重新定义语音样本的正例和反例,根据所述上下文特征预测每个所述语音样本为正例或反例,其中,正例的特征向量为与所述语音样本的语种相同的所有语音样本的特征向量的平均值,反例的特征向量为与所述语音样本的语种不同的所有语音样本的特征向量的平均值;所述重新定义语音样本的正例和反例,包括:确定语音样本的目标语种;将每一批量的语音样本中,语种与所述目标语种相同的语音样本定义为正例;将每一批量的语音样本中,语种与所述目标语种不相同的语音样本定义为反例;所述根据所述上下文特征预测每个所述语音样本包括的正例和反例,包括:计算所述上下文特征与每帧语音样本的降维特征向量的内积;根据计算得到的内积结果和预设相关度,预测每帧语音样本为正例或反例;
更新模块,用于通过预设的特征提取模型的损失函数,确定预测的正例和反例的误差,根据所述误差更新语种特征提取模型的模型参数;其中,所述预设特征提取模型的损失函数包括对抗噪声损失函数,所述通过所述预设特征提取模型的损失函数,确定预测的正例和反例的误差,包括:通过所述对抗噪声损失函数,将预测的正例和反例与实际的正例和反例进行拟合,通过拟合结果确定预测的正例和反例的误差。
5.一种语种特征提取模型训练设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至3中任一项所述的语种特征提取模型训练方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至3中任一项所述的语种特征提取模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467103.9A CN113160795B (zh) | 2021-04-28 | 2021-04-28 | 语种特征提取模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467103.9A CN113160795B (zh) | 2021-04-28 | 2021-04-28 | 语种特征提取模型训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113160795A CN113160795A (zh) | 2021-07-23 |
CN113160795B true CN113160795B (zh) | 2024-03-05 |
Family
ID=76871880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110467103.9A Active CN113160795B (zh) | 2021-04-28 | 2021-04-28 | 语种特征提取模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160795B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538036A (zh) * | 2015-01-20 | 2015-04-22 | 浙江大学 | 一种基于语义细胞混合模型的说话人识别方法 |
CN109344395A (zh) * | 2018-08-30 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、服务器及存储介质 |
CN109684640A (zh) * | 2018-12-26 | 2019-04-26 | 科大讯飞股份有限公司 | 一种语义提取方法及装置 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN111048062A (zh) * | 2018-10-10 | 2020-04-21 | 华为技术有限公司 | 语音合成方法及设备 |
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN111640419A (zh) * | 2020-05-26 | 2020-09-08 | 合肥讯飞数码科技有限公司 | 语种识别方法、***、电子设备及存储介质 |
CN112489651A (zh) * | 2020-11-30 | 2021-03-12 | 科大讯飞股份有限公司 | 语音识别方法和电子设备、存储装置 |
CN112489626A (zh) * | 2020-11-18 | 2021-03-12 | 华为技术有限公司 | 一种信息识别方法、装置及存储介质 |
CN112561060A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
CN112634867A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
CN112635050A (zh) * | 2020-12-23 | 2021-04-09 | 安徽科大讯飞医疗信息技术有限公司 | 诊断推荐方法及电子设备、存储装置 |
CN112669841A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9484015B2 (en) * | 2013-05-28 | 2016-11-01 | International Business Machines Corporation | Hybrid predictive model for enhancing prosodic expressiveness |
-
2021
- 2021-04-28 CN CN202110467103.9A patent/CN113160795B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538036A (zh) * | 2015-01-20 | 2015-04-22 | 浙江大学 | 一种基于语义细胞混合模型的说话人识别方法 |
CN109344395A (zh) * | 2018-08-30 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、服务器及存储介质 |
CN111048062A (zh) * | 2018-10-10 | 2020-04-21 | 华为技术有限公司 | 语音合成方法及设备 |
CN111210805A (zh) * | 2018-11-05 | 2020-05-29 | 北京嘀嘀无限科技发展有限公司 | 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置 |
CN109684640A (zh) * | 2018-12-26 | 2019-04-26 | 科大讯飞股份有限公司 | 一种语义提取方法及装置 |
CN110263349A (zh) * | 2019-03-08 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语料评估模型训练方法、装置、存储介质和计算机设备 |
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
CN111429887A (zh) * | 2020-04-20 | 2020-07-17 | 合肥讯飞数码科技有限公司 | 基于端到端的语音关键词识别方法、装置以及设备 |
CN111640419A (zh) * | 2020-05-26 | 2020-09-08 | 合肥讯飞数码科技有限公司 | 语种识别方法、***、电子设备及存储介质 |
CN112489626A (zh) * | 2020-11-18 | 2021-03-12 | 华为技术有限公司 | 一种信息识别方法、装置及存储介质 |
CN112489651A (zh) * | 2020-11-30 | 2021-03-12 | 科大讯飞股份有限公司 | 语音识别方法和电子设备、存储装置 |
CN112634867A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
CN112561060A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
CN112669841A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
CN112635050A (zh) * | 2020-12-23 | 2021-04-09 | 安徽科大讯飞医疗信息技术有限公司 | 诊断推荐方法及电子设备、存储装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113160795A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | On fast sampling of diffusion probabilistic models | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN112699991A (zh) | 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质 | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN110444203B (zh) | 语音识别方法、装置及电子设备 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112509555B (zh) | 方言语音识别方法、装置、介质及电子设备 | |
CN113436620B (zh) | 语音识别模型的训练方法、语音识别方法、装置、介质及设备 | |
CN112466314A (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
CN112509600A (zh) | 模型的训练方法、装置、语音转换方法、设备及存储介质 | |
CN112084752B (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
WO2023065635A1 (zh) | 命名实体识别方法、装置、存储介质及终端设备 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN115081616A (zh) | 一种数据的去噪方法以及相关设备 | |
CN111339308B (zh) | 基础分类模型的训练方法、装置和电子设备 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
WO2023134067A1 (zh) | 语音分类模型的训练方法、装置、设备及存储介质 | |
CN116684330A (zh) | 基于人工智能的流量预测方法、装置、设备及存储介质 | |
WO2022257454A1 (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN111027681A (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN113220828A (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |