CN115206293B - 一种基于预训练的多任务空管语音识别方法及装置 - Google Patents

一种基于预训练的多任务空管语音识别方法及装置 Download PDF

Info

Publication number
CN115206293B
CN115206293B CN202211118845.1A CN202211118845A CN115206293B CN 115206293 B CN115206293 B CN 115206293B CN 202211118845 A CN202211118845 A CN 202211118845A CN 115206293 B CN115206293 B CN 115206293B
Authority
CN
China
Prior art keywords
training
traffic control
task
air traffic
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211118845.1A
Other languages
English (en)
Other versions
CN115206293A (zh
Inventor
张子宸
林毅
张建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211118845.1A priority Critical patent/CN115206293B/zh
Publication of CN115206293A publication Critical patent/CN115206293A/zh
Application granted granted Critical
Publication of CN115206293B publication Critical patent/CN115206293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及人工智能技术领域,具体涉及一种基于预训练的多任务空管语音识别方法及装置。方法包括获取空管语音数据并对其进行预处理,得到训练样本数据集,分为第一阶段预训练数据集和第二阶段训练数据集;其次,构建空管语音编码模型;将第一阶段预训练数据集输入到空管语音编码模型进行预训练;在预训练后的空管语音编码模型之后,构建多任务空管语音识别模型;建立多任务空管语音识别模型的损失函数;通过损失函数和第二阶段训练数据集对多任务空管语音识别模型进行训练;最后,将按句切分后的空管语音数据输入到训练后的多任务空管语音识别模型中输出结果。本发明通过基于更少标签样本训练,实现更快速度、更高准确率的语音识别。

Description

一种基于预训练的多任务空管语音识别方法及装置
技术领域
本发明涉及人工智能技术领域,特别是一种基于预训练的多任务空管语音识别方法及装置。
背景技术
现实中很多相关问题之间都存在一定的联系,多任务学习正是利用隐含在多个相关任务中的关联信息来提高模型的泛化能力,使模型能学习到更好的特征表示,从而提升各个任务的表现。同时,由于多任务学习可以在任务之间共享网络参数,能通过一次推理得到多个任务的结果,训练所需的数据量和模型参数量都会明显减少,在推理时模型也会更加高效。
近几年,越来越多的人工智能领域开始关注无监督预训练方式,无监督预训练可以利用大量无标签的数据训练出具有较强泛化能力的领域通用的网络模型,然后根据不同的下游任务,在少量有标签的数据上进行微调,最终使用更少的带标签样本获得更加优越的性能。
在空中交通管制智能化领域,带有多种属性标签的空管语音可以为空管安全辅助措施提供更多信息来源,并为事后分析提供更多信息。目前没有很好的方式为空管语音同时提供文本转录和并进行多种属性分类,因此本申请提出了一种基于预训练的多任务空管语音识别方法及装置,以提升空管语音识别领域的任务效果,同时对空管语音进行多种属性分类。
发明内容
本发明的目的在于:针对现有技术没有很好的方式对空管地空通话实时进行文本识别和多种属性分类的问题,提供一种基于预训练的多任务空管语音识别方法及装置。
为了实现上述目的,本发明采用的技术方案为:
一种基于预训练的多任务空管语音识别方法,包括如下步骤:
步骤S1,获取空管语音数据并对其进行预处理,得到训练样本数据集,包括第一阶段预训练数据集,以及人工进行文本标注和辅助任务属性标注的第二阶段训练数据集;
步骤S2,构建基于预训练的空管语音编码模型;
步骤S3,将第一阶段预训练数据集输入到空管语音编码模型进行预训练;
步骤S4,基于预训练后的空管语音编码模型,构建多任务空管语音识别模型;
步骤S5,建立多任务空管语音识别模型的损失函数;
步骤S6,基于多任务空管语音识别模型的损失函数和第二阶段训练数据集对多任务空管语音识别模型进行训练;
步骤S7,将按句切分后的空管语音数据输入到训练后的多任务空管语音识别模型中,得到文本识别结果和辅助任务识别结果。
作为本发明的优选方案,一种基于预训练的多任务空管语音识别方法,步骤S1中空管语音数据为无文本标签的中英文语音信号,包括以下步骤:
S11,对空管语音数据进行语音加重、分帧预处理后,按句切分预处理后的空管语音数据;
S12,将所有切分后的空管语音数据作为第一阶段预训练数据集,每个训练样本仅包括单句语音音频文件;
S13,选取部分切分后的空管语音数据人工进行文本标注和辅助任务属性标注,作为第二阶段训练数据集,每个训练样本包括单句语音音频文件、对应的文本标签和属性分类标签。
作为本发明的优选方案,一种基于预训练的多任务空管语音识别方法,空管语音编码模型构建包括:
S21,建立由一维卷积层和激活函数层组成的卷积模块,利用卷积模块提取训练样本的语音特征;
S22,建立由深层神经网络构成的上下文关系提取模块,利用上下文提取模块提取语音特征的上下文关系信息,记为:
Figure 821360DEST_PATH_IMAGE001
其中,c为卷积模块的输出,h为每层神经网络输出的隐层特征,h i 为第i层神经网络输出的隐层特征,N为深层神经网络的总层数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1, T, f);
S23,建立输出模块,将上下文关系提取模块中的最后d层隐含层输出进行堆叠,作为空管语音编码模型的输出,记为:
Figure DEST_PATH_IMAGE002
其中,Y为编码器的多层特征输出, h为每层神经网络输出的隐层特征,d为深层神经网络的层数,N为深层神经网络的总层数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R d × T × f 表示特征维度为(d, T, f)。
作为本发明的优选方案,一种基于预训练的多任务空管语音识别方法,步骤S4多任务空管语音识别模型的构建包括:
S41,构建多重注意力模块,基于多重注意力模块构建辅助任务分类器,辅助任务分类器包括说话人角色分类器、指令语种分类器、说话人性别分类器和指令意图分类器;
S42,构建多重注意力模块,基于多重注意力模块构建语音识别分类器。
作为本发明的优选方案,一种基于预训练的多任务空管语音识别方法,多重注意力模块的构建包括:
构建层级注意力模块,根据编码器的多层特征输出,在层级维度进行注意力操作,得到层级维度的注意力矩阵,其与编码器的多层特征输出相乘得到结果,记为:
Figure 613736DEST_PATH_IMAGE003
其中,LR为层级注意力模块的输出,Y为编码器的多层特征输出,
Figure DEST_PATH_IMAGE004
为层级维度注意力操作的计算公式,d为深层神经网络的层数,T为输入语音的长度,f为隐层特征的维度, R为实数集,R d × T × f 表示特征维度为(d, T, f),R 1 × T × f 表示特征维度为(1, T, f);
构建时序维度和频率维度的注意力模块,根据层级注意力模块的输出,分别在时序维度和频率维度上进行注意力操作,得到时序维度的注意力矩阵和频率维度的注意力矩阵,将两者与层级注意力模块的结果相乘并输出,记为:
Figure 610511DEST_PATH_IMAGE005
其中,LTFR为时序维度和频率维度的注意力模块的输出,LR为层级注意力模块的输出,
Figure DEST_PATH_IMAGE006
为时序维度的注意力操作的计算公式,
Figure 197350DEST_PATH_IMAGE007
为频率维度的注意力操作的计算公式,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1, T, f)。
作为本发明的优选方案,一种基于预训练的多任务空管语音识别方法,S41中辅助任务分类器的构建进一步包括:
S411、将多重注意力模块的输出结果,输入到语音识别分类器;
S412、将多重注意力模块的输出结果,输入到全连接层,得到辅助任务分类结果。
作为本发明的优选方案,S42中语音识别分类器的构建进一步包括:
S421、将多重注意力模块的输出结果,与所有的辅助任务分类器的多重注意力模块的输出相加,得到包含多种语音信息的语音特征,记为:
Figure DEST_PATH_IMAGE008
其中,X ASR 为包含多种语音信息的语音特征,LTFR ASR 为语音识别分类器的多重注意力模块输出,LTFR aux_i 为第i个辅助任务分类器的多重注意力模块输出,i表示第i个辅助任务分类器,n表示辅助任务分类器的个数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1, T, f);
S422、将包含多种语音信息的语音特征,输入全连接层,得到文本识别结果。
作为本发明的优选方案,步骤S5中,多任务空管语音识别模型的损失函数采用语音识别分类器的损失函数与辅助任务分类器的损失函数加权求和的方式构建,每个任务损失所占的权重会作为参数在模型训练的过程中被调整,其中,语音识别分类器的损失函数采用连接时序分类损失,辅助任务分类器的损失函数均采用交叉熵损失,多任务空管语音识别模型的损失函数L记为,
Figure 545154DEST_PATH_IMAGE009
其中,
Figure DEST_PATH_IMAGE010
Figure 610062DEST_PATH_IMAGE011
分别表示语音识别分类器和第i个辅助任务分类器的损失值,
Figure DEST_PATH_IMAGE012
Figure 461344DEST_PATH_IMAGE013
分别表示语音识别损失和第i个辅助任务损失所占的权重,n表示辅助任务分类器的个数。
作为本发明的优选方案,步骤S6中训练为循环迭代训练,单次循环迭代训练过程为:
S61、选取第二阶段训练数据集内的一组训练样本;
S62、将训练样本输入到多任务空管语音识别模型中,输出文本识别结果和辅助任务分类结果;
S63、基于多任务空管语音识别模型的损失函数对多任务空管语音识别模型的参数进行参数调整。
一种基于预训练的多任务空管语音识别方法的装置,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;存储器用来存储能被至少一个处理器指向的指令,指令可以被至少一个处理器执行,确保至少一个处理器能够执行以上任一项的方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.通过利用多个语音相关任务之间的关联信息,使神经网络能够学到更多语音相关的共享特征,从而提升各个任务的性能。同时,由于多任务学***衡各个任务的损失,加快训练速度并能进一步提升各个任务的准确率。
2.采用对空管语音编码模型进行预训练的机制,通过自监督学习的方式在尽可能多的语音数据上进行训练,提取出尽可能多的空管语音数据的共性特征,从而使语音编码模型能够学习到更好的语音特征表示,有利于提高模型的泛化能力和下游任务的准确率。同时,只需要更少的有标签的空管语音样本就可以实现更好的效果。
3.采用多重注意力模块,能够充分利用语音编码时不同层次的隐层特征信息,同时能捕获更重要的时序和频率维度的信息,为下游任务提供更有效的语音表示信息,进而提高各个任务的表现。
综上所述,本发明对空管语音识别的速度更快,准确率更高,训练时需要的标签样本更少,并能实时提供空管语音对应的说话人角色、语种、指令意图等分类信息,可以为空管安全辅助措施提供更多信息来源,并为事后分析提供更多信息。
附图说明
图1为本发明的空管语音编码方法模型结构图。
图2为本发明的多重注意力模块结构图。
图3为本发明的多任务空管语音识别方法模型结构图。
具体实施方式
下面结合附图,对本发明作详细的说明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
为了为空管地空通话实时进行文本转录和多种属性分类,本实施例提供一种基于预训练的多任务空管语音识别方法及装置,其中,装置包括至少一个处理器,以及与至少一个处理器通信连接的存储器。
基于预训练的多任务空管语音识别方法包括如下步骤:
S1、获取空管语音数据,预处理得到训练样本数据集,包括第一阶段预训练数据集以及人工进行文本标注和辅助任务属性标注的第二阶段训练数据集;
具体的,首先,通过空管管制内话***,获取地空通话环境下的无文本标签的中英文语音信号,使用多路语音信号采集设备从陆空通话语音记录仪实时录制中英文空管地空通话语音,并将其语音经滤波、采样、PCM编码后,形成8K采样率、16bit采样精度的空管语音数据。
其次,对获取的空管语音数据实时预处理,包括语音预加重、分帧等,通过人工将预处理后的空管语音数据按句切分,分割成指令语音段,每段语音仅包含单个说话人的指令,并将语音段以wav文件格式存储到存储器;使用全部语音文件构建第一阶段预训练数据集,每个训练样本仅包括单句语音音频文件;
最后,在第一阶段预训练数据集中随机选取约50小时的空管语音数据,人工进行文本标注和多个辅助任务属性标注,标注结果存入json文件,组织语音和标签文件,形成第二阶段训练数据集,每个训练样本包括单句语音音频文件、对应的文本标签和对应的多任务分类标签;
其中,辅助任务包括说话人角色分类、指令语种分类、说话人性别分类和指令意图分类;说话人角色分类的结果包括空中交通管制员和飞机驾驶员,指令语种分类的结果包括中文和英文,说话人性别分类的结果包括男性和女性,指令意图分类的结果包括上升、下降、左转、右转等高度或航向变化指令。
S2、构建基于预训练的空管语音编码模型;
具体的,空管语音编码模型结构如图1所示,由1个卷积模块、1个上下文提取模块和1个输出模块组成,包括以下:
S21、卷积模块,由7个一维卷积层(Conv1d Layer)和激活函数层(GELU)组成,用于提取输入的训练样本的语音特征;
其中,卷积层采用1×3大小的卷积核,卷积核数量为512,步长为2;
S22、上下文关系提取模块,由深层神经网络构成,用于提取语音特征的上下文关系信息,记为:
Figure DEST_PATH_IMAGE014
其中,c为卷积模块的输出,h为每层神经网络输出的隐层特征,h i 为第i层神经网络输出的隐层特征,N为深层神经网络的总层数,T为输入语音的长度,f为隐层特征的维度, R为实数集,R 1 × T × f 表示特征维度为(1, T, f);
其中,每层隐含层均采用Transformer的Encoder结构。
S23、输出模块,将上下文关系提取模块中的最后
Figure DEST_PATH_IMAGE015
层隐含层输出进行堆叠作为输出,作为下游语音识别分类器和所有辅助任务分类器的输入,使各个分类器能够得到更多维度的可用信息,记为:
Figure DEST_PATH_IMAGE016
其中,Y为编码器的多层特征输出,输出特征由d个隐含层的输出堆叠组成,d为深层神经网络的层数,N为深层神经网络的总层数,h为每层神经网络输出的隐层特征,T为输入语音的长度,f为隐层特征的维度,R为实数集,R d × T × f 表示特征维度为(d, T, f)。
S3、输入第一阶段预训练数据集对空管语音编码模型进行预训练,通过自监督学习的方式在空管语音数据上进行训练,提取出空管语音数据的共性特征,从而使语音编码模型能够学习到更好的语音特征表示,有利于提高模型的泛化能力和下游任务的准确率。同时,只需要更少的有标签的空管语音样本就可以实现更好的效果。
具体的,预训练方法可以参照wav2vec 2.0,预训练为循环迭代训练,单次循环迭代训练过程中执行步骤如下:
S31、在第一阶段预训练数据集内,选取一组训练样本输入到空管语音编码模型中,由空管语音编码模型的卷积模块提取训练样本的隐层特征;
S32、将S31得到的隐层特征通过Gumbel softmax量化模块映射为量化隐层特征;
S33、随机对S31得到的隐层特征进行部分掩码,再输入到上下文关系提取模块并输出;
S34、构建对比学习损失,其中负样本为S33的输出中每个添加过掩码的位置生成的上下文特征,正样本为S32得到的量化隐层特征中相同位置的量化特征;
S35、通过反向传播进行参数更新。
进一步的,预训练方法还可以采用wav2vec、vq-wav2vec等。
S4、基于空管语音编码模型构建多任务空管语音识别模型;
多任务空管语音识别模型结构如图2所示,由空管语音编码模型、多个辅助任务分类器和语音识别分类器组成,其中,辅助任务分类器和语音识别分类器共用空管语音编码模型,空管语音编码模型编码模型的输出作为各个分类器的输入,具体步骤如下:
构建多重注意力模块(LTFAtt),如图3所示,构建方法包括如下:
首先,构建层级注意力模块,根据编码器的多层的特征输出,在层级维度进行注意力操作,得到的层级维度的注意力矩阵,其与编码器的多层特征输出相乘得到结果,记为:
Figure 546980DEST_PATH_IMAGE017
其中,LR为层级注意力模块的输出,Y为编码器的多层特征输出,
Figure DEST_PATH_IMAGE018
为层级维度注意力操作的计算公式;d为深层神经网络的层数,T为输入语音的长度,f为隐层特征的维度, R为实数集,R d × T × f 表示特征维度为(d, T, f),R 1 × T × f 表示特征维度为(1, T, f);
Figure 382081DEST_PATH_IMAGE018
采用神经网络结构,包含两个全连接层和Sigmoid激活函数。
其次,构建时序和频率维度的注意力模块,根据层级注意力模块的结果,分别在时序维度和频率维度上进行注意力操作,得到时序维度的注意力矩阵和频率维度的注意力矩阵,将两者与层级注意力模块的结果相乘并输出,记为:
Figure 453942DEST_PATH_IMAGE019
其中,LTFR为时序维度和频率维度的注意力模块的输出,LR为层级注意力模块的输出,
Figure DEST_PATH_IMAGE020
为时序维度的注意力操作的计算公式,
Figure 159730DEST_PATH_IMAGE021
为频率维度的注意力操作的计算公式,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1, T, f);
Figure 291634DEST_PATH_IMAGE020
采用神经网络结构,包含全局平均池化层、两个全连接层和Sigmoid激活函数;
Figure DEST_PATH_IMAGE022
采用神经网络结构,包含两个全连接层和Sigmoid激活函数。
通过采用多重注意力模块,充分利用了语音编码时不同层次的隐层特征信息,同时捕获时序和频率维度的信息,为下游任务提供了更有效的语音表示信息。
S41、在训练好的空管语音编码模型之后,构建基于多重注意力模块的辅助任务分类器,包括说话人角色分类器、指令语种分类器、说话人性别分类器和指令意图分类器;所有辅助任务分类器的结构相同但参数独立,具体包括:
首先,构建多重注意力模块,从层级、时序和频率结合的注意力机制模块学习对识别结果更重要的信息,并通过学习的方式优化注意力参数;其次,将多重注意力模块的注意力结果输入语音识别分类器,为语音识别提供多种任务的内部表示;进一步的,将多重注意力模块的注意力结果输入全连接层,将概率最大的类别作为辅助任务分类结果。
S42、在训练好的空管语音编码模型之后,构建基于多重注意力模块的语音识别分类器,具体包括:
同样的,首先构建多重注意力模块,从层级、时序和频率结合的注意力机制模块学习对识别结果更重要的信息,并通过学习的方式优化注意力参数;其次,将多重注意力模块的注意力结果与所有辅助任务分类器的输出相加,得到包含多种语音信息的语音特征,记为:
Figure 82873DEST_PATH_IMAGE023
其中,X ASR 为包含多种语音信息的语音特征,LTFR ASR 为语音识别分类器的多重注意力模块输出,LTFR aux_i 为第i个辅助任务分类器的多重注意力模块输出,i表示第i个辅助任务分类器,n表示辅助任务分类器的个数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1, T, f);
最后,将多种语音信息的语音特征输入全连接层,得到各语音帧对应的文本识别结果。
S5、建立同时考虑语音识别和对比学习的多任务空管语音识别模型的损失函数;
具体的,语音识别分类器的损失函数使用连接时序分类损失CTCLoss,辅助任务分类器的损失函数均使用交叉熵损失CrossEntropyLoss,多任务空管语音识别模型的损失函数采用语音识别分类器的损失函数与辅助任务分类器的损失函数加权求和的方式构建,每个任务损失所占的权重会作为参数在模型训练的过程中被调整,多任务空管语音识别模型的损失函数L记为:
Figure DEST_PATH_IMAGE024
其中,
Figure 489583DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
分别表示语音识别分类器和第i个辅助任务分类器的损失值,
Figure DEST_PATH_IMAGE027
Figure 112194DEST_PATH_IMAGE028
分别表示语音识别损失和第i个辅助任务损失所占的权重,n表示辅助任务分类器的个数;语音识别损失和所有辅助任务损失所占的权重都是以学习的方式确定,并且在模型训练过程中一起被优化。
进一步的,每个权重都由一个对应的不确定性变量
Figure DEST_PATH_IMAGE029
确定,每个不确定性变量都是标量,并会在训练的过程中被更新和优化,不确定性变量会以如下方式确定对应的损失权重
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
S6、基于多任务空管语音识别模型的损失函数和第二阶段训练数据集,对多任务空管语音识别模型进行训练直至网络收敛;采用循环迭代训练方式,在单次循环迭代训练过程中执行以下操作:
S61、从第二阶段训练数据集中随机选取一组训练样本;
S62、将该训练样本输入到多任务空管语音识别模型中,输出语音识别分类的结果和各个辅助任务分类的结果;
S63、利用多任务空管语音识别模型的损失函数对多任务空管语音识别模型的相关参数进行参数调整。
S7、获取实时的地空通话环境下的无文本标签的中英文语音信号,按句切分得到空管语音数据,将空管语音数据输入训练后的多任务空管语音识别模型,得到其文本识别结果和多任务属性分类结果。
具体的,将空管语音数据输入到训练完成的多任务语音识别模型中,模型输出多任务标签概率,将概率最大的类别作为辅助任务分类结果,进一步的,模型根据输出预测语音帧对应的文本标签概率;根据最大概率解码输出指令文本。
综上所述,本发明同时引入自监督预训练、多重注意力、多任务学习等机制,设计了基于深度学习的端到端中英文混合的多任务空管语音识别方法和模型,提高了空管场景下的语音识别准确性,并能实时地进行多任务属性分类,为空管事后分析或其他下游应用提供更多可用信息。
实施例2
验证实施例1技术方案的可行性和性能:
首先,进行数据准备,采用实施例1提出的数据采集方案,通过空管管制内话***,获取地空通话环境下的无文本标签的中英文语音信号,得到第一阶段预训练数据集和第二阶段训练数据集,并以随机选择策略形成训练集、验证集或测试集。
其中,第一阶段预训练数据集为:
训练集共包含774083条数据,共640.40小时,验证集共包含7749条数据,共6.40小时;
第二阶段训练数据集为:
训练集共包含58432条数据,共53.56小时,其中,中文数据43178条,共37.00小时,英文数据15254条,共16.56小时;测试集共包含1603条数据,共1.45小时,其中,中文数据1202条,共1.01小时,英文数据401条,共0.44小时;第二阶段训练时,词汇表总计668个字符,包含641个汉字、26个英文字母和空格。
实施例2的测试结果均为在测试集上进行语音识别获取的结果。
其次,建立基线模型:本实施例以wav2vec 2.0模型作为空管语音编码模型,在空管语音编码模型后面连接一个仅包含全连接层的语音识别分类器作为基线模型验证有效性,模型输入为语音文件的原始波形。
使用Pytorch框架实现基线模型和实施例1所述技术方法,模型训练的超参数配置描述如下:
学习率:初始学习率设置为1e-5,使用三阶段学习率调整方法(tri-stage lrschedule),前10%的更新进行学习率热身(warmup),接下来的40%保持学习率,其余的进行线性衰退(linearly decay);
批训练尺寸:8。
实验采用的硬件环境为:CPU为2×Intel Xeon E5-2680 v4,显卡为1×NVIDIAGeForce RTX 2080Ti,显存为1×11GB,内存为128GB,操作***为Ubuntu 16.04;
在上述训练数据和配置情况下,共进行了A1-A8的8组实验,具体如下:
A1:将基线模型仅在第二阶段训练数据集上进行训练以完成语音识别任务;
A2:基线模型训练时添加预训练学习机制,首先对基线模型的语音编码模型部分进行预训练,再对基线模型进行第二阶段训练,以完成语音识别任务;
A3:基线模型训练时添加多任务学习机制,仅在第二阶段训练数据集上进行训练以完成语音识别和多属性分类任务;
A4:基线模型训练时添加多重注意力模块,仅在第二阶段训练数据集上进行训练以完成语音识别任务,其中,语音编码模型中使用的隐层层数为6;
A5:基线模型训练时同时添加多任务学习机制和多重注意力模块,仅在第二阶段训练数据集上进行训练以完成语音识别和多属性分类任务,其中,语音编码模型中使用的隐层层数为6;
A6:基线模型训练时同时添加预训练和多任务学习机制,首先对基线模型的语音编码模型部分进行预训练,再对基线模型进行第二阶段训练,以完成语音识别和多属性分类任务;
A7:基线模型训练时同时添加预训练学习机制和多重注意力模块,首先对基线模型的语音编码模型部分进行预训练,再对基线模型进行第二阶段训练,以完成语音识别任务,其中,语音编码模型中使用的隐层层数为6;
A8:基线模型训练时同时添加预训练、多任务学习机制和多重注意力模块,首先对基线模型的语音编码模型部分进行预训练,再对基线模型进行第二阶段训练,以完成语音识别和多属性分类任务,其中,语音编码模型中使用的隐层层数为6;
实验结果中辅助任务结果采用准确率衡量,即分类正确的样本数占总样本数的比例,语音识别的正确性采用基于中文汉字和英文字母的字符错误率CER(character errorrate)衡量,计算方式如下:
Figure DEST_PATH_IMAGE032
其中,N为真实文本标签的长度,I、D、S分别代表将预测文本标签转换到真实标签所需要的***、删除和替换操作数。
综上所示,本发明技术方案验证仅考察声学模型性能,不涉及语言模型处理和优化,最终的结果对比如表1所示。
表1
Figure DEST_PATH_IMAGE033
通过实验结果可知,与基线模型相比,本方案提出的预训练学习机制、多任务学习机制和多重注意力模块均能够在本实施例的数据集上提升语音识别模型的性能;与没有引入预训练学习机制的方法相比,引入预训练学习机制能够在本实施例的数据集上获得更大的性能提升,表明了在空中交通管制数据集上,预训练学习能够学习到更好的、鲁棒性更强的语音特征表示,最终支撑空管语音识别研究;进一步的,引入多任务学习和多重注意力模块,均能在一定程度上提高语音识别性能;同时引入预训练、多任务学习机制和多重注意力模块,该基线模型在本实施例的数据集上获得了最优的语音识别性能。
综上所述,本发明采用预训练、多任务学习机制和多重注意力模块,对空管语音识别模型性能的提升起到了较大的促进作用,同时能够提高模型的收敛效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于预训练的多任务空管语音识别方法,其特征在于,包括如下步骤:
步骤S1,获取空管语音数据并对其进行预处理,得到训练样本数据集,包括第一阶段预训练数据集,以及人工进行文本标注和辅助任务属性标注的第二阶段训练数据集;
步骤S2,构建基于预训练的空管语音编码模型;
步骤S3,将所述第一阶段预训练数据集输入到所述空管语音编码模型进行预训练;
步骤S4,基于预训练后的空管语音编码模型,构建多任务空管语音识别模型;
步骤S5,建立多任务空管语音识别模型的损失函数;
步骤S6,基于多任务空管语音识别模型的损失函数和第二阶段训练数据集对多任务空管语音识别模型进行训练;
步骤S7,将按句切分后的实时地空通话语音数据输入到训练后的多任务空管语音识别模型中,得到文本识别结果和辅助任务识别结果;
其中,所述空管语音编码模型由1个卷积模块、1个上下文提取模块和1个输出模块组成;
所述多任务空管语音识别模型由空管语音编码模型、多个辅助任务分类器和语音识别分类器组成,其中,多个辅助任务分类器和语音识别分类器共用空管语音编码模型,空管语音编码模型的输出作为各个分类器的输入。
2.根据权利要求1所述的一种基于预训练的多任务空管语音识别方法,其特征在于,步骤S1中所述空管语音数据为无文本标签的中英文语音信号,包括以下步骤:
S11,对所述空管语音数据进行语音加重、分帧预处理后,按句切分预处理后的空管语音数据;
S12,将所有切分后的空管语音数据作为第一阶段预训练数据集,每个训练样本仅包括单句语音音频文件;
S13,选取部分切分后的空管语音数据人工进行文本标注和辅助任务属性标注,作为第二阶段训练数据集,每个训练样本包括单句语音音频文件、对应的文本标签和属性分类标签。
3.根据权利要求1所述的一种基于预训练的多任务空管语音识别方法,其特征在于,步骤S2所述构建基于预训练的空管语音编码模型包括:
S21,建立由一维卷积层和激活函数层组成的卷积模块,利用卷积模块提取训练样本的语音特征;
S22,建立由深层神经网络构成的上下文关系提取模块,利用上下文提取模块提取语音特征的上下文关系信息,记为:
Figure DEST_PATH_IMAGE002A
其中,c为卷积模块的输出,h为每层神经网络输出的隐层特征,h i 为第i层神经网络输出的隐层特征,N为深层神经网络的总层数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1, T, f);
S23,建立输出模块,将上下文关系提取模块中的最后d层隐含层输出进行堆叠,作为空管语音编码模型的输出,记为:
Figure DEST_PATH_IMAGE004A
其中,Y为编码器的多层特征输出,h为每层神经网络输出的隐层特征,d为深层神经网络的层数,N为深层神经网络的总层数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R d × T × f 表示特征维度为(d, T, f)。
4.根据权利要求1所述的一种基于预训练的多任务空管语音识别方法,其特征在于,步骤S4所述多任务空管语音识别模型的构建包括:
S41,构建多重注意力模块,基于多重注意力模块构建辅助任务分类器,辅助任务分类器包括说话人角色分类器、指令语种分类器、说话人性别分类器和指令意图分类器;
S42,构建多重注意力模块,基于多重注意力模块构建语音识别分类器。
5.根据权利要求4所述的一种基于预训练的多任务空管语音识别方法,其特征在于,所述多重注意力模块的构建包括:
构建层级注意力模块,根据编码器的多层特征输出,在层级维度进行注意力操作,得到层级维度的注意力矩阵,其与编码器的多层特征输出相乘得到结果,记为:
Figure DEST_PATH_IMAGE006A
其中,LR为层级注意力模块的输出,Y为编码器的多层特征输出,
Figure DEST_PATH_IMAGE008A
为层级维度注意力操作的计算公式,d为深层神经网络的层数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R d × T × f 表示特征维度为(d, T, f),R 1 × T × f 表示特征维度为(1, T, f);
构建时序维度和频率维度的注意力模块,根据层级注意力模块的输出,分别在时序维度和频率维度上进行注意力操作,得到时序维度的注意力矩阵和频率维度的注意力矩阵,将两者与层级注意力模块的结果相乘并输出,记为:
Figure DEST_PATH_IMAGE010A
其中,LTFR为时序维度和频率维度的注意力模块的输出,LR为层级注意力模块的输出,
Figure DEST_PATH_IMAGE012A
为时序维度的注意力操作的计算公式,
Figure DEST_PATH_IMAGE014A
为频率维度的注意力操作的计算公式,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1,T,f)。
6.根据权利要求4所述的一种基于预训练的多任务空管语音识别方法,其特征在于,S41中所述辅助任务分类器的构建进一步包括:
S411、将多重注意力模块的输出结果,输入到所述语音识别分类器;
S412、将多重注意力模块的输出结果,输入到全连接层,得到辅助任务分类结果。
7.根据权利要求4所述的一种基于预训练的多任务空管语音识别方法,其特征在于,S42中所述语音识别分类器的构建进一步包括:
S421、将多重注意力模块的输出结果,与所有的所述辅助任务分类器的多重注意力模块的输出相加,得到包含多种语音信息的语音特征,记为:
Figure DEST_PATH_IMAGE016A
其中,X ASR 为包含多种语音信息的语音特征,LTFR ASR 为语音识别分类器的多重注意力模块输出,LTFR aux_i 为第i个辅助任务分类器的多重注意力模块输出,i表示第i个辅助任务分类器,n表示辅助任务分类器的个数,T为输入语音的长度,f为隐层特征的维度,R为实数集,R 1 × T × f 表示特征维度为(1,T, f);
S422、将包含多种语音信息的语音特征,输入全连接层,得到文本识别结果。
8.根据权利要求1所述的一种基于预训练的多任务空管语音识别方法,其特征在于,步骤S5中,所述多任务空管语音识别模型的损失函数采用语音识别分类器的损失函数与辅助任务分类器的损失函数加权求和的方式构建,每个任务损失所占的权重会作为参数在模型训练的过程中被调整,其中,语音识别分类器的损失函数采用连接时序分类损失,辅助任务分类器的损失函数均采用交叉熵损失,所述多任务空管语音识别模型的损失函数L记为,
Figure DEST_PATH_IMAGE018A
其中,
Figure DEST_PATH_IMAGE020AA
Figure DEST_PATH_IMAGE022AA
分别表示语音识别分类器和第i个辅助任务分类器的损失值,
Figure DEST_PATH_IMAGE020AAA
Figure DEST_PATH_IMAGE022AAA
分别表示语音识别损失和第i个辅助任务损失所占的权重,n表示辅助任务分类器的个数。
9.根据权利要求1所述的一种基于预训练的多任务空管语音识别方法,其特征在于,步骤S6中所述训练为循环迭代训练,单次循环迭代训练过程为:
S61、选取所述第二阶段训练数据集内的一组训练样本;
S62、将所述训练样本输入到所述多任务空管语音识别模型中,输出文本识别结果和辅助任务分类结果;
S63、基于所述多任务空管语音识别模型的损失函数对所述多任务空管语音识别模型的参数进行参数调整。
10.一种基于预训练的多任务空管语音识别装置,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器用来存储能被所述至少一个处理器指向的指令,所述指令可以被所述至少一个处理器执行,确保所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
CN202211118845.1A 2022-09-15 2022-09-15 一种基于预训练的多任务空管语音识别方法及装置 Active CN115206293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211118845.1A CN115206293B (zh) 2022-09-15 2022-09-15 一种基于预训练的多任务空管语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211118845.1A CN115206293B (zh) 2022-09-15 2022-09-15 一种基于预训练的多任务空管语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN115206293A CN115206293A (zh) 2022-10-18
CN115206293B true CN115206293B (zh) 2022-11-29

Family

ID=83572350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211118845.1A Active CN115206293B (zh) 2022-09-15 2022-09-15 一种基于预训练的多任务空管语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN115206293B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168690B (zh) * 2023-04-19 2023-08-01 易方信息科技股份有限公司 基于深度学习的实时语音脱敏方法、***、设备及介质
CN116504234B (zh) * 2023-05-29 2023-10-13 镁佳(北京)科技有限公司 一种语音唤醒与检测模型的生成方法、装置、设备及介质
CN116453514B (zh) * 2023-06-08 2023-08-25 四川大学 一种基于多视角的语音关键词检测与定位方法及装置
CN117577116B (zh) * 2024-01-17 2024-03-19 清华大学 连续学习语音鉴别模型的训练方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2405422A1 (en) * 2010-07-08 2012-01-11 Honeywell International, Inc. Speech recognition and voice training data storage and access method and apparatus
EP2874133A1 (en) * 2013-11-14 2015-05-20 Honeywell International Inc. Aircraft systems and methods for reducing and detecting read-back and hear-back errors
CN112420024A (zh) * 2020-10-23 2021-02-26 四川大学 一种全端到端的中英文混合空管语音识别方法及装置
CN113160798A (zh) * 2021-04-28 2021-07-23 厦门大学 一种中文民航空中交通管制语音识别方法及***
CN113284485A (zh) * 2021-07-09 2021-08-20 中国科学院自动化研究所 统一中英混合文本生成和语音识别的端到端框架
CN114582330A (zh) * 2022-03-11 2022-06-03 中国科学技术大学 语音识别模型的训练方法、语音识别方法及电子设备
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
CN114648982A (zh) * 2022-05-24 2022-06-21 四川大学 一种基于对比学习的管制员语音识别方法及装置
CN114944150A (zh) * 2022-05-07 2022-08-26 深圳职业技术学院 一种基于双任务的Conformer陆空通话声学模型构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222627B1 (en) * 2017-11-22 2022-01-11 Educational Testing Service Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system
US11257481B2 (en) * 2018-10-24 2022-02-22 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
US11238845B2 (en) * 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition
CN113889090A (zh) * 2021-09-29 2022-01-04 北京中科智加科技有限公司 一种基于多任务学习的多语种识别模型的构建和训练方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2405422A1 (en) * 2010-07-08 2012-01-11 Honeywell International, Inc. Speech recognition and voice training data storage and access method and apparatus
EP2874133A1 (en) * 2013-11-14 2015-05-20 Honeywell International Inc. Aircraft systems and methods for reducing and detecting read-back and hear-back errors
CN112420024A (zh) * 2020-10-23 2021-02-26 四川大学 一种全端到端的中英文混合空管语音识别方法及装置
CN113160798A (zh) * 2021-04-28 2021-07-23 厦门大学 一种中文民航空中交通管制语音识别方法及***
CN113284485A (zh) * 2021-07-09 2021-08-20 中国科学院自动化研究所 统一中英混合文本生成和语音识别的端到端框架
CN114582330A (zh) * 2022-03-11 2022-06-03 中国科学技术大学 语音识别模型的训练方法、语音识别方法及电子设备
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
CN114944150A (zh) * 2022-05-07 2022-08-26 深圳职业技术学院 一种基于双任务的Conformer陆空通话声学模型构建方法
CN114648982A (zh) * 2022-05-24 2022-06-21 四川大学 一种基于对比学习的管制员语音识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Unified Framework for Multilingual Speech Recognition in Air Traffic Control Systems;Yi Lin;<IEEE Transactions on Neural Networks and Learning Systems>;20200824;全文 *
基于CGRU多输入特征的地空通话自动切分;林毅;《四川大学学报》;20200828;全文 *
民航陆空通话语音识别技术研究与应用;周凯;《中国优秀硕士学位论文全文数据库》;20210715(第7期);全文 *

Also Published As

Publication number Publication date
CN115206293A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115206293B (zh) 一种基于预训练的多任务空管语音识别方法及装置
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
CN111837178B (zh) 语音处理***和处理语音信号的方法
Chen et al. End-to-end neural network based automated speech scoring
CN112017644B (zh) 一种声音变换***、方法及应用
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
CN112233646B (zh) 基于神经网络的语音克隆方法、***、设备及存储介质
CN107408384A (zh) 部署的端对端语音识别
CN111400469A (zh) 针对语音问答的智能生成***及其方法
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及***
Pokorny et al. Detection of negative emotions in speech signals using bags-of-audio-words
GB2326320A (en) Text to speech synthesis using neural network
CN109559736A (zh) 一种基于对抗网络的电影演员自动配音方法
CN109754790A (zh) 一种基于混合声学模型的语音识别***及方法
CN109671423A (zh) 训练数据有限情形下的非平行文本语音转换方法
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
Zhao et al. End-to-end-based Tibetan multitask speech recognition
Soliman et al. Isolated word speech recognition using convolutional neural network
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
CN116229932A (zh) 一种基于跨域一致性损失的语音克隆方法及***
Nagano et al. Data augmentation based on vowel stretch for improving children's speech recognition
Ng et al. Teacher-student training for text-independent speaker recognition
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法
Rouhe et al. Low resource comparison of attention-based and hybrid ASR exploiting wav2vec 2.0
CN112489651B (zh) 语音识别方法和电子设备、存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant