CN112133292A

CN112133292A - 一种针对民航陆空通话领域的端到端的自动语音识别方法

Info

Publication number: CN112133292A
Application number: CN201910571279.1A
Authority: CN
Inventors: 杨群; 周凯; 刘绍翰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2020-12-25

Abstract

本发明公开一种针对民航陆空通话领域的端到端自动语音识别方法。其中端到端的语音识别方法包括：以端到端模型为声学模型的语音识别的方法；端到端模型的训练方法；基于端到端模型的语音识别方法在民航陆空通话领域的应用。其中端到端模型的训练方法包括：基于最大相关互信息为目标函数的端到端模型训练方法、训练过程中免词格训练方法、特殊的端到端神经网络结构。此外公开了深度学习中的端到端模型在民航陆空通话领域中特殊的数据处理、训练方法以及特殊的应用方法。发明的端到端模型的训练相比于常规的模型需要的时间、样本、机器的性能都有较大的改善。并且在识别效果上相较于常规模型也有改进。

Description

一种针对民航陆空通话领域的端到端的自动语音识别方法

技术领域

本发明涉及智能通话、信号处理以及深度学习领域，特别是涉及一种针对民航陆空通话领域的端到端语音识别方法及***。

背景技术

随着民航客运、货运业务等迅速扩展，机场飞机活动十分频繁，这给机场空中交通管制员带来了极大的工作压力。因此，我们需要以智能机器辅助管制员进行空中交通管制，以降低空管员工作压力更好地保障机场安全与秩序。进行一切智能辅助的前提是人与机器的智能交互，而最快捷地交互无疑是进行口语交流。因此，本发明一种针对民航陆空通话领域的端到端自动语音识别方法功能即将管制员与飞行员交流的通话转写为文字或是信号以输入计算机辅助程序。

传统的自动语音识别方法是基于混合高斯模型以及隐马尔科夫模型的，即使是基于深度神经网络的语音识别方法大多数也是需要先训练混合高斯模型以及隐马尔科夫模型以生成对齐文件，并以对齐文件为输入训练深度神经网络模型。这样的语音识别模型训练过程无疑是繁琐的并且耗时耗力，后来随着深度学习不断往端到端模型发展，越来越多的研究者们在图像识别、自然语言处理以及语音识别领域成功地应用了端到端模型。端到端模型其比上述传统模型以及常规深度模型不同指出在于端到端模型的训练无需预训练一个传统模型以获取对齐文件、也无需生成树结构的上下文相关模型甚至无需语言模型即可进行训练。然而研究表明加上语言模型可以进一步提高识别效果，因此本发明中语言模型作为一个可选模块根据具体应用要求可有可无。

本发明一种针对民航陆空通话领域的端到端语音识别方法可以在提高识别效果的前提下，降低训练模型的开销包括时间、人力以及金钱。除此之外，本发明应用于民航陆空通话领域以辅助管制员与飞行员进行交流与记录。

发明内容

本发明的目的是提供一种针对民航陆空通话领域的端到端语音识别方法及***，提高民航陆空通话的准确性同时降低训练模型的开销成本。

为实现上述目的，本发明提供了如下方案：

一种针对民航陆空通话领域的端到端自动语音识别方法，其特征在于利用端到端模型为声学模型建立的适用于民航陆空通话的自动语音识别方法，所述语音识别方法包括：

以端到端模型为声学模型进行语音识别；

端到端模型的训练方法；

基于端到端模型的语音识别方法在民航陆空通话领域的应用。

根据所述的语音识别方法，其特征在于使用端到端模型作为语音识别的声学模型，利用所述端到端模型进行语音识别，具体包括：

端到端模型的结构特征在于它是基于时延神经网络结构与长短时记忆单元结构的复合神经网络模型；

特殊结构的上下文相关信息模型，用于统计上下文相关信息；

可选的语言模型，用于统计字词间的出现概率，用于解码过程终音素到字词的映射；

将所述基于端到端模型的声学模型结合上下文相关模型即为所述的端到端语音识别模型，可选的附加语言模型可以进一步提高语音识别效果。

根据所述的端到端模型训练方法，其特征在于端到端模型是根据最大相关互信息结合免词格方法训练，具体包括：

根据所述最大相关互信息为目标函数训练所述端到端模型；

所述免词格方法具体是指在训练过程中无须重复生成词格；

所述训练方法以特殊的方式使端到端模型训练过程中无需预先生成对齐文件、带有上下文相关信息的状态绑定树以及混合高斯模型等。

根据所述的基于端到端模型的语音识别方法在民航陆空通话领域的应用，其特征在于陆空通话领域的字词发音以及句法有其特殊性，根据所述应用方法，具体包括：

构建特殊的陆空通话领域内的发音词典；

可选的，构建特殊的陆空通话领域的语言模型；

在所述免词格方式训练端到端模型之前的特殊格式的训练样本准备方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例针对民航陆空通话领域的端到端语音识别模型训练流程图；

图2为本发明实施例针对民航陆空通话领域的端到端语音识别模型使用流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例针对民航陆空通话领域的端到端语音识别模型训练流程图。本发明实例的开发环境选择在开源工具包KALDI中进行。如图1所示，针对民航陆空通话领域的端到端语音识别模型训练方法，所述模型训练方法步骤有：

步骤101：预处理步骤包括：对训练语音进行数据增强，这里本实施例采用音速扰动的方法将原始训练语音的长度调整到规定的数值。并调整音量以获取具有鲁棒性的声学特征，本实施例中提取语音的mfcc+pitch特征作为后续模型训练的输入。最后将语音的特征以及对应标注生成一组训练样本，并在训练之前以组为单位随机打乱。

步骤102：本实施例采取一种非树的特殊结构进行上下文相关信息建模。具体做法是对所有的音素phone进行组合，这里采用2个音素为一组即双音素biphone，并对其建立相应的隐马尔科夫模型。这种做法会产生许多在训练集中没出现的组合，但是这并不会影响结果，因为在后续的训练过程中这种组合会被忽略。实验发现biphone的效果稍微好于triphone。由于 phone的数量减少了，所以解码速度更快了。

步骤103：本实施例采用一种特殊的端到端网络结构。模型初始化为flat-start即不使用任何预训练模型(包括GMM-HMM模型、状态绑定树等)以及对齐文件而是完全地由步骤101 生成的样本来训练。

步骤104：根据所述最大相关互信息为目标函数进行模型训练，最大相关互信息函数是一种鉴别性训练函数，它旨在最大化输入特征序列与目标序列的概率同时最小化输入特征序列与非目标序列的概率。

基于最大相关互信息的目标函数公式如下：

其中分母部分进一步推导为：

CTC(Connectionist Temporal Classification连续时序分类)是语音识别领域中广受关注的算法之一，但CTC相比传统模型的优势，需要在很大数据集上才能体现出来，而且CTC训练速度很慢，参数调节更困难。与DT训练中常用的MMI准则类似，CTC训练准则的目标是最大化正确标注的条件概率，而MMI着重优化正确路径与其它相似路径的概率差。

相较于基于CTC的端到端模型，基于LFMMI训练的模型无需交叉熵***初始化，可以从头开始训练即flat-start，不用做对齐no alignment；帧率降低到原来的1/3，因此相较于传统的模型解码速度也提高了3倍，更加使用于实时的语音识别任务；使用有限状态接收器限制监督标签可以出现的时间帧范围。

步骤105：若有语言模型，该步骤将语言模型与前面步骤训练的端到端模型进行结合，生成一种基于加权有向图的解码图。该解码图用于将音素序列转成相应的句子。

图2为本发明实施例针对民航陆空通话领域的多语种自动语音识别***结构图。如图2 所示，一种针对民航陆空通话领域的多语种自动语音识别***，所述语音识别***包括：

模块201：对输入的语音做预处理，生成对应的mfcc特征。预处理步骤与训练过程中相同，包括：预加重、分帧、加窗、补零、快速傅里叶变换、梅尔转换、log能量、动态查分参数的提取以及DTC。本发明中我们选取40维的mfcc特征加上kaldi风格的3维pitch特征作为后续神经网络的输入。25ms为一帧，帧移10ms，加汉明窗。

模块202：对模块201生成的mfcc特征使用端到端模型进行声学部分的计算，得到对应的概率密度函数。具体过程为将mfcc特征输入端到端的神经网络经过拼接帧、特征转换、加权计算等得到相应的输出，输出即为解码图中的状态也即一个pdfs；

模块203：对模块202生成的pdfs在解码图HCLG中进行解码，生成对应的字词序列即为语音识别的结果。如有语言模型则语言模型也会组合到HCLG解码图中。本发明是基于加权有限状态自动机算法实现的一种语音识别方法，因此上述HCLG解码图是将四个相关模型以有限状态自动机的形式进行组合、消歧、最小化以及确定化操作得到的。其中H是指隐马尔科夫模型HMM、C是指上下文相关信息context、L是指发音词典lexicon、G是指语言模型grammar，经过下面公式计算得到HCLG。

HCLG＝asl(min(rds(det(H′o min(det(C o min(det(L o G))))))))

其中，上面的o表示组合，det表示确定化，min表示最小化，rds表示去除消岐符号，asl表示增加自环。其训练顺序为G-＞L-＞C-＞H，因为语法模型G基于统计生成，L则是在 G生成过程中使用的基础，而C则是基于L生成的phone上下文关系依据决策树生成的结果。解码过程中使用Lattice来保存识别的候选序列，通过遍历得到得分最靠前的多条候选路径，即N-best，即为输出文本。Lattice本质是一个有向无环图。图上的每个节点代表一个词的结束时间点，每条边代表一个可能的词，以及该词发生的声学得分和语言模型得分。

Claims

1.一种针对民航陆空通话领域的端到端自动语音识别方法，其特征在于利用端到端模型建立的适用于民航陆空通话的自动语音识别方法，所述语音识别方法包括：

以端到端模型为声学模型进行语音识别；

其中端到端模型的训练方法；

2.根据权利要求1所述的语音识别方法，其特征在于使用端到端模型作为语音识别的声学模型，利用所述端到端模型进行语音识别，具体包括：

可选的语言模型，用于统计字词间的出现概率，用于解码过程中音素到字词的映射；

3.根据权利要求1所述的端到端模型训练方法，其特征在于端到端模型是根据最大相关互信息结合免词格方法训练，具体包括：

根据所述最大相关互信息为目标函数训练所述端到端模型；

所述免词格方法具体是指在训练过程中无须重复生成词格；

4.根据权利要求1所述的基于端到端模型的语音识别方法在民航陆空通话领域的应用，其特征在于陆空通话领域的字词发音以及句法有其特殊性，根据所述应用方法，具体包括：

针对陆空通话领域特殊子词的特殊发音，我们构建特殊的陆空通话领域内的发音词典；

可选地构建特殊的陆空通话领域的语言模型；

5.总的来说，根据权利要求1所述的语音识别方法，其特征在于基于端到端模型并且应用于民航陆空通话领域，具体包括：

构建民航陆空通话领域内特殊的发音词典、语言模型；

以特殊的数据准备和数据处理方法为端到端模型训练准备样本；

根据所述最大相关互信息目标函数结合免词格方法以及所得训练样本训练端到端模型；

以所得端到端模型为声学模型可选地结合语言模型进行语音识别；

根据所述端到端模型对输入语音进行识别，可得到相应语音内容的文本。