CN112133292A - 一种针对民航陆空通话领域的端到端的自动语音识别方法 - Google Patents

一种针对民航陆空通话领域的端到端的自动语音识别方法 Download PDF

Info

Publication number
CN112133292A
CN112133292A CN201910571279.1A CN201910571279A CN112133292A CN 112133292 A CN112133292 A CN 112133292A CN 201910571279 A CN201910571279 A CN 201910571279A CN 112133292 A CN112133292 A CN 112133292A
Authority
CN
China
Prior art keywords
model
training
land
speech recognition
civil aviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910571279.1A
Other languages
English (en)
Inventor
杨群
周凯
刘绍翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910571279.1A priority Critical patent/CN112133292A/zh
Publication of CN112133292A publication Critical patent/CN112133292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种针对民航陆空通话领域的端到端自动语音识别方法。其中端到端的语音识别方法包括:以端到端模型为声学模型的语音识别的方法;端到端模型的训练方法;基于端到端模型的语音识别方法在民航陆空通话领域的应用。其中端到端模型的训练方法包括:基于最大相关互信息为目标函数的端到端模型训练方法、训练过程中免词格训练方法、特殊的端到端神经网络结构。此外公开了深度学习中的端到端模型在民航陆空通话领域中特殊的数据处理、训练方法以及特殊的应用方法。发明的端到端模型的训练相比于常规的模型需要的时间、样本、机器的性能都有较大的改善。并且在识别效果上相较于常规模型也有改进。

Description

一种针对民航陆空通话领域的端到端的自动语音识别方法
技术领域
本发明涉及智能通话、信号处理以及深度学习领域,特别是涉及一种针对民航陆空通话领域的端到端语音识别方法及***。
背景技术
随着民航客运、货运业务等迅速扩展,机场飞机活动十分频繁,这给机场空中交通管制员带来了极大的工作压力。因此,我们需要以智能机器辅助管制员进行空中交通管制,以降低空管员工作压力更好地保障机场安全与秩序。进行一切智能辅助的前提是人与机器的智能交互,而最快捷地交互无疑是进行口语交流。因此,本发明一种针对民航陆空通话领域的端到端自动语音识别方法功能即将管制员与飞行员交流的通话转写为文字或是信号以输入计算机辅助程序。
传统的自动语音识别方法是基于混合高斯模型以及隐马尔科夫模型的,即使是基于深度神经网络的语音识别方法大多数也是需要先训练混合高斯模型以及隐马尔科夫模型以生成对齐文件,并以对齐文件为输入训练深度神经网络模型。这样的语音识别模型训练过程无疑是繁琐的并且耗时耗力,后来随着深度学习不断往端到端模型发展,越来越多的研究者们在图像识别、自然语言处理以及语音识别领域成功地应用了端到端模型。端到端模型其比上述传统模型以及常规深度模型不同指出在于端到端模型的训练无需预训练一个传统模型以获取对齐文件、也无需生成树结构的上下文相关模型甚至无需语言模型即可进行训练。然而研究表明加上语言模型可以进一步提高识别效果,因此本发明中语言模型作为一个可选模块根据具体应用要求可有可无。
本发明一种针对民航陆空通话领域的端到端语音识别方法可以在提高识别效果的前提下,降低训练模型的开销包括时间、人力以及金钱。除此之外,本发明应用于民航陆空通话领域以辅助管制员与飞行员进行交流与记录。
发明内容
本发明的目的是提供一种针对民航陆空通话领域的端到端语音识别方法及***,提高民航陆空通话的准确性同时降低训练模型的开销成本。
为实现上述目的,本发明提供了如下方案:
一种针对民航陆空通话领域的端到端自动语音识别方法,其特征在于利用端到端模型为声学模型建立的适用于民航陆空通话的自动语音识别方法,所述语音识别方法包括:
以端到端模型为声学模型进行语音识别;
端到端模型的训练方法;
基于端到端模型的语音识别方法在民航陆空通话领域的应用。
根据所述的语音识别方法,其特征在于使用端到端模型作为语音识别的声学模型,利用所述端到端模型进行语音识别,具体包括:
端到端模型的结构特征在于它是基于时延神经网络结构与长短时记忆单元结构的复合神经网络模型;
特殊结构的上下文相关信息模型,用于统计上下文相关信息;
可选的语言模型,用于统计字词间的出现概率,用于解码过程终音素到字词的映射;
将所述基于端到端模型的声学模型结合上下文相关模型即为所述的端到端语音识别模型,可选的附加语言模型可以进一步提高语音识别效果。
根据所述的端到端模型训练方法,其特征在于端到端模型是根据最大相关互信息结合免词格方法训练,具体包括:
根据所述最大相关互信息为目标函数训练所述端到端模型;
所述免词格方法具体是指在训练过程中无须重复生成词格;
所述训练方法以特殊的方式使端到端模型训练过程中无需预先生成对齐文件、带有上下文相关信息的状态绑定树以及混合高斯模型等。
根据所述的基于端到端模型的语音识别方法在民航陆空通话领域的应用,其特征在于陆空通话领域的字词发音以及句法有其特殊性,根据所述应用方法,具体包括:
构建特殊的陆空通话领域内的发音词典;
可选的,构建特殊的陆空通话领域的语言模型;
在所述免词格方式训练端到端模型之前的特殊格式的训练样本准备方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例针对民航陆空通话领域的端到端语音识别模型训练流程图;
图2为本发明实施例针对民航陆空通话领域的端到端语音识别模型使用流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例针对民航陆空通话领域的端到端语音识别模型训练流程图。本发明实例的开发环境选择在开源工具包KALDI中进行。如图1所示,针对民航陆空通话领域的端到端语音识别模型训练方法,所述模型训练方法步骤有:
步骤101:预处理步骤包括:对训练语音进行数据增强,这里本实施例采用音速扰动的方法将原始训练语音的长度调整到规定的数值。并调整音量以获取具有鲁棒性的声学特征,本实施例中提取语音的mfcc+pitch特征作为后续模型训练的输入。最后将语音的特征以及对应标注生成一组训练样本,并在训练之前以组为单位随机打乱。
步骤102:本实施例采取一种非树的特殊结构进行上下文相关信息建模。具体做法是对所有的音素phone进行组合,这里采用2个音素为一组即双音素biphone,并对其建立相应的隐马尔科夫模型。这种做法会产生许多在训练集中没出现的组合,但是这并不会影响结果,因为在后续的训练过程中这种组合会被忽略。实验发现biphone的效果稍微好于triphone。由于 phone的数量减少了,所以解码速度更快了。
步骤103:本实施例采用一种特殊的端到端网络结构。模型初始化为flat-start即不使用任何预训练模型(包括GMM-HMM模型、状态绑定树等)以及对齐文件而是完全地由步骤101 生成的样本来训练。
步骤104:根据所述最大相关互信息为目标函数进行模型训练,最大相关互信息函数是一种鉴别性训练函数,它旨在最大化输入特征序列与目标序列的概率同时最小化输入特征序列与非目标序列的概率。
基于最大相关互信息的目标函数公式如下:
Figure RE-GSB0000183737640000031
其中分母部分进一步推导为:
Figure RE-GSB0000183737640000041
CTC(Connectionist Temporal Classification连续时序分类)是语音识别领域中广受关注的算法之一,但CTC相比传统模型的优势,需要在很大数据集上才能体现出来,而且CTC训练速度很慢,参数调节更困难。与DT训练中常用的MMI准则类似,CTC训练准则的目标是最大化正确标注的条件概率,而MMI着重优化正确路径与其它相似路径的概率差。
相较于基于CTC的端到端模型,基于LFMMI训练的模型无需交叉熵***初始化,可以从头开始训练即flat-start,不用做对齐no alignment;帧率降低到原来的1/3,因此相较于传统的模型解码速度也提高了3倍,更加使用于实时的语音识别任务;使用有限状态接收器限制监督标签可以出现的时间帧范围。
步骤105:若有语言模型,该步骤将语言模型与前面步骤训练的端到端模型进行结合,生成一种基于加权有向图的解码图。该解码图用于将音素序列转成相应的句子。
图2为本发明实施例针对民航陆空通话领域的多语种自动语音识别***结构图。如图2 所示,一种针对民航陆空通话领域的多语种自动语音识别***,所述语音识别***包括:
模块201:对输入的语音做预处理,生成对应的mfcc特征。预处理步骤与训练过程中相同,包括:预加重、分帧、加窗、补零、快速傅里叶变换、梅尔转换、log能量、动态查分参数的提取以及DTC。本发明中我们选取40维的mfcc特征加上kaldi风格的3维pitch特征作为后续神经网络的输入。25ms为一帧,帧移10ms,加汉明窗。
模块202:对模块201生成的mfcc特征使用端到端模型进行声学部分的计算,得到对应的概率密度函数。具体过程为将mfcc特征输入端到端的神经网络经过拼接帧、特征转换、加权计算等得到相应的输出,输出即为解码图中的状态也即一个pdfs;
模块203:对模块202生成的pdfs在解码图HCLG中进行解码,生成对应的字词序列即为语音识别的结果。如有语言模型则语言模型也会组合到HCLG解码图中。本发明是基于加权有限状态自动机算法实现的一种语音识别方法,因此上述HCLG解码图是将四个相关模型以有限状态自动机的形式进行组合、消歧、最小化以及确定化操作得到的。其中H是指隐马尔科夫模型HMM、C是指上下文相关信息context、L是指发音词典lexicon、G是指语言模型grammar,经过下面公式计算得到HCLG。
HCLG=asl(min(rds(det(H′o min(det(C o min(det(L o G))))))))
其中,上面的o表示组合,det表示确定化,min表示最小化,rds表示去除消岐符号,asl表示增加自环。其训练顺序为G->L->C->H,因为语法模型G基于统计生成,L则是在 G生成过程中使用的基础,而C则是基于L生成的phone上下文关系依据决策树生成的结果。解码过程中使用Lattice来保存识别的候选序列,通过遍历得到得分最靠前的多条候选路径,即N-best,即为输出文本。Lattice本质是一个有向无环图。图上的每个节点代表一个词的结束时间点,每条边代表一个可能的词,以及该词发生的声学得分和语言模型得分。

Claims (5)

1.一种针对民航陆空通话领域的端到端自动语音识别方法,其特征在于利用端到端模型建立的适用于民航陆空通话的自动语音识别方法,所述语音识别方法包括:
以端到端模型为声学模型进行语音识别;
其中端到端模型的训练方法;
基于端到端模型的语音识别方法在民航陆空通话领域的应用。
2.根据权利要求1所述的语音识别方法,其特征在于使用端到端模型作为语音识别的声学模型,利用所述端到端模型进行语音识别,具体包括:
端到端模型的结构特征在于它是基于时延神经网络结构与长短时记忆单元结构的复合神经网络模型;
特殊结构的上下文相关信息模型,用于统计上下文相关信息;
可选的语言模型,用于统计字词间的出现概率,用于解码过程中音素到字词的映射;
将所述基于端到端模型的声学模型结合上下文相关模型即为所述的端到端语音识别模型,可选的附加语言模型可以进一步提高语音识别效果。
3.根据权利要求1所述的端到端模型训练方法,其特征在于端到端模型是根据最大相关互信息结合免词格方法训练,具体包括:
根据所述最大相关互信息为目标函数训练所述端到端模型;
所述免词格方法具体是指在训练过程中无须重复生成词格;
所述训练方法以特殊的方式使端到端模型训练过程中无需预先生成对齐文件、带有上下文相关信息的状态绑定树以及混合高斯模型等。
4.根据权利要求1所述的基于端到端模型的语音识别方法在民航陆空通话领域的应用,其特征在于陆空通话领域的字词发音以及句法有其特殊性,根据所述应用方法,具体包括:
针对陆空通话领域特殊子词的特殊发音,我们构建特殊的陆空通话领域内的发音词典;
可选地构建特殊的陆空通话领域的语言模型;
在所述免词格方式训练端到端模型之前的特殊格式的训练样本准备方法。
5.总的来说,根据权利要求1所述的语音识别方法,其特征在于基于端到端模型并且应用于民航陆空通话领域,具体包括:
构建民航陆空通话领域内特殊的发音词典、语言模型;
以特殊的数据准备和数据处理方法为端到端模型训练准备样本;
根据所述最大相关互信息目标函数结合免词格方法以及所得训练样本训练端到端模型;
以所得端到端模型为声学模型可选地结合语言模型进行语音识别;
根据所述端到端模型对输入语音进行识别,可得到相应语音内容的文本。
CN201910571279.1A 2019-06-25 2019-06-25 一种针对民航陆空通话领域的端到端的自动语音识别方法 Pending CN112133292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571279.1A CN112133292A (zh) 2019-06-25 2019-06-25 一种针对民航陆空通话领域的端到端的自动语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571279.1A CN112133292A (zh) 2019-06-25 2019-06-25 一种针对民航陆空通话领域的端到端的自动语音识别方法

Publications (1)

Publication Number Publication Date
CN112133292A true CN112133292A (zh) 2020-12-25

Family

ID=73849485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571279.1A Pending CN112133292A (zh) 2019-06-25 2019-06-25 一种针对民航陆空通话领域的端到端的自动语音识别方法

Country Status (1)

Country Link
CN (1) CN112133292A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299280A (zh) * 2021-05-12 2021-08-24 山东浪潮科学研究院有限公司 基于Kaldi的专业词汇语音识别方法
CN113658585A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 语音交互模型的训练方法、语音交互方法及装置
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN108629412A (zh) * 2017-03-15 2018-10-09 中国科学院声学研究所 一种基于无网格最大互信息准则的神经网络训练加速方法
CN108986791A (zh) * 2018-08-10 2018-12-11 南京航空航天大学 针对民航陆空通话领域的中英文语种语音识别方法及***
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
JP2019020597A (ja) * 2017-07-18 2019-02-07 日本放送協会 エンドツーエンド日本語音声認識モデル学習装置およびプログラム
US20190130897A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US20190139540A1 (en) * 2016-06-09 2019-05-09 National Institute Of Information And Communications Technology Speech recognition device and computer program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190139540A1 (en) * 2016-06-09 2019-05-09 National Institute Of Information And Communications Technology Speech recognition device and computer program
CN108629412A (zh) * 2017-03-15 2018-10-09 中国科学院声学研究所 一种基于无网格最大互信息准则的神经网络训练加速方法
JP2019020597A (ja) * 2017-07-18 2019-02-07 日本放送協会 エンドツーエンド日本語音声認識モデル学習装置およびプログラム
US20190130897A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN108986791A (zh) * 2018-08-10 2018-12-11 南京航空航天大学 针对民航陆空通话领域的中英文语种语音识别方法及***
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DANIEL POVEY ETC.: "Purely sequence-trained neural networks for ASR based on lattice-free MMI", 《INTERSPEECH》, pages 2715 - 2755 *
张世磊;施勤;秦勇;刘文;CHU STEPHENM;KUO HONG-KWANG;MANGU LIDIA;: "IBM GALE中文识别***", 清华大学学报(自然科学版), no. 1, pages 1249 - 1253 *
张志辉: "基于民航陆空对话的语音识别关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 11, pages 1 - 16 *
邱意 等: "民航陆空通话语音识别BiLSTM网络模型", 《信号处理》, vol. 35, no. 2, pages 293 - 300 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299280A (zh) * 2021-05-12 2021-08-24 山东浪潮科学研究院有限公司 基于Kaldi的专业词汇语音识别方法
CN113658585A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 语音交互模型的训练方法、语音交互方法及装置
CN113658585B (zh) * 2021-08-13 2024-04-09 北京百度网讯科技有限公司 语音交互模型的训练方法、语音交互方法及装置
CN115359784A (zh) * 2022-10-21 2022-11-18 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及***
CN115359784B (zh) * 2022-10-21 2023-01-17 成都爱维译科技有限公司 基于迁移学习的民航陆空语音识别模型训练方法及***

Similar Documents

Publication Publication Date Title
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN103928023B (zh) 一种语音评分方法及***
CN109410914B (zh) 一种赣方言语音和方言点识别方法
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
KR20170041105A (ko) 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
CN107871496B (zh) 语音识别方法和装置
CN107403619A (zh) 一种应用于自行车环境的语音控制方法及***
CN109377981B (zh) 音素对齐的方法及装置
CN107093422B (zh) 一种语音识别方法和语音识别***
CN111599344B (zh) 一种基于拼接特征的语种识别方法
CN112133292A (zh) 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN113707125A (zh) 一种多语言语音合成模型的训练方法及装置
CN111081219A (zh) 一种端到端的语音意图识别方法
KR102192678B1 (ko) 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
CN110853669B (zh) 音频识别方法、装置及设备
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、***及终端
CN110674634A (zh) 一种文字交互方法及服务端设备
CN111696525A (zh) 一种基于Kaldi的中文语音识别声学模型构建方法
Huang et al. Mandarin tone modeling using recurrent neural networks
Barman et al. State of the art review of speech recognition using genetic algorithm
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Tasnia et al. An overview of bengali speech recognition: Methods, challenges, and future direction
CN114512121A (zh) 语音合成方法、模型训练方法及装置
Vijayalakshmi et al. A study on Automated Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Yang Qun

Document name: Notice of First Examination Opinion

DD01 Delivery of document by public notice