CN115294966A - 核电厂语音识别训练方法、智能语音控制方法和*** - Google Patents
核电厂语音识别训练方法、智能语音控制方法和*** Download PDFInfo
- Publication number
- CN115294966A CN115294966A CN202210936148.0A CN202210936148A CN115294966A CN 115294966 A CN115294966 A CN 115294966A CN 202210936148 A CN202210936148 A CN 202210936148A CN 115294966 A CN115294966 A CN 115294966A
- Authority
- CN
- China
- Prior art keywords
- nuclear power
- power plant
- voice
- control instruction
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000014509 gene expression Effects 0.000 claims abstract description 59
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000000670 limiting effect Effects 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开一种核电厂语音识别训练方法、智能语音控制方法和***,涉及核电智能控制技术领域,所述方法包括:对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式;对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。本发明采用正则表达式和专用字典对训练识别结果进行限制,提升针对核电厂的语音识别训练效率,进而增加对核电厂控制指令语音识别的准确率。
Description
技术领域
本发明属于核电智能控制技术领域,具体涉及一种核电厂语音识别训练方法、智能语音控制方法和***。
背景技术
由于核电厂的特殊性,核安全是至关重要的一部分。作为核电厂的核心,主控室操纵员的操作较为繁琐、工作负荷大,长时工作后,由于人员效能的降低,从人因角度考虑有一定的安全隐患。使用语音控制来代替传统的键盘鼠标操作,可以提升人员效能,降低工作负荷,同时提升数字化操作水平。
现有的基于MFCC结合神经网络的语音识别训练方法,具有学习成本低,计算效率高的优点。但已有的训练方案在核电方面应用存在问题:
核电厂因其特殊性,要求有极高的句识别准确率,但普遍使用的语音识别训练方法所获得的模型,在离线及中英文混合的限制下,识别准确率都不满足核电厂的使用要求,同时,核电内容的语料库也较为不足,核电控制指令具有严格的格式要求,但字与字之间的逻辑性极低,也会导致语音识别的准确率较低。
发明内容
本发明所要解决的技术问题是针对现有技术中存在的上述不足,提供一种核电厂语音识别模型建立方法、智能语音控制方法和***,以解决现有语音识别训练方法应用于核电厂控制指令语音识别时,语音识别准确率低,不能满足核电厂的使用要求的问题。
为解决上述技术问题,本发明采用如下技术方案:
本发明第一方面,提供一种核电厂语音识别训练方法,包括:
对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式;
对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。
优选地,所述文本文件中包括:
用包括中文表示的多种控制指令动作,以及,用包括英文和数字表示的多种控制指令所针对的核电厂堆型的受控设备的点位号。
优选地,对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式,具体包括:
提取所述文本文件中多次重复出现的中文、英文和数字作为中文关键词、英文关键词和数字关键词,以建立针对核电厂的专用字典;
形成包括对所述中文关键词的上下文进行特征限制的正则表达式,以及对所述英文关键词和所述数字关键词的位数和每一位的属性进行特征限制的正则表达式。
优选地,所述预先采集的包括每种控制指令的多种音频文件具体为:
预先针对所述文本文件所对应的每种控制指令分别采集的不同音色的多种音频文件。
优选地,对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型,具体包括:
基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征;
基于双向长短期记忆网络Bi-LSTM对所提取的语音特征进行语音识别训练;
在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,并利用每一音频文件对应的控制指令对应的文本文件内容验证每一音频文件的语音识别结果,以调整所述Bi-LSTM中的权重配置;
训练结束后获得具有满足预设收敛条件的权重配置的Bi-LSTM模型,组合所述MFCC算法、所述具有满足预设收敛条件的权重配置的Bi-LSTM模型、以及所述专用字典和所述正则表达式作为针对核电厂的控制指令语音识别模型。
优选地,基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征,具体包括:
对所述音频文件进行预加重、分帧、加窗、以及快速傅里叶变换处理;
采用由23个滤波器组成的一组Mel尺度的三角形滤波器组对处理后的音频文件进行滤波;
对滤波后的音频文件进行对数运算,以完成对所述音频文件的语音特征提取。
本发明第二方面,提供一种核电厂智能语音控制方法,包括:
接收操纵员发出的控制指令语音;
利用如上所述的核电厂语音识别训练方法建立的针对核电厂的控制指令语音识别模型对所述控制指令语音进行识别,以获得所述控制指令语音的识别结果;
将所述识别结果输出给操纵员,并接收操纵员确认或修改所述识别结果形成的二次指令;
根据所述二次指令执行对核电厂的控制。
优选地,将所述识别结果输出给操纵员,具体包括:
在操纵员进行操作的交互界面以文字显示所述识别结果;
将所述识别结果通过机器语音播报给操纵员。
本发明第三方面,提供一种核电厂语音识别训练***,包括:
文本模块,用于对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式;
音频模块,与所述文本模块连接,用于对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。
本发明第四方面,提供一种核电厂智能语音控制***,包括:
接收模块,用于接收操纵员发出的控制指令语音;
识别模块,与所述接收模块连接,用于利用如上所述的核电厂语音识别训练方法建立的针对核电厂的控制指令语音识别模型对所述控制指令语音进行识别,以获得所述控制指令语音的识别结果;
输出模块,与所述识别模块连接,用于将所述识别结果输出给操纵员,并接收操纵员确认或修改所述识别结果形成的二次指令;
控制模块,与所述输出模块连接,用于根据所述二次指令执行对核电厂的控制。
本发明提供的一种核电厂语音识别训练方法、智能语音控制方法和***,通过建立针对核电厂的专用字典和针对专用字典中的词汇的正则表达式,在对核电厂的控制指令的音频文件进行语音识别训练时,采用正则表达式和专用字典对训练识别结果进行限制,提升针对核电厂的语音识别训练效率,进而增加对核电厂控制指令语音识别的准确率,所获得的语音识别模型能够满足核电厂的使用要求,应用于核电厂智能控制后,提升了核电厂数字化操作水平,降低了核电厂操纵员的工作负荷,提高了核电厂操作安全。
附图说明
图1为本发明实施例中的核电厂语音识别训练方法的流程图;
图2为本发明实施例中的核电厂语音识别训练方法的识别所需时间对比图;
图3为本发明实施例中的核电厂语音识别训练方法的识别正确率对比图;
图4为本发明实施例中的核电厂智能语音控制方法的流程图;
图5为本发明实施例中的核电厂语音识别训练***的结构示意图;
图6为本发明实施例中的核电厂智能语音控制***的结构示意图。
具体实施方式
下面将结合本发明中的附图,对发明中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的范围。
在本发明的描述中,需要说明的是,属于“上”等指示方位或位置关系是基于附图所示的方位或者位置关系,仅是为了便于和简化描述,而并不是指示或者暗示所指的装置或者元件必须设有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或者暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“连接”、“设置”、“安装”、“固定”等应做广义理解,例如可以是固定连接也可以是可拆卸地连接,或者一体地连接;可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,所涉及的每个单元、模块可仅对应一个实体结构,也可由多个实体结构组成,或者,多个单元、模块也可集成为一个实体结构;所涉及的单元、模块可通过软件的方式实现,也可通过硬件的方式来实现,例如单元、模块可位于处理器中。
在本发明的描述中,在不冲突的情况下,本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。
实施例1:
如图1所示,本发明实施例1提供一种核电厂语音识别训练方法,包括:
S01、对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式。
具体而言,现有的语音识别模型,通过语料库中大量的音频文件进行训练获得,为了获得较好的识别结果,通常会采用连接互联网的方式提高训练效果,由于核电厂设备禁止连接外网,只能在离线状态下进行自身的语音识别模型训练,核电厂堆型的设备点位号具有独特性,针对核电厂语音识别的训练素材也比较缺乏,这就导致在尝试使用语音对核电厂点位进行控制及操作时,若使用传统的语音识别训练方式,语音识别的正确率无法达到安全性要求,因此在本实施例中,预先针对核电厂堆型建立包括核电厂多种控制指令的文本文件,根据文本文件提取控制指令中常用的关键词,以词汇的形式保存在专用字典中,同时由于核电厂常用的关键词具有固定的特征,所以还建立正则表达式对专用字典中的词汇进行特征限制,正则表达式也是根据文本文件中出现的词汇特征而获得,核电厂人员可以根据在核电厂工作的经验干涉上述过程,例如确定文本文件的大小、控制指令的范围等。
可选地,所述文本文件中包括:
用包括中文表示的多种控制指令动作,以及,用包括英文和数字表示的多种控制指令所针对的核电厂堆型的受控设备的点位号。
可选地,对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式,具体包括:
提取所述文本文件中多次重复出现的中文、英文和数字作为中文关键词、英文关键词和数字关键词,以建立针对核电厂的专用字典;
形成包括对所述中文关键词的上下文进行特征限制的正则表达式,以及对所述英文关键词和所述数字关键词的位数和每一位的属性进行特征限制的正则表达式。
具体而言,在本实施例中,由于核电厂的控制指令主要是用于控制受控设备执行一定操作,核电厂的受控设备采用点位号的方式进行命名,点位号一般为特定的英文和数字组合,不同堆型的设备点位号具有独特性,同一堆型的设备点位号具有高度相似性,因此通过查看所需处理的核电厂堆型***代码,并根据堆型进行分析,建立针对特定堆型的文本文件,从而所建立的专用字典的正则表达式也是针对该特定堆型的,示例性地,使用华龙堆型,根据该堆型的要求,设备点位编码格式为3位字母、3位数字、2位字母的组合。
故本实施例首先建立包含大量针对华龙堆型的控制指令的文本文件,文本文件的内容是控制指令的文字内容,因为测试的核电厂堆型中,需要操作的设备的点位号为三个英文字母、三位数字及二位英文字母的组合方式,设定正则表达式对英文关键词和数字关键词的位数和每一位的属性进行特征限制,如使用[A-Z]{3}定义3位英文字母,使用[0-9]{3}定位3位***数字,使用[A-Z]{2}定位2位英文字母,例如“RCV001VP”,而在控制指令中,则会在设备的最前及最后加入若干可能的中文动作及数字,如“打开RCV082VP”、“调节RCV001VP开度100”,因此,在设计字典的内容时,会分别将文本文件的内容中多次重复出现的中文关键词(如调节、打开、关闭)、英文关键词(如RCV、VP等点位号编码中用到的英文字母的组合,不需要对应英文单词)、数字关键词(如001、082等点位号编码中用到的***数字组合)加入字典,而“开度100”中的“100”根据实际操作控制要求也可以是其他数值,在建立文本文件时可以有意回避其重复出现,从而加入字典中的词汇通常是针对核电厂堆型的设备点位号中的关键词,或较为常用的核电厂操作指令动作,对表示核电厂操作指令动作的中文关键词使用正则表达式对其所连接的上下文进行特征限制,例如限制调节、打开、关闭等动作的对象为设备点位号,而设备点位号又是3位字母、3位数字、2位字母的组合,加入核电设备相关的中文、英文和数字组合文字形成针对核电厂的专用字典,再使用正则表达式来限制这些专用词汇,使得在识别训练时,能够有针对性的进行搜索,相比于传统的G2P(Grapheme-to-Phoneme)字素到音素的语音识别***,本***更适配核电厂的主控制室所需要的中英文结合部分,对中文、英文字母、数字的组合语句具有更高的句识别正确率。
S02、对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。
具体而言,在本实施例中,通过预先采集的包括每种控制指令的多种音频文件进行训练,以获得控制指令语音识别模型,由于在训练过程中语音识别结果具有多种组合可能性,通过采用带有正则表达式的专用字典中的词汇限制语音识别结果,在提高语音识别模型的准确率的同时,还可以加快训练速度,获得对核电厂更具针对性的控制指令语音识别模型。
可选地,所述预先采集的包括每种控制指令的多种音频文件具体为:
预先针对所述文本文件所对应的每种控制指令分别采集的不同音色的多种音频文件。
可选地,对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型,具体包括:
基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征;
基于双向长短期记忆网络Bi-LSTM对所提取的语音特征进行语音识别训练;
在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,并利用每一音频文件对应的控制指令对应的文本文件内容验证每一音频文件的语音识别结果,以调整所述Bi-LSTM中的权重配置;
训练结束后获得具有满足预设收敛条件的权重配置的Bi-LSTM模型,组合所述MFCC算法、所述具有满足预设收敛条件的权重配置的Bi-LSTM模型、以及所述专用字典和所述正则表达式作为针对核电厂的控制指令语音识别模型。
可选地,基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征,具体包括:
对所述音频文件进行预加重、分帧、加窗、以及快速傅里叶变换处理;
采用由23个滤波器组成的一组Mel尺度的三角形滤波器组对处理后的音频文件进行滤波;
对滤波后的音频文件进行对数运算,以完成对所述音频文件的语音特征提取。
具体而言,在本实施例中,通过录制大量音频文件形成核电厂专用语料库,所有音频文件的码率、声道等格式需严格一致,以保证训练的效果,音频与文本文件中对应的每种控制指令内容一致,且针对每种控制指令均录制包含男声、女声,年轻、中年等不同音色的多种音频文件,例如不同的音频文件中,包含多位录制者所发音的“打开RCV082VP”,训练后的模型会将所有不同录制者的发音均匹配为该内容。
本实施例在进行语音模型训练时,加入正则表达式配置的专用字典会对识别结果进行“限制”,若结果不符合字典中的要求,则机器自动放弃该识别结果,这样在机器对模型匹配权重配置时,具有更多的约束,有利于模型更快收敛。在现有语音识别训练过程中,因为对识别结果的搜索量极大,虽然也可以基于现有包含日常词汇的字典对识别结果进行限制,但是在包含背景噪音及语音特征不明显时,仍会造成较为明显的误判,而加入正则表达式配置的专用字典,会有效减少可选内容的数量,使得一些常见的错误选项能够被排除,本实施例也可以采用包含日常词汇的字典结合加入正则表达式配置的专用字典对识别结果进行限制,例如,在进行3次数字的识别后,再次进行识别时会将识别结果更倾向于字母的识别,如在识别结果为“yi(一声)”时,会更倾向于识别为英文字母e的发音,而不是数字1的发音;如原本包含“打开”、“冰箱”、“电视机”、“RCV082VP”,识别为“打开”后,可选选项包含3种,加入正则表达式后,如规定识别为“打开”后只能跟数字和字母组成的设备点位号,则可选选项仅包含“RCV082VP”等。
本实施例设计一款基于梅尔频率倒谱系数MFCC(Mel-scale Frequency CepstralCoefficients)及双向长短期记忆网络Bi-LSTM(Bidirectional-Long Short-TermMemory)的语音训练方案,基于该方案可以建立一套完整的核电厂语音识别训练***。
在本实施例中,在传统MFCC语音训练***的基础上,通过预加重、分帧、加窗、快速傅立叶变换FFT(Fast Foourier Transform)处理等模块对语音信号进行处理;预加重选择高通滤波器;分帧采用交叠分段的方法,使帧与帧之间平滑过渡,保持其连续性,若出现不稳定频谱,则进行补零操作;加窗是对各个短段进行计算,把每一帧里面对应的元素变成它与窗序列对应元素的乘积;快速傅里叶变换将信号分解成两个子信号:奇数信号及偶数信号,并将两个子信号求和;选择一组Mel尺度的有23个滤波器三角形滤波器组对处理后的语音信号进行滤波,三角滤波可以模仿人耳在低频处分辨率高的特性,在每个三角形内积分,就可以消除精细结构,只保留音色的信息,可以减少数据量,经过测试23个滤波器更适用于本***;最后经过对数运算获得音频文件的语音特征,对数运算包括取绝对值和log运算,取绝对值是仅使用幅度值,忽略相位的影响,因为相位信息在语音识别中作用不大,人的感知与频率的对数成正比,因此使用log模拟,FFT变换后,卷积变成了乘法,取对数后,乘法变成了加法,把卷积信号转换成加性信号。
本实施例的Bi-LSTM即正向及反向的双LSTM,可以更好的捕捉句中上下文的关联信息,这在语句格式固定但内容逻辑性极低的主控制室中使用的指令非常重要,使用Bi-LSTM方案对所提取的语音特征进行语音识别训练,训练过程在传统人工智能学习的基础上,额外添加了MFCC及字典模块,在将MFCC参数提取出后进行语音识别训练,对每次训练结果,额外引入加入正则表达式配置的专用字典作为辅助,使得语音识别训练具有更佳的稀疏性及高效性,同时能够有效减少冗余,极大的增加训练的效率及最终效果。
在本实施例的整个训练过程中,相较于传统语音识别训练方法,识别正确率提高25%,且训练过程所消耗时间减少15%,同时对所需人员数量及语料库下降30%左右,本实施例与现有技术的识别所需时间对比如图2所示,图2中未设置边界指不使用专用字典,正常设置指使用专用字典,针对性设置指使用加入正则表达式配置的专用字典,不设置特征、设置少量特征、设置大量特征、针对性设置大量特征指在专用字典中通过文本文件收录不同的词汇量。
在对本实施例建立的针对所述核电厂的控制指令语音识别模型进行验证测试时,操纵员查看***运行规程,用语音控制指令发出规程中的连续20条指令,在每条指令发出后,机器使用小于3s的时间进行分析处理,运行完毕全部20条指令,其识别速度相较于传统的G2P语音识别速度提升20%,同时在模拟过程中识别成功率为100%,本实施例与现有技术的识别正确率对比如图3所示。
实施例2:
如图4所示,本发明实施例2提供一种核电厂智能语音控制方法,包括:
S1、接收操纵员发出的控制指令语音;
S2、利用如实施例1所述的核电厂语音识别训练方法建立的针对核电厂的控制指令语音识别模型对所述控制指令语音进行识别,以获得所述控制指令语音的识别结果;
S3、将所述识别结果输出给操纵员,并接收操纵员确认或修改所述识别结果形成的二次指令;
S4、根据所述二次指令执行对核电厂的控制。
可选地,将所述识别结果输出给操纵员,具体包括:
在操纵员进行操作的交互界面以文字显示所述识别结果;
将所述识别结果通过机器语音播报给操纵员。
具体而言,在本实施例中,首先已采用如实施例1的方法建立核电厂语音识别训练***,才在核电厂语音识别训练***中训练获得核电厂的控制指令语音识别模型,然后建立核电厂智能语音控制***,在核电厂智能语音控制***中应用如本实施例所述的方法。示例性地,操纵员使用语音指令(控制指令语音)来根据规程对核电厂设备进行操作,***在接收到语音指令后,根据实施例1所训练出的控制指令语音识别模型,对应地对语音指令进行分析处理获得识别结果,具体包括:基于MFCC对所接收到的语音指令提取语音特征,使用具有满足预设收敛条件的权重配置的Bi-LSTM模型对所提取的语音特征进行识别,将识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成。经过上述步骤获得识别结果后,在操纵员操作的交互画面上给出所识别得到的文字内容,同时给出是否执行该指令的语音交互(即使用语音合成技术(Text to Speech)使机器播报所识别的文字内容)。若操纵员确认,则***执行该指令,保证指令执行的正确性;若操纵员对该指令进行修改,则***执行修改后的指令,还记录该修改内容,将其置入核电厂语音识别训练***中,具体可以是将操纵员修改后的获得的二次指令的文本内容对应置入核电厂语音识别训练***的文本文件中,将对应的操纵员的语音指令作为核电厂语音识别训练***的音频文件之一,如果操纵员修改识别结果的次数较多,说明之前训练获得的模型识别准确率不满足要求,则可以基于经过上述在实际运行过程中扩充后的文本文件和音频文件,经开发人员检查和再配置后,再次根据实施例1的方法重新训练获得新的控制指令语音识别模型。
实施例3:
如图5所示,本发明实施例3提供一种核电厂语音识别训练***,包括:
文本模块01,用于对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式;
音频模块02,与所述文本模块01连接,用于对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。
可选地,所述文本文件中包括:
用包括中文表示的多种控制指令动作,以及,用包括英文和数字表示的多种控制指令所针对的核电厂堆型的受控设备的点位号。
可选地,文本模块01,具体包括:
字典单元,用于提取所述文本文件中多次重复出现的中文、英文和数字作为中文关键词、英文关键词和数字关键词,以建立针对核电厂的专用字典;
正则表达式单元,与所述字典单元连接,用于形成包括对所述中文关键词的上下文进行特征限制的正则表达式,以及对所述英文关键词和所述数字关键词的位数和每一位的属性进行特征限制的正则表达式。
可选地,所述预先采集的包括每种控制指令的多种音频文件具体为:
预先针对所述文本文件所对应的每种控制指令分别采集的不同音色的多种音频文件。
可选地,音频模块02,具体包括:
提取单元,用于基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征;
训练单元,与所述提取单元连接,用于基于双向长短期记忆网络Bi-LSTM对所提取的语音特征进行语音识别训练;
限制单元,与所述训练单元连接,用于在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,并利用每一音频文件对应的控制指令对应的文本文件内容验证每一音频文件的语音识别结果,以调整所述Bi-LSTM中的权重配置;
组合单元,与所述限制单元连接,用于训练结束后获得具有满足预设收敛条件的权重配置的Bi-LSTM模型,组合所述MFCC算法、所述具有满足预设收敛条件的权重配置的Bi-LSTM模型、以及所述专用字典和所述正则表达式作为针对核电厂的控制指令语音识别模型。
可选地,提取单元,具体包括:
处理子单元,用于对所述音频文件进行预加重、分帧、加窗、以及快速傅里叶变换处理;
滤波子单元,与所述处理子单元连接,用于采用由23个滤波器组成的一组Mel尺度的三角形滤波器组对处理后的音频文件进行滤波;
运算子单元,与所述滤波子单元连接,用于对滤波后的音频文件进行对数运算,以完成对所述音频文件的语音特征提取。
实施例4:
如图6所示,本发明实施例4提供一种核电厂智能语音控制***,包括:
接收模块1,用于接收操纵员发出的控制指令语音;
识别模块2,与所述接收模块1连接,用于利用如实施例1所述的核电厂语音识别训练方法建立的针对核电厂的控制指令语音识别模型对所述控制指令语音进行识别,以获得所述控制指令语音的识别结果;
输出模块3,与所述识别模块2连接,用于将所述识别结果输出给操纵员,并接收操纵员确认或修改所述识别结果形成的二次指令;
控制模块4,与所述输出模块3连接,用于根据所述二次指令执行对核电厂的控制。
可选地,输出模块3,具体包括:
显示单元,用于在操纵员进行操作的交互界面以文字显示所述识别结果;
播报单元,用于将所述识别结果通过机器语音播报给操纵员。
本发明实施例1-4提供的一种核电厂语音识别训练方法、智能语音控制方法和***,通过建立针对核电厂的专用字典和针对专用字典中的词汇的正则表达式,在对核电厂的控制指令的音频文件进行语音识别训练时,采用正则表达式和专用字典对训练识别结果进行限制,提升针对核电厂的语音识别训练效率,进而增加对核电厂控制指令语音识别的准确率,所获得的语音识别模型能够满足核电厂的使用要求,应用于核电厂智能控制后,提升了核电厂数字化操作水平,降低了核电厂操纵员的工作负荷,提高了核电厂操作安全。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种核电厂语音识别训练方法,其特征在于,包括:
对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式;
对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述文本文件中包括:
用包括中文表示的多种控制指令动作,以及,用包括英文和数字表示的多种控制指令所针对的核电厂堆型的受控设备的点位号。
3.根据权利要求2所述的方法,其特征在于,对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式,具体包括:
提取所述文本文件中多次重复出现的中文、英文和数字作为中文关键词、英文关键词和数字关键词,以建立针对核电厂的专用字典;
形成包括对所述中文关键词的上下文进行特征限制的正则表达式,以及对所述英文关键词和所述数字关键词的位数和每一位的属性进行特征限制的正则表达式。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述预先采集的包括每种控制指令的多种音频文件具体为:
预先针对所述文本文件所对应的每种控制指令分别采集的不同音色的多种音频文件。
5.根据权利要求4所述的方法,其特征在于,对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型,具体包括:
基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征;
基于双向长短期记忆网络Bi-LSTM对所提取的语音特征进行语音识别训练;
在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,并利用每一音频文件对应的控制指令对应的文本文件内容验证每一音频文件的语音识别结果,以调整所述Bi-LSTM中的权重配置;
训练结束后获得具有满足预设收敛条件的权重配置的Bi-LSTM模型,组合所述MFCC算法、所述具有满足预设收敛条件的权重配置的Bi-LSTM模型、以及所述专用字典和所述正则表达式作为针对核电厂的控制指令语音识别模型。
6.根据权利要求5所述的方法,其特征在于,基于梅尔频率倒谱系数MFCC算法对所述音频文件提取语音特征,具体包括:
对所述音频文件进行预加重、分帧、加窗、以及快速傅里叶变换处理;
采用由23个滤波器组成的一组Mel尺度的三角形滤波器组对处理后的音频文件进行滤波;
对滤波后的音频文件进行对数运算,以完成对所述音频文件的语音特征提取。
7.一种核电厂智能语音控制方法,其特征在于,包括:
接收操纵员发出的控制指令语音;
利用如权利要求1-6任一项所述的核电厂语音识别训练方法建立的针对核电厂的控制指令语音识别模型对所述控制指令语音进行识别,以获得所述控制指令语音的识别结果;
将所述识别结果输出给操纵员,并接收操纵员确认或修改所述识别结果形成的二次指令;
根据所述二次指令执行对核电厂的控制。
8.根据权利要求7所述的方法,其特征在于,将所述识别结果输出给操纵员,具体包括:
在操纵员进行操作的交互界面以文字显示所述识别结果;
将所述识别结果通过机器语音播报给操纵员。
9.一种核电厂语音识别训练***,其特征在于,包括:
文本模块,用于对预先建立的包括核电厂多种控制指令的文本文件进行特征分类提取,以建立针对核电厂的专用字典,以及,形成对所述专用字典中的词汇进行特征限制的正则表达式;
音频模块,与所述文本模块连接,用于对预先采集的包括每种控制指令的多种音频文件进行语音识别训练,并在训练过程中将语音识别结果限制为由带有所述正则表达式的所述专用字典中的词汇组成,以建立针对核电厂的控制指令语音识别模型。
10.一种核电厂智能语音控制***,其特征在于,包括:
接收模块,用于接收操纵员发出的控制指令语音;
识别模块,与所述接收模块连接,用于利用如权利要求1-6任一项所述的核电厂语音识别训练方法建立的针对核电厂的控制指令语音识别模型对所述控制指令语音进行识别,以获得所述控制指令语音的识别结果;
输出模块,与所述识别模块连接,用于将所述控制指令语音的识别结果输出给操纵员,并接收操纵员确认或修改所述识别结果形成的二次指令;
控制模块,与所述输出模块连接,用于根据所述二次指令执行对核电厂的控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210936148.0A CN115294966A (zh) | 2022-08-05 | 2022-08-05 | 核电厂语音识别训练方法、智能语音控制方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210936148.0A CN115294966A (zh) | 2022-08-05 | 2022-08-05 | 核电厂语音识别训练方法、智能语音控制方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294966A true CN115294966A (zh) | 2022-11-04 |
Family
ID=83828641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210936148.0A Pending CN115294966A (zh) | 2022-08-05 | 2022-08-05 | 核电厂语音识别训练方法、智能语音控制方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294966A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095377A (zh) * | 2022-12-30 | 2023-05-09 | 无锡威达智能电子股份有限公司 | 一种基于语音识别的遥控器控制方法、装置及电子设备 |
-
2022
- 2022-08-05 CN CN202210936148.0A patent/CN115294966A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095377A (zh) * | 2022-12-30 | 2023-05-09 | 无锡威达智能电子股份有限公司 | 一种基于语音识别的遥控器控制方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4016526A1 (en) | Sound conversion system and training method for same | |
CN110827801B (zh) | 一种基于人工智能的自动语音识别方法及*** | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及*** | |
JP4393494B2 (ja) | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム | |
US7289950B2 (en) | Extended finite state grammar for speech recognition systems | |
CN109523989A (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN111326178A (zh) | 基于卷积神经网络的多模态语音情感识别***及方法 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN115910066A (zh) | 用于区域配电网的智能调度指挥与运营*** | |
CN114566189A (zh) | 基于三维深度特征融合的语音情感识别方法及*** | |
CN115455136A (zh) | 智能数字人营销交互方法、装置、计算机设备及存储介质 | |
CN112015874A (zh) | 学生心理健康陪伴对话*** | |
CN115294966A (zh) | 核电厂语音识别训练方法、智能语音控制方法和*** | |
CN115424618A (zh) | 一种基于机器学习的电子病历语音交互设备 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
US20080120108A1 (en) | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations | |
CN114944150A (zh) | 一种基于双任务的Conformer陆空通话声学模型构建方法 | |
Ling | An acoustic model for English speech recognition based on deep learning | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、***及终端 | |
White | Speech recognition: a tutorial overview | |
CN113327585A (zh) | 一种基于深度神经网络的自动语音识别方法 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN113393841A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN115019787B (zh) | 一种交互式同音异义词消歧方法、***、电子设备和存储介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |