CN112735410B

CN112735410B - 一种自动语音交互式兵力模型控制方法及***

Info

Publication number: CN112735410B
Application number: CN202011558962.0A
Authority: CN
Inventors: 吴晓朝; 王雷钢; 周波; 王建路; 戴幻尧; 孔德培; 石川; 董树理; 王琼; 徐娜娜
Original assignee: UNIT 63892 OF PLA
Current assignee: UNIT 63892 OF PLA
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-06-07
Anticipated expiration: 2040-12-25
Also published as: CN112735410A

Abstract

本发明属于仿真模型开发与控制技术领域，公开了一种自动语音交互式兵力模型控制方法及***，所述***分为语音增强、语音识别、语音指令和语音识别训练等四个功能模块。本***采用了文字匹配度算法来通过语音文字命令的匹成功率。能通过集中式模式和分布式模式将***应用于不同的军事试验和训练中。***包括了ASR+NLP引擎、数据库管理、神经网络训练与设置、语音链路干扰模拟、通信接口管理等结构模块，本发明能够提升***工作效率，提高了语音识别在军事对抗环境下的识别正确率，使整个交互过程接近人语音交互的体验，降低了试验或训练成本，提高了试验和训练的标准化程度。提高了军事试验和训练的效果。

Description

一种自动语音交互式兵力模型控制方法及***

技术领域

本发明属于仿真模型开发与控制技术领域，主要适用于一种自动语音交互式兵力模型控制方法及***。

背景技术

目前，部队在利用仿真条件实施试验或训练过程中，涉及了大量的兵力模型，其中仿真资源的调度配置和兵力模型的行为控制主要是利用人工方式实现的，如操作人员是通过鼠标或键盘的输入来设置仿真模型参数及控制雷达模型，如雷达开关机、火力单元如跟踪、瞄准和打击，显然，一方面这种人工方式的仿真资源调度效率很低，另外，操作不熟练的人员会大大影响试验和训练效果，也不利于标准化评估过程。为此，亟需开发一种可实现自动化操作的指挥控制***。

发明内容

为克服现有技术的不足，在本发明提出了一种自动语音交互式兵力模型控制方法及***。

为实现上述发明目的，本发明采用如下技术方案：

一种自动语音交互式兵力模型控制方法，自动语音交互式模型控制***通过网络、转换接口与各模型或装备实现信息互连，模型或装备配置的通信协议、行为触发规则，每个模型或装备根据接收到的***指令完成行动后，产生一个状态信息，并反馈到***，由***输出相应的语音信息；其具体步骤如下：

1)音频接收和发送管理,发出语音指令,是发令者发出语音指令，通过通信链路传入到语音交互式控制***的语音增强处理；

2)语音增强处理模块，将接收的语音信号经滤波增强信号后，传输至语音识别模块处理；

3)语音识别模块，采用bASR+NLP引擎,将滤波增强的语音信号转换成文字信号的转换过程，通过与指令库指令匹配，将语音与文字输送到语音库；

4)语音库内与指令匹配的信号，输出到对应的调度***或仿真***；语音库用于语音与文字数据的记录与备份，包括音频输入、文字识别结果、神经网路训练数据、通信数据；用于文字的匹配度计算与分析，将文字信息组合成语音信息；根据要求输出语音与文字分别传输到语音链路干扰模拟装置、神经网络训练及通信接口。

5)调度***或仿真***，根据试验或训练内容进行重新训练学习，使***适应多类情况；即训练参数反馈至语音交互式控制***；

a调度***模式，此模式为配置仿真资源服务，该模式要求识别正确率尽可能地高，不能导致配置错误的情况，其中语音命令的匹配度要大于95％，基本要保证只能一条命令能匹配上，若不符合要求，则要求重新发送指令；

b训练***模式，此模式为试验和训练实施服务，该模式下的语音识别情况应符合人的听力对声音质量的辨别；

6)接收到调度或仿真***的反馈后，语音交互式控制***再通过语音或报文格式传输到发令者；

其中，本***只要启动，就处于唤醒状态，一直侦听音频输入信号，实时对语音自动识别，形成相应的指令输出于授课控制对象，而且，***还能够获得控制对象回复信息，并将回复信息转换成语音，输出给发令者指挥。

一种自动语音交互式兵力模型控制方法，所述音频接收和发送管理,为负责音频信号的接收，并将信号进行小波软阈值滤波，以及将模型或装备反馈的语音信息通过接口发送给发令者。

一种自动语音交互式兵力模型控制方法，所述神经网络训练数据来源于数据库的格式数据，并将训练结果输送到ASR+NLP引擎。

一种自动语音交互式兵力模型控制方法，所述语音链路干扰模拟装置，用于自动在输出语音的语音中迭加干扰信息，其语音是来源语音库合成的语音信息，干扰参数由用户自行设置。

一种自动语音交互式兵力模型控制方法，所述通信接口管理负责通信链接及信息交互，用于将上级指令信息下达到控制对象，转换为模型或装备可执行的行为命令，并将控制对象反馈信息上传到上一级。

一种自动语音交互式兵力模型控制方法，所述语音增强处理,是利用滤波的方法对音频信号干扰进行处理，包括随机噪声，干扰噪声；

1)随机噪声，用数字滤波其去除，即小波软阈值的去噪方法，能很好的降低语音信号的随机噪声，提升音质的清晰度；

2)干扰噪声，通过词库的匹配对比提升输出命令的正确率，匹配公式为：其中Z为命令字的总字数，C为识别正确的字数，_ZK为命令关键词数，_Ck为识别正确的命令字关键词数，根据确定的匹配阈值θ，存在P大于θ的命令，则选择最大θ的作为最终的命令字；若不存在大于θ的命令，则认为语音识别失败。

一种自动语音交互式兵力模型控制方法，所述人机自然交互,是通过语音识别转换成文字，将文字分解为编号段和命令段，传输到与编号段相对应的模型或模块，完成协议指令要求的行为后，返回一个任务完成指令，***接收到完成指令后，由语音库搜索和选择相应的语音输出到音频设备，指挥者因此听到下级或上级的作战执行信息，并根据信息继续下一步的发出指令；在训练过程中，如果通信质量不好，则***会根据应用场景反馈“请重复”的语音回执。

一种自动语音交互式兵力模型控制方法，所述语音库，将试验和训练中的常用命令格式转换了语音，语音的记录有两组方式，一组是将命令字直接用语音记录，并编ID号，每个ID号对应了命令字、命令字关键词和语音格式；另一组是将编号格式单独记录语音，根据指挥者语音中的编号信息进行重新组合。

一种自动语音交互式兵力模型控制方法，所述***的应用模式包括：集中式运行模式和分布式运行模式；

1)集中式运行模式，即***作为中心单元运行，且***通过网络与各个模型或装备实现信息互连；模型或装备安装有通信协议转换接口，通过配置每个模型或装备的行为触发规则，模型或装备根据接收到的***指令完成行动后，产生一个状态信息，并反馈到***，由***输出相应的语音信息；

2)分布式运行模式，即将***安装于每个模型或装备上，***直接与模型或装备进行信息交互，信息链路切换由音频链路控制来实现，并能将反馈信息通过语音直接输送到指挥员。

一种自动语音交互式兵力模型控制方法，所述的自动语音交互式模型控制***，包括语音增强模块、语音识别模块、语音指令模块、语音识别训练模块，所述语音增强模块通过语音识别模块与语音指令模块相连，所述语音识别模块的输入端通过电缆与语音识别训练模块输出端相连，语音识别训练模块第一输入端为语音模式，第二输入端为电文本模式；所述语音增强模块用于将语音信号进行小波软阈值滤波处理，提高信噪比；语音识别模块用于自动将语音转化为文字；语音指令模块用于将文字转换为控制命令字；语音识别训练模块为确定ASR+NLP神经网络参数。

由于采用如上所述的技术方案，本发明具有如下优越性：

一种自动语音交互的兵力模型控制方法及***，利用语音命令的方法实现对兵力仿真模型的行为控制，即指挥员通过语音发出指令，可通过***将语音转换成对仿真模型控制指令，替代操作人员自动完成相应的操作。

本发明提高了语音识别在军事对抗环境下的识别正确率，使整个交互过程接近人语音交互的体验，能提升军事试验或训练效果。该***可减少对操作人员的需求，提升军事试验或训练效率，降低试验或训练成本，提高了试验和训练的标准化程度。

附图说明

图1本***的结构图；

图2本***的工作流程图；

图3本***的两种工作模式流程图；

图4语音增强处理过程图；

图5人机自然交互过程示意图；

图6命令字库示例图；

图7本***应用模式图；

图8本***模式组成图。

具体实施方式

如图1、2、3、4、5、6、7、8所示，一种自动语音交互式兵力模型控制方法，自动语音交互式模型控制***通过网络、转换接口与各模型或装备实现信息互连，模型或装备配置的通信协议、行为触发规则，每个模型或装备根据接收到的***指令完成行动后，产生一个状态信息，并反馈到***，由***输出相应的语音信息；其具体步骤如下：

本***的结构如图1所示，分为四个功能模块：语音增强模块、语音识别模块、语音指令模块和语音识别训练模块。语音增强模块是将语音信号中的随机噪声和干扰噪声去除，提高信号的信噪比；语音识别模块是利用ASR(Automatic Speech Recognition)+NLP(Natural Language Processing)引擎技术将语音转换为文字信息；语音指令模块将文字信息转换为控制仿真模型或资源的指令字；语音识别训练模块是预先将语音与命令进行训练，以获得神经网络模型参数。

本***工作流程图如2所示。指挥员发出口令后，由语音采集设备如麦克风,将采集的语音信息通过通信链路或装备传入自动语音交互式控制***，将其转换成指令信息并分发，相应的试验或训练仿真***接收到指令信息后，驱动仿真资源调度或兵力模型行为，当执行完毕后，将状态反馈给***，由***将执行结果转换为语音回执，发送给指挥员，指挥员再综合战场态势进行下一步的决策指挥过程。

本***实施能独立应用，也能通过二次开发使其与试验或训练仿真***结合成一个完整的***。

1、本***原理：本***只要启动，就处于唤醒状态，一直侦听音频输入信号，实时对语音自动识别，形成相应的指令输出于授课控制对象，而且，***还可获得控制对象回复信息，并将回复信息转换成语音，输出给指挥员。

由于一般部队试验或训练场地干扰因素较多，如发动机、电机、设备、其它话音等，因此需要采用一定的语音增强措施，提高语音的识别正确率。语音正确交互需要利用一定的纠错措施，使人与机器的交互过程接近自然人的交互过程。***还具有多类接口，实现与不同试验或训练仿真***互连。

2、本***工作流程：由指挥员发出语音指令，通过通信链路传入到语音交互式控制***。接收的语音信号经滤波增强信号后，由语音识别模块将其转换成文字，通过与指令库指令匹配，输出到对应的调度或仿真***。语音交互式控制***接收到调度或仿真***的反馈后，再通过语音或报文格式传输到指挥员。

通信链路可能会出现两种情况，一种是无通信干扰存在，一种是有通信干扰存在，在有干扰的情况下，会出现语音质量较差，语音识别率较低。在语音质量较差时，***因识别结果有误，会通过语音反馈到指挥员，需要指挥员重复一次语音命令。

***的工作模式也有两种，一种是调度模式，此模式为配置仿真资源服务，该模式要求识别正确率尽可能地高，不能导致配置错误的情况，其中语音命令的匹配度要大于95％，基本要保证只能一条命令能匹配上，若不符合要求，则要求重新发送指令；另一种是训练模式，此模式为试验和训练实施服务，该模式下的语音识别情况应符合人的听力对声音质量的辨别，可以模拟通信链路受干扰的情况，产生正常情况下的识别错误，即在声音信号上迭加随机噪声或其它干扰音源，如通信有扰、环境嘈杂等情况，可以选择大于设置阈值的最大匹配度值作为最终选择。两种模式的具体流程如图3所示。

3、***的处理方法，语音增强处理是利用滤波的方法对音频信号干扰进行处理。有两种噪声需要处理，一种是随机噪声，可用数字滤波其去除，本***是用小波软阈值的去噪方法，能很好的降低语音信号的随机噪声，提升音质的清晰度；另一种是干扰噪声，主要是由设备运行、发动机启动、其它话音等干扰源产生，此类噪声去除较为困难，主要通过词库的匹配对比提升输出命令的正确率，匹配公式为：其中Z为命令字的总字数，C为识别正确的字数，_ZK为命令关键词数，_Ck为识别正确的命令字关键词数，根据确定的匹配阈值θ，存在P大于θ的命令，则选择最大θ的作为最终的命令字；若不存在大于θ的命令，则认为语音识别失败。具体过程见图4。

人机自然交互实现过程是通过语音识别转换成文字，将文字分解为编号段和命令段，传输到与编号段相对应的模型或模块，完成协议指令要求的行为后，返回一个任务完成指令，***接收到完成指令后，由语音库搜索和选择相应的语音输出到音频设备，指挥员可因此听到下级或上级的作战执行信息，并可根据信息继续下一步的指挥。在训练过程中，如果通信质量不好，则***会根据应用场景反馈“请重复”的语音回执。具体过程见图5所示。

语音库将试验和训练中的常用命令格式转换了语音，语音的记录有两组方式，一组是将命令字直接用语音记录，并编ID号，每个ID号对应了命令字、命令字关键词和语音格式；另一组是将编号格式单独记录语音，根据指挥员语音中的编号信息进行重新组合，如作战单元的编号、坐标位置信息等等，主要有“排”、“连”、“营”、“团”、“旅”、“师”、“军”及方位和***数字等；具体内容见图6所示。

语音识别是利用ASR+NLP引擎完成指挥员语音到文字的转换过程，该神经网络参数可根据试验或训练内容进行重新训练学习，使***适应多类情况，训练可选择软件的神经网络训练模式。

4、***应用模式，***的应用模式有两种，一种是集中式运行模式，即***作为中心单元运行，且***通过网络与各个模型或装备实现信息互连。模型或装备安装有通信协议转换接口，通过配置每个模型或装备的行为触发规则，模型或装备根据接收到的***指令完成行动后，产生一个状态信息，并反馈到***，由***输出相应的语音信息；另一种是分布式运行模式，即将***安装于每个模型或装备上，***直接与模型或装备进行信息交互，信息链路切换由音频链路控制来实现，并能将反馈信息通过语音直接输送到指挥员。具体内容见图7所示。

5、***的模块化结构，主要包括音频接收和发送管理、ASR+NLP引擎、数据库管理、神经网络训练与设置、语音链路干扰模拟、通信接口管理等几个结构，如图8所示。音频接收和发送管理为负责音频信号的接收，并将信号进行小波软阈值滤波，以及将模型或装备反馈的语音信息通过接口发送给指挥员；ASR+NLP引擎负责自动将语音转换成文字，并将语音与文字输送到语音库。

语音库管理负责：1)语音与文字数据的记录与备份，包括音频输入、文字识别结果、神经网路训练数据、通信数据等；2)文字的匹配度计算与分析；3)将文字信息组合成语音信息；4)根据要求输出语音与文字分别到语音链路干扰模拟、神经网络训练及通信接口；神经网络训练与设置负责语音识别网络的训练与参数的设置，训练数据来源于数据库的格式数据，并将训练结果输送到ASR+NLP引擎；语音链路干扰模拟负责自动在输出语音的语音中迭加干扰信息，其语音是来源语音库合成的语音信息，干扰参数由用户自行设置；通信接口管理负责通信链接及信息交互，能将上级指令信息下达到控制对象，转换为模型或装备可执行的行为命令，并将控制对象反馈信息上传到上一级。

Claims

1.一种自动语音交互式兵力模型控制方法，其特征在于：自动语音交互式模型控制***通过网络、转换接口与各模型或装备实现信息互连，模型或装备配置的通信协议、行为触发规则，每个模型或装备根据接收到的***指令完成行动后，产生一个状态信息，并反馈到***，由***输出相应的语音信息；其具体步骤如下：

1）音频接收和发送管理,发出语音指令,是发令者发出语音指令，通过通信链路传入到语音交互式控制***的语音增强处理；

2）语音增强处理模块，将接收的语音信号经滤波增强信号后，传输至语音识别模块处理；

3）语音识别模块，采用bASR+NLP引擎,将滤波增强的语音信号转换成文字信号，将文字信号与语音库指令匹配；

4）语音库内与指令匹配的信号，输出到对应的调度***或仿真***；语音库用于语音与文字数据的记录与备份，包括音频输入、文字识别结果、神经网路训练数据、通信数据；用于文字的匹配度计算与分析，将文字信息组合成语音信息；根据要求输出语音与文字分别传输到语音链路干扰模拟装置、神经网络训练及通信接口；

5）调度***或仿真***，根据试验或训练内容进行重新训练学习，使***适应多类情况；即训练参数反馈至语音交互式控制***；

a调度***模式，此模式为配置仿真资源服务，该模式要求识别正确率尽可能地高，不能导致配置错误的情况，其中语音命令的匹配度要大于95%，基本要保证只能一条命令能匹配上，若不符合要求，则要求重新发送指令；

6）接收到调度或仿真***的反馈后，语音交互式控制***再通过语音或报文格式传输到发令者；

其中，本***只要启动，就处于唤醒状态，一直侦听音频输入信号，实时对语音自动识别，形成相应的指令输出于授课控制对象，而且，***还能够获得控制对象回复信息，并将回复信息转换成语音，输出给发令者指挥；

所述语音交互,是通过语音识别转换成文字，将文字分解为编号段和命令段，传输到与编号段相对应的模型或模块，完成协议指令要求的行为后，返回一个任务完成指令，***接收到完成指令后，由语音库搜索和选择相应的语音输出到音频设备，指挥者因此听到下级或上级的作战执行信息，并根据信息继续下一步的发出指令；在训练过程中，如果通信质量不好，则***会根据应用场景反馈“请重复”的语音回执；

所述语音库，将试验和训练中的常用命令格式转换了语音，语音的记录有两组方式，一组是将命令字直接用语音记录，并编ID号，每个ID号对应了命令字、命令字关键词和语音格式；另一组是将编号格式单独记录语音，根据指挥者语音中的编号信息进行重新组合。

2.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述音频接收和发送管理,为负责音频信号的接收，并将信号进行小波软阈值滤波，以及将模型或装备反馈的语音信息通过接口发送给发令者。

3.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述神经网络训练数据来源于数据库的格式数据，并将训练结果输送到ASR+NLP引擎。

4.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述语音链路干扰模拟装置，用于自动在输出语音的语音中迭加干扰信息，其语音是来源语音库合成的语音信息，干扰参数由用户自行设置。

5.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述通信接口管理负责通信链接及信息交互，用于将上级指令信息下达到控制对象，转换为模型或装备可执行的行为命令，并将控制对象反馈信息上传到上一级。

6.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述语音增强处理,是利用滤波的方法对音频信号干扰进行处理，包括随机噪声，干扰噪声；

1）随机噪声，用数字滤波其去除，即小波软阈值的去噪方法，能很好的降低语音信号的随机噪声，提升音质的清晰度；

2）干扰噪声，通过词库的匹配对比提升输出命令的正确率，匹配公式为：，其中Z为命令字的总字数，C为识别正确的字数，/>为命令关键词数，/>为识别正确的命令字关键词数，根据确定的匹配阈值θ，存在P大于θ的命令，则选择最大θ的作为最终的命令字；若不存在大于θ的命令，则认为语音识别失败。

7.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述***的应用模式包括：集中式运行模式和分布式运行模式；

1）集中式运行模式，即***作为中心单元运行，且***通过网络与各个模型或装备实现信息互连；模型或装备安装有通信协议转换接口，通过配置每个模型或装备的行为触发规则，模型或装备根据接收到的***指令完成行动后，产生一个状态信息，并反馈到***，由***输出相应的语音信息；

2）分布式运行模式，即将***安装于每个模型或装备上，***直接与模型或装备进行信息交互，信息链路切换由音频链路控制来实现，并能将反馈信息通过语音直接输送到指挥员。

8.根据权利要求1所述的一种自动语音交互式兵力模型控制方法，其特征在于：所述的自动语音交互式模型控制***，包括语音增强模块、语音识别模块、语音指令模块、语音识别训练模块，所述语音增强模块通过语音识别模块与语音指令模块相连，所述语音识别模块的输入端通过电缆与语音识别训练模块输出端相连，语音识别训练模块第一输入端为语音模式，第二输入端为电文本模式；所述语音增强模块用于将语音信号进行小波软阈值滤波处理，提高信噪比；语音识别模块用于自动将语音转化为文字；语音指令模块用于将文字转换为控制命令字；语音识别训练模块为确定ASR+NLP神经网络参数。