CN115240652A

CN115240652A - 一种应急广播敏感词识别方法

Info

Publication number: CN115240652A
Application number: CN202210619813.3A
Authority: CN
Inventors: 王闽
Original assignee: Fujian Newland Communication Science Technologies Co ltd
Current assignee: Fujian Newland Communication Science Technologies Co ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-25

Abstract

本发明提供了应急广播技术领域的一种应急广播敏感词识别方法，包括如下步骤：步骤S10、构建一Kaldi语音识别服务框架；步骤S20、获取大量的敏感词以及CMU词典，基于所述敏感词以及CMU词典创建一包含若干语料的语料库；步骤S30、利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取，得到若干个特征文件；步骤S40、将各所述特征文件输入Kaldi语音识别服务框架进行训练，得到一声学模型，并将所述声学模型发送给应急广播设备；步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识别。本发明的优点在于：极大的提升了应急广播敏感词识别的及时性以及准确性，极大的降低了识别成本。

Description

一种应急广播敏感词识别方法

技术领域

本发明涉及应急广播技术领域，特别指一种应急广播敏感词识别方法。

背景技术

应急广播对广播内容的审查极其严格，对广播安全的要求更是严苛。因为应急广播覆盖到各个美丽乡村，是重要的宣传阵地，需要对应急广播的内容进行实时甄别、监控，避免出现一些异常和负能量的言论，出现异常管控的言论输入时，应急广播***需要进行及时阻止，并发出告警。

目前应急广播接入信号源有麦克风、U盘、调频、线路等，其中麦克风的语音接入比较开放，自由度比较高，相对其他接入音源更加难监管。针对麦克风接入的信号源的监控(敏感词识别)，传统上存在如下方法：

方法一：对麦克风播出的语音进行录音供后期审核和监管，该方法无法做到实时监控和及时制止非法广播内容。

方法二：在播出设备上安装ASR语音识别硬件模块，该方法不仅识别率低下、错误率高，而且不能及时的修正，遇到方言时更是无法识别。

方法三：在服务器端安装语音识别框架进行云识别计算，该方法会对学习的过程和交互的效率造成影响，无法达到实时监控的目的。

方法四：申请成熟的云识别服务器计算，该方法存在识别费用高昂的缺点，且大部分的识别为无效识别，造成巨大浪费。

因此，如何提供一种应急广播敏感词识别方法，实现提升应急广播敏感词识别的及时性以及准确性，降低识别成本，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种应急广播敏感词识别方法，实现提升应急广播敏感词识别的及时性以及准确性，降低识别成本。

本发明是这样实现的：一种应急广播敏感词识别方法，包括如下步骤：

步骤S10、构建一Kaldi语音识别服务框架；

步骤S20、获取大量的敏感词以及CMU词典，基于所述敏感词以及CMU 词典创建一包含若干语料的语料库；

步骤S30、利用所述Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取，得到若干个特征文件；

步骤S40、将各所述特征文件输入Kaldi语音识别服务框架进行训练，得到一声学模型，并将所述声学模型发送给应急广播设备；

步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行敏感词识别。

进一步地，所述步骤S10具体为：

先安装CUB库，在所述CUB库的基础上安装OpenFst工具、MFCCs提取工具以及语言模型工具，进而构建Kaldi语音识别服务框架。

进一步地，所述语言模型工具为IRSTLM或者Kaldi_lm。

进一步地，所述步骤S20具体为：

获取大量的敏感词，将各所述敏感词转换为拼音并进行发音，基于所述发音获取各敏感词的敏感音素；

通过librispeech下载包含若干个标准语料的CMU词典；

通过人工匹配关联发音相近的所述标准语料，进而扩充所述CMU词典得到包含若干语料的语料库。

进一步地，所述标准语料为汉字、拼音、标准发音、标准音素的对应关系。

进一步地，所述步骤S30具体为：

利用所述OpenFst工具对语料库中的各语料进行解码，利用所述MFCCs 提取工具对各解码后的语料进行多维特征提取，得到若干个特征文件。

进一步地，所述步骤S30中，所述特征文件至少包括语料列表的表单、语料存档的表单、语料的读写声明符、发音词典以及音素表；各所述特征文件通过文件名进行归类，并存储在预设的文件夹中。

进一步地，所述步骤S30中，所述特征文件以二进制形式进行存储。

进一步地，所述步骤S40具体为：

将各所述特征文件输入语言模型工具进行训练，得到一声学模型，对所述声学模型进行MD5校验得到第一校验码，对所述声学模型以及第一校验码进行打包压缩得到一声学压缩包，利用加密算法对所述声学压缩包进行加密得到声学加密包，将所述声学加密包发送给应急广播设备。

进一步地，所述步骤S50具体包括：

步骤S51、应急广播设备接收所述声学加密包，利用加密算法解密所述声学加密包得到声学压缩包，解压所述声学压缩包得到声学模型以及第一校验码；

步骤S52、应急广播设备对所述声学模型进行MD5校验得到第二校验码，判断所述第二校验码与第一校验码是否相等，若是，则进入步骤S53；若否，则进入步骤S40；

步骤S53、应急广播设备通过麦克风获取输入的音频，对所述音频进行断句得到子音频，利用所述Kaldi语音识别服务框架对子音频进行解码以及特征提取后输入声学模型，得到敏感词识别结果；

步骤S54、对所述敏感词识别结果进行校验，判断是否识别正确，若是，则输出所述敏感词识别结果；若否，则利用对应的所述子音频对声学模型进行再次训练。

本发明的优点在于：

1、通过构建的Kaldi语音识别服务框架对语料库中的各语料进行解码以及特征提取，得到若干个特征文件；再将各特征文件输入Kaldi语音识别服务框架进行训练，得到声学模型并将发送给应急广播设备，应急广播设备基于接收的声学模型对麦克风输入的音频进行实时的敏感词识别，进而极大的提升了应急广播敏感词识别的及时性。

2、由于中国方言数量众多，一些小众的方言没有任何参考的标准语料，导致通过小众方言发音的敏感词的识别准确性不高；本发明将预设的敏感词转换为拼音并利用各种方言分别进行发音，基于发音获取各敏感词的敏感音素，再利用敏感音素从CMU词典中匹配关联标准音素，即通过现有的CMU 词典反向查找发音相近的敏感音素，进而构建新的语料库，再利用构建的语料库训练得到声学模型，基于声学模型对麦克风输入的音频进行敏感词识别，进而极大的提升了应急广播敏感词识别的准确性，无需购买云识别服务器进行计算，进而极大的降低了应急广播敏感词识别的成本。

3、通过对声学模型识别得到的敏感词识别结果进行校验，若识别不正确，则利用对应的子音频对声学模型进行再次训练，保障下次能正确识别相同的敏感词，进一步提升了应急广播敏感词识别的准确性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种应急广播敏感词识别方法的流程图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：通过构建的Kaldi语音识别服务框架对特征文件进行训练得到声学模型，并将声学模型发送给应急广播设备，应急广播设备基于接收的声学模型对麦克风输入的音频进行实时的敏感词识别，以提升应急广播敏感词识别的及时性；通过现有的CMU词典反向查找方言发音相近的敏感音素，以构建包含各种方言发音的敏感词的语料库，再利用构建的语料库训练得到声学模型，基于声学模型进行敏感词识别，识别不正确时利用对应的子音频对声学模型进行再次训练，以提升应急广播敏感词识别的准确性；应急广播设备通过接收的声学模型即可进行敏感词识别，无需购买云识别服务器进行计算，以降低应急广播敏感词识别的成本。

请参照图1所示，本发明一种应急广播敏感词识别方法的较佳实施例，包括如下步骤：

步骤S10、构建一Kaldi语音识别服务框架；

步骤S50、应急广播设备基于接收的所述声学模型对麦克风输入的音频进行实时的敏感词识别。

所述步骤S10具体为：

先安装CUB库，在所述CUB库的基础上安装OpenFst工具(Open faster 解码器)、MFCCs(compute-mfcc-feats)提取工具以及语言模型工具，进而构建Kaldi语音识别服务框架。

所述Kaldi语音识别服务框架开源的，使用Apache Licence Version2.0 开源协议，通过GitHub进行管理。所述OpenFst工具的实现原理相对简单, 使用令牌裁剪策略提高解码速度，适合于应急广播中实时的语音输入解码；所述CUB库是CUDA核函数开发库，是Kaldi编译的依赖库之一。为了便于移植到应急广播设备中，所述Kaldi语音识别服务框架采用统一的linux 版本静态编译Kaldi代码。

所述语言模型工具为IRSTLM或者Kaldi_lm。

所述步骤S20具体为：

获取大量的敏感词，将各所述敏感词转换为拼音并利用各种方言分别进行发音，基于所述发音获取各敏感词的敏感音素；

通过librispeech下载包含若干个标准语料的CMU词典；

通过人工匹配关联发音相近的所述标准语料(敏感音素以及标准音素)，进而扩充所述CMU词典得到包含若干语料的语料库。

所述标准语料为汉字、拼音、标准发音、标准音素的对应关系。

由于应急广播设备覆盖的区域存在众多方言，而CMU词典只包括广东话、闽南话等一些大众的方言，无法用于识别小众方言的敏感词，因此通过标准音素和敏感音素来扩充CMU词典。

例如“一”的拼音为yi，将填写的拼音进行声母和韵母分离，生成词条文件yivocab，字典文件yidict，而通过拼音来标注发音，会造成识别率很低，因为拼音的声调比较多样化，比如“一”，“疑”，“已”，“易”都可以用yi来标注，那么就需要借助CMU词典，通过整理CMU词典生成多种音频脚本：extra_questions.txt，silence_phones.txt， optional_silence.txt，里面表述了音素的属性，比如：AA表示重音，AA2 表示音调2，AA5表示轻声；通过匹配音素即可扩充CMU词典。

所述步骤S30具体为：

由于麦克风输入为波形采样，一般是不能直接用于识别，相同的内容通过采样后获取的波形可能差别很大，但是相同内容的音频有相同的特征，因此需要进行特征提取。

所述步骤S30中，所述特征文件至少包括语料列表的表单、语料存档的表单、语料的读写声明符、发音词典以及音素表；各所述特征文件通过文件名进行归类，并存储在预设的文件夹中。

所述步骤S30中，所述特征文件以二进制形式进行存储。

所述步骤S40具体为：

将各所述特征文件输入语言模型工具进行训练，得到一声学模型，对所述声学模型进行MD5校验得到第一校验码，对所述声学模型以及第一校验码进行打包压缩得到一声学压缩包，利用加密算法对所述声学压缩包进行加密得到声学加密包，将所述声学加密包发送给应急广播设备。通过MD5校验能快速验证数据的完整性，通过加密算法进行加解密极大的保障了数据的安全性。

所述步骤S50具体包括：

解码的过程也叫构图(Make Graph)，由于OpenFst工具只能对一个单句进行构图，因此，在实时解码时，需要对所述音频进行断句，断句能快速过滤并切分长的所述音频中有波形的人声片段；断句得到的所述子音频采用循环队列的方式进行存储，即对循环队列中的各所述子音频进行实时的敏感词识别；所述声学模型采用路径搜索的方式进行敏感词识别；

步骤S54、对所述敏感词识别结果进行校验，判断是否识别正确，若是，则输出所述敏感词识别结果；若否，则利用对应的所述子音频对声学模型进行再次训练。校验所述敏感词识别结果时，可结合断句的前后多个所述子音频，作为上下文语义参考。

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种应急广播敏感词识别方法，其特征在于：包括如下步骤：

步骤S10、构建一Kaldi语音识别服务框架；

步骤S20、获取大量的敏感词以及CMU词典，基于所述敏感词以及CMU词典创建一包含若干语料的语料库；

2.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S10具体为：

3.如权利要求2所述的一种应急广播敏感词识别方法，其特征在于：所述语言模型工具为IRSTLM或者Kaldi_lm。

4.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S20具体为：

通过librispeech下载包含若干个标准语料的CMU词典；

5.如权利要求4所述的一种应急广播敏感词识别方法，其特征在于：所述标准语料为汉字、拼音、标准发音、标准音素的对应关系。

6.如权利要求2所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S30具体为：

利用所述OpenFst工具对语料库中的各语料进行解码，利用所述MFCCs提取工具对各解码后的语料进行多维特征提取，得到若干个特征文件。

7.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S30中，所述特征文件至少包括语料列表的表单、语料存档的表单、语料的读写声明符、发音词典以及音素表；各所述特征文件通过文件名进行归类，并存储在预设的文件夹中。

8.如权利要求1所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S30中，所述特征文件以二进制形式进行存储。

9.如权利要求2所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S40具体为：

10.如权利要求9所述的一种应急广播敏感词识别方法，其特征在于：所述步骤S50具体包括：