CN113948065B

CN113948065B - 基于n-gram模型的错误拦截词筛选方法及***

Info

Publication number: CN113948065B
Application number: CN202111020788.9A
Authority: CN
Inventors: 冉小龙; 唐会军; 刘拴林; 梁堃; 陈建
Original assignee: Beijing Nextdata Times Technology Co ltd
Current assignee: Beijing Nextdata Times Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-07-08
Anticipated expiration: 2041-09-01
Also published as: CN113948065A

Abstract

本发明公开了基于n‑gram模型的错误拦截词筛选方法及***，涉及网络安全技术领域。该方法包括：获取基于特定标签下的拦截词拦截的音频转译文本数据；通过n‑gram模型对文本数据进行处理，从文本数据中筛选出特定标签中没有存储的数据作为回退信息；根据回退信息确定包含错误拦截词的句子。本发明适用于违禁词和敏感词的拦截，尤其是音频转译文本数据的违禁词和敏感词拦截，能够快速找到拦截错误的句子和错误的拦截词，后续可根据得到的错误拦截词对违禁词库进行完善和优化，从而提高对应拦截词的拦截准确率和整体的拦截准确率。

Description

基于n-gram模型的错误拦截词筛选方法及***

技术领域

本发明涉及网络安全技术领域，尤其涉及基于n-gram模型的错误拦截词筛选方法及***。

背景技术

互联网上的内容与日俱增，这些信息常常包含违规非法信息，因此需要对这些内容进行审核和过滤，以保证安全的互联网环境和业务需求。

目前，审核的方式通常是设置违禁词库和用户自定义黑/白词库的方式，对违禁词和敏感词进行拦截。然而，现有的拦截方法仅仅是针对词本身进行拦截，难以挖掘上下文的语义，因此导致拦截的准确率较低，尤其是对于语音转文本的数据拦截，由于存在同音词、发音相近的词和方言等，导致拦截的准确率进一步降低。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供基于n-gram模型的错误拦截词筛选***，通过对错误拦截词进行筛选，能够提高对应拦截词的拦截准确率和整体的拦截准确率。

本发明解决上述技术问题的技术方案如下：

一种基于n-gram模型的错误拦截词筛选方法，包括：

获取基于特定标签下的拦截词拦截的音频转译文本数据；

通过n-gram模型对所述文本数据进行处理，从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息；

根据所述回退信息确定包含错误拦截词的句子。

本发明解决上述技术问题的另一种技术方案如下：

一种基于n-gram模型的错误拦截词筛选***，包括：

获取单元，用于获取基于特定标签下的拦截词拦截的音频转译文本数据；

处理单元，用于通过n-gram模型对所述文本数据进行处理，从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息；

筛选单元，用于根据所述回退信息确定包含错误拦截词的句子。

本发明的有益效果是：本发明提供的错误拦截词筛选方法及***，适用于违禁词和敏感词的拦截，尤其是音频转译文本数据的违禁词和敏感词拦截，通过使用n-gram模型确定回退信息，再根据回退信息确定包含错误拦截词的句子，能够快速找到拦截错误的句子和错误的拦截词，后续可根据得到的错误拦截词对违禁词库进行完善和优化，从而提高对应拦截词的拦截准确率和整体的拦截准确率。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明错误拦截词筛选方法的实施例提供的流程示意图；

图2为本发明错误拦截词筛选方法的实施例提供的ppl打分结果示意图；

图3为本发明错误拦截词筛选***的实施例提供的结构框架示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明错误拦截词筛选方法的实施例提供的流程示意图，该错误拦截词筛选方法基于n-gram模型实现，包括：

S1，获取基于特定标签下的拦截词拦截的音频转译文本数据；

需要说明的是，具体的标签类型可以根据实际的业务需求设置，例如，可以简单的将标签分为3个类别，分别是A领域敏感标签、B领域敏感标签和正常标签，每个类别的标签的拦截词可以根据实际需求设置，例如，A领域敏感标签的拦截词可以为：A1、A2和A3，其中，A1、A2和A3分别为A领域具体的需要拦截的词汇。

而对于音频转译文本数据，可能出现拦截错误，例如，读博与赌博谐音，假设赌博是某特定标签下的拦截词，当音频中出现读博时，如果转换出现错误，将读博转译为赌博，那么就会导致转译得到的文本数据被拦截，从而影响拦截的准确率。

具体地，本领域技术人员可以通过声学模型实现音频转译成文本数据，具体的声学模型可以根据实现需求选择，在此不再赘述。

S2，通过n-gram模型对文本数据进行处理，从文本数据中筛选出特定标签中没有存储的数据作为回退信息；

需要说明的是，n-gram模型是一个预测当前词仅与前n-1个词相关的一个概率模型。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。

每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。

例如，假设对于法律法规方面的标签，可以基于其规定的拦截词对设计法律标签的文本进行拦截，那么可以通过步骤S1基于ASR转译出的拦截文本示例“来了，我知道今天，我就今，罪犯来过一次”，然后将其进行处理后，得到“来了我知道今天我就今罪犯来过一次”，然后使用4-gram语言模型对这条处理后的句子进行ppl打分，得到的结果如图2所示。

图2中，每一行表示计算到该词的概率，例如，以p（我|了…）为例，其计算得到“我”这个词的概率为0.0452354，因为这是一个4gram，只与前3个词相关。

等号后面，第一列[xgram]是表示计算到该词时，使用的是 xgram 的概率，如果这里显示为1gram，就证明该模型的训练语料中没有对应的句子，或者是词组。该词出现就是一个纯概率的比拼，当n-gram语言模型的训练数据含有较多的特定标签的拦截词时，回退到1gram就会造成该特定标签的拦截词的准确率下降；针对这种现象，本发明提出这种筛选数据方案来优化标签的准确率。

S3，根据回退信息确定包含错误拦截词的句子。

例如，可以通过回退信息筛选文本内饰件，得到包含错误拦截词的句子。

本实施例提供的错误拦截词筛选方法及***，适用于违禁词和敏感词的拦截，尤其是音频转译文本数据的违禁词和敏感词拦截，通过使用n-gram模型确定回退信息，再根据回退信息确定包含错误拦截词的句子，能够快速找到拦截错误的句子和错误的拦截词，后续可根据得到的错误拦截词对违禁词库进行完善和优化，从而提高对应拦截词的拦截准确率和整体的拦截准确率。

可选地，在一些可能的实施方式中，通过n-gram模型对文本数据进行处理，从文本数据中筛选出特定标签中没有存储的数据作为回退信息，具体包括：

对文本数据进行预处理；

通过n-gram模型对预处理后的文本数据进行ppl打分；

根据ppl打分结果，将1-gram对应的数据作为回退信息；

其中，预处理的方式与训练n-gram模型时对训练数据的处理方式相同。

应理解，如果现实为1gram，如图2所述，表明罪犯这个词在法律标签的领域没有对应的句子或词组，那么罪犯这个词的出现就是纯概率的问题，因此，可以使用每条句子对应拦截词筛选出拦截词回退到1gram的句子，从而优化法律标签下的拦截准确率。

需要说明的是，为了使n-gram模型能够准确地识别文本数据，通常在输入到n-gram模型之前，需要对输入的数据进行预处理，例如，以“来了，我知道今天，我就今，罪犯来过一次”为例，需要对该句子进行词汇的拆分，得到“来了我知道今天我就今罪犯来过一次”，因此，在对数据进行处理时，需要采用与训练时相同的预处理方式，对输入的文本数据进行处理。

通过对文本数据进行预处理，能够提高n-gram模型的处理效率和准确率。

可选地，在一些可能的实施方式中，根据回退信息确定包含错误拦截词的句子，具体包括：

使用文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。

可选地，在一些可能的实施方式中，还包括：

对筛选出的包含错误拦截词的句子进行标注，加入声学训练。

通过对筛选出的包含错误拦截词的句子进行标注，进行声学训练，能够使后续模型遇到该类句子能转译更加准确。

可选地，在一些可能的实施方式中，对筛选出的包含错误拦截词的句子进行标注，加入声学训练，具体包括：

对筛选出的包含错误拦截词的句子进行修改，使包含错误拦截词的句子与被转译的音频内容相同；

通过标注后的包含错误拦截词的句子训练声学模型。

可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图3所示，为本发明错误拦截词筛选***的实施例提供的结构框架示意图，该错误拦截词筛选***基于n-gram模型实现，包括：

获取单元10，用于获取基于特定标签下的拦截词拦截的音频转译文本数据；

处理单元20，用于通过n-gram模型对文本数据进行处理，从文本数据中筛选出特定标签中没有存储的数据作为回退信息；

筛选单元30，用于根据回退信息确定包含错误拦截词的句子。

可选地，在一些可能的实施方式中，处理单元20具体用于对文本数据进行预处理；

通过n-gram模型对预处理后的文本数据进行ppl打分；

根据ppl打分结果，将1-gram对应的数据作为回退信息；

可选地，在一些可能的实施方式中，筛选单元30具体用于使用文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。

可选地，在一些可能的实施方式中，还包括：

训练单元，用于对筛选出的包含错误拦截词的句子进行标注，加入声学训练。

可选地，在一些可能的实施方式中，训练单元具体用于对筛选出的包含错误拦截词的句子进行修改，使包含错误拦截词的句子与被转译的音频内容相同；

通过标注后的包含错误拦截词的句子训练声学模型。

需要说明的是，上述各实施方式是与在先方法实施例对应的产品实施例，对于产品实施方式的说明可以参考上述各方法实施方式中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于n-gram模型的错误拦截词筛选方法，其特征在于，包括：

获取基于特定标签下的拦截词拦截的音频转译文本数据；

根据所述回退信息确定包含错误拦截词的句子；

通过n-gram模型对所述文本数据进行处理，从所述文本数据中筛选出所述特定标签中没有存储的数据作为回退信息，具体包括：

对所述文本数据进行预处理；

通过n-gram模型对预处理后的所述文本数据进行ppl打分；

根据ppl打分结果，将1-gram对应的数据作为回退信息；

其中，所述预处理的方式与训练所述n-gram模型时对训练数据的处理方式相同。

2.根据权利要求1所述的基于n-gram模型的错误拦截词筛选方法，其特征在于，根据所述回退信息确定包含错误拦截词的句子，具体包括：

使用所述文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。

3.根据权利要求1或2所述的基于n-gram模型的错误拦截词筛选方法，其特征在于，还包括：

4.根据权利要求3所述的基于n-gram模型的错误拦截词筛选方法，其特征在于，对筛选出的包含错误拦截词的句子进行标注，加入声学训练，具体包括：

对筛选出的包含错误拦截词的句子进行修改，使所述包含错误拦截词的句子与被转译的音频内容相同；

通过标注后的所述包含错误拦截词的句子训练声学模型。

5.一种基于n-gram模型的错误拦截词筛选***，其特征在于，包括：

筛选单元，用于根据所述回退信息确定包含错误拦截词的句子；

所述处理单元具体用于对所述文本数据进行预处理；

通过n-gram模型对预处理后的所述文本数据进行ppl打分；

根据ppl打分结果，将1-gram对应的数据作为回退信息；

6.根据权利要求5所述的基于n-gram模型的错误拦截词筛选***，其特征在于，所述筛选单元具体用于使用所述文本数据中每条句子对应的拦截词筛选出拦截词回退到1gram的句子。

7.根据权利要求5或6所述的基于n-gram模型的错误拦截词筛选***，其特征在于，还包括：

8.根据权利要求7所述的基于n-gram模型的错误拦截词筛选***，其特征在于，所述训练单元具体用于对筛选出的包含错误拦截词的句子进行修改，使所述包含错误拦截词的句子与被转译的音频内容相同；

通过标注后的所述包含错误拦截词的句子训练声学模型。