CN111368529B

CN111368529B - 基于边缘计算的移动终端敏感词识别方法、装置及***

Info

Publication number: CN111368529B
Application number: CN202010184805.1A
Authority: CN
Inventors: 赵国锋; 陈震; 徐川; 王新恒
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-07-01
Anticipated expiration: 2040-03-17
Also published as: CN111368529A

Abstract

本发明涉及移动互联网信息安全领域，涉及一种基于边缘计算的移动终端敏感词识别方法、装置及***；所述方法包括移动终端输入待识别的文本信息；移动终端基于本地词库，采用双数组字典树匹配过滤算法对输入的文本信息进行过滤，并将过滤后的文本信息发送至边缘计算节点；边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学***台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端；移动终端接收边缘节点下发的边缘词库，对本地词库进行更新；本发明改进了双数组算法，能够有效降低匹配过滤算法的内存开销，可以使其良好的运行于资源有限的移动终端平台。

Description

基于边缘计算的移动终端敏感词识别方法、装置及***

技术领域

本发明涉及移动互联网信息安全领域，具体涉及一种基于边缘计算的移动终端敏感词识别方法、装置及***。

背景技术

随着我国经济、社会及信息技术的不断发展，人们正越来越多的依赖于从互联网上获取自己所需的信息，互联网应用已渗入到人们生活的各个方面。与此同时，人们也不再单纯地依靠个人计算机来进行互联网的冲浪活动，以智能手机、平板电脑为代表的移动互联网设备正成为人们随时随地进行网络互联并获取信息的便捷通道。伴随着移动互联网的快速发展，网络信息也愈发鱼龙混杂。有些不法分子利用移动互联网高速传播和受众广泛的特点，在网络上发布一些广告、诈骗、色情等低俗信息，甚至有人传播一些危害国家安全的反动信息。这些现象使得网络环境恶化，极大危害了用户的利益，因此对移动互联网上的非法信息进行过滤十分必要。

多模式匹配算法是信息识别***的关键技术，能够对互联网上传播的信息进行多敏感词同时检索匹配，为用户提供了绿色安全的网络空间。通过部署模式匹配算法，互联网空间能够大量净化广告、诈骗等不良信息，减少给用户带来的困扰和损失；阻止谣言、反动等信息传播，维护互联网的安定、繁荣。为大家打造一个和谐、舒适的网络环境。

多模式匹配算法在当前的信息识别***中广泛应用，它虽然能够有效提高信息匹配效率，但是没有考虑到资源的开销问题，不适合在移动终端上应用部署。在移动终端有限的资源和低功耗场景下，如何处理好匹配效率和资源开销之间的关系成为主要研究问题。

发明内容

鉴于上述现有技术中的资源开销大的问题，本发明要解决的问题是提供一种针对资源开销进行优化的信息识别方法与***，使移动终端在低功耗的场景下流畅地进行信息过滤。

为达到上述问题，本发明提供基于边缘计算的移动终端敏感词识别方法、装置及***。

在本发明的第一方面，本发明提供了一种基于边缘计算的移动终端敏感词识别方法，所述方法包括以下步骤：

移动终端输入待识别的文本信息；

移动终端基于本地词库，采用双数组字典树匹配过滤算法对输入的文本信息进行过滤，并将过滤后的文本信息发送至边缘计算节点；

边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学习模型中，识别出文本信息中的敏感词集，并形成边缘词库；

边缘计算平台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端；

移动终端接收边缘节点下发的边缘词库，对所述本地词库进行更新。

在本发明的第二方面，本发明提供了一种基于边缘计算的移动终端敏感词识别装置，所述装置包括：

文本输入模块，用于输入待识别的文本信息；

本地词库模块，用于构建本地词库；

过滤模块，基于本地词库对输入的文本信息进行过滤；

聚合模块，通过分级缓存机制处理移动终端上传的信息；

识别模块，用于通过训练完成后的深度学习模型识别出输入的文本信息的敏感词集；

边缘词库模块，用于构建边缘词库；

触发更新模块，用于在一定时间间隔内，将边缘词库发送至移动终端，对本地词库进行更新。

在本发明的第三方面，本发明还提供了一种基于边缘计算的移动终端敏感词识别***，包括移动终端层以及边缘计算层；所述边缘计算层包括上述的聚合模块、识别模块、边缘词库模块以及触发更新模块；所述移动终端层中每一个移动终端包括上述的本地词库模块和过滤模块。

与现有技术相比，本发明具有以下有益效果：

本发明通过在移动终端处理待过滤的文本消息后，改进了双数组算法，提高其空间利用率，能够有效降低匹配过滤算法的内存开销，可以使其良好的运行于资源有限的移动终端平台。采用TF_IDF算法能够非常容易且快速的提取出文本信息的关键词汇；采用LSTM深度学***台对敏感词库进行维护，保证敏感词集的简洁、高效，进一步降低终端匹配算法的资源开销。

附图说明

图1为本发明基于边缘计算的移动终端敏感词识别***网络拓扑图；

图2为本发明基于边缘计算的移动终端敏感词识别***架构图；

图3为本发明深度学习模型结构图；

图4为本发明基于边缘计算的移动终端敏感词识别方法一个实施例中的整体流程图；

图5为本发明基于边缘计算的移动终端敏感词识别方法另一个实施例中整体流程图；

图6为本发明终端模式匹配算法流程图；

图7为本发明双数组字典树构建过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

图1是本发明实施例的一种基于边缘计算平台的移动终端敏感词识别***的网络拓扑图，移动终端借助可以通过定制输入法过滤信息，利用边缘计算平台强大的计算能力进行敏感词库的更新。移动终端为用户接入网络时所使用的智能手机、PDA、平板电脑等各种移动终端设备，在移动终端上利用双数组字典(trie)树匹配算法过滤用户输入信息中的敏感词；边缘计算平台在靠近移动终端侧的基站处搭建边缘计算平台，利用边缘平台强大的计算能力去检测移动终端上传的待识别的文本信息是否仍存在敏感词，并将高频敏感词收录边缘词库，帮助移动终端更新本地词库。

在一个实施例中，如图2所示，一种基于边缘计算平台的移动终端敏感词识别***，主要分为移动终端层和边缘计算层：

终端设备层包括多个移动终端，在移动终端上使用定制的输入法应用，该移动终端中至少包括文本输入模块、过滤模块以及本地词库模块。文本输入模块获取用户发布的网络信息，将之传递给过滤模块；过滤模块利用双数组字典树匹配算法过滤文本信息中的敏感词，输出过滤后的文本信息，同时将文本信息上传至边缘节点；本地词库模块预设有匹配算法的敏感词库，同时可以接收边缘节点下发的信息，更新本地词库。

边缘计算层分为聚合模块、识别模块、边缘词库模块。聚合模块整合当前边缘节点覆盖范围内移动终端所上传的信息，将之传递给识别模块。识别模块通过深度学习模型处理文本信息，可以得到其中的敏感词集合。边缘词库模块统计得到的敏感词，将其中的高频词汇加入边缘词库。

在一个实施例中，一种基于边缘计算的移动终端敏感词识别装置包括：

文本输入模块，用于输入待识别的文本信息；

本地词库模块，用于构建本地词库；

过滤模块，基于本地词库对输入的文本信息进行过滤；

聚合模块，通过分级缓存机制处理移动终端上传的信息；

边缘词库模块，用于构建边缘词库；

在一个优选实现方式中，所述聚合模块包括：

第一缓存单元，用于存储移动终端上传的文本信息；

第二缓存单元，用于将同一时间间隔内第一缓存单元的文本信息进行聚合；

信息评估单元，用于通过阈值评估第二缓存单元所聚合的文本信息量；

分割单元，将超过阈值的文本信息量进行分割。

在一个优选实施例中，所述识别模块包括：

输入层，输入边缘节点的文本信息；

筛选层，通过TF-IDF算法处理输入的文本信息中各个词汇即目标文本队列，选择出关键词汇或关键词队列；

向量层，将关键词汇集合转化为词向量集；

LSTM网络层，将词向量集进行偏转，形成偏移向量集；

Softmax输出层，计算偏移向量集中词向量的转移概率，判别每一个词向量所属的类别，然后将敏感词集存储于敏感词集。

图3为边缘节点的识别模块所应用的深度学习模型示意图，该深度学习模型作为自动识别模型分为输入层、筛选层、向量层、LSTM层和softmax层。

输入层：识别模块接收信息文本s，将之导入输入层。输入层在深度学习模型中主要是对信息文本进行标准化处理，以500字为标准对文本信息进行等量分割，将输入的文本信息中各个词汇形成目标文本队列{x,y,z.....}，并用字符串数组Z存储目标文本队列，将其传递给筛选层。

筛选层：筛选层在模型中用于剔除多余文本，获取有效信息。经由TF-IDF算法处理目标文本队列Z，计算目标文本队列中词汇的td-idf特征向量值，根据其值递减排序取前10个词汇加入关键词队列。然后使用hashset集合q存储关键词集，并将之传递给向量层。

向量层：向量层用于词集的向量化，便于模型的进一步计算。使用word2vec来处理关键词集合q，将之转化为词向量集q₁。

LSTM层：LSTM层根据训练模型对词向量进行处理，提取相关特征。将关键词向量集q₁导入训练好的LSTM模型，经过计算得到偏移向量集q₂，然后将之传递给softmax层。

softmax层：计算偏移向量集q₂中词向量的转移概率，根据转移概率所在的区间判别每一个词向量所属的类别，然后将敏感类别的词集存储于hashset集合m。

信息文本导入模型后，由输入层进行统一的标准化处理，之后经筛选层剔除无效文本来获取关键词集，向量层对关键词进行向量化，便于下一步的计算；然后，将向量集通过LSTM层所训练的模型进行特征提取，再由softmax层经过转移概率的计算获取每一个词向量对应的类别，最终将敏感词集输出。

本发明基于边缘计算的移动终端敏感词识别方法中，边缘计算节点部署的深度学习模型通过TF-IDF算法来清除目标文本队列中多余的内容，保留其中的关键词汇。TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术；如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，非常适合用来分类，因此本发明采用该算法来提取关键词汇。

TF-IDF算法获取关键词汇的过程如下：

首先，计算每段输入的文本信息中各个词汇的TF-IDF特征向量，然后根据特征向量的递减排序取前N个词汇(本实施例N＝10)加入关键词队列：

其中，tf指文本信息中的词频，也就是这个词在文本中出现的次数。idf指逆文档频率，是一个用来衡量词汇常见程度的值。通过计算tf与idf乘积的值，可以比较词汇的重要程度。n_i为目标文本中第i个词汇在该文本中出现的次数，d_i为目标文本中总的词汇数；|s|表示算法语料库中总文本数量，|{j:t_i∈s_j}|表示语料库中出现词汇t_i的文本数量。

本发明基于边缘计算的移动终端敏感词识别方法中，边缘计算节点部署的深度学习模型通过LSTM算法来对关键词汇进行检测，长短期记忆网络(LSTM，Long Short-TermMemory)是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。本发明为了最小化训练误差，采用梯度下降法(Gradient descent)如：应用时序性倒传递算法，用来依据错误修改每次的权重。

具体的，其所用LSTM模型的构造过程如下：

首先，从互联网上分别选取等量的普通文本、敏感文本作为语料集，组建语料库，其中的文本语料分为训练集、验证集和测试集；然后，在LSTM层采用单向LSTM模型，双层LSTM隐层，每层隐层包含了64个节点，每批处理的数据量为64，训练过程采用早停原则，准确率大于90％后停止训练；最终，通过LSTM算法原理训练和验证，选取准确率大于93％的模型进行参数固化。

图4所示为一种基于边缘计算的移动终端敏感词识别方法，在一个实施例中，其包括以下步骤：

移动终端输入待识别的文本信息；

图5所示为一种基于边缘计算的移动终端敏感词识别方法，其还可以包括以下步骤：

101：用户在移动终端通过输入法输入文本信息；

102：移动终端输入法通过双数组字典树匹配算法过滤掉文本信息中的敏感词；

103：移动终端输出过滤后的文本信息，同时利用LTE、WIFI链路将之上传至边缘节点；

104：边缘平台接收覆盖区域内移动终端上传的文本信息并进行聚合；

105：边缘平台将文本信息导入深度学习模型，获取其中的敏感词集；

106：边缘平台统计分析所得到的敏感词，选取高频词汇建立边缘词库；

107：边缘节点通过LTE、WIFI等无线链路将边缘词库下发至移动终端；

108：移动终端接收边缘节点下发的信息，完成本地词库的更新。

图6所示为移动终端模式匹配算法的过滤流程，也即采用双数组字典树匹配过滤算法对输入的文本信息进行过滤；具体步骤如下：

201：对预设的移动终端敏感词库按照词汇首字的ASCII码进行递增排序，减少构建字典trie树过程中的冲突；

202：顺序扫描敏感词库，依次构建trie树。扫描到词汇后，首先查找trie树中是否存在和当前词汇具有共同前缀的子树，如果存在就以***的方式构造其分支节点，如果不存在则构建新的trie子树；

203：使用退火算法对trie树节点进行排序，优先取分支节点较多的节点构建双数组，从而降低冲突、减少数据稀疏；

204：结合数组和链表结构的特点，以数组块结构的形式来构建双数组，充分利用碎片空间；

205：对待识别的文本信息按照前缀查找，依据自动机状态转移进行文本匹配；按照匹配结果对文本信息进行过滤。

图7所示为双数组构建过程，具体步骤如下：

首先要根据敏感词集来构造trie树，设定敏感词集为S(SAC、SAD、SAE、SBF)，对敏感词集S进行顺序扫描，优先构造SAC子树，之后再依次在A节点***AD、AE分支，最后构造SBF子树。

然后，构建双数组结构来保存trie树信息。设定一个合适的数组块的初值P，使碎片内存有足够的空间创建数组，之后再根据数组块的初值P来初始化BASE、CHECK数组块。

最终，根据trie节点的子节点数量来顺序存储trie树信息。采用退火算法对trie树各节点进行子节点数值的排序，优先将子节点数目最多的节点信息存入base、check数组。完成所有trie树信息的存储后对trie树进行销毁，释放相应的空间。

其中，双数组中的元素s可由base[s]和trie中的节点s对应的check[s]组成。下面的方程显示了一个从节点s到节点t的带有字符c的弧：

base[s]+c＝t

check[t]＝s

状态s与t对应数组下标，当输入为c时,状态s会向状态t转移。与base数组平行的check数组中check[t]＝s,check数组记录着t状态从哪个状态转换而来。

上述本发明基于边缘计算的移动终端敏感词识别方法中，所述的双数组trie树匹配算法具有以下特点：

关于trie树构造：双数组trie树采用数组结构来存储trie树的信息，首先要根据设定的敏感词集来构建对应的trie树结构，顺序扫描敏感词集，以节点***的方式构建trie树。扫描到词汇时，首先在当前的trie树中查找是否存在和本词汇具有共同前缀的子树，如果存在就在共同前缀后开辟分支子树，如果不存在则构建新的trie子树。

关于数组结构：利用链表中内存地址不连续的特点改造数组结构，通过在数组末尾添加指针的方式指向下一内存片，以数组块的形式存储trie树信息，减少碎片内存的浪费。

关于节点排序：trie树中节点在双数组中的位置都是由其父节点也就是上一状态base值所决定。在构建双数组的过程中使用退火算法，依据子节点的数目对trie树节点进行启发式排序，优先处理分支较多的节点，减少查找base值时的冲突。其中base数组存储当前节点信息，check数组存储当前节点的父节点信息。

可以理解的是，本发明中基于边缘计算的移动终端敏感词识别方法、装置及***的部分特征可以相互引用，为了不再追诉，本发明不再一一例举。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于边缘计算的移动终端敏感词识别方法，其特征在于，所述方法包括：

移动终端输入待识别的文本信息；

所述采用双数组字典树匹配过滤算法对输入的文本信息进行过滤包括：

步骤1：在移动终端的本地词库中预设敏感词库，按照敏感词汇首字对应的ASCII码值进行递增排序；

步骤2：依照从上到下的顺序对敏感词库进行扫描，读入所有敏感词汇，将敏感词汇作为节点，以***的方式逐次构造出字典树；

步骤3：对字典树的各个节点使用退火算法，按照其子节点的数量进行最优排序，优先选取分支多的节点进行双数组构造；

步骤4：结合链表结构中物理内存不连续的特点改造数组结构，采用数组块的形式对分支多的节点进行双数组构造；

步骤5：对待识别的文本信息按照前缀查找，依据自动机状态转移进行文本匹配；按照匹配结果对文本信息进行过滤；

2.根据权利要求1所述的一种基于边缘计算的移动终端敏感词识别方法，其特征在于，所述边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学***台通过分级缓存机制处理移动终端上传的信息；移动终端将文本信息上传后，边缘节点的一级缓存来处理各移动终端上传的文本信息，并按先后顺序整理为文本队列；一级缓存设定了固定的时间间隔，将同一固定时间间隔内的文本队列整合为一段文本信息，发送至二级缓存；二级缓存设定阈值来评估文本信息量，若文本信息量超过阈值，则将超过阈值的文本信息进行分割并输入到训练完成后的深度学习模型中。

3.根据权利要求2所述的一种基于边缘计算的移动终端敏感词识别方法，其特征在于，所述识别出文本信息中的敏感词集包括采用TF-IDF算法提取出文本信息的关键词汇；采用LSTM算法对关键词汇进行归类识别，构建出深度学习模型；采用语料库对所述深度学习模型进行训练，当识别率大于90％时，训练完成，并输入边缘计算节点的文本信息，从而识别出待识别的文本信息的敏感词集。

4.根据权利要求3所述的一种基于边缘计算的移动终端敏感词识别方法，其特征在于，所述采用TF-IDF算法提取出文本信息的关键词语包括计算每段输入的文本信息中各个词汇的TF-IDF特征向量；根据特征向量的重要程度递减的顺序，选择前N个词汇作为关键词队列；特征向量的重要程度表示为：

其中，TF-IDF_i表示第i个词汇的重要程度；TF表示文本信息中的词频；IDF表示逆文档频率；n_i为目标文本中第i个词汇在该文本中出现的次数，d_i为目标文本中总的词汇数；|s|表示本地词库中总文本数量；|{j:t_i∈s_j}|表示语料库中出现词汇t_i的文本数量。

5.根据权利要求3所述的一种基于边缘计算的移动终端敏感词识别方法，其特征在于，所述采用LSTM算法对关键词汇进行归类识别包括分别选取等量的普通文本和敏感文本作为语料训练集，并组建语料库；在LSTM层采用单向LSTM模型，双层LSTM隐层；当准确率大于90％后停止训练；输出对应的LSTM参数，完成深度学习模型的训练。

6.一种基于边缘计算的移动终端敏感词识别装置，其特征在于，所述装置包括：

文本输入模块，用于输入待识别的文本信息；

本地词库模块，用于构建本地词库；

过滤模块，基于本地词库采用双数组字典树匹配过滤算法对输入的文本信息进行过滤；

聚合模块，通过分级缓存机制处理移动终端上传的信息；

边缘词库模块，用于构建边缘词库；

7.根据权利要求6所述的一种基于边缘计算的移动终端敏感词识别装置，其特征在于，所述聚合模块包括：

第一缓存单元，用于存储移动终端上传的文本信息；

分割单元，将超过阈值的文本信息量进行分割。

8.根据权利要求6所述的一种基于边缘计算的移动终端敏感词识别装置，其特征在于，所述识别模块包括：

输入层，输入边缘节点的文本信息；

筛选层，通过TF-IDF算法处理输入的文本信息中各个词汇，选择出关键词队列；

向量层，将关键词队列集合转化为词向量集；

LSTM网络层，将词向量集进行偏转，形成偏移向量集；

Softmax输出层，计算偏移向量集中词向量的转移概率，判别每一个词向量所属的类别，然后将其中的敏感词集存储于敏感词集并输出。

9.一种基于边缘计算的移动终端敏感词识别***，其特征在于，包括移动终端层以及边缘计算层；所述边缘计算层包括如权利要求6～8任一所述的聚合模块、识别模块、边缘词库模块以及触发更新模块；所述移动终端层中每一个移动终端包括如权利要求6～8任一所述的本地词库模块和过滤模块。