CN111368529B - 基于边缘计算的移动终端敏感词识别方法、装置及*** - Google Patents
基于边缘计算的移动终端敏感词识别方法、装置及*** Download PDFInfo
- Publication number
- CN111368529B CN111368529B CN202010184805.1A CN202010184805A CN111368529B CN 111368529 B CN111368529 B CN 111368529B CN 202010184805 A CN202010184805 A CN 202010184805A CN 111368529 B CN111368529 B CN 111368529B
- Authority
- CN
- China
- Prior art keywords
- mobile terminal
- text information
- edge
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及移动互联网信息安全领域,涉及一种基于边缘计算的移动终端敏感词识别方法、装置及***;所述方法包括移动终端输入待识别的文本信息;移动终端基于本地词库,采用双数组字典树匹配过滤算法对输入的文本信息进行过滤,并将过滤后的文本信息发送至边缘计算节点;边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学***台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端;移动终端接收边缘节点下发的边缘词库,对本地词库进行更新;本发明改进了双数组算法,能够有效降低匹配过滤算法的内存开销,可以使其良好的运行于资源有限的移动终端平台。
Description
技术领域
本发明涉及移动互联网信息安全领域,具体涉及一种基于边缘计算的移动终端敏感词识别方法、装置及***。
背景技术
随着我国经济、社会及信息技术的不断发展,人们正越来越多的依赖于从互联网上获取自己所需的信息,互联网应用已渗入到人们生活的各个方面。与此同时,人们也不再单纯地依靠个人计算机来进行互联网的冲浪活动,以智能手机、平板电脑为代表的移动互联网设备正成为人们随时随地进行网络互联并获取信息的便捷通道。伴随着移动互联网的快速发展,网络信息也愈发鱼龙混杂。有些不法分子利用移动互联网高速传播和受众广泛的特点,在网络上发布一些广告、诈骗、色情等低俗信息,甚至有人传播一些危害国家安全的反动信息。这些现象使得网络环境恶化,极大危害了用户的利益,因此对移动互联网上的非法信息进行过滤十分必要。
多模式匹配算法是信息识别***的关键技术,能够对互联网上传播的信息进行多敏感词同时检索匹配,为用户提供了绿色安全的网络空间。通过部署模式匹配算法,互联网空间能够大量净化广告、诈骗等不良信息,减少给用户带来的困扰和损失;阻止谣言、反动等信息传播,维护互联网的安定、繁荣。为大家打造一个和谐、舒适的网络环境。
多模式匹配算法在当前的信息识别***中广泛应用,它虽然能够有效提高信息匹配效率,但是没有考虑到资源的开销问题,不适合在移动终端上应用部署。在移动终端有限的资源和低功耗场景下,如何处理好匹配效率和资源开销之间的关系成为主要研究问题。
发明内容
鉴于上述现有技术中的资源开销大的问题,本发明要解决的问题是提供一种针对资源开销进行优化的信息识别方法与***,使移动终端在低功耗的场景下流畅地进行信息过滤。
为达到上述问题,本发明提供基于边缘计算的移动终端敏感词识别方法、装置及***。
在本发明的第一方面,本发明提供了一种基于边缘计算的移动终端敏感词识别方法,所述方法包括以下步骤:
移动终端输入待识别的文本信息;
移动终端基于本地词库,采用双数组字典树匹配过滤算法对输入的文本信息进行过滤,并将过滤后的文本信息发送至边缘计算节点;
边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学习模型中,识别出文本信息中的敏感词集,并形成边缘词库;
边缘计算平台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端;
移动终端接收边缘节点下发的边缘词库,对所述本地词库进行更新。
在本发明的第二方面,本发明提供了一种基于边缘计算的移动终端敏感词识别装置,所述装置包括:
文本输入模块,用于输入待识别的文本信息;
本地词库模块,用于构建本地词库;
过滤模块,基于本地词库对输入的文本信息进行过滤;
聚合模块,通过分级缓存机制处理移动终端上传的信息;
识别模块,用于通过训练完成后的深度学习模型识别出输入的文本信息的敏感词集;
边缘词库模块,用于构建边缘词库;
触发更新模块,用于在一定时间间隔内,将边缘词库发送至移动终端,对本地词库进行更新。
在本发明的第三方面,本发明还提供了一种基于边缘计算的移动终端敏感词识别***,包括移动终端层以及边缘计算层;所述边缘计算层包括上述的聚合模块、识别模块、边缘词库模块以及触发更新模块;所述移动终端层中每一个移动终端包括上述的本地词库模块和过滤模块。
与现有技术相比,本发明具有以下有益效果:
本发明通过在移动终端处理待过滤的文本消息后,改进了双数组算法,提高其空间利用率,能够有效降低匹配过滤算法的内存开销,可以使其良好的运行于资源有限的移动终端平台。采用TF_IDF算法能够非常容易且快速的提取出文本信息的关键词汇;采用LSTM深度学***台对敏感词库进行维护,保证敏感词集的简洁、高效,进一步降低终端匹配算法的资源开销。
附图说明
图1为本发明基于边缘计算的移动终端敏感词识别***网络拓扑图;
图2为本发明基于边缘计算的移动终端敏感词识别***架构图;
图3为本发明深度学习模型结构图;
图4为本发明基于边缘计算的移动终端敏感词识别方法一个实施例中的整体流程图;
图5为本发明基于边缘计算的移动终端敏感词识别方法另一个实施例中整体流程图;
图6为本发明终端模式匹配算法流程图;
图7为本发明双数组字典树构建过程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
图1是本发明实施例的一种基于边缘计算平台的移动终端敏感词识别***的网络拓扑图,移动终端借助可以通过定制输入法过滤信息,利用边缘计算平台强大的计算能力进行敏感词库的更新。移动终端为用户接入网络时所使用的智能手机、PDA、平板电脑等各种移动终端设备,在移动终端上利用双数组字典(trie)树匹配算法过滤用户输入信息中的敏感词;边缘计算平台在靠近移动终端侧的基站处搭建边缘计算平台,利用边缘平台强大的计算能力去检测移动终端上传的待识别的文本信息是否仍存在敏感词,并将高频敏感词收录边缘词库,帮助移动终端更新本地词库。
在一个实施例中,如图2所示,一种基于边缘计算平台的移动终端敏感词识别***,主要分为移动终端层和边缘计算层:
终端设备层包括多个移动终端,在移动终端上使用定制的输入法应用,该移动终端中至少包括文本输入模块、过滤模块以及本地词库模块。文本输入模块获取用户发布的网络信息,将之传递给过滤模块;过滤模块利用双数组字典树匹配算法过滤文本信息中的敏感词,输出过滤后的文本信息,同时将文本信息上传至边缘节点;本地词库模块预设有匹配算法的敏感词库,同时可以接收边缘节点下发的信息,更新本地词库。
边缘计算层分为聚合模块、识别模块、边缘词库模块。聚合模块整合当前边缘节点覆盖范围内移动终端所上传的信息,将之传递给识别模块。识别模块通过深度学习模型处理文本信息,可以得到其中的敏感词集合。边缘词库模块统计得到的敏感词,将其中的高频词汇加入边缘词库。
在一个实施例中,一种基于边缘计算的移动终端敏感词识别装置包括:
文本输入模块,用于输入待识别的文本信息;
本地词库模块,用于构建本地词库;
过滤模块,基于本地词库对输入的文本信息进行过滤;
聚合模块,通过分级缓存机制处理移动终端上传的信息;
识别模块,用于通过训练完成后的深度学习模型识别出输入的文本信息的敏感词集;
边缘词库模块,用于构建边缘词库;
触发更新模块,用于在一定时间间隔内,将边缘词库发送至移动终端,对本地词库进行更新。
在一个优选实现方式中,所述聚合模块包括:
第一缓存单元,用于存储移动终端上传的文本信息;
第二缓存单元,用于将同一时间间隔内第一缓存单元的文本信息进行聚合;
信息评估单元,用于通过阈值评估第二缓存单元所聚合的文本信息量;
分割单元,将超过阈值的文本信息量进行分割。
在一个优选实施例中,所述识别模块包括:
输入层,输入边缘节点的文本信息;
筛选层,通过TF-IDF算法处理输入的文本信息中各个词汇即目标文本队列,选择出关键词汇或关键词队列;
向量层,将关键词汇集合转化为词向量集;
LSTM网络层,将词向量集进行偏转,形成偏移向量集;
Softmax输出层,计算偏移向量集中词向量的转移概率,判别每一个词向量所属的类别,然后将敏感词集存储于敏感词集。
图3为边缘节点的识别模块所应用的深度学习模型示意图,该深度学习模型作为自动识别模型分为输入层、筛选层、向量层、LSTM层和softmax层。
输入层:识别模块接收信息文本s,将之导入输入层。输入层在深度学习模型中主要是对信息文本进行标准化处理,以500字为标准对文本信息进行等量分割,将输入的文本信息中各个词汇形成目标文本队列{x,y,z.....},并用字符串数组Z存储目标文本队列,将其传递给筛选层。
筛选层:筛选层在模型中用于剔除多余文本,获取有效信息。经由TF-IDF算法处理目标文本队列Z,计算目标文本队列中词汇的td-idf特征向量值,根据其值递减排序取前10个词汇加入关键词队列。然后使用hashset集合q存储关键词集,并将之传递给向量层。
向量层:向量层用于词集的向量化,便于模型的进一步计算。使用word2vec来处理关键词集合q,将之转化为词向量集q1。
LSTM层:LSTM层根据训练模型对词向量进行处理,提取相关特征。将关键词向量集q1导入训练好的LSTM模型,经过计算得到偏移向量集q2,然后将之传递给softmax层。
softmax层:计算偏移向量集q2中词向量的转移概率,根据转移概率所在的区间判别每一个词向量所属的类别,然后将敏感类别的词集存储于hashset集合m。
信息文本导入模型后,由输入层进行统一的标准化处理,之后经筛选层剔除无效文本来获取关键词集,向量层对关键词进行向量化,便于下一步的计算;然后,将向量集通过LSTM层所训练的模型进行特征提取,再由softmax层经过转移概率的计算获取每一个词向量对应的类别,最终将敏感词集输出。
本发明基于边缘计算的移动终端敏感词识别方法中,边缘计算节点部署的深度学习模型通过TF-IDF算法来清除目标文本队列中多余的内容,保留其中的关键词汇。TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术;如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,非常适合用来分类,因此本发明采用该算法来提取关键词汇。
TF-IDF算法获取关键词汇的过程如下:
首先,计算每段输入的文本信息中各个词汇的TF-IDF特征向量,然后根据特征向量的递减排序取前N个词汇(本实施例N=10)加入关键词队列:
其中,tf指文本信息中的词频,也就是这个词在文本中出现的次数。idf指逆文档频率,是一个用来衡量词汇常见程度的值。通过计算tf与idf乘积的值,可以比较词汇的重要程度。ni为目标文本中第i个词汇在该文本中出现的次数,di为目标文本中总的词汇数;|s|表示算法语料库中总文本数量,|{j:ti∈sj}|表示语料库中出现词汇ti的文本数量。
本发明基于边缘计算的移动终端敏感词识别方法中,边缘计算节点部署的深度学习模型通过LSTM算法来对关键词汇进行检测,长短期记忆网络(LSTM,Long Short-TermMemory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。本发明为了最小化训练误差,采用梯度下降法(Gradient descent)如:应用时序性倒传递算法,用来依据错误修改每次的权重。
具体的,其所用LSTM模型的构造过程如下:
首先,从互联网上分别选取等量的普通文本、敏感文本作为语料集,组建语料库,其中的文本语料分为训练集、验证集和测试集;然后,在LSTM层采用单向LSTM模型,双层LSTM隐层,每层隐层包含了64个节点,每批处理的数据量为64,训练过程采用早停原则,准确率大于90%后停止训练;最终,通过LSTM算法原理训练和验证,选取准确率大于93%的模型进行参数固化。
图4所示为一种基于边缘计算的移动终端敏感词识别方法,在一个实施例中,其包括以下步骤:
移动终端输入待识别的文本信息;
移动终端基于本地词库,采用双数组字典树匹配过滤算法对输入的文本信息进行过滤,并将过滤后的文本信息发送至边缘计算节点;
边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学习模型中,识别出文本信息中的敏感词集,并形成边缘词库;
边缘计算平台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端;
移动终端接收边缘节点下发的边缘词库,对所述本地词库进行更新。
图5所示为一种基于边缘计算的移动终端敏感词识别方法,其还可以包括以下步骤:
101:用户在移动终端通过输入法输入文本信息;
102:移动终端输入法通过双数组字典树匹配算法过滤掉文本信息中的敏感词;
103:移动终端输出过滤后的文本信息,同时利用LTE、WIFI链路将之上传至边缘节点;
104:边缘平台接收覆盖区域内移动终端上传的文本信息并进行聚合;
105:边缘平台将文本信息导入深度学习模型,获取其中的敏感词集;
106:边缘平台统计分析所得到的敏感词,选取高频词汇建立边缘词库;
107:边缘节点通过LTE、WIFI等无线链路将边缘词库下发至移动终端;
108:移动终端接收边缘节点下发的信息,完成本地词库的更新。
图6所示为移动终端模式匹配算法的过滤流程,也即采用双数组字典树匹配过滤算法对输入的文本信息进行过滤;具体步骤如下:
201:对预设的移动终端敏感词库按照词汇首字的ASCII码进行递增排序,减少构建字典trie树过程中的冲突;
202:顺序扫描敏感词库,依次构建trie树。扫描到词汇后,首先查找trie树中是否存在和当前词汇具有共同前缀的子树,如果存在就以***的方式构造其分支节点,如果不存在则构建新的trie子树;
203:使用退火算法对trie树节点进行排序,优先取分支节点较多的节点构建双数组,从而降低冲突、减少数据稀疏;
204:结合数组和链表结构的特点,以数组块结构的形式来构建双数组,充分利用碎片空间;
205:对待识别的文本信息按照前缀查找,依据自动机状态转移进行文本匹配;按照匹配结果对文本信息进行过滤。
图7所示为双数组构建过程,具体步骤如下:
首先要根据敏感词集来构造trie树,设定敏感词集为S(SAC、SAD、SAE、SBF),对敏感词集S进行顺序扫描,优先构造SAC子树,之后再依次在A节点***AD、AE分支,最后构造SBF子树。
然后,构建双数组结构来保存trie树信息。设定一个合适的数组块的初值P,使碎片内存有足够的空间创建数组,之后再根据数组块的初值P来初始化BASE、CHECK数组块。
最终,根据trie节点的子节点数量来顺序存储trie树信息。采用退火算法对trie树各节点进行子节点数值的排序,优先将子节点数目最多的节点信息存入base、check数组。完成所有trie树信息的存储后对trie树进行销毁,释放相应的空间。
其中,双数组中的元素s可由base[s]和trie中的节点s对应的check[s]组成。下面的方程显示了一个从节点s到节点t的带有字符c的弧:
base[s]+c=t
check[t]=s
状态s与t对应数组下标,当输入为c时,状态s会向状态t转移。与base数组平行的check数组中check[t]=s,check数组记录着t状态从哪个状态转换而来。
上述本发明基于边缘计算的移动终端敏感词识别方法中,所述的双数组trie树匹配算法具有以下特点:
关于trie树构造:双数组trie树采用数组结构来存储trie树的信息,首先要根据设定的敏感词集来构建对应的trie树结构,顺序扫描敏感词集,以节点***的方式构建trie树。扫描到词汇时,首先在当前的trie树中查找是否存在和本词汇具有共同前缀的子树,如果存在就在共同前缀后开辟分支子树,如果不存在则构建新的trie子树。
关于数组结构:利用链表中内存地址不连续的特点改造数组结构,通过在数组末尾添加指针的方式指向下一内存片,以数组块的形式存储trie树信息,减少碎片内存的浪费。
关于节点排序:trie树中节点在双数组中的位置都是由其父节点也就是上一状态base值所决定。在构建双数组的过程中使用退火算法,依据子节点的数目对trie树节点进行启发式排序,优先处理分支较多的节点,减少查找base值时的冲突。其中base数组存储当前节点信息,check数组存储当前节点的父节点信息。
可以理解的是,本发明中基于边缘计算的移动终端敏感词识别方法、装置及***的部分特征可以相互引用,为了不再追诉,本发明不再一一例举。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述方法包括:
移动终端输入待识别的文本信息;
移动终端基于本地词库,采用双数组字典树匹配过滤算法对输入的文本信息进行过滤,并将过滤后的文本信息发送至边缘计算节点;
所述采用双数组字典树匹配过滤算法对输入的文本信息进行过滤包括:
步骤1:在移动终端的本地词库中预设敏感词库,按照敏感词汇首字对应的ASCII码值进行递增排序;
步骤2:依照从上到下的顺序对敏感词库进行扫描,读入所有敏感词汇,将敏感词汇作为节点,以***的方式逐次构造出字典树;
步骤3:对字典树的各个节点使用退火算法,按照其子节点的数量进行最优排序,优先选取分支多的节点进行双数组构造;
步骤4:结合链表结构中物理内存不连续的特点改造数组结构,采用数组块的形式对分支多的节点进行双数组构造;
步骤5:对待识别的文本信息按照前缀查找,依据自动机状态转移进行文本匹配;按照匹配结果对文本信息进行过滤;
边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学习模型中,识别出文本信息中的敏感词集,并形成边缘词库;
边缘计算平台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端;
移动终端接收边缘节点下发的边缘词库,对所述本地词库进行更新。
2.根据权利要求1所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学***台通过分级缓存机制处理移动终端上传的信息;移动终端将文本信息上传后,边缘节点的一级缓存来处理各移动终端上传的文本信息,并按先后顺序整理为文本队列;一级缓存设定了固定的时间间隔,将同一固定时间间隔内的文本队列整合为一段文本信息,发送至二级缓存;二级缓存设定阈值来评估文本信息量,若文本信息量超过阈值,则将超过阈值的文本信息进行分割并输入到训练完成后的深度学习模型中。
3.根据权利要求2所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述识别出文本信息中的敏感词集包括采用TF-IDF算法提取出文本信息的关键词汇;采用LSTM算法对关键词汇进行归类识别,构建出深度学习模型;采用语料库对所述深度学习模型进行训练,当识别率大于90%时,训练完成,并输入边缘计算节点的文本信息,从而识别出待识别的文本信息的敏感词集。
5.根据权利要求3所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述采用LSTM算法对关键词汇进行归类识别包括分别选取等量的普通文本和敏感文本作为语料训练集,并组建语料库;在LSTM层采用单向LSTM模型,双层LSTM隐层;当准确率大于90%后停止训练;输出对应的LSTM参数,完成深度学习模型的训练。
6.一种基于边缘计算的移动终端敏感词识别装置,其特征在于,所述装置包括:
文本输入模块,用于输入待识别的文本信息;
本地词库模块,用于构建本地词库;
过滤模块,基于本地词库采用双数组字典树匹配过滤算法对输入的文本信息进行过滤;
所述采用双数组字典树匹配过滤算法对输入的文本信息进行过滤包括:
步骤1:在移动终端的本地词库中预设敏感词库,按照敏感词汇首字对应的ASCII码值进行递增排序;
步骤2:依照从上到下的顺序对敏感词库进行扫描,读入所有敏感词汇,将敏感词汇作为节点,以***的方式逐次构造出字典树;
步骤3:对字典树的各个节点使用退火算法,按照其子节点的数量进行最优排序,优先选取分支多的节点进行双数组构造;
步骤4:结合链表结构中物理内存不连续的特点改造数组结构,采用数组块的形式对分支多的节点进行双数组构造;
步骤5:对待识别的文本信息按照前缀查找,依据自动机状态转移进行文本匹配;按照匹配结果对文本信息进行过滤;
聚合模块,通过分级缓存机制处理移动终端上传的信息;
识别模块,用于通过训练完成后的深度学习模型识别出输入的文本信息的敏感词集;
边缘词库模块,用于构建边缘词库;
触发更新模块,用于在一定时间间隔内,将边缘词库发送至移动终端,对本地词库进行更新。
7.根据权利要求6所述的一种基于边缘计算的移动终端敏感词识别装置,其特征在于,所述聚合模块包括:
第一缓存单元,用于存储移动终端上传的文本信息;
第二缓存单元,用于将同一时间间隔内第一缓存单元的文本信息进行聚合;
信息评估单元,用于通过阈值评估第二缓存单元所聚合的文本信息量;
分割单元,将超过阈值的文本信息量进行分割。
8.根据权利要求6所述的一种基于边缘计算的移动终端敏感词识别装置,其特征在于,所述识别模块包括:
输入层,输入边缘节点的文本信息;
筛选层,通过TF-IDF算法处理输入的文本信息中各个词汇,选择出关键词队列;
向量层,将关键词队列集合转化为词向量集;
LSTM网络层,将词向量集进行偏转,形成偏移向量集;
Softmax输出层,计算偏移向量集中词向量的转移概率,判别每一个词向量所属的类别,然后将其中的敏感词集存储于敏感词集并输出。
9.一种基于边缘计算的移动终端敏感词识别***,其特征在于,包括移动终端层以及边缘计算层;所述边缘计算层包括如权利要求6~8任一所述的聚合模块、识别模块、边缘词库模块以及触发更新模块;所述移动终端层中每一个移动终端包括如权利要求6~8任一所述的本地词库模块和过滤模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184805.1A CN111368529B (zh) | 2020-03-17 | 2020-03-17 | 基于边缘计算的移动终端敏感词识别方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184805.1A CN111368529B (zh) | 2020-03-17 | 2020-03-17 | 基于边缘计算的移动终端敏感词识别方法、装置及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368529A CN111368529A (zh) | 2020-07-03 |
CN111368529B true CN111368529B (zh) | 2022-07-01 |
Family
ID=71208863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010184805.1A Active CN111368529B (zh) | 2020-03-17 | 2020-03-17 | 基于边缘计算的移动终端敏感词识别方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368529B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312903B (zh) * | 2021-05-27 | 2022-04-19 | 云南大学 | 一种5g移动业务产品词库的构建方法及*** |
CN113220868A (zh) * | 2021-05-28 | 2021-08-06 | 国网绿色能源有限公司 | 一种文本数据过滤、获取方法、装置、设备及存储介质 |
CN114266247A (zh) * | 2021-12-20 | 2022-04-01 | 中国农业银行股份有限公司 | 一种敏感词过滤方法、装置、存储介质及电子设备 |
CN115456589A (zh) * | 2022-09-19 | 2022-12-09 | 国网河南省电力公司信息通信公司 | 一种基于深度学习的合同审核方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766889A (zh) * | 2017-10-26 | 2018-03-06 | 济南浪潮高新科技投资发展有限公司 | 一种云端边缘计算融合的深度学习计算***和方法 |
CN108664501A (zh) * | 2017-03-29 | 2018-10-16 | 广东神马搜索科技有限公司 | 广告审核方法、装置及服务器 |
CN109583744A (zh) * | 2018-11-26 | 2019-04-05 | 安徽继远软件有限公司 | 一种基于中文分词的跨***台账匹配***及方法 |
CN109756367A (zh) * | 2018-12-24 | 2019-05-14 | 云南大学 | 一种基于边缘计算的无线电监管***及方法 |
CN110336790A (zh) * | 2019-05-29 | 2019-10-15 | 网宿科技股份有限公司 | 一种网站检测的方法和*** |
CN110414373A (zh) * | 2019-07-08 | 2019-11-05 | 武汉大学 | 一种基于云边端协同计算的深度学习掌静脉识别***及方法 |
CN110610503A (zh) * | 2019-08-21 | 2019-12-24 | 河海大学常州校区 | 一种基于立体匹配的电力刀闸三维信息恢复方法 |
CN110659740A (zh) * | 2018-06-28 | 2020-01-07 | 国际商业机器公司 | 基于边缘节点处的数据输入对机器学习模型排序和更新 |
CN110704861A (zh) * | 2019-08-07 | 2020-01-17 | 荣邦科技有限公司 | 一种基于开放接口实时脱敏的方法、装置及*** |
CN110730140A (zh) * | 2019-10-12 | 2020-01-24 | 西安电子科技大学 | 基于时空特性相结合的深度学习流量分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8504510B2 (en) * | 2010-01-07 | 2013-08-06 | Interdisciplinary Center Herzliya | State machine compression for scalable pattern matching |
JP5152231B2 (ja) * | 2010-03-12 | 2013-02-27 | オムロン株式会社 | 画像処理方法および画像処理装置 |
-
2020
- 2020-03-17 CN CN202010184805.1A patent/CN111368529B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664501A (zh) * | 2017-03-29 | 2018-10-16 | 广东神马搜索科技有限公司 | 广告审核方法、装置及服务器 |
CN107766889A (zh) * | 2017-10-26 | 2018-03-06 | 济南浪潮高新科技投资发展有限公司 | 一种云端边缘计算融合的深度学习计算***和方法 |
CN110659740A (zh) * | 2018-06-28 | 2020-01-07 | 国际商业机器公司 | 基于边缘节点处的数据输入对机器学习模型排序和更新 |
CN109583744A (zh) * | 2018-11-26 | 2019-04-05 | 安徽继远软件有限公司 | 一种基于中文分词的跨***台账匹配***及方法 |
CN109756367A (zh) * | 2018-12-24 | 2019-05-14 | 云南大学 | 一种基于边缘计算的无线电监管***及方法 |
CN110336790A (zh) * | 2019-05-29 | 2019-10-15 | 网宿科技股份有限公司 | 一种网站检测的方法和*** |
CN110414373A (zh) * | 2019-07-08 | 2019-11-05 | 武汉大学 | 一种基于云边端协同计算的深度学习掌静脉识别***及方法 |
CN110704861A (zh) * | 2019-08-07 | 2020-01-17 | 荣邦科技有限公司 | 一种基于开放接口实时脱敏的方法、装置及*** |
CN110610503A (zh) * | 2019-08-21 | 2019-12-24 | 河海大学常州校区 | 一种基于立体匹配的电力刀闸三维信息恢复方法 |
CN110730140A (zh) * | 2019-10-12 | 2020-01-24 | 西安电子科技大学 | 基于时空特性相结合的深度学习流量分类方法 |
Non-Patent Citations (7)
Title |
---|
A Truthful Auction Mechanism for Mobile Crowd Sensing With Budget Constraint;Yuanni Liu等;《IEEE Access》;20190311;43933-43947 * |
RIMS: A Real-time and Intelligent Monitoring System for live-broadcasting platforms;Yangfan Li等;《Future Generation Computer Systems》;20180417;第87卷(第C期);259-266 * |
一种面向云中心网络入侵检测的多模式匹配算法;赵国锋等;《信息网络安全》;20180110;52-57 * |
云边智能: 电力***运行控制的边缘计算方法及其应用现状与展望;白昱阳等;《自动化学报》;20200315;第46卷(第03期);397-410 * |
基于双数组Trie树算法的字典改进和实现;戴耿毅等;《软件导刊》;20120730;第11卷(第07期);17-19 * |
基于边缘流量测量的算法研究;唐红等;《通信技术》;20090910;第42卷(第09期);154-156 * |
大数据背景下网络舆情智能预警机制分析;刘继等;《http://kns.cnki.net/kcms/detail/61.1167.G3.20191112.1358.008.html》;20191113;1-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN111368529A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368529B (zh) | 基于边缘计算的移动终端敏感词识别方法、装置及*** | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN109241274B (zh) | 文本聚类方法及装置 | |
CN111125460B (zh) | 信息推荐方法及装置 | |
CN106528599B (zh) | 一种海量音频数据中的字符串快速模糊匹配算法 | |
CN112507699B (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN104699766B (zh) | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN109086375B (zh) | 一种基于词向量增强的短文本主题抽取方法 | |
CN110909160A (zh) | 正则表达式生成方法、服务器及计算机可读存储介质 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN107145516A (zh) | 一种文本聚类方法及*** | |
CN104881399B (zh) | 基于概率软逻辑psl的事件识别方法和*** | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110232127A (zh) | 文本分类方法及装置 | |
CN110427404A (zh) | 一种区块链跨链数据检索*** | |
CN111460783A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN114792246B (zh) | 一种基于主题集成聚类的产品典型性特质挖掘方法及*** | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN113010705B (zh) | 标签预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |