CN109977416A

CN109977416A - 一种多层次自然语言反垃圾文本方法及***

Info

Publication number: CN109977416A
Application number: CN201910266548.3A
Authority: CN
Inventors: 叶志豪; 刘冶; 桂进军; 李宏浩; 印鉴
Original assignee: Guangzhou He Da Da Data Technology Co Ltd; Sun Yat Sen University
Current assignee: Guangzhou He Da Da Data Technology Co Ltd; Sun Yat Sen University
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-07-05
Anticipated expiration: 2039-04-03
Also published as: CN109977416B

Abstract

本发明涉及一种多层次自然语言反垃圾文本方法及***，通过获得待识别文本的敏感词识别结果、敏感词变形体识别结果，并结合对待识别文本进行文本分类得到其为垃圾文本的预判概率，基于对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行综合评判，得出所述待识别文本为垃圾文本的最终概率。本发明能高效地识别垃圾文本，能避免垃圾文本对互联网健康交流环境的不利影响，有较高的稳健性，可广泛地适用于社交、评论等互联网产品。

Description

一种多层次自然语言反垃圾文本方法及***

技术领域

本发明涉及信息处理技术领域，特别是涉及一种多层次自然语言反垃圾文本方法及***。

背景技术

随着互联网的快速发展，用户使用网站和应用程序的频率越来越高，在互联网上生成的文本内容也以***式的速度涌现，例如直播弹幕、贴吧、评论、社交平台等互联网内容类产品，随着活跃用户量的增加，这些产品会带来大量的文本。然而在这些文本中还存在着不少垃圾文本，包含如广告类、色情类、辱骂类、暴力类、毒品类或其他不良信息等。这些垃圾文本包含形式各异的敏感词语，具有更新快、自由度高的特点，在网络上广泛传播，严重影响了互联网的健康发展。为营造和谐、纯净的互联网交流环境，避免垃圾文本带来的不利影响，因此如何快速识别海量文本中的垃圾文本尤为重要。

目前常用的垃圾文本识别的方法有基于关键词的人工规则识别方法，以及朴素贝叶斯、支持向量机、K-近邻算法等模型。由于垃圾文本中的敏感词具有更新快、自由度高的特点，这些方案只能在短时间内对垃圾文本起到一定的拦截作用，同时也只针对特定的应用场景，如只适用于垃圾邮件过滤、垃圾短信识别或垃圾网页识别的模型。在实际应用中，垃圾文本词会以各种变形方式被替换，导致现有方案对垃圾文本的识别效果不佳，已经不能满足当前需要。

发明内容

本发明的目的解决现有技术的瓶颈，提供一种多层次自然语言反垃圾文本方法及***，由以下技术方案实现：

一种多层次自然语言反垃圾文本方法，包括以下步骤：

接收待识别文本；

基于原始敏感词库，对所述待识别文本进行原始敏感词的匹配，识别出所述待识别文本中的原始敏感词，输出敏感词识别结果；其中，所述原始敏感词库包括原始敏感词；

基于敏感词变形体库，对所述待识别文本进行敏感词变形体的匹配，并对匹配到的疑似词汇进行语义分析，验证所述疑似词汇是否属于敏感词，输出敏感词变形体识别结果；其中，所述敏感词变形体库根据所述原始敏感词库建立，所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体；

对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率；

对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算，得出所述待识别文本为垃圾文本的最终概率。

一种多层次自然语言反垃圾文本***，包括：

接收模块，所述接收模块接收待识别文本；

原始敏感词库，所述原始敏感词库包括包括原始敏感词；

敏感词变形体库，所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体；

基础识别模块，所述基础识别模块基于所述原始敏感词库，对所述待识别文本进行原始敏感词的匹配，识别出所述待识别文本中的原始敏感词，输出敏感词识别结果；

语义分析识别模块，所述语义分析识别模块基于所述敏感词变形体库，对所述待识别文本进行敏感词变形体的匹配，并对匹配到的疑似词汇进行语义分析，验证所述疑似词汇是否属于敏感词，输出敏感词变形体识别结果；

文本分类识别模块，所述文本分类识别模块对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率；

多层次智能融合模块，所述多层次智能融合模块对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算，得出所述待识别文本为垃圾文本的最终概率。

相较于现有技术，本发明的一种多层次自然语言反垃圾文本方法及***，通过获得待识别文本的敏感词识别结果、敏感词变形体识别结果，并结合对待识别文本进行文本分类得到其为垃圾文本的预判概率，基于对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行综合评判，得出所述待识别文本为垃圾文本的最终概率。本发明能高效地识别垃圾文本，能避免垃圾文本对互联网健康交流环境的不利影响，有较高的稳健性，可广泛地适用于社交、评论等互联网产品。

作为对上述多层次自然语言反垃圾文本方法的改进，所述敏感词变形体库的建立，包括以下步骤：

从所述原始敏感词库获取组成所述原始敏感词的关键字；

对现有汉字与所述关键字在字音上进行比较，获取现有汉字与所述关键字的字音相似度；

对现有汉字与所述关键字在字形上进行比较，获取现有汉字与所述关键字的字形相似度；

根据所述音形相似度、字形相似度筛选出所述关键字的相似字；

根据对应拆字的映射关系，获取所述关键字的拆字；

根据所述关键字、所述关键字的相似字、拆字及其组合，得到敏感词变形体，建立敏感词变形体库。

通过字音、字形上的比较获取所述关键字的相似字，并根据对应拆字的映射关系获取所述关键字的拆字，根据所述关键字、所述关键字的相似字、拆字及其组合，得到敏感词变形体，能充分获取敏感词变形体的各种变形情况，有效解决原始敏感词基础上的字词以谐音、拆字、形近字等变形的方式被替换时现有方案对垃圾文本的识别效果不佳的问题。

进一步的，对现有汉字与所述关键字在字形上进行比较，获取现有汉字与所述关键字的字形相似度，可包括以下步骤：

对现有汉字与所述关键字进行四角编码比较，获取现有汉字与所述关键字的四角编码相似度；

对现有汉字与所述关键字进行笔画数比较，获取现有汉字与所述关键字的笔画数相似度；

对现有汉字与所述关键字进行结构编码比较，获取现有汉字与所述关键字的结构编码相似度；

对所述四角编码相似度、笔画数相似度和结构编码相似度进行加权计算，获取现有汉字与所述关键字的字形相似度。

通过以上步骤，本案能够从汉字的四角编码、笔画数、结构编码等多个维度充分囊括所述关键字的形近字，为后续所述关键字的相似字的筛选提供更加详实的数据，丰富了所述敏感词变形体库中的敏感词变形体有效匹配样本。

在一个实施例中，对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率，可包括以下步骤：

对所述待识别文本进行分词并向量化，形成待识别向量化信息；

利用结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对所述待识别向量化信息进行处理，得出所述待识别文本为垃圾文本的预判概率。

通过以上步骤，将连续文本分词、向量化，易于后续以数学模型的方法进行分析；以结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对向量化的待识别文本进行处理，能有效地对待识别文本进行文本分类识别。

进一步的，对所述深度神经网络分类模型进行语料数据集训练，可包括以下步骤：

建立语料数据集，获取垃圾文本作为原始语料文本；

读取所述原始语料文本中的正负样本数据，对所述正负样本数据进行数据清洗后构建词汇索引表；

对所述词汇索引表进行训练得到用于垃圾文本分类的嵌入型中文词向量。

采用大规模语料数据集训练得到嵌入型词向量方法，可以有效地减少词汇鸿沟现象和维度灾难，稳定提升文本识别的效果，提高后续判断所述待识别文本为垃圾文本概率的正确率。

进一步的，所述深度神经网络分类模型以正则化随机失活的方式防止过拟合。

随机失活是一个防止神经网络过拟合的有效方式，即按照一定的概率来“禁用”一些神经元，可以强迫神经元单独学习有用的特征，从而稳定提升文本识别的效果，提高后续判断所述待识别文本为垃圾文本概率的正确率。

在一个实施例中，对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算的方法为：

对所述待识别文本进行分词，获得所述待识别文本中总词数；

根据所述敏感词识别结果，获得原始敏感词识别数量，记所述原始敏感词识别数量与所述待识别文本中总词数之比为比率g₁；

根据所述敏感词变形体识别结果，获得敏感词变形体识别数量，记所述敏感词变形体识别数量与所述待识别文本中总词数之比为比率g₂；

按照以下方式结合所述待识别文本为垃圾文本的预判概率g₃，对所述g₁、g₂、g₃进行加权计算，得出所述待识别文本为垃圾文本的最终概率G：

G＝γ₁*g₁+γ₂*g₂+γ₃*g₃

其中γ_i表示概率权重，i∈[1，2，3]，且

通过以上步骤，本案对所述敏感词识别结果、敏感词变形体识别结果进行进一步转化，分别以比率的形式，结合所述预判概率进行以加权计算，精准得出所述待识别文本为垃圾文本的最终概率。

本发明还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述多层次自然语言反垃圾文本方法的步骤。

本发明还提供一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述的多层次自然语言反垃圾文本方法的步骤。

附图说明

图1是本发明实施例1的多层次自然语言反垃圾文本方法的流程图；

图2是本发明实施例2所述敏感词变形体库的建立的流程图；

图3是本发明实施例2获取现有汉字与所述关键字的字形相似度的流程图；

图4是本发明实施例3对所述待识别文本进行文本分类的流程图；

图5是本发明实施例3所述深度神经网络分类模型逻辑结构图；

图6是本发明实施例3对所述深度神经网络分类模型进行语料数据集训练的的流程图；

图7是本发明实施例4对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算的流程图；

图8是本发明的多层次自然语言反垃圾文本***示意图。

具体实施方式

实施例1

请参阅图1，一种多层次自然语言反垃圾文本方法，包括以下步骤：

S101，接收待识别文本；

S102，基于原始敏感词库，对所述待识别文本进行原始敏感词的匹配，识别出所述待识别文本中的原始敏感词，输出敏感词识别结果；其中，所述原始敏感词库包括原始敏感词；

S103，基于敏感词变形体库，对所述待识别文本进行敏感词变形体的匹配，并对匹配到的疑似词汇进行语义分析，验证所述疑似词汇是否属于敏感词，输出敏感词变形体识别结果；其中，所述敏感词变形体库根据所述原始敏感词库建立，所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体；

S104，对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率；

S105，对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算，得出所述待识别文本为垃圾文本的最终概率。

其中，原始敏感词指未经字词替换、变换的敏感用语原型，可源于广告类、色情类、辱骂类等不良信息，例如“代购奶粉”、“外挂”、“垃圾”等。

敏感词变形体指在原始敏感词基础上在字词上存在替换、变换等变形的敏感用语其它表达方式，对应上例，如“代贝勾奶米分”、“外gua”或“wg”、“辣鸡”等。

对所述待识别文本进行敏感词的匹配识别前，可先过滤所述待识别文本中的特殊符号，如回车符号、#、*、tab符号、①(1)数字序号、→、空格符等，例如“开￥→％发*票”经预处理后得到“开***”。本案优选通过正则表达式的形式对所述待识别文本中的特殊符号进行过滤。

根据实际需要，在对所述待识别文本进行敏感词的匹配识别前，还可先对所述待识别文本进行繁简转换以及火星文过滤、转换等，如“憂鬱烏龜”转换为“忧郁乌龟”，“謀嗰卟俓噫の瞬間”转换为“某个不经意的瞬间”。

本案优选采用AC算法对所述待识别文本进行原始敏感词的匹配或敏感词变形体的匹配。

对敏感词变形体库匹配到的疑似词汇进行语义分析，具体的：在进行敏感词变形体检测的时候，如果单纯依靠词库而不考虑上下文语境的话，可能将实际为正常使用的无关词语识别为敏感词变形体，如“辣鸡”可能指代“垃圾”，也可能仅仅是指代一种食物；因此有必要对疑似的敏感词变形体进行检验；本案对敏感词变形体库匹配到的疑似词汇进行语义分析，优选采用Word2vec词嵌入方法，使用词向量技术，即把词语转化为蕴含语义信息的词向量后通过对多个词向量计算平均值，得到上下文的语义重心，然后计算该词的词向量与上下文语义重心向量的相似度，有

其中，w_i为一句文本中的第i个词语，为向量v_i和v_j的相似度模型，v_w表示词对应的词向量，C_i为第i个词的上下文词语的集合，即表示词语w_i的上下文语义重心的向量，W_k为上下文词语集C_i的第k个词语。因为正常文本的词语跟上下文文本语义接近，对应的词向量空间上也比较接近的，通过计算它与上下文语义重心的相似度，可以判断词语是否处于正常的语境中，从而识别出来所述疑似词汇是否为敏感词变形体。

在确认所述疑似词汇是敏感词变形体之后，可继续通过词库返回敏感词变形体对应的原始敏感词作为敏感词变形体识别结果中的一部分输出。一般而言，由同一个原始敏感词衍生出来的一批敏感词变形体只能对应所述对照进行衍生的原始敏感词；但在实际运用中，可能出现多个原型敏感词都能衍生出同样敏感词变形体的情况，即同一个敏感词变形体可能对应多个原型敏感词。当匹配到的敏感词变形体只能对应一个原型敏感词时，直接返回该原型敏感词即可。当匹配到的敏感词变形体能对应到多个原始敏感词作为候选词时，可通过对所述候选词进行打分排序得到最接近的原始敏感词；本案优选通过预训练的Word2vec词嵌入向量相似度方法来进行上述打分，通过比较候选词和上下文的相似度，所述候选词和上下文相似度越高则分数越高，分数最高的候选词即作为该匹配到的敏感词变形体对应的原始敏感词。

对所述待识别文本进行文本分类，具体的，可对所述待识别文本与现有的其它垃圾文本进行文本特征比对，由文本特征的相似度得出所述待识别文本为垃圾文本的预判概率。

本案允许运营人员结合实际需要对所述原始敏感词库或敏感词变形体库进行自定义编辑操作，针对指定字词进行强制排查或在匹配识别时进行忽略。

实施例2

实施例2为实施例1基础上的一种改进，主要针对具体如何建立所述敏感词变形体库，请参阅图2，所述敏感词变形体库的建立，包括以下步骤：

S201，从所述原始敏感词库获取组成所述原始敏感词的关键字；

S202，对现有汉字与所述关键字在字音上进行比较，获取现有汉字与所述关键字的字音相似度；

S203，对现有汉字与所述关键字在字形上进行比较，获取现有汉字与所述关键字的字形相似度；

S204，根据所述音形相似度、字形相似度筛选出所述关键字的相似字；

S205，根据对应拆字的映射关系，获取所述关键字的拆字；

S206，根据所述关键字、所述关键字的相似字、拆字及其组合，得到敏感词变形体，建立敏感词变形体库。

本实例中的以上步骤通过字音、字形上的比较获取所述关键字的相似字，并根据对应拆字的映射关系获取所述关键字的拆字，根据所述关键字、所述关键字的相似字、拆字及其组合，得到敏感词变形体，能充分获取敏感词变形体的各种变形情况，有效解决垃圾文本词以谐音、拆字、形近字等变形的方式被替换时现有方案对垃圾文本的识别效果不佳的问题。

具体的，在对现有汉字与所述关键字在字音上进行比较时，本案选用通过编码映射的方式，将汉字的韵母和声母部分分别映射到一个字符位；可将其中部分韵母采用相同的字符来替代，如有前后鼻音之分的“an”与“ang”、“in”与“ing”等都可以分别映射为同一个字符，在后期计算相似度时，即可弱化韵母位的差异。类似地，可将其中部分声母采用相同的字符来替代，如有翘舌音之分的“zh”与“z”、“sh”与“s”、“ch”与“c”等都可以分别映射为同一个字符。特别地，声母位和韵母位不仅仅可以按上述方案通过规则将近似字音的映射为相同的字符位，还可以是将近似字音在计算相似度时适当加分，从而提高对比获得的字音相似度。

在根据所述音形相似度、字形相似度筛选出所述关键字的相似字阶段，可设置筛选阈值，相似度超过阈值的字，就可以作为相似字，在实际运营中可通过测试集进行测试，得到最佳阈值。在根据所述关键字、所述关键字的相似字、拆字及其组合，得到敏感词变形体阶段，可对所述关键字、所述关键字的相似字、拆字进行笛卡尔积组合得到敏感词变形体。

另外，对用拼音或拼音缩写替换所述关键字的情况，可通过获取所述原始敏感词的拼音或拼音缩写或拼音与汉字的组合加入到所述敏感词变形体库中。

在一个实施例中，对现有汉字与所述关键字在字形上进行比较，获取现有汉字与所述关键字的字形相似度，请参照图3，可包括以下步骤：

S2031，对现有汉字与所述关键字进行四角编码比较，获取现有汉字与所述关键字的四角编码相似度；

S2032，对现有汉字与所述关键字进行笔画数比较，获取现有汉字与所述关键字的笔画数相似度；

S2033，对现有汉字与所述关键字进行结构编码比较，获取现有汉字与所述关键字的结构编码相似度；

S2034，对所述四角编码相似度、笔画数相似度和结构编码相似度进行加权计算，获取现有汉字与所述关键字的字形相似度。

其中，所述四角编码为汉字通过一定规则转化得到为一组字符串序列，该字符串序列一般为一组长度不超过5位的***数字；上述转化规则通过取汉字的左上角，右上角，左下角以及右下角四个角的笔形，能将汉字的字形特征保留下来。

所述结构编码指的是中文汉字结构如上下结构、半包围结构等对应的编码。

具体的，对于进行比较的两个汉字T₁和T₂，转化为四角编码后为别是t₁和t₂，则t₁∩t₂表示两者相同字符串的交集，则四角编码相似度p₁为

T₁和T₂的笔画数分别为t₃和t₄，则其笔画数相似度p₂为

T₁和T₂的结构编码分别为t₅和t₆，则其结构相似度p₃为

对上述三者进行加权即获得所述字形相似度Similarity(T₁，T₂)

Similarity(T₁，T₂)＝δ₁*p₁+δ₂*p₂+δ₃*p₃

其中δ_i表示相似度权重，i∈[1，2，3]，有

实施例3

实施例3为实施例1或2基础上的一种改进，主要针对具体如何对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率，请参照图4，包括以下步骤：

S301，对所述待识别文本进行分词并向量化，形成待识别向量化信息；

S302，利用结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对所述待识别向量化信息进行处理，得出所述待识别文本为垃圾文本的预判概率。

具体的，分词指中文分词，即将一个汉字序列或连续文本切分成一个个单独的词语，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，如“上海自来水来自海上”分词为“上海/自来水/来自/海上”；向量化，指将分词所得的词序列转化为词向量，词向量即用来将语言中的词进行数学化的一种方式。

卷积神经网络(Convolutional Neural Networks,CNN)对文本局部特征的提取有很好的效果，而在本案中，卷积神经网络可用于提取敏感词，使得分类的效果更好。长短期记忆网络(Long Short Term Memory,LSTM)是一种具有长期记忆和短期记忆的循环神经网络，每一个时间步的输出都由之前的记忆状态和当下的输入决定；在垃圾文本识别的场景中，LSTM能够对文本进行特征提取，得到一些敏感词或者消极词特征的向量表示。

请参阅图5，本案所述深度神经网络分类模型由一个卷积神经网络与一个长短期记忆网络拼接构成，包括LSTM层61、CNN部分的卷积层621、池化层622、全连接层624。其工作过程为：先在LSTM层61对所述待识别向量化信息提取核心特征并编码成上下文向量，在卷积层621中对所述上下文向量提取局部特征，然后在池化层622进行进一步压缩和主要特征提取，最后在预设了随机训练参数的全连接层624经过矩阵运算得到所述待识别文本为垃圾文本的预判概率。

在一个实施例中，对所述深度神经网络分类模型进行语料数据集训练，请参照图6，可包括以下步骤：

S401，建立语料数据集，获取垃圾文本作为原始语料文本；

S402，读取所述原始语料文本中的正负样本数据，对所述正负样本数据进行数据清洗后构建词汇索引表；

S403，对所述词汇索引表进行训练得到用于垃圾文本分类的嵌入型中文词向量。

采用大规模语料数据集训练得到嵌入型词向量方法，可以有效地减少词汇鸿沟现象和维度灾难，稳定提升文本识别的效果，提高后续判断所述待识别文本为垃圾文本概率的正确率。所述嵌入型中文词向量即可作为所述全连接层预设的随机训练参数。

随机失活是一个防止神经网络过拟合的有效方式，即按照一定的概率来“禁用”一些神经元，可以强迫神经元单独学习有用的特征，从而稳定提升文本识别的效果，提高后续判断所述待识别文本为垃圾文本概率的正确率。具体的，可在所述深度神经网络分类模型中的池化层622和全连接层624之间加入Dropout正则化层623；在训练阶段，当模型的随机失活率p＝β时，表示在训练的过程中有随机概率为β是可能性，神经元是无效的。而在测试阶段，在模型中设置β＝0，即所有神经元都被激活。

实施例4

实施例4为实施例1至3基础上的一种改进，主要针对具体如何对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算，请参照图7，包括以下步骤：

S501，对所述待识别文本进行分词，获得所述待识别文本中总词数；

S502，根据所述敏感词识别结果，获得原始敏感词识别数量，记所述原始敏感词识别数量与所述待识别文本中总词数之比为比率g₁；

S503，根据所述敏感词变形体识别结果，获得敏感词变形体识别数量，记所述敏感词变形体识别数量与所述待识别文本中总词数之比为比率g₂；

S504，按照以下方式结合所述待识别文本为垃圾文本的预判概率g₃，对所述g₁、g₂、g₃进行加权计算，得出所述待识别文本为垃圾文本的最终概率G：

G＝γ₁*g₁+γ₂*g₂+γ₃*g₃

其中γ_i表示概率权重，i∈[1，2，3]，且

本发明提供的一种与实施例1至4任一项所述的多层次自然语言反垃圾文本方法对应的多层次自然语言反垃圾文本***，请参照图8，包括：

接收模块1，所述接收模块1接收待识别文本；

原始敏感词库2，所述原始敏感词库2包括包括原始敏感词；

敏感词变形体库3，所述敏感词变形体库3包括所述原始敏感词对应的敏感词变形体；

基础识别模块4，所述基础识别模块4基于所述原始敏感词库2，对所述待识别文本进行原始敏感词的匹配，识别出所述待识别文本中的原始敏感词，输出敏感词识别结果；

语义分析识别模块5，所述语义分析识别模块5基于所述敏感词变形体库3，对所述待识别文本进行敏感词变形体的匹配，并对匹配到的疑似词汇进行语义分析，验证所述疑似词汇是否属于敏感词，输出敏感词变形体识别结果；

文本分类识别模块6，所述文本分类识别模块6对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率；

多层次智能融合模块7，所述多层次智能融合模块7对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算，得出所述待识别文本为垃圾文本的最终概率。

本发明提供的一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1至4任一项所述的多层次自然语言反垃圾文本方法的步骤。

本发明提供的一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1至4任一项所述的多层次自然语言反垃圾文本方法的步骤。

本发明不仅可以应用于垃圾文本的识别和过滤，包括短信、邮件、网站评论、视频和直播平台的弹幕等场景，也可应用于其他领域的分类识别，如基于一定主题词的情感识别、主题分类、情绪分析等，有重大的商业意义和商业价值。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包括这些改动和变形。

Claims

1.一种多层次自然语言反垃圾文本方法，其特征在于，包括以下步骤：

接收待识别文本；

2.根据权利要求1所述的多层次自然语言反垃圾文本方法，其特征在于，所述敏感词变形体库的建立，包括以下步骤：

从所述原始敏感词库获取组成所述原始敏感词的关键字；

根据对应拆字的映射关系，获取所述关键字的拆字；

3.根据权利要求2所述的多层次自然语言反垃圾文本方法，其特征在于，对现有汉字与所述关键字在字形上进行比较，获取现有汉字与所述关键字的字形相似度，包括以下步骤：

4.根据权利要求1所述的多层次自然语言反垃圾文本方法，其特征在于，对所述待识别文本进行文本分类，得出所述待识别文本为垃圾文本的预判概率，包括以下步骤：

5.根据权利要求4所述的多层次自然语言反垃圾文本方法，其特征在于，对所述深度神经网络分类模型进行语料数据集训练，包括以下步骤：

建立语料数据集，获取垃圾文本作为原始语料文本；

6.根据权利要求4或5所述的多层次自然语言反垃圾文本方法，其特征在于，所述深度神经网络分类模型以正则化随机失活的方式防止过拟合。

7.根据权利要求1所述的多层次自然语言反垃圾文本方法，其特征在于，对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算的方法为：

G＝γ₁*g₁+γ₂*g₂+γ₃*g₃

其中γ_i表示概率权重，i∈[1,2,3]，且：

8.一种多层次自然语言反垃圾文本***，其特征在于，包括：

接收模块，所述接收模块接收待识别文本；

原始敏感词库，所述原始敏感词库包括包括原始敏感词；

9.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多层次自然语言反垃圾文本方法的步骤。

10.一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多层次自然语言反垃圾文本方法的步骤。