CN106528731A

CN106528731A - 一种敏感词过滤方法及***

Info

Publication number: CN106528731A
Application number: CN201610958110.8A
Authority: CN
Inventors: 努尔布力; 薛朋强
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-03-22

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种敏感词过滤方法及***。所述敏感词过滤方法包括：步骤a：构建敏感词语料库；步骤b：对需要进行敏感词过滤的文本进行编码转换处理；步骤c：将编码转换处理后的文本与所述敏感词语料库进行匹配，对所述文本中的敏感词进行过滤。本发明通过构建敏感词语料库，将文本与敏感词语料库中的单词进行匹配，对文本中出现的敏感词进行过滤；并根据需要进行敏感词过滤的文本结构特点制订编码转化，预防了过滤时出现的乱码问题；在敏感词过滤中，采用了布尔模型，提高了敏感词检测与过滤的效率。

Description

一种敏感词过滤方法及***

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种敏感词过滤方法及***。

背景技术

自然语言处理(NLP)，亦称作计算语言学，是计算机科学、人工智能、语言学所关注的领域，研究计算机与人类(自然)语言之间的相互作用，并与人工智能致力于描述人类认知过程的计算模型的计算机科学分支有一定的领域重叠。大致地讲，自语语言处理的研究着眼于对人类语言建模的实用效果，以建立具有一定人类语言知识的软件产品。今天的计算机不理解人类的语言，人类也很难掌握计算机的语言，减少人机交互的障碍，便是自然语言处理的目标，通过自然语言处理研究建立的“自然语言人机界面”将使得用户可以直接通过自然语言--英语，汉语，德语，法语同计算机交互。目前此类应用主要包括数据库查询，智能信息抽取，以及所谓的专家***以及语音识别***。

而为了避免不良信息的侵扰，保证网络信息的健康安全，网络信息中的敏感词过滤成为一个重要的研究问题。现有技术中，关于敏感词过滤的检测模型包括隐马尔可夫模型(Hidden Markov Model，HMM)和布尔模型(Boolean)。隐马尔可夫模型是一种强大的统计学机器学习技术，它提供了一种基于训练数据的概率自动构造识别***。隐马尔可夫模型已成功地应用于连续语音识别和在线手写体识别，在生物信息学中也得到了广泛应用。隐马尔可夫模型提供了适合自然语言任务的强大的统计学基础，能健壮地处理新数据，现有的一些模型学习、训练和评估算法，都具有很高的计算效率。隐马尔可夫模型是一个二重马尔可夫随机过程，它包括具有状态转移概率的马尔可夫链和输出观测值的随机过程。其状态是不确定或不可见的，只有通过观测序列的随机过程才能表现出来。

布尔模型是基于集合论和布尔代数的一种简单检索模型，是早期搜索引擎所使用的检索模型。它的特点是查找那些对于某个查询词返回为“真”的文档。在布尔模型中，一个查询词就是一个布尔表达式，包括关键词以及逻辑运算符。通过布尔表达式，可以表达用户希望文档所具有的特征，必须包含哪些关键词，不能包含哪些关键词等等。例如我们希望查找那些既含有“清华”又含有“大学”的网页，那么查询词可以写作“清华AND大学”。由于文档必须严格符合检索词的要求才能够被检索出来，因此布尔模型又被称为“完全匹配检索”(Exact-MatchRetrieval)。

传统的布尔检索是将用户查询与文献进行逻辑的(而非数值的)比较而获得结果的检索。布尔检索模型的突出优点在于这种结构化的提问方式与用户的思维习惯相一致。同时，这种模型把复杂的检索过程简单化，能够将较复杂的情报提问按其概念组面的逻辑关系描述出来，从而变成可以由计算机执行的逻辑运算，变成机器根据事先确定的程序进行自动匹配的过程，这种运算上的简单易行是布尔检索***的又一突出特征。此外，用布尔检索进行操作的某些***允许用户通过给他使用的一个有结构的词典来缩小或扩大检索。所谓有结构的词典是指对任何一个给定的标引词都存储了与之相关的更一般的(上位)或更精确的(下位)关键词的词典。布尔检索很容易利用这些相关项来改进检索。

布尔检索在理论上存在的一些缺陷也是不容忽略的，具体包括下列几个方面：

(1)布尔逻辑式的构造不易全面准确反映用户的需求。

(2)匹配标准存在不合理的地方，严格的匹配可能导致检出的文档过多或过少，难以控制结果输出量的大小。

(3)对检索结果平等对待，不能按照用户定义的重要性排序输出。

(4)对用户的检索技能有较高的要求。

关于敏感词过滤技术的参考文献包括：

[1]侯志霞,曹军.自然语言处理的发展概况及前景展望[J].山东外语教学.2003(05)

[2]冯志伟.自然语言的计算机处理，上海外语教育出版社，1996

[2]王敏,郑家恒.基于改进的隐马尔科夫模型的汉语词性标注[J].计算机应用.2006(S2)

[3]胡春静,韩兆强.基于隐马尔可夫模型(HMM)的词性标注的应用研究[J].计算机工程与应用.2002(06)

[4]于晓玲.基于本体论的信息过滤模型[J].计算机应用与软件.2014(02)

[5]***,李建华.基于向量空间模型的过滤不良文本方法计算机工程12(5)20064-8

中国专利(申请号201010536437.9)公开了一种敏感词自动过滤管理***，该专利用于检测网站数据里存在的敏感词(禁止词，侵权词，不雅词，政治性、煽动性的词语)，采用搜索技术将内容中涉及敏感词查询出来，并且自动替换掉，还包含人工干预(修改误判、漏判)的成分，确保网站信息的有效性和正确性。本发明的核心部分由敏感词检测、人工干预操作、敏感词替换以及分值效果回馈子***组成。本发明建立了一条自动的“净化”信息流程，节省了大量的人力去做人工的检查、审核，极大的提高了效率，并且采用人工辅助判断也更加提高了信息的安全性。但该专利的缺点在于：仅对汉语的敏感词过滤，并且对人工干预处理能力有限。

另一中国专利(申请号201410582248.3)公开了一种敏感词显示方法及装置，该专利包括：接收通信消息，检测通信消息中是否存在敏感词；若检测出通信消息中存在敏感词，则以敏感词被遮挡的形式显示通信消息；在敏感词符合显示条件时，显示敏感词，显示条件为敏感词为安全信息，或敏感词的属性为非永久性遮挡且被触发查看。本发明通过在检测到通信消息存在敏感词时，对敏感词进行遮挡，在敏感词符合显示条件时才显示该敏感词；解决了现有技术中由于服务器对聊天内容中的敏感词进行过滤后，导致用户无法查看到希望的敏感词的问题；达到了在提高了安全性的同时，也保护了用户隐私的效果。但该专利存在的缺点在于：对敏感词检测的范围有限，仅限于聊天记录过程中。

目前中英文的敏感词过滤技术已经相对成熟，而针对一些民语或小语种的文本信息过滤技术仍然处在起步阶段，例如维吾尔语。由于维吾尔语与中英文截然不同的结构特点，给维吾尔语文字信息处理带来了一定的难度。但作为维吾尔族人民的母语，维吾尔语文字在互联网多媒体数据中的使用范围越来越广，维吾尔语网页的数量也与日俱增。因此，有必要提供一种针对维吾尔语文本信息的处理，从而实现维吾尔语文本敏感词的过滤技术。

综上所述，现有敏感词过滤技术的检测范围及检测领域有限，缺少针对维吾尔语等民语或小语种的文本信息过滤方法。

发明内容

本发明提供了一种敏感词过滤方法及***，旨在解决现有的敏感词过滤技术的检测范围及检测领域有限，缺少针对维吾尔语等民语或小语种的文本信息过滤的技术问题。

为了解决上述问题，本发明提供了如下技术方案：

一种敏感词过滤方法，包括：

步骤a：构建敏感词语料库；

步骤b：对需要进行敏感词过滤的文本进行编码转换处理；

步骤c：将编码转换处理后的文本与所述敏感词语料库进行匹配，对所述文本中的敏感词进行过滤。

本发明实施例采取的技术方案还包括：在所述步骤a中，所述构建敏感词语料库具体为：提取维吾尔语单词的词干，构建基于词干的维吾尔语敏感词语料库。

本发明实施例采取的技术方案还包括：在所述步骤b中，所述对需要进行敏感词过滤的文本进行编码转换处理具体为：使用十六进制转化的方式对维吾尔语文本进行编码转换处理，生成维吾尔语文本的编码化形式的字符串。

本发明实施例采取的技术方案还包括：所述步骤b还包括：通过隐马尔科夫模型对所述维吾尔语文本字符串进行自动词性标注，并通过最大匹配法对维吾尔语文本单词的词干进行提取。

本发明实施例采取的技术方案还包括：在所述步骤c中，所述对文本中的敏感词进行过滤具体包括：通过布尔模型对所提取的单词词干与维吾尔语敏感词语料库中的维吾尔语单词进行匹配，对维吾尔语文本中的敏感词进行过滤，并显示过滤后的维吾尔语文本及过滤内容。

本发明实施例采取的技术方案还包括：所述步骤c后还包括：封装面向维吾尔语敏感词过滤的网络服务接口，通过所述网络服务接口进行维吾尔语敏感词过滤的调用。

本发明实施例采取的另一技术方案为：一种敏感词过滤***，包括：

语料库构建模块：用于构建敏感词语料库；

编码转换模块：用于对需要进行敏感词过滤的文本进行编码转换处理；

敏感词过滤模块：用于将编码转换处理后的文本与所述敏感词语料库进行匹配，对所述文本中的敏感词进行过滤。

本发明实施例采取的技术方案还包括：所述语料库构建模块构建敏感词语料库具体为：提取维吾尔语单词的词干，构建基于词干的维吾尔语敏感词语料库；所述编码转换模块对需要进行敏感词过滤的文本进行编码转换处理具体为：使用十六进制转化的方式对维吾尔语文本进行编码转换处理，生成维吾尔语文本的编码化形式的字符串。

本发明实施例采取的技术方案还包括词性标注模块、词干提取模块和接口封装模块；所述词性标注模块用于通过隐马尔科夫模型对所述维吾尔语文本字符串进行自动词性标注；所述词干提取模块用于通过最大匹配法对维吾尔语文本单词的词干进行提取；所述接口封装模块用于封装面向维吾尔语敏感词过滤的网络服务接口，通过所述网络服务接口进行维吾尔语敏感词过滤的调用。

本发明实施例采取的技术方案还包括：所述敏感词过滤模块对文本中的敏感词进行过滤具体包括：通过布尔模型对所提取的单词词干与维吾尔语敏感词语料库中的维吾尔语单词进行匹配，对维吾尔语文本中的敏感词进行过滤，并显示过滤后的维吾尔语文本及过滤内容。

相对于现有技术，本发明实施例产生的有益效果在于：本发明实施例的敏感词过滤方法及***通过构建敏感词语料库，将正文文本与敏感词语料库中的单词进行匹配，对正文文本中出现的敏感词进行过滤；并根据需要进行敏感词过滤的文本结构特点制订编码转化，预防了过滤时出现的乱码问题；在敏感词过滤中，采用了布尔模型，提高了敏感词检测与过滤的效率。并提供面向敏感词过滤的网络服务接口，便于对外发布给其他的应用中进行调用。

附图说明

图1是本发明实施例的敏感词过滤方法的流程图；

图2是本发明实施例的基于词干的维吾尔语敏感词语料库；

图3是维吾尔语的构词形式；

图4是维吾尔语的书写顺序；

图5是本发明实施例的网络服务接口封装示意图；

图6是本发明实施例的敏感词过滤***的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明主要针对维吾尔语敏感词过滤的处理，通过研究信息过滤技术的主要思想和技术结合维吾尔语字特点，通过编码预处理技术并且构建维吾尔语敏感词语料库，正文文本与敏感词语料库中的单词进行匹配，对正文文本中出现的敏感词进行过滤。本发明实施例仅以维吾尔语敏感词过滤为例进行具体说明，可以理解，本发明同样适用于其他与维吾尔语的结构特点类似的语言进行敏感词过滤，例如，哈萨克语等。

具体请参阅图1，是本发明实施例的敏感词过滤方法的流程图。本发明实施例的敏感词过滤方法包括以下步骤：

步骤10：提取维吾尔语单词的词干，构建基于词干的维吾尔语敏感词语料库；

在步骤10中，语料库指经科学取样和加工的大规模电子文本库，在语言学研究领域有广泛的应用，它是语言研究现代化的重要基础，利用语料库从事语言研究。敏感词语料库用于在敏感词过滤时提供敏感词，具体如图2所示，是本发明实施例的基于词干的维吾尔语敏感词语料库。维吾尔语是属于阿尔泰语系突厥语族，是主要分布在中国新疆维吾尔自治区维吾尔族人使用的语言和文字，此外，在哈萨克斯坦、乌兹别克斯坦、吉尔吉斯斯坦等国家也有使用者。维吾尔语的词汇十分丰富，它是以***字符为基础的拼音文字。维吾尔字符共有32个，其中8个是元音字符，24个是辅音字符。维吾尔语的主要特点包括：

(1)字符形式的多样性：每个维吾尔语字符都存在多种形式的变。维吾尔语字符的表现形体与其所处位置有关，当其单独书写或处在词首、词中、词尾时，字符形体可能会略有不同示。构成维吾尔语的32个字符共有126种书写形体。例如表4-1

表4-1

(2)维吾尔语中，词根是不加词缀的最小的维语单词。维吾尔语单词的构成形式一个维吾尔语单词是由多个维吾尔语字符组合构成，按照其构词成分可以分为词干和词缀，具体如图3所示，是维吾尔语的构词形式。在图3中，一个维吾尔语单词由五个字符构成，其中前面(从右到左数)2个字符为词干，意为“拿”；后面三个为词缀，添加词缀之后意为“拿着的”。

(3)维吾尔语中词和词之间都是分写的，以空格作为自然分割符。且读写都是从右到左的。维吾尔语的词组和句子遵循严格的语句规则限定：主语在谓语之前，限定语如定语、状语等在中心词之前，通过这种语序来连接维语词从而形成句子维语简单的语句结构为“主语+宾语+谓语”。而词在句中的主要作用是通过“词干+附加成分”中所代表的语法功能和句法意义的附加成分来体现的。如图4所示，是维吾尔语的书写顺序。维吾尔语短语从右到左进行读写的，图4中的词组意为“新疆大学”。这些与中文截然不同的结构特点，给维吾尔文字信息处理带来了一定的难度。

步骤20：对需要进行敏感词过滤的维吾尔语文本进行编码转换处理，生成维吾尔语文本的编码化形式的字符串；

在步骤20中，维吾尔语的结构与语法跟汉字完全不同，不能把汉字输入法的特点完全应用在维吾尔语输入法中，用编码处理***来对文本所有字符、标点符号、常用技术符号进行编码。本发明实施例使用十六进制转化的方式对维吾尔语文本进行编码转换处理，将维吾尔语文本的每个字符转换成四位的16进制字符串(如：编码转换后“062A0648 064A”。)，生成维吾尔语文本的编码化形式的字符串，预防了敏感词过滤时出现的乱码问题，提高了敏感词检测与过滤的效率。

步骤30：对编码转换后的维吾尔语文本字符串进行词性标注；

在步骤30中，本发明实施例通过基于隐马尔科夫模型的方法对维吾尔语文本字符串进行自动词性标注。

步骤40：根据词性标注结果对维吾尔语文本单词的词干进行提取；

在步骤40中，单词词干的提取方式具体包括：将维吾尔语文本单词进行分割，通过词库用最大匹配法(机械分词方法的一种，是一种基于词典的分词方法)去除单词的词缀，从而获得词干及其相关信息，并将匹配结果存储起来，以其后用。单词的分割结果还可应用于相似查找、信息检索、提取文摘、篇章理解等等。

步骤50：通过布尔模型对所提取的单词词干与维吾尔语敏感词语料库中的维吾尔语单词进行匹配，从而对维吾尔语文本中的敏感词进行过滤，并显示过滤后的维吾尔语文本及过滤内容；

在步骤50中，布尔模型是一种基于布尔代数和集合论的简单检索模型其直观的集合概念为信息检索的用户提供了一种易于掌握的框架，进一步提高敏感词检测和过滤的效率。在本发明另一实施例中，还可以使用基于隐马尔可夫模型的文本信息抽取算法对维吾尔语文本进行敏感词过滤。

步骤60：封装面向维吾尔语敏感词过滤的网络服务接口，通过网络服务接口进行维吾尔语敏感词过滤的调用。

在步骤60中，具体如图5所示，是本发明实施例的网络服务接口封装示意图。网络服务接口可以对外发布给其他的应用中进行调用，客户端封装网络服务接口后，选择并上传需要进行维吾尔语敏感词过滤的文本，即可对该维吾尔语文本进行敏感词过滤。

具体请参阅图6，是本发明实施例的敏感词过滤***的结构示意图。本发明实施例的敏感词过滤***包括语料库构建模块、编码转换模块、词性标注模块、词干提取模块、敏感词过滤模块和接口封装模块。

语料库构建模块用于提取维吾尔语单词的词干，构建基于词干的维吾尔语敏感词语料库；

编码转换模块用于对需要进行敏感词过滤的维吾尔语文本进行编码转换处理，生成维吾尔语文本的编码化形式的字符串；其中，本发明实施例使用十六进制转化的方式对维吾尔语文本进行编码转换处理，将维吾尔语的每个字符转换成四位的16进制字符串(如：编码转换后“062A 0648 064A”。)，生成维吾尔语文本的编码化形式的字符串，预防了敏感词过滤时出现的乱码问题，提高了敏感词检测与过滤的效率。

词性标注模块用于对编码转换后的维吾尔语文本字符串进行词性标注；其中，本发明实施例通过基于隐马尔科夫模型的方法对维吾尔语文本字符串进行自动词性标注。

词干提取模块用于根据词性标注结果对维吾尔语文本单词的词干进行提取；其中，单词词干的提取方式具体包括：将维吾尔语文本单词进行分割，通过词库用最大匹配法去除单词的词缀，从而获得词干及其相关信息，并将匹配结果存储起来，以其后用。单词的分割结果还可应用于相似查找、信息检索、提取文摘、篇章理解等等。

敏感词过滤模块用于通过布尔模型对所提取的单词词干与维吾尔语敏感词语料库中的维吾尔语单词进行匹配，从而对维吾尔语文本中的敏感词进行过滤，并显示过滤后的维吾尔语文本及过滤内容；其中，布尔模型是一种基于布尔代数和集合论的简单检索模型其直观的集合概念为信息检索的用户提供了一种易于掌握的框架，进一步提高敏感词检测和过滤的效率。在本发明另一实施例中，还可以使用基于隐马尔可夫模型的文本信息抽取算法对维吾尔语文本进行敏感词过滤。

接口封装模块用于封装面向维吾尔语敏感词过滤的网络服务接口，通过网络服务接口进行维吾尔语敏感词过滤的调用。其中，网络服务接口可以对外发布给其他的应用中进行调用，客户端封装网络服务接口后，选择并上传需要进行维吾尔语敏感词过滤的文本，即可对该维吾尔语文本进行敏感词过滤。

本发明实施例的敏感词过滤方法及***通过构建敏感词语料库，将正文文本与敏感词语料库中的单词进行匹配，对正文文本中出现的敏感词进行过滤；并根据需要进行敏感词过滤的文本结构特点制订编码转化，预防了过滤时出现的乱码问题；在敏感词过滤中，采用了布尔模型，提高了敏感词检测与过滤的效率。并提供面向敏感词过滤的网络服务接口，便于对外发布给其他的应用中进行调用。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种敏感词过滤方法，其特征在于，包括：

步骤a：构建敏感词语料库；

步骤b：对需要进行敏感词过滤的文本进行编码转换处理；

2.根据权利要求1所述的敏感词过滤方法，其特征在于，在所述步骤a中，所述构建敏感词语料库具体为：提取维吾尔语单词的词干，构建基于词干的维吾尔语敏感词语料库。

3.根据权利要求2所述的敏感词过滤方法，其特征在于，在所述步骤b中，所述对需要进行敏感词过滤的文本进行编码转换处理具体为：使用十六进制转化的方式对维吾尔语文本进行编码转换处理，生成维吾尔语文本的编码化形式的字符串。

4.根据权利要求3所述的敏感词过滤方法，其特征在于，所述步骤b还包括：通过隐马尔科夫模型对所述维吾尔语文本字符串进行自动词性标注，并通过最大匹配法对维吾尔语文本单词的词干进行提取。

5.根据权利要求4所述的敏感词过滤方法，其特征在于，在所述步骤c中，所述对文本中的敏感词进行过滤具体包括：通过布尔模型对所提取的单词词干与维吾尔语敏感词语料库中的维吾尔语单词进行匹配，对维吾尔语文本中的敏感词进行过滤，并显示过滤后的维吾尔语文本及过滤内容。

6.根据权利要求1至5任一项所述的敏感词过滤方法，其特征在于，所述步骤c后还包括：封装面向维吾尔语敏感词过滤的网络服务接口，通过所述网络服务接口进行维吾尔语敏感词过滤的调用。

7.一种敏感词过滤***，其特征在于，包括：

语料库构建模块：用于构建敏感词语料库；

8.根据权利要求7所述的敏感词过滤***，其特征在于，所述语料库构建模块构建敏感词语料库具体为：提取维吾尔语单词的词干，构建基于词干的维吾尔语敏感词语料库；所述编码转换模块对需要进行敏感词过滤的文本进行编码转换处理具体为：使用十六进制转化的方式对维吾尔语文本进行编码转换处理，生成维吾尔语文本的编码化形式的字符串。

9.根据权利要求8所述的敏感词过滤***，其特征在于，还包括词性标注模块、词干提取模块和接口封装模块；所述词性标注模块用于通过隐马尔科夫模型对所述维吾尔语文本字符串进行自动词性标注；所述词干提取模块用于通过最大匹配法对维吾尔语文本单词的词干进行提取；所述接口封装模块用于封装面向维吾尔语敏感词过滤的网络服务接口，通过所述网络服务接口进行维吾尔语敏感词过滤的调用。

10.根据权利要求9所述的敏感词过滤***，其特征在于，所述敏感词过滤模块对文本中的敏感词进行过滤具体包括：通过布尔模型对所提取的单词词干与维吾尔语敏感词语料库中的维吾尔语单词进行匹配，对维吾尔语文本中的敏感词进行过滤，并显示过滤后的维吾尔语文本及过滤内容。