CN108170806A - 敏感词检测过滤方法、装置和计算机设备 - Google Patents
敏感词检测过滤方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN108170806A CN108170806A CN201711463860.9A CN201711463860A CN108170806A CN 108170806 A CN108170806 A CN 108170806A CN 201711463860 A CN201711463860 A CN 201711463860A CN 108170806 A CN108170806 A CN 108170806A
- Authority
- CN
- China
- Prior art keywords
- character
- word
- sensitive word
- text
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种敏感词检测过滤方法、装置和计算机设备,其中,方法包括:获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码;根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离;若计算获知检测文本和敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值;若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。由此,可以检测出通过形近字伪装的敏感词,提高了敏感词检测的准确度和全面性。
Description
技术领域
本申请涉及字符检测技术领域,尤其涉及一种敏感词检测过滤方法、装置和计算机设备。
背景技术
随着互联网的发展,和web2.0时代的到来,对事件发表评论是每个网民应得的权利,也是网民在对一些事件、新闻等文章表达自己一件与看法的重要手段。但是为了保证网上环境的健康等,通常会通过一些途径监管网民对一些文章的评论,对于一些敏感词语以及虚假信息做一些过滤等相关信息。
相关技术中,通过敏感词表的形式机械的对词表中出现的词进行过滤,但是这种方式的敏感词过滤通常会存在一个最大的问题就是这种程序的过滤敏感词的能力完全取决于词表中包含的相关词数量,一些变种敏感词如果未列在词表中,则无法被检测到,比如,一些不良网民通常会通过一些特殊符号或者字母等代替敏感词中某个字,从而导致敏感词无法被检测到。尤其是在敏感词中将某一个字用形近字替换时,无法对变种敏感词进行识别。
申请内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种敏感词检测过滤方法,可以检测出通过形近字伪装的敏感词,提高了敏感词检测的准确度和全面性。
本申请的第二个目的在于提出一种敏感词检测过滤装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为了实现上述目的,本申请第一方面实施例提出了一种敏感词检测过滤方法,包括:获取检测文本,通过五笔字码表的反向求解获取所述检测文本每个字符的五笔编码;根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离;若计算获知所述检测文本和所述敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据所述形近字符个数、所述相同字符个数、以及所述敏感词字符总数判断所述检测文本是否满足预设的敏感词条件阈值;若判断获知满足所述敏感词条件阈值,则确定所述检测文本为伪装敏感词,将所述检测文本进行过滤。
本申请实施的敏感词检测过滤方法,获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,进而,若计算获知检测文本和敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值,最终,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。由此,可以检测出通过形近字伪装的敏感词,提高了敏感词检测的准确度和全面性。
另外,根据本申请上述实施例的敏感词检测过滤方法,还具有如下附加的技术特征:
在本申请一个实施例中,所述根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,包括:在所述检测文本中的第一字符五笔编码中删除任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同,则确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
在本申请一个实施例中,所述根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,包括:在所述检测文本中的第一字符五笔编码中更改任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同,则确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
在本申请一个实施例中,所述根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,包括:在所述检测文本中的第一字符五笔编码中添加任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同,则确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
在本申请一个实施例中,所述根据所述形近字符个数、所述相同字符个数、以及所述敏感词字符总数判断所述检测文本是否满足预设的敏感词条件阈值,包括:计算所述形近字符个数与所述敏感词字符总数的第一比值,以及所述相同字符个数与所述敏感词字符总数的第二比值;判断所述第一比值和所述第二比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值,若判断获知满足所述敏感词条件阈值,则确定所述检测文本为伪装敏感词,将所述检测文本进行过滤。
为了实现上述目的,本申请第二方面实施例提出的一种敏感词检测过滤装置,包括:获取模块,用于获取检测文本,通过五笔字码表的反向求解获取所述检测文本每个字符的五笔编码;计算模块,用于根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离;判断模块,用于在计算获知所述检测文本和所述敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符时,根据所述形近字符个数、所述相同字符个数、以及所述敏感词字符总数判断所述检测文本是否满足预设的敏感词条件阈值;处理模块,用于在判断获知满足所述敏感词条件阈值时,确定所述检测文本为伪装敏感词,将所述检测文本进行过滤。
本申请实施的敏感词检测过滤装置,获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,进而,若计算获知检测文本和敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值,最终,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。由此,可以检测出通过形近字伪装的敏感词,提高了敏感词检测的准确度和全面性。
另外,根据本申请上述实施例的敏感词检测过滤装置,还具有如下附加的技术特征:
在本申请的一个实施例中,所述计算模块具体用于:在所述检测文本中的第一字符五笔编码中删除任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同时,确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
在本申请的一个实施例中,所述计算模块具体用于:在所述检测文本中的第一字符五笔编码中更改任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同时,确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
为了实现上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,执行一种如上述实施例所述的敏感词检测过滤方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当存储介质中的指令由处理器被执行时,使得能够执行如上述实施例所述的敏感词检测过滤方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请一个实施例的敏感词检测过滤方法的流程图;
图2是根据本申请另一个实施例的敏感词检测过滤方法的流程图;
图3是根据本申请一个实施例的敏感词检测过滤装置的结构示意图;以及
图4是根据本申请一个实施例的计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的敏感词检测过滤方法、装置和计算机设备。
图1是根据本申请一个实施例的敏感词检测过滤方法的流程图,如图1所示,该敏感词检测过滤方法包括:
步骤101,获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码。
可以理解,现有技术中,为了避免敏感词被检测到,可能会对敏感词进行字形变换,比如,通过一些特殊的符号、字母等代替敏感词中的某个字,比如将敏感词“天下第一”更改为“大下第一”等。
然而,申请人发现,即使敏感词中的某个字被处理,但是处理后的整个敏感词和敏感词之间的字形是较为相关的,比如敏感词“天下第一”和处理后的敏感词“大下第一”之间的字形就比较相似等。
本申请中通过识别检测文本和敏感词之间的字形的相似性来确定出变形后的敏感词,以提高敏感词识别的全面性和准确性。
具体地,由于五笔字的原理是拆字,通过字根来组成相关字符,而字根相似的字即为形近字,从而,根据五笔打字的原理,形近字符对应的五笔编码也是类似的,在本申请的一个实施例中,获取检测文本后,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码,以便于进一步根据五笔编码判断出检测文本中和敏感词中的字字形相近的字。
需要说明的是,不同于传统的通过输入五笔编码输入字符的方法,本申请中根据检测文本中的字符反向获取字符对应的五笔编码,这种获取方式即为上述实施例提到的反向求解的过程。
在实际执行过程中,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码的方式也包括但不限于以下方式:
作为一种可能的实现方式,五笔字码表包含字符和对应的五笔编码,将检测文本中的字符与上述五笔字码表进行匹配,获取与字符对应的五笔编码。
作为另一种可能的实现方式,预先设置针对五笔字码表的反向求解的计算模型,该模型的输入为文本,输出为五笔编码,从而在获取检测文本后,将检测文本输入上述计算模型即可获取对应的五笔编码。可以理解的是,在不同的应用场景下,获取检测文本的方式不同,在一些场景下,当检测文本为一段文字形式的评论信息时,直接获取该评论信息对应的文本作为检测文本,当检测文本存在于图像中时,可以通过ORC识别的方式将图像中的文字转换为文本以获取检测文本等,在一些场景下,当检测文本为语音形式时,可以通过语音识别的方式将语音转换为文本以获取检测文本等。
步骤102,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离。
其中,上述字符编辑距离可以理解为检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的编码差异数,即检测文本每个字符的五笔编码变化为与预设的敏感词每个字符五笔编码相同时,所需要操作的最小编码数。
具体地,可以预先设置计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离的五笔编码规则,进而,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,这种编辑距离代表了两个字符之间的笔画距离。
为了更加清楚的描述步骤102的实施过程,下面举例说明以不同的预设的五笔编码规则发现字符编辑距离的实施过程,比如,汉字“季”的五笔编码为tbf,汉字李的五笔编码为 sbf,该组较为相似的汉字之间的字符编辑距离为1,又比如,汉字“编”的五笔编码为xyna,汉字“偏”的五笔编码为wyna,该组较为相似的汉字之间的字符编辑距离为1,比如,汉字“季”的五笔编码为tbf,汉字“编”的五笔编码为xyna,该组较不相似的汉字之间的字符编码距离为4,因而,在本申请的实施例中,以字符编辑距离确定为字形相似的字符,比如,以字符编辑距离为1表示字符相似,以字符编辑距离为0表示字符相同等:
第一种示例:以字符编辑距离为1表示形近字符。
在检测文本中的第一字符五笔编码中删除任一码字元素,比较获知与敏感词中的第二字符五笔编码相同,则确定第一字符与第二字符为字符编辑距离等于1的形近字符。
举例而言,当第一字符五笔编码为ABC,第二字符五笔编码为AB时,此时将第一字符五笔编码最后一个码字元素C删除,就得到了第二字符五笔编码,这个删除被认为是一次操作,所以这两个字符五笔编码的字符编辑距离为1,第一字符五笔编码与第二字符五笔编码为字形相近字符。
第二种示例:以字符编辑距离为1表示形近字符。
在检测文本中的第一字符五笔编码中更改任一码字元素,比较获知与敏感词中的第二字符五笔编码相同,则确定第一字符与第二字符为字符编辑距离等于1的形近字符。
举例而言,当第一字符五笔编码为ABC,第二字符五笔编码为ABD时,此时将第一字符五笔编码最后一个码字元素C更改为D,就得到了第二字符五笔编码,这个变更操作被认为是一次操作,所以这两个字符五笔编码的字符编辑距离为1,第一字符五笔编码与第二字符五笔编码为字形相近字符。
第三种示例:以字符编辑距离为1表示形近字符。
在检测文本中的第一字符五笔编码中添加任一码字元素,比较获知与敏感词中的第二字符五笔编码相同,则确定第一字符与第二字符为字符编辑距离等于1的形近字符。
举例而言,当第一字符五笔编码为ABC,第二字符五笔编码为AXBC时,此时将第一字符五笔编码码字元素A后添加码字元素X,就得到了第二字符五笔编码,这个添加操作被认为是一次操作,所以这两个字符五笔编码的字符编辑距离为1,第一字符五笔编码与第二字符五笔编码为字形相近字符。
步骤103,若计算获知检测文本和敏感词之间存在字符编辑满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值。
步骤104,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。
具体地,通常字符变形后的伪装敏感词通常包含与敏感词相同的字符和与行进字符,因而,如果计算获知检测文本和敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则表示检测文本中可能存在字形伪装后的伪装敏感词,其中,需要注意的是,本申请实施例中,根据上述提到的字形伪装的敏感词的特点,确定检测文本中存在的与敏感词之间即包含形近字符又包含形同字符的多个字符。
需要说明的是,上述相近字符判断的预设条件可以包括字符编辑距离等于1,当然,当一些场景下,存在一些通过将敏感词的字符进行较大字形变化的伪装敏感词,比如将敏感词“第”伪装成较大字形变化的伪装敏感词“弟”,虽然敏感词中的字符“第”的五笔编码“tx”,和伪装敏感词中的字符“弟”的五笔编码“uxh”字符编辑距离为3,但是“第”和“弟”也为字形相似的字符,因而,根据应用场景需要预设条件可以包括字符编辑距离为大于1的某个正整数。
当然,即使检测文本和敏感词文本之间存在字形相近以及相同的字符,也并不意味着,当前检测文本即为对应敏感词的字形变形,比如,检测文本“偷猫”和敏感词“偷瞄”中虽然存在字形相近的字符“猫”和“瞄”以及相同的字符“偷”,但是显然“白猫”不是“偷瞄”的字形变形,因而,为了提高敏感词确定的准确性,根据形近字符个数、相同字符个数、以及敏感词字符总数判检测文本是否满足预设的敏感词条件阈值。
具体而言,为了提高敏感词确定的准确性,在本申请的一个实施例中,如图2所示,该步骤103可包括:
步骤201,计算形近字符个数与敏感词字符总数的第一比值,以及相同字符个数与敏感词字符总数的第二比值。
具体地,计算形近字符个数与敏感词字符总数的第一比值,以及相同字符个数与敏感词字符总数的第二比值,判定出整个检测文本与敏感词的整体相似度,其中,第一比值和第二比值越高,代表整个检测文本与敏感词的整体相似度越高。
步骤202,判断第一比值和第二比值是否满足预设的与敏感词字符总数对应的敏感词条件阈值,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。
可以理解,预先根据大量实验设置敏感词条件阈值,当第一比值和第二比值满足预设的与敏感词字符总数对应的敏感词条件阈值时,判断第一比值和第二比值是否满足预设的与敏感词字符总数对应的敏感词条件阈值,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。
比如,敏感词字符总数对应的敏感词条件阈值为第一比值大于23%,第二比值大于50%, 则当检测文本为“大下第一”敏感词为“天下第一”时,计算出形近字符个数与敏感词字符总数的第一比值为25%大于23%,第二同字符个数与敏感词字符总数的第二比值为75%大于 50%,从而确定检测文本为伪装敏感词,将检测文本进行过滤。
在本申请的另一个实施例中,还可以通过判断检测文本中与敏感词字符相近的字符与字符相同的字符总数占整个检测文本字符总数的比值,进行伪装敏感词的确定。
在本实例中,如果检测文本中与敏感词字符相近的字符与字符相同的字符总数占整个检测文本字符总数的比值较大,则认为该检测文本为伪装敏感词,比如检测文本“大下第一”和敏感词为“天下第一”字符相近的字符与字符相同的字符总数为4个,占整个检测文本字符总数的比值为100%,则确定检测文本为伪装敏感词,将检测文本进行过滤。
需要强调的是,在实际应用中,将检测到的伪装敏感词进行过滤时,还可根据应用场景的需要进行提醒、封号等操作,在此不一一列举。
上述实施例中,为了说明的方便,仅仅集中于伪装敏感词和敏感词的检测识别过程,在实际应用中,伪装敏感词和敏感词通常存在于一段检测文本中,为了更加全面的说明本申请实施例的敏感词检测过滤方法,下面结合一段检测文本的敏感词检测过程进行说明。其中,在本示例中,形近字符的预设条件为字符的五笔编码与预设的敏感词字符五笔编码之间的字符编辑距离为小于等于1,预设的敏感词条件阈值形近字符个数与敏感词字符总数的第一比值大于等于20%,以及相同字符个数与敏感词字符总数的第二比值检测大于等于50%,文本为某个社交网站推送文章片段“大季记的甜品就是好吃健康,大李一起去吃吧”,该社交网站中设置的对应的敏感词包括“大李记”,将检测文本通过五笔字码表的反向求解获取检测文本每个字符的五笔编码后为“dddd tbf ynn r tdaf kkkf yidn j vbgktnn wvfp yvii dddd sbf g fhnv fcu ktnn kcn”。
进而,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,计算出和敏感词“大李记”(五笔编码为ddddsbf ynn) 之间存在字符编辑距离满足1和0、形近字符个数与敏感词字符总数的第一比值大于等于 20%,以及相同字符个数与敏感词字符总数的第二比值检测大于等于50%的形近字符,为检测文本的五笔编码“dddd tbf ynn”对应的字符“大季记”,进而,计算检测文本中剩余的字符编码“r tdaf kkkf yidn j vbg ktnn wvfp yvii dddd sbf g fhnv fcuktnn kcn”中每个字符的五笔编码和敏感词“大李记”每个字符的五笔编码(五笔编码为dddd sbf ynn)之间的字符编辑距离,剩余的检测文本中满足剩余检测文本和敏感词之间不存在字符编辑距离为1的形近字符,以及字符编辑距离等于0的相同字符,其中,检测文本中的第二次出现的字符“大李”对应的五笔编码虽然和敏感词“大李记”中“大李”字符的五笔编码满足编辑距离等于0,但是,由于检测文本中的第二次出现的字符“大李”前后并不存在与敏感词““大李记”对应的五笔编码满足字符编辑距离为1的形近字符,因此,不被确定为形近字的伪装敏感词。从而,检测文本中的伪装敏感词“大季记”被确定。
由此,本申请实施的敏感词检测过滤方法,基于字符笔画进行识别,通过细化识别的粒度,将识别限定在字符的最小组成单位上,有效解决了当前网络上用形近字伪装敏感词的情况。
综上所述,本申请实施的敏感词检测过滤方法,获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,进而,若计算获知检测文本和敏感词之间存在字符编辑距离等于1的形近字符,以及字符编辑距离等于0的相同字符,则根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值,最终,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。由此,可以检测出通过形近字伪装的敏感词,提高了敏感词检测的准确度和全面性。
为了实现上述实施例,本申请还提出一种敏感词检测过滤装置,图3是根据本申请一个实施例的敏感词检测过滤装置的结构示意图,如图3所示,该敏感词检测过滤装置包括:获取模块100、计算模块200、判断模块300和处理模块400。
其中,获取模块100,用于获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码。
计算模块200,用于根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离。
在本申请一个实施例中,计算模块200具体用于在检测文本中的第一字符五笔编码中删除任一码字元素,比较获知与敏感词中的第二字符五笔编码相同时,确定第一字符与第二字符为字符编辑距离满足预设条件的形近字符。
在本申请一个实施例中,计算模块200具体用于在检测文本中的第一字符五笔编码中更改任一码字元素,比较获知与敏感词中的第二字符五笔编码相同时,确定第一字符与第二字符为字符编辑距离满足预设条件的形近字符。
判断模块300,用于在计算获知检测文本和敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符时,根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值。
处理模块400,用于在判断获知满足敏感词条件阈值时,确定检测文本为伪装敏感词,将检测文本进行过滤。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
综上所述,本申请实施例的敏感词检测过滤装置,获取检测文本,通过五笔字码表的反向求解获取检测文本每个字符的五笔编码,根据预设的五笔编码规则计算检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,进而,若计算获知检测文本和敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据形近字符个数、相同字符个数、以及敏感词字符总数判断检测文本是否满足预设的敏感词条件阈值,最终,若判断获知满足敏感词条件阈值,则确定检测文本为伪装敏感词,将检测文本进行过滤。由此,可以检测出通过形近字伪装的敏感词,提高了敏感词检测的准确度和全面性。
为了实现上述实施例。本申请还提出了一种计算机设备,图4示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图4显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称: VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI) 总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器 (Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12 可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等) 通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述实施例所述的敏感词检测过滤方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种敏感词检测过滤方法,其特征在于,包括:
获取检测文本,通过五笔字码表的反向求解获取所述检测文本每个字符的五笔编码;
根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离;
若计算获知所述检测文本和所述敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符,则根据所述形近字符个数、所述相同字符个数、以及所述敏感词字符总数判断所述检测文本是否满足预设的敏感词条件阈值;
若判断获知满足所述敏感词条件阈值,则确定所述检测文本为伪装敏感词,将所述检测文本进行过滤。
2.如权利要求1所述的方法,其特征在于,所述根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,包括:
在所述检测文本中的第一字符五笔编码中删除任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同,则确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
3.如权利要求1所述的方法,其特征在于,所述根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,包括:
在所述检测文本中的第一字符五笔编码中更改任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同,则确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
4.如权利要求1所述的方法,其特征在于,所述根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离,包括:
在所述检测文本中的第一字符五笔编码中添加任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同,则确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
5.如权利要求1所述的方法,其特征在于,所述根据所述形近字符个数、所述相同字符个数、以及所述敏感词字符总数判断所述检测文本是否满足预设的敏感词条件阈值,包括:
计算所述形近字符个数与所述敏感词字符总数的第一比值,以及所述相同字符个数与所述敏感词字符总数的第二比值;
判断所述第一比值和所述第二比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值,若判断获知满足所述敏感词条件阈值,则确定所述检测文本为伪装敏感词,将所述检测文本进行过滤。
6.一种敏感词检测过滤装置,其特征在于,包括:
获取模块,用于获取检测文本,通过五笔字码表的反向求解获取所述检测文本每个字符的五笔编码;
计算模块,用于根据预设的五笔编码规则计算所述检测文本每个字符的五笔编码与预设的敏感词每个字符五笔编码之间的字符编辑距离;
判断模块,用于在计算获知所述检测文本和所述敏感词之间存在字符编辑距离满足预设条件的形近字符,以及字符编辑距离等于0的相同字符时,根据所述形近字符个数、所述相同字符个数、以及所述敏感词字符总数判断所述检测文本是否满足预设的敏感词条件阈值;
处理模块,用于在判断获知满足所述敏感词条件阈值时,确定所述检测文本为伪装敏感词,将所述检测文本进行过滤。
7.如权利要求6所述的装置,其特征在于,所述计算模块具体用于:
在所述检测文本中的第一字符五笔编码中删除任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同时,确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
8.如权利要求6所述的装置,其特征在于,所述计算模块具体用于:
在所述检测文本中的第一字符五笔编码中更改任一码字元素,比较获知与所述敏感词中的第二字符五笔编码相同时,确定所述第一字符与所述第二字符为字符编辑距离满足预设条件的形近字符。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一项所述的敏感词检测过滤方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的敏感词检测过滤方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711463860.9A CN108170806B (zh) | 2017-12-28 | 2017-12-28 | 敏感词检测过滤方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711463860.9A CN108170806B (zh) | 2017-12-28 | 2017-12-28 | 敏感词检测过滤方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108170806A true CN108170806A (zh) | 2018-06-15 |
CN108170806B CN108170806B (zh) | 2020-11-20 |
Family
ID=62519706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711463860.9A Active CN108170806B (zh) | 2017-12-28 | 2017-12-28 | 敏感词检测过滤方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170806B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766447A (zh) * | 2018-12-25 | 2019-05-17 | 东软集团股份有限公司 | 一种确定敏感信息的方法和装置 |
CN111368061A (zh) * | 2018-12-25 | 2020-07-03 | 深圳市优必选科技有限公司 | 短文本过滤方法、装置、介质及计算机设备 |
CN111783447A (zh) * | 2020-05-28 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 |
CN112672184A (zh) * | 2020-12-15 | 2021-04-16 | 创盛视联数码科技(北京)有限公司 | 一种视频审核及发布方法 |
CN114707499A (zh) * | 2022-01-25 | 2022-07-05 | 中国电信股份有限公司 | 敏感词识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
US20130194448A1 (en) * | 2012-01-26 | 2013-08-01 | Qualcomm Incorporated | Rules for merging blocks of connected components in natural images |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及*** |
CN106126494A (zh) * | 2016-06-16 | 2016-11-16 | 上海智臻智能网络科技股份有限公司 | 同义词发现方法及装置、数据处理方法及装置 |
CN107193930A (zh) * | 2017-05-17 | 2017-09-22 | 东莞市华睿电子科技有限公司 | 一种网站敏感词屏蔽方法 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
-
2017
- 2017-12-28 CN CN201711463860.9A patent/CN108170806B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
US20130194448A1 (en) * | 2012-01-26 | 2013-08-01 | Qualcomm Incorporated | Rules for merging blocks of connected components in natural images |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及*** |
CN106126494A (zh) * | 2016-06-16 | 2016-11-16 | 上海智臻智能网络科技股份有限公司 | 同义词发现方法及装置、数据处理方法及装置 |
CN107193930A (zh) * | 2017-05-17 | 2017-09-22 | 东莞市华睿电子科技有限公司 | 一种网站敏感词屏蔽方法 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766447A (zh) * | 2018-12-25 | 2019-05-17 | 东软集团股份有限公司 | 一种确定敏感信息的方法和装置 |
CN111368061A (zh) * | 2018-12-25 | 2020-07-03 | 深圳市优必选科技有限公司 | 短文本过滤方法、装置、介质及计算机设备 |
CN111368061B (zh) * | 2018-12-25 | 2024-04-12 | 深圳市优必选科技有限公司 | 短文本过滤方法、装置、介质及计算机设备 |
CN111783447A (zh) * | 2020-05-28 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 |
CN111783447B (zh) * | 2020-05-28 | 2023-02-03 | 中国平安财产保险股份有限公司 | 基于ngram距离的敏感词检测方法、装置、设备及存储介质 |
CN112672184A (zh) * | 2020-12-15 | 2021-04-16 | 创盛视联数码科技(北京)有限公司 | 一种视频审核及发布方法 |
CN114707499A (zh) * | 2022-01-25 | 2022-07-05 | 中国电信股份有限公司 | 敏感词识别方法、装置、电子设备及存储介质 |
CN114707499B (zh) * | 2022-01-25 | 2023-10-24 | 中国电信股份有限公司 | 敏感词识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108170806B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170806A (zh) | 敏感词检测过滤方法、装置和计算机设备 | |
CN108182246B (zh) | 敏感词检测过滤方法、装置和计算机设备 | |
Nørgaard | The semiotics of typography in literary texts. A multimodal approach | |
CN109670029A (zh) | 用于确定问题答案的方法、装置、计算机设备及存储介质 | |
CN110046350A (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
CN108829894A (zh) | 口语词识别和语义识别方法及其装置 | |
CN108734089A (zh) | 识别图片文件中表格内容的方法、装置、设备及存储介质 | |
CN108733778A (zh) | 对象的行业类型识别方法和装置 | |
US9552344B2 (en) | Producing visualizations of elements in works of literature | |
CN108319720A (zh) | 基于人工智能的人机交互方法、装置及计算机设备 | |
CN108563655A (zh) | 基于文本的事件识别方法和装置 | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
CN108090211A (zh) | 热点新闻推送方法和装置 | |
CN107992602A (zh) | 搜索结果展示方法和装置 | |
Laubrock et al. | Computational approaches to comics analysis | |
CN110196929A (zh) | 问答对的生成方法和装置 | |
Long et al. | Turbulent flow: A computational model of world literature | |
CN109815500A (zh) | 非结构化公文的管理方法、装置、计算机设备及存储介质 | |
CN109784330A (zh) | 招牌内容识别方法、装置及设备 | |
CN109977826A (zh) | 物体的类别识别方法和装置 | |
CN110188303A (zh) | 页面错误识别方法和装置 | |
CN109740140A (zh) | 页面排版方法、装置和计算机设备 | |
CN107704549A (zh) | 语音搜索方法、装置及计算机设备 | |
CN110020163A (zh) | 基于人机交互的搜索方法、装置、计算机设备和存储介质 | |
Lopes et al. | EvoDesigner: Towards aiding creativity in graphic design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |