CN104331475B - 一种信息检测方法及装置 - Google Patents
一种信息检测方法及装置 Download PDFInfo
- Publication number
- CN104331475B CN104331475B CN201410611713.1A CN201410611713A CN104331475B CN 104331475 B CN104331475 B CN 104331475B CN 201410611713 A CN201410611713 A CN 201410611713A CN 104331475 B CN104331475 B CN 104331475B
- Authority
- CN
- China
- Prior art keywords
- word
- text message
- keyword
- attribute
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种信息检测方法和装置,其中一种信息检测方法,包括:获取待检测信息的文本信息;将文本信息与多属性词库中的第一属性词进行比对,第一属性词包括关键词和关键词的变形词;当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果,第二属性词为关键词的限定词;依据比对结果,确定文本信息是否为非法信息。与现有技术相比,本申请提供的这种通过以不同词比较判定非法信息方式可以对文本信息进行较为全面的检测,降低单一关键词导致的判定错误的几率,从而提高信息检测的正确率。
Description
技术领域
本申请涉及信息检测技术领域,特别涉及一种信息检测方法及装置。
背景技术
网站作为一种新型的沟通工具得到越来越多人的青睐,并且为了防止非法信息,如包含有涉黄、赌、毒、暴力、恐怖等等国家禁止发布的信息,在网站上发布,在信息发布之前需要首先对信息进行合法性检测,所谓合法性表明信息符合国家安全性要求。
当下信息检测方法为:对待检测信息进行分词处理,得到多个独立的词语,然后将每个独立的词语与关键词库中的关键词进行比对,当词语与关键词库中的关键词相同时,判定待检测信息为非法信息,即不允许进行公布的信息,其中关键词库中的关键词为表明涉黄、赌、毒、暴力、恐怖等信息的词。
从上述过程中可以看出,现有信息检测方法仅能依据待检测信息进行分词后得到的一组词中是否含有关键词来判断待检测信息是否是非法信息,这种判断方法通常不能对检测信息进行全面判断,因此现有技术对非法信息判断的正确率还有待提高。
发明内容
有鉴于此,本申请提供一种信息检测方法,用于提高信息检测的正确率。
本申请还提供一种信息检测装置,用以保证上述方法在实际中的实现及应用。
本申请提供的信息检测方法和装置的技术方案如下:
一方面,本申请实施例提供一种信息检测方法,所述方法包括:
获取待检测信息的文本信息;
将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的词;
当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果,第二属性词为关键词的限定词,限定词用于对关键词进行限定;
依据比对结果,确定文本信息是否为非法信息。
优选地,限定词包括正选词,正选词与关键词构成非法词组;
依据比对结果,确定文本信息是否为非法信息包括:当比对结果表明文本信息中包括正选词时,确定文本信息为非法信息;
当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息。
优选地,限定词包括反选词,反选词与关键词构成合法词组;
依据比对结果,确定文本信息是否为非法信息包括:当比对结果表明文本信息中不包括反选词时,确定文本信息为非法信息;
当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
优选地,获取待检测信息的文本信息包括:
确定待检测信息中符号的位置;
从所确定位置处删除符号,得到文本信息。
优选地,多属性词库的预先建立过程包括:
获取任一待检测对象的关键词;
对关键词进行属性分析,得到关键词的变形词和第二属性词;
依据所获取的关键词,确定所得到的变形词和第二属性词在多属性词库中的位置;
将所得到的变形词和第二属性词写入所确定的位置中。
另一方面,本申请提供一种信息检测装置,所述装置包括:
获取模块,用于获取待检测信息的文本信息;
第一比对模块,用于将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的词;
第二比对模块,用于当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果,第二属性词为关键词的限定词,限定词用于对关键词进行限定;
确定模块,用于依据比对结果,确定文本信息是否为非法信息。
优选地,限定词包括正选词,正选词与关键词构成非法词组;
确定模块用于当比对结果表明文本信息中包括正选词时,确定文本信息为非法信息;以及用于当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息。
优选地,限定词包括反选词,反选词与关键词构成合法词组;
确定模块用于当比对结果表明文本信息中不包括反选词时,确定文本信息为非法信息;以及用于当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
优选地,获取模块包括:
确定单元,用于确定待检测信息中符号的位置;
删除单元,用于从所确定位置处删除符号,得到文本信息。
优选地,信息检测装置还包括:
关键词获取模块,用于获取任一待检测对象的关键词;
分析模块,用于对关键词进行属性分析,得到关键词的变形词和第二属性词;
位置获取模块,用于依据所获取的关键词,确定所得到的变形词和第二属性词在多属性词库中的位置;
编写模块,用于将所得到的变形词和第二属性词写入所确定的位置中。
与现有技术相比,本申请包括以下优点:
在本申请中,首先获取待检测信息的文本信息;将文本信息与预先建立的多属性词库中第一属性词进行比对;当文本信息包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与第二属性词进行比对以得到比对结果,然后依据比对结果,判断文本信息是否为非法信息;与现有技术相比,本申请不仅仅是通过待测信息的文本信息是否包括关键词来判断其是否是非法信息,还会进一步判断待测信息的文本信息是否包括关键词的变形词和文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符是否包括用于对关键词进行限定的限定词来最终判定文本信息是否是非法信息,这种通过以不同词比较判定非法信息方式相对于采用单一关键词判定非法信息方法,可以对文本信息进行较为全面的检测,降低单一关键词导致的判定错误的几率,从而提高信息检测的正确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种信息检测方法的流程图;
图2为限定词为正选词时本申请实施例提供的一种信息检测方法的第二种流程图;
图3为限定词为反选词时本申请实施例提供的一种信息检测方法的第三种流程图;
图4为本申请实施例提供的一种信息检测方法多属性词库的预先建立过程流程图;
图5为本申请实施例提供的一种信息检测方法的工作人员输入界面示意图;
图6为本申请实施例提供的一种信息检测装置的示意图;
图7为本申请实施例提供的一种信息检测装置的获取模块的示意图;
图8为本申请实施例提供的一种信息检测装置中用于建立多属性词库的相关模块示意图。
具体实施方式
为了使本领域技术人员更好地理解本申请,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,其示出了本申请实施例提供的一种信息检测方法的流程图,可以包括以下步骤:
101:获取待检测信息的文本信息。
其中文本信息是待检测信息中文字部分组成的信息,该文本信息不包括标点符号等非文字信息,在本申请实施例中获取文本信息的一种可行方式是:将待检测信息中的符号全部删除,剩下部分即为待检测信息的文本信息。
例如待检测信息为:10月12日6时,沧源县禁毒大队经过缜密侦查,在小黑江至双江方向两公里处设卡拦截贩毒车辆。6时40分,一辆微型面包车不听禁毒民警警告强行冲卡。在经过处理后得到的文本信息为:10月12日6时沧源县禁毒大队经过缜密侦查在小黑江至双江方向两公里处设卡拦截贩毒车辆6时40分一辆微型面包车不听禁毒民警警告强行冲卡,从本例可以看出文本信息仅包括文字。
102:将文本信息与预先建立的多属性词库中的第一属性词进行比对。
在本申请实施例中第一属性词包括关键词和关键词的变形词,其中关键词是可确定文本信息为非法信息的基本词,例如涉黄、赌、毒、暴力、恐怖等违反国家相关规定的信息的词。
变形词为与关键词具有相同发音或者包括同一语素的词,其危害程度和关键词的危害程度相同,用于排除待检测信息为非法信息时人为书写错误关键词这种情况。比如关键词为***时,其变形词可以是发飘、发漂等;再例如关键词为枪,其变形词可以是木仓等。
在将文本信息与多属性词库中的第一属性词进行比对时,是将文本信息与关键词和变形词依次进行比对,以确定文本信息中是否包括第一属性词;如果文本信息中不包括第一属性词,则该文本信息为合法信息,结束操作;如果文本信息中包括第一属性词,则该文本信息可能为非法信息,此时需要将文本信息与其他词进行比较,以最终确定其是否为非法信息。
103:当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果。
其中第二属性词为关键词的限定词,用于对关键词进行限定。所谓限定可以是对关键词的使用范围、使用方式、使用途径等的一些限定;在词组顺序中限定词可以位于关键词之前,如“吸食***”中的“吸食”,该限定词位于关键词之前且用于限定***的使用方式;当然在词组顺序中限定词也可以位于关键词之后,如“***检测”的“检测”,该限定词位于关键词之后且用于限定使用途径。
在本申请实施例中第一属性词包括关键词和变形词,当文本信息包括关键词时,则将文本信息中位于关键词前的五个字符和位于关键词后的五个字符与第二属性词进行比对;当文本信息包括变形词时,则将文本信息中位于变形词前的五个字符和位于变形词后的五个字符与第二属性词进行比对;当文本信息同时包括关键词和变形词时,则将文本信息中位于关键词前的五个字符和位于关键词后的五个字符,以及位于变形词前的五个字符和位于变形词后的五个字符均与第二属性词进行比对。
作为第二属性词的限定词在文本信息中的位置靠近关键词,因此将文本信息中第一属性词的前、后各五个字符共十个字符与限定词进行比对,以确定上述十个字符是否包括第二属性词,由此可以提高文本信息在检测是否包括第二属性词时的精确性。假如文本信息中的第二属性词和第一属性词中间隔了五个及五个以上字符,第二属性词就不能对第一属性词起到限定作用,此时则不需要根据第二属性词判断文本信息是否违法。
104:依据比对结果,确定文本信息是否为非法信息。
在本申请实施例中在获取比对结果后,可以依据比对结果从语义上判断文本信息是否为非法信息。
应用上述技术方案,首先获取待检测信息的文本信息;将文本信息与预先建立的多属性词库中第一属性词进行比对;当文本信息包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与第二属性词进行比对以得到比对结果,然后依据比对结果,判断文本信息是否为非法信息;与现有技术相比,本申请不仅仅是通过待测信息的文本信息是否包括关键词来判其是否是非法信息,还会进一步判断待测信息的文本信息是否包括关键词的变形词和文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符是否包括用于对关键词进行限定的限定词来最终判定文本信息是否是非法信息,这种通过以不同词比较判定非法信息方式相对于采用单一关键词判定非法信息方法,可以对文本信息进行较为全面的检测,降低单一关键词导致的判定错误的几率,从而提高信息检测的正确率。
在本申请实施例中通过举例来例证本申请以不同词比较判定非法信息方式相对于采用单一关键词判定非法信息方法可以提高信息检测的正确率:
如文本信息为:“出售一种商品这种商品可以检测食品中是否含有***成分”,关键词为:***,其限定词为:检测。在采用现有单一关键词进行判断时,该文本信息中包括关键词“***”,则采用单一关键词判断时势必将该文本信息判定为非法信息。但是通过语义分析可知该文本信息实际为合法信息,单一关键词的判断结果错误。当采用本申请实施例提供的信息检测方式时,首先通过关键词判断出该文本信息有可能为非法信息,其次将该文本信息与限定词“检测”进行比较,得到比对结果为文本信息中包括检测这一限定词,然后依据比对结果从从语义上判断文本信息为合法信息,判断结果正确。由该例子可以证明本申请实施例提供的信息检测方法可以提高信息检测的正确率。
下面将以限定词包括正选词或者反选词来对本申请实施例中依据比对结果确定文本信息是否为非法信息进行说明。其中正选词和关键词构成非法词组,如“***”的正选词包括“代开”、“出售”等,当文本信息中同时包括正选词和关键词时,该文本信息为非法信息。相应的反选词与关键词构成合法词组,例如“***”的反选词包括“试纸”、“检测”等,当文本信息中包括反选词和关键词时,该文本为合法信息。从正选词和反选词来看,两者对文本信息的判断方式不同,具体可以参阅图2和图3所示。
其中图2是限定词为正选词时,本申请实施例提供的信息检测方法的第二种流程图,可以包括以下步骤:
101:获取待检测信息的文本信息。将待检测信息中的符号全部删除,剩下部分即为待检测信息的文本信息。
102:将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的词。
103:当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果。第二属性词为关键词的限定词,用于对关键词进行限定。
105:当比对结果表明文本信息中包括正选词时,确定文本信息为非法信息。
106:当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息。
图3是限定词为反选词时,本申请实施例提供的信息检测方法的第三种流程图,可以包括以下步骤:
101:获取待检测信息的文本信息。
将待检测信息中的符号全部删除,剩下部分即为待检测信息的文本信息。
102:将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的词。
103:当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果。第二属性词为关键词的限定词,用于对关键词进行限定。
107:当比对结果表明文本信息中不包括反选词时,确定文本信息为非法信息;
108:当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
需要说明的一点是:本申请实施例提供的信息检测方法还可以同时对文本信息是否包括正选词和反选词进行判断,当通过正选词或者反选词判断出文本信息为非法信息时,则确定文本信息为非法信息。
上述所有实施例中还包括多属性词库的预先建立过程,请参阅图4,其示出了本申请实施例中建立多属性词库的过程,可以包括以下步骤:
401:获取任一待检测对象的关键词。
其中待检测对象为存在于文本信息中可能会导致文本信息为非法信息的事物,如前述***即为一待检测对象,那么获取到的关键词即为“***”。
402:对关键词进行属性分析,得到关键词的变形词和第二属性词。
其中对关键词的属性分析可以是由工作人员完成,在分析其属性后输入其认为的变形词和第二属性词。例如可以为工作人员提供图5所示的界面,由工作人员将其认为的变形词和第二属性词写入该界面的相应位置,从而得到关键词的变形词和第二属性词。
403:依据所获取的关键词,确定所得到的变形词和第二属性词在多属性词库中的位置。
在获取到关键词、变形词和第二属性词后,首先需要确定关键词在多属性词库中的位置以及关键词的第二属性词(即限定词)为正选词还是反选词,然后依据关键词的位置确定与关键词在同一行的位置作为变形词和第二属性词在多属性词库中的位置。
404:将所得到的变形词和第二属性词写入所确定的位置中。
以表1为例,表1是本申请实施例中多属性词库的一种形式,其示出了关键词、变形词和第二属性词在多属性词库中的存储方式,其中“×”表示该词不存在。
表1多属性词库的一种形式
多属性词库建立完成后,如果需要添加关键词、变形词和第二属性词,则每当发现一个关键词、变形词和第二属性词,重复步骤303至304以完善多属性词库。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述方法实施例相对应,本申请实施例还提供一种信息检测装置,信息检测装置的一种结构示意图如图6所示,包括:获取模块11、第一比对模块12、第二比对模块13和确定模块14。其中:
获取模块11,用于获取待检测信息的文本信息。
其中文本信息是待检测信息中文字部分组成的信息,该文本信息不包括标点符号等非文字信息,在本申请实施例中获取模块11的一种可行方式是:将待检测信息中的符号全部删除,剩下部分即为待检测信息的文本信息。
例如待检测信息为:10月12日6时,沧源县禁毒大队经过缜密侦查,在小黑江至双江方向两公里处设卡拦截贩毒车辆。6时40分,一辆微型面包车不听禁毒民警警告强行冲卡。在获取模块11经过处理后得到的文本信息为:10月12日6时沧源县禁毒大队经过缜密侦查在小黑江至双江方向两公里处设卡拦截贩毒车辆6时40分一辆微型面包车不听禁毒民警警告强行冲卡,从本例可以看出文本信息仅包括文字。
具体的获取模块11可以采取如图7所示的结构示意图,获取模块11可以包括:确定单元111和删除单元112,其中:
确定单元111,用于确定所述待检测信息中符号的位置;
删除单元112,用于从所确定位置处删除所述符号,得到所述文本信息。
第一比对模块12,用于将文本信息与预先建立的多属性词库中的第一属性词进行比对。
在本申请实施例中第一属性词包括关键词和关键词的变形词,其中关键词是可确定文本信息为非法信息的基本词,例如涉黄、赌、毒、暴力、恐怖等违反国家相关规定的信息的词。
变形词为与关键词具有相同发音或者包括同一语素的词,其危害程度和关键词的危害程度相同,用于排除待检测信息为非法信息时人为书写错误关键词这种情况。比如关键词为***时,其变形词可以是发飘、发漂等;再例如关键词为枪,其变形词可以是木仓等。
第一比对模块12在将文本信息与多属性词库中的第一属性词进行比对时,是将文本信息与关键词和变形词依次进行比对,以确定文本信息中是否包括第一属性词;如果文本信息中不包括第一属性词,则该文本信息为合法信息,结束操作;如果文本信息中包括第一属性词,则该文本信息可能为非法信息,需要进行下一步操作即触发第二比对模块13,以最终确定其是否为非法信息。
第二比对模块13,用于当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果。
其中第二属性词为关键词的限定词,用于对关键词进行限定。所谓限定可以是对关键词的使用范围、使用方式、使用途径等的一些限定;在词组顺序中限定词可以位于关键词之前,如“吸食***”中的“吸食”,该限定词位于关键词之前且用于限定***的使用方式;当然在词组顺序中限定词也可以位于关键词之后,如“***检测”的“检测”,该限定词位于关键词之后且用于限定使用途径。
当文本信息中包括第一属性词时,将文本信息中第一属性词的前、后各五个字符共十个字符与第二属性词进行比对,以确定上述十个字符是否包括第二属性词,由此可以提高文本信息在检测是否包括第二属性词时的精确性。假如文本信息中的第二属性词和第一属性词中间隔了五个及五个以上字符,第二属性词就不能对第一属性词起到限定作用,此时则不需要根据第二属性词判断文本信息是否违法。
确定模块14,用于依据比对结果,确定文本信息是否为非法信息。在本申请实施例中在获取比对结果后,确定模块14可以依据比对结果从语义上判断文本信息是否为非法信息。
下面将以限定词包括正选词或者反选词来对本申请实施例中确定模块14进行说明。其中正选词和关键词构成非法词组,如“***”的正选词包括“代开”、“出售”等,当文本信息中同时包括正选词和关键词时,该文本信息为非法信息。相应的反选词与关键词构成合法词组,例如“***”的反选词包括“试纸”、“检测”等,当文本信息中包括反选词和关键词时,该文本为合法信息。
在限定词包括正选词时,确定模块14用于:当比对结果表明文本信息中包括正选词时,确定文本信息为非法信息;当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息;
在限定词包括反选词时,确定模块14用于:当比对结果表明文本信息中不包括反选词时,确定文本信息为非法信息;以及用于当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
上述所有实施例的装置均存储有多属性词库。请参阅图8,其示出了本申请实施例一种信息检测装置可以包括的用于建立多属性词库的相关模块,包括:关键词获取模块15、分析模块16、位置获取模块17和编写模块18。其中:
关键词获取模块15,用于获取任一待检测对象的关键词。
其中待检测对象为存在于文本信息中可能会导致文本信息为非法信息的事物,如前述***即为一待检测对象,那么获取到的关键词即为“***”
分析模块16,用于对所述关键词进行属性分析,得到所述关键词的变形词和所述第二属性词。
其中对关键词的属性分析可以是由工作人员完成,在分析其属性后输入其认为的变形词和第二属性词。例如可以为工作人员提供图5所示的界面,由工作人员将其认为的变形词和第二属性词写入该界面的相应位置,从而分析模块16得到关键词的变形词和第二属性词。
位置获取模块17,用于依据所获取的所述关键词,确定所得到的所述变形词和所述第二属性词在所述多属性词库中的位置。
在获取到关键词、变形词和第二属性词后,首先需要位置获取模块17确定关键词在多属性词库中的位置以及关键词的第二属性词(即限定词)为正选词还是反选词,然后位置获取模块17依据关键词的位置确定与关键词在同一行的位置作为变形词和第二属性词在多属性词库中的位置。
编写模块18,用于将所得到的所述变形词和所述第二属性词写入所确定的位置中。
以表1为例,表1是本申请实施例中多属性词库的一种形式,其示出了关键词、变形词和第二属性词在多属性词库中的存储方式,其中“×”表示该词不存在。
表1多属性词库的一种形式
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
以上对本申请所提供的一种信息检测方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种信息检测方法,其特征在于,所述方法包括:
获取待检测信息的文本信息;
将所述文本信息与预先建立的多属性词库中的第一属性词进行比对,其中所述第一属性词包括关键词和所述关键词的变形词,所述变形词为与所述关键词具有相同发音或者包括同一语素的词;
当所述文本信息中包括所述第一属性词时,将所述文本信息中位于所述第一属性词前的五个字符和位于所述第一属性词后的五个字符与所述多属性词库中的第二属性词进行比对,得到比对结果,所述第二属性词为所述关键词的限定词,所述限定词用于对所述关键词进行限定;
依据所述比对结果,确定所述文本信息是否为非法信息。
2.根据权利要求1所述的方法,其特征在于,所述限定词包括正选词,所述正选词与所述关键词构成非法词组;
所述依据所述比对结果,确定所述文本信息是否为非法信息包括:当所述比对结果表明所述文本信息中包括所述正选词时,确定所述文本信息为非法信息;
当所述比对结果表明所述文本信息中不包括所述正选词时,确定所述文本信息为合法信息。
3.根据权利要求1所述的方法,其特征在于,所述限定词包括反选词,所述反选词与所述关键词构成合法词组;
所述依据所述比对结果,确定所述文本信息是否为非法信息包括:当所述比对结果表明所述文本信息中不包括所述反选词时,确定所述文本信息为非法信息;
当所述比对结果表明所述文本信息中包括所述反选词时,确定所述文本信息为合法信息。
4.根据权利要求1所述的方法,其特征在于,所述获取待检测信息的文本信息包括:
确定所述待检测信息中符号的位置;
从所确定位置处删除所述符号,得到所述文本信息。
5.根据权利要求1至4任意一项所述的方法,其特征在于,多属性词库的预先建立过程包括:
获取任一待检测对象的关键词;
对所述关键词进行属性分析,得到所述关键词的变形词和所述第二属性词;
依据所获取的所述关键词,确定所得到的所述变形词和所述第二属性词在所述多属性词库中的位置;
将所得到的所述变形词和所述第二属性词写入所确定的位置中。
6.一种信息检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测信息的文本信息;
第一比对模块,用于将所述文本信息与预先建立的多属性词库中的第一属性词进行比对,其中所述第一属性词包括关键词和所述关键词的变形词,所述变形词为与所述关键词具有相同发音或者包括同一语素的词;
第二比对模块,用于当所述文本信息中包括所述第一属性词时,将所述文本信息中位于所述第一属性词前的五个字符和位于所述第一属性词后的五个字符与所述多属性词库中的第二属性词进行比对,得到比对结果,所述第二属性词为所述关键词的限定词,所述限定词用于对所述关键词进行限定;
确定模块,用于依据所述比对结果,确定所述文本信息是否为非法信息。
7.根据权利要求6所述的装置,其特征在于,所述限定词包括正选词,所述正选词与所述关键词构成非法词组;
所述确定模块用于当所述比对结果表明所述文本信息中包括所述正选词时,确定所述文本信息为非法信息;以及用于当所述比对结果表明所述文本信息中不包括所述正选词时,确定所述文本信息为合法信息。
8.根据权利要求6所述的装置,其特征在于,所述限定词包括反选词,所述反选词与所述关键词构成合法词组;
所述确定模块用于当所述比对结果表明所述文本信息中不包括所述反选词时,确定所述文本信息为非法信息;以及用于当所述比对结果表明所述文本信息中包括所述反选词时,确定所述文本信息为合法信息。
9.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
确定单元,用于确定所述待检测信息中符号的位置;
删除单元,用于从所确定位置处删除所述符号,得到所述文本信息。
10.根据权利要求6至9任意一项所述的装置,其特征在于,所述装置还包括:
关键词获取模块,用于获取任一待检测对象的关键词;
分析模块,用于对所述关键词进行属性分析,得到所述关键词的变形词和所述第二属性词;
位置获取模块,用于依据所获取的所述关键词,确定所得到的所述变形词和所述第二属性词在所述多属性词库中的位置;
编写模块,用于将所得到的所述变形词和所述第二属性词写入所确定的位置中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611713.1A CN104331475B (zh) | 2014-11-04 | 2014-11-04 | 一种信息检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410611713.1A CN104331475B (zh) | 2014-11-04 | 2014-11-04 | 一种信息检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104331475A CN104331475A (zh) | 2015-02-04 |
CN104331475B true CN104331475B (zh) | 2018-03-23 |
Family
ID=52406202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410611713.1A Active CN104331475B (zh) | 2014-11-04 | 2014-11-04 | 一种信息检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331475B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108373B (zh) * | 2016-11-25 | 2020-09-25 | 阿里巴巴集团控股有限公司 | 一种名称匹配方法及装置 |
CN109933775B (zh) * | 2017-12-15 | 2022-02-18 | 腾讯科技(深圳)有限公司 | Ugc内容处理方法及装置 |
CN108536859A (zh) * | 2018-04-18 | 2018-09-14 | 北京小度信息科技有限公司 | 内容校验方法、装置、电子设备及计算机可读存储介质 |
CN111488738B (zh) * | 2019-01-25 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 非法信息的识别方法、装置 |
CN109886683A (zh) * | 2019-02-25 | 2019-06-14 | 北京神荼科技有限公司 | 监控区块链数据的方法、装置以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2415062A (en) * | 2004-06-08 | 2005-12-14 | Malcolm Ripley | Junk mail filter for emails based on subject field text |
CN101247279A (zh) * | 2007-10-23 | 2008-08-20 | 北京邮电大学 | 一种互联网内容安全检测*** |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤*** |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤***及方法 |
-
2014
- 2014-11-04 CN CN201410611713.1A patent/CN104331475B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2415062A (en) * | 2004-06-08 | 2005-12-14 | Malcolm Ripley | Junk mail filter for emails based on subject field text |
CN101247279A (zh) * | 2007-10-23 | 2008-08-20 | 北京邮电大学 | 一种互联网内容安全检测*** |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤*** |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104331475A (zh) | 2015-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104331475B (zh) | 一种信息检测方法及装置 | |
CN109117482B (zh) | 一种面向中文文本情感倾向性检测的对抗样本生成方法 | |
Ahmed et al. | Detecting opinion spams and fake news using text classification | |
Koppel et al. | Determining if two documents are written by the same author | |
Stamatatos | Author identification using imbalanced and limited training texts | |
Menai | Detection of plagiarism in Arabic documents | |
CN107025239B (zh) | 敏感词过滤的方法和装置 | |
Spitters et al. | Authorship analysis on dark marketplace forums | |
US9692771B2 (en) | System and method for estimating typicality of names and textual data | |
Altakrori et al. | Arabic authorship attribution: An extensive study on twitter posts | |
Man | Feature extension for short text categorization using frequent term sets | |
Zhang et al. | Identifying features of health misinformation on social media sites: an exploratory analysis | |
CN115809662A (zh) | 一种文本内容异常检测的方法、装置、设备及介质 | |
CN111046627B (zh) | 一种中文文字显示方法及*** | |
CN110020430B (zh) | 一种恶意信息识别方法、装置、设备及存储介质 | |
Bian et al. | Detecting spam game reviews on steam with a semi-supervised approach | |
CN115314236A (zh) | 在域名***(dns)记录集中检测网络钓鱼域的***和方法 | |
Shahid et al. | Accurate detection of automatically spun content via stylometric analysis | |
Shnarch et al. | GRASP: Rich patterns for argumentation mining | |
Castillo et al. | Authorship verification using a graph knowledge discovery approach | |
Hakak et al. | Diacritical digital Quran authentication model | |
CN105701086A (zh) | 一种滑动窗口文献检测方法及*** | |
CN113240322A (zh) | 气候风险披露质量方法、装置、电子设备及存储介质 | |
Alshamasi et al. | Ensemble-Based Clustering for Writing Style Change Detection in Multi-Authored Textual Documents. | |
CN109933775B (zh) | Ugc内容处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 450000 Zhengzhou science and technology zone, Henan high tech Road, building 169, building 1, No. 1 Applicant after: ZHENGZHOU XIZHI INFORMATION TECHNOLOGY CO., LTD. Address before: 450000 Zhengzhou science and technology zone, Henan high tech Road, building 169, building 1, No. 1 Applicant before: ZHENGZHOU XIZHI INFORMATION TECHNOLOGY CO., LTD. |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |