CN109543024A - 一种文本处理方法及装置 - Google Patents
一种文本处理方法及装置 Download PDFInfo
- Publication number
- CN109543024A CN109543024A CN201811306958.8A CN201811306958A CN109543024A CN 109543024 A CN109543024 A CN 109543024A CN 201811306958 A CN201811306958 A CN 201811306958A CN 109543024 A CN109543024 A CN 109543024A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- character
- combination
- sensitive word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术领域,尤其涉及一种文本处理方法及装置,用于提升文本的过滤准确度。所述方法包括:获得输入的文本,所述文本中包括N个字符,N为大于1的整数;针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1;若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本处理方法及装置。
背景技术
随着移动通信和互联网的发展,基于文本的服务如短信、即时通讯工具、微博、论坛等已经渗透到社会的各个领域,为防止不良信息内容的发布,需要对待发布的文本进行过滤,以拦截不良的文本内容,因此,如何提升文本的过滤准确度,是一个需要解决的技术问题。
发明内容
本发明实施例提供一种文本处理方法及装置,用于提升文本过滤准确度。
一方面,本发明实施例提供了一种文本处理方法,所述方法包括:
获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1;
若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
可选的,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合。
可选的,所述所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的任一个敏感词组合所具有的组合特征一致,具体为:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
可选的,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
可选的,所述方法还包括:
在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
可选的,所述敏感词组合库中的所有组合按哈希有向图方式进行排列,获得所有组合中每个组合的组合特征。
另一方面,本发明实施例提供了一种文本处理装置,包括:
获得单元,用于获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
查找单元,用于针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1;
确定单元,用于若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
可选的,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合。
可选的,所述确定单元,还用于:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
可选的,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
所述确定单元,还用于:
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
可选的,所述查找单元还用于:
在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
可选的,述获得单元,还用于将所述敏感词组合库中的所有组合按哈希有向图方式进行排列,获得所有组合中每个组合的组合特征。
在本发明实施例中,在获得输入的文本时,针对文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,以便基于查找的所有词,确定所有词中存在多个词的组合信息所包括的组合特征是否与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,并在确定存在多个词的组合信息所包括的组合特征与至少一个敏感词组合所具有的组合特征一致时,确定该文本属于目标文本,否则确定该文本不属于目标文本。即该方法对输入的文本中所有的词进行了多种组合与敏感词组合进行敏感词配置,能够最大程度的确定该文本是否符合敏感词组合库中的一个或多个敏感词组合的特征,从而提升了文本的过滤的准确度。
进一步的,由于本发明实施例中的方法,在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息,所以,也提升了查找速度,进而提升了文本过滤的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明实施例提供的一种应用场景示意图;
图2为本发明实施例提供的一种文本处理方法流程图;
图3为本发明实施例提供的一种敏感词组按照按哈希有向图方式排列示意图;
图4为本发明实施例提供的另一种敏感词组按照按哈希有向图方式排列示意图;
图5为本发明实施例提供的另一种敏感词组按照按哈希有向图方式排列示意图;
图6为本发明实施例提供的一种文本处理装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明技术方案保护的范围。
本发明实施例中的文本处理方法可以应用于如图1所示的应用场景,该应用场景中包括用户终端设备10以及文本处理中心11,其中,用户终端设备10可以为任何能够按照程序运行,自动、高速处理大量数据的智能电子设备,这样的终端设备如电脑,ipad,手机等。文本处理中心11可以是一台服务器,也可以是若干台服务器组成的服务器集群或云计算中心,也可以是终端设备如电脑。
用户终端设备10与文本处理中心11通过网络连接,网络可以为局域网、广域网或移动互联网等通信网络中的任意一种。在该场景中,用户可在用户终端设备10输入待发送的文本,用户终端设备10发送文本之前,可将待发送的文本发送给文本处理中心11,按照本发明实施例提供的方法进行处理,下文将进行详细介绍。
需要注意的是,上文提及的应用场景仅是为了便于理解本发明的精神和原理而示出,本发明实施例在此方面不受任何限制。相反,本发明实施例可以应用于适用的任何场景。
下面结合图1所示的应用场景,对本发明实施例提供的一种文本处理方法进行说明。
如图2所示,本发明实施例中提供的一种文本处理方法,包括:
步骤201:获得输入的文本,输入的文本中包括N个字符,N为大于1的整数。
本发明实施例中的文本处理方法可应用于任何需要文本过滤的场景中,这样的场景如使用即时通讯发送短信,发布微博、论坛留言等,在此,就不一一列举。在本发明实施例中,用户可在图1所示的用户终端设备中输入需要发送的文本,例如,通过终端设备中文本输入框输入待发送的文本,或通过终端设备的语音输入模块以语音的方式输入待发送的文本,在完成待发送的文本输入之后,文本处理中心可获取输入的文本,并进行下文即将介绍的处理。
其中,输入的文本通过包括多个字符,字符可以具体为英文字符,也可以汉语中的单词,也可为其他语种的词。
步骤202:针对文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息。
其中,M为大于等于1、且小于N的整数,且M的初始值为1。
在本发明实施例中,为了提升文本过滤的准确性,减少误判或漏判,在获得输入的文本之后,可先针对文本中的任一字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息,即从文本中查找出由该文本中的字符组成的所有词在敏感词组合库中的组合信息。
其中,组合信息包括与其对应的词在敏感词组合库中的所属组合,以及该词在该组合中的所属子组合,子组合为与其对应的组合中的近义词组成的集合。
例如,假设敏感词组合库包括敏感词组合(aaa|bbb)&(ccc|ddd),以及敏感词组合(aa|bbbb)&(cd)&(ddd|ee),其中符号“&”表示与的关系,符合“|”多选1,每个敏感词组合中的“()”表示该组合中的一个子组合,一个子组合中包括的词均为近义词,例如敏感词组合(aaa|bbb)&(ccc|ddd)中就包括两个子组合,分别为(aaa|bbb)和(ccc|ddd),其中,子组合(aaa|bbb)中的aaa和bbb为近义词,子组合(ccc|ddd)中的ccc和ddd为近义词,同理,敏感词组合(aa|bbbb)&(cd)&(ddd|ee)中包括3个子组合,分别为(aa|bbbb)、(cd)、以及(ddd|ee),其中,aa与bbbb为近义词,ddd与ee为近义词,子组合(cd)中只有一个词cd。
在本发明实施例中,可预先对每个敏感词组合进行标识,以进行组合区别,设置敏感词组合(aaa|bbb)&(ccc|ddd)的组合ID为1,设置敏感词组合(aaa|bbb)&(ccc|ddd)的子组合数目标识groupNums为2;设置敏感词组合(aa|bbbb)&(cd)&(ddd|ee)中的组合ID为2,设置敏感词组合(aa|bbbb)&(cd)&(ddd|ee)中的子组合数目标识groupNums为3。
因此,在针对文本中的任一字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息,即为查找该文本中属于敏感词组合库中的敏感词组合的所有词,以及每个词所属的敏感词组合和该词在该其所属敏感词组合的子组合的信息。
例如,当输入的文本具体为caadddcdccc时,可查找到该文本中属于敏感词组合库中的敏感词组合的所有词,这里继续以上述列举的敏感词组合库包括敏感词组合(aaa|bbb)&(ccc|ddd),以及敏感词组合(aa|bbbb)&(cd)&(ddd|ee)为例,那么,查找到的所有词包括aa、ddd、cd以及ccc,每个词的组合信息分别为:
aa的组合信息为:id=2,groupNums=3,groupSeq=1;
ddd的组合信息为:id=1,groupNums=2,groupSeq=2;
id=2,groupNums=3,groupSeq=3;
cd的组合信息为:id=2,groupNums=3,groupSeq=2;
ccc的组合信息为:id=1,groupNums=2,groupSeq=2;
其中,其中groupSeq表示词在敏感词组合中的具体子组合,例如,aa的组合信息为:id=2表示aa所在的敏感词组合,即属于敏感词组合库的敏感词组合(aaa|bbb)&(ccc|ddd)中的词,groupNums=3表示aa所在的敏感词组合包括3个子组合,groupSeq=1表示aa在其所在的敏感词组合中的第一个子组合中,同理于ddd、cd、ccc的组合信息,在此就不重复叙述了。
步骤203:确定所有词中存在多个词的组合信息所包括的组合特征是否与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,若是,则执行步骤204;否则执行步骤205;
在本发明实施例中,在查找到输入的文本中属于敏感词组合库中的敏感词组合的所有词,以及每个词所属的敏感词组合和该词在该其所属敏感词组合的子组合的信息之后,可进一步确定查到的所有词中是否存在多个词的组合信息所包括的组合特征与所述敏感词组合库的一个敏感词组合所具有的组合特征一致。
在实际应用中,步骤203还可以具体通过以下方式执行:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
这里继续以上文列举的文本为caadddcdccc,敏感词组合库包括敏感词组合(aaa|bbb)&(ccc|ddd),以及敏感词组合(aa|bbbb)&(cd)&(ddd|ee)为例,那么,根据上文分析可知,文本caadddcdccc中,匹配上id=1即敏感词组合(aaa|bbb)&(ccc|ddd)的两个词为ddd和ccc,这两个词的groupSeq都为2,这两个词都属于敏感词组合(aaa|bbb)&(ccc|ddd)中的同一个子组合即子组合2,那么,这两个词所在的子组合就没有包括其所在敏感词组合(aaa|bbb)&(ccc|ddd)的所有子组合,那么,可确定两个词的组合信息所包含的组合特征与其所在敏感词组合(aaa|bbb)&(ccc|ddd)的组合特征不一致,即文本未匹配上id=1的敏感词组合(aaa|bbb)&(ccc|ddd)。
文本caadddcdccc中,匹配上id=2的三个敏感词为aa、ddd、以及cd,这三个词的groupSeq分布为1、3、2,即这三个词在敏感词组合(aa|bbbb)&(cd)&(ddd|ee)的三个不同的子组合中,由于该敏感词组合共三个分组,即这三个敏感词所在的子组合就包括其所在敏感词组合(aa|bbbb)&(cd)&(ddd|ee)的所有子组合,那么,可确定这三个词的组合信息所包含的组合特征与其所在敏感词组合(aa|bbbb)&(cd)&(ddd|ee)的组合特征一致,即文本匹配上id=2的敏感词组合(aa|bbbb)&(cd)&(ddd|ee)。
步骤204:确定所述文本属于目标文本。
由于文本caadddcdccc中,存在aa、ddd、以及cd的组合信息所包括的组合特征与敏感词组合库的一个敏感词组合即敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征一致,则可确定文本caadddcdccc属于目标文本。
其中,目标文本可以是可释放通过的文本,也可以为需要拦截的文本,还可以是用于白名单判断的文本。
例如,在敏感词组合库包括的敏感词组合为用于过滤文本的组合时,目标文本为需要拦截的文本,那么,针对上文中的文本caadddcdccc,由于其存在aa、ddd、以及cd的组合信息所包括的组合特征与敏感词组合库的一个敏感词组合即敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征一致,所以,可以确定文本caadddcdccc为需要拦截的文本,此时还可以拦截该文本。
在敏感词组合库包括的敏感词组合为用于白名单判断的组合,目标文本为可进行白名单判断的文本时,那么,针对上文中的文本caadddcdccc,由于其存在aa、ddd、以及cd的组合信息所包括的组合特征与敏感词组合库的一个敏感词组合即敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征一致,所以,可以确定文本caadddcdccc为可进行白名单判断的文本,此时还可以将该文本中查找出的词作为白名单中的词。
步骤205:确定所述文本不属于目标文本。
在具体实践过程中,也存在确定的所有词中的任意多个词的组合信息所包括的组合特征与所述敏感词组合库的每一个敏感词组合所具有的组合特征不一致的情况,此时可确定该文本不属于目标文本。
例如,文本caadddcdccc中的任意多个词的组合信息所包括的组合特征与敏感词组合(aa|bbbb)&(cd)&(ddd|ee)所具有的组合特征也不同,则可确定文本caadddcdccc不属于目标文本。在敏感词组合库包括的敏感词组合为用于过滤文本的组合时,目标文本为需要拦截的文本,那么,可以确定文本caadddcdccc为不需要拦截的文本,此时可释放该文本。在敏感词组合库包括的敏感词组合为用于白名单判断的组合,目标文本为可进行白名单判断的文本时,那么,可以确定文本caadddcdccc为不能进行白名单判断的文本。
所以,通过上述方法,在获得输入的文本时,针对文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,以便基于查找的所有词,确定所有词中存在多个词的组合信息所包括的组合特征是否与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,并在确定存在多个词的组合信息所包括的组合特征与至少一个敏感词组合所具有的组合特征一致时,确定该文本属于目标文本,否则确定该文本不属于目标文本。即该方法对输入的文本中所有的词进行了多种组合与敏感词组合进行敏感词配置,能够最大程度的确定该文本是否符合敏感词组合库中的一个或多个敏感词组合的特征,从而提升了文本的过滤的准确度。
作为一种可选的方案,在本发明实施例中,可以将敏感词组合库中的所有组合按哈希有向图方式进行排列,获得所有组合中每个组合的组合特征,以便与从文本中查找的多个词的组合信息所包括的组合特征进行一致判断。
这里继续以敏感词组合库包括敏感词组合(aaa|bbb)&(ccc|ddd),以及敏感词组合(aa|bbbb)&(cd)&(ddd|ee)为例,那么,针对敏感词组合(aaa|bbb)&(ccc|ddd)可以该敏感词组合所包括的子组合进行拆分,即拆分成子组合(aaa|bbb)与子组合(ccc|ddd),针对子组合(aaa|bbb),可以按照图3所示,将子组合(aaa|bbb)中的包括的词进一步拆分成字符,然后将字符按照图3所示的哈希有向图方式排列,就可获得子组合(aaa|bbb)中每个词的组合信息,即aaa的组合信息包括:id=1,groupNums=2,groupSeq=1;bbb的组合信息包括:id=1,groupNums=2,groupSeq=1。对子组合(ccc|ddd)进行同样的处理,得到该子组合中每个词组合信息,然后子组合(ccc|ddd)与子组合(aaa|bbb)中所有词的组合信息构成敏感词组合(aaa|bbb)&(ccc|ddd)的组合信息,如图4所示,敏感词组合(aaa|bbb)&(ccc|ddd)的组合信息就包括:该组合中aaa的组合信息包括:id=1,groupNums=2,groupSeq=1;bbb的组合信息包括:id=1,groupNums=2,groupSeq=1;ccc的组合信息包括:id=1,groupNums=2,groupSeq=2;ddd的组合信息包括:id=1,groupNums=2,groupSeq=2。
同理,针对敏感词组合(aa|bbbb)&(cd)&(ddd|ee)也可进行上文相同的处理,进而获得该组合的组合信息,该组合信息如图5所示包括:该组合中aa的组合信息包括:id=2,groupNums=3,groupSeq=1;bbbb的组合信息包括:id=2,groupNums=3,groupSeq=1;cd的组合信息包括:id=2,groupNums=3,groupSeq=2;ddd的组合信息包括:id=2,groupNums=3,groupSeq=3;ee的组合信息包括:id=2,groupNums=3,groupSeq=3。其中,图5还包括敏感词组合(aaa|bbb)&(ccc|ddd)的组合信息。
作为一种可选的方案,在本发明实施例中,为了提升文本处理速度,步骤202:针对文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息时,可以按照以下方法执行:
在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
即在本发明实施例中,考虑到词通常由有限个字符组成,若超过一定数量的字符组成的就不属于一个词的范畴,而是属于一个句子或一个句子的一部分内容,因此,针对文本中任一个字符,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
其中,M初始值为1,K可根据该文本所述语种的字符与词特征设置,例如,在输入文本为中文,则一个字符为一个字,在中文中,词通过可以两个字、3个字或4个字组成,因此,K可选择为3,那么,针对文本中第一个字,可先查找该第一个字与第二个字组成的词在敏感词组合库中的组合信息,若未查找到,则在第二次查找时,可查找该第一个字与第二个字、第三个字组成的词在敏感词组合库中的组合信息,若未查找到;则在第三次查找时,可查找该第一个字与第二个字、第三个字以及第四个字组成的词在敏感词组合库中的组合信息,若未查找到,则停止以该第一个字进行的查找,继而查找第二个字与紧挨第二字符的M个字符所组成的词在敏感词组合库中的组合信息,在此就不重复叙述了,所以,提升文本处理速度。
基于同一发明构思,本发明实施例中提供了一种文本处理装置,如图6所示,包括:
获得单元50,用于获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
查找单元51,用于针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1;
确定单元52,用于若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
可选的,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合。
可选的,所述确定单元,还用于:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
可选的,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
所述确定单元,还用于:
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
可选的,所述查找单元还用于:
在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
可选的,所述获得单元,还用于将所述敏感词组合库中的所有组合按哈希有向图方式进行排列,获得所有组合中每个组合的组合特征。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种文本处理方法,其特征在于,所述方法包括:
获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1;
若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
2.如权利要求1所述的方法,其特征在于,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合。
3.如权利要求2所述的方法,其特征在于,所述所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的任一个敏感词组合所具有的组合特征一致,具体为:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
5.如权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
在查找该任一个字符与紧挨该任一个字符的M个字符所组成的词在敏感词组合库中的组合信息时,若连续K次未查找到该任一个字符与其紧挨的M个字符所组成的词在敏感词组合库中的组合信息时,则查找紧挨该任一个字符之后的下一个字符与紧挨该下一个字符的M个字符所组成的词在敏感词组合库中的组合信息。
6.如权利要求1-3中任一项所述的方法,其特征在于,所述敏感词组合库中的所有组合按哈希有向图方式进行排列,获得所有组合中每个组合的组合特征。
7.一种文本处理装置,其特征在于,包括:
获得单元,用于获得输入的文本,所述文本中包括N个字符,N为大于1的整数;
查找单元,用于针对所述文本中的任一个字符,依次查找该任一个字符与紧挨该任一个字符的M个字符所组成的词,在敏感词组合库中的组合信息,从而获得所述文本中所有词的组合信息,M为大于等于1、且小于N的整数,且M的初始值为1;
确定单元,用于若所有词中存在多个词的组合信息所包括的组合特征与所述敏感词组合库的至少一个敏感词组合所具有的组合特征一致,则确定所述文本属于目标文本,否则确定所述文本不属于目标文本。
8.如权利要求7所述的装置,其特征在于,所述组合信息包括与其对应的词在所述敏感词组合库中的所属组合,以及该词在该组合中的所属子组合;其中,子组合为与其对应的组合中的近义词组成的集合。
9.如权利要求8所述的装置,其特征在于,所述确定单元,还用于:
若根据所述多个词的组合信息,确定所述多个词属于所述敏感词组合库中的同一个组合,且所述多个词所在的子组合包括了该同一个组合的所有子组合;
则确定所述多个词的组合信息所包括的组合特征与该同一个组合的组合特征一致。
10.如权利要求7-9中任一项所述的装置,其特征在于,所述敏感词组合库包括的敏感词组合为用于过滤文本的组合时,所述目标文本为需要拦截的文本;以及
所述确定单元,还用于
在确定所述文本属于需要拦截的文本时,拦截所述文本;在确定所述文本不属于需要拦截的文本,则释放所述文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811306958.8A CN109543024B (zh) | 2018-11-05 | 2018-11-05 | 一种文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811306958.8A CN109543024B (zh) | 2018-11-05 | 2018-11-05 | 一种文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543024A true CN109543024A (zh) | 2019-03-29 |
CN109543024B CN109543024B (zh) | 2021-02-23 |
Family
ID=65846552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811306958.8A Active CN109543024B (zh) | 2018-11-05 | 2018-11-05 | 一种文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543024B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310205A (zh) * | 2020-02-11 | 2020-06-19 | 平安科技(深圳)有限公司 | 敏感信息的检测方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514238A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 基于分类查找的敏感词识别处理方法 |
CN105260357A (zh) * | 2015-10-14 | 2016-01-20 | 北京京东尚科信息技术有限公司 | 基于哈希有向图的敏感词检查方法和设备 |
US20160078121A1 (en) * | 2014-09-11 | 2016-03-17 | Alibaba Group Holding Limited | Method and apparatus of matching an object to be displayed |
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN106897422A (zh) * | 2017-02-23 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本处理方法、装置及服务器 |
-
2018
- 2018-11-05 CN CN201811306958.8A patent/CN109543024B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514238A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 基于分类查找的敏感词识别处理方法 |
US20160078121A1 (en) * | 2014-09-11 | 2016-03-17 | Alibaba Group Holding Limited | Method and apparatus of matching an object to be displayed |
CN105260357A (zh) * | 2015-10-14 | 2016-01-20 | 北京京东尚科信息技术有限公司 | 基于哈希有向图的敏感词检查方法和设备 |
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN106897422A (zh) * | 2017-02-23 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本处理方法、装置及服务器 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310205A (zh) * | 2020-02-11 | 2020-06-19 | 平安科技(深圳)有限公司 | 敏感信息的检测方法、装置、计算机设备和存储介质 |
WO2021159642A1 (zh) * | 2020-02-11 | 2021-08-19 | 平安科技(深圳)有限公司 | 敏感信息的检测方法、装置、计算机设备和存储介质 |
CN111310205B (zh) * | 2020-02-11 | 2024-05-10 | 平安科技(深圳)有限公司 | 敏感信息的检测方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109543024B (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Characterizing code clones in the ethereum smart contract ecosystem | |
US10237295B2 (en) | Automated event ID field analysis on heterogeneous logs | |
CN106209506B (zh) | 一种虚拟化深度包检测流量分析方法及*** | |
JP6716727B2 (ja) | ストリーミングデータ分散処理方法及び装置 | |
US20150143215A1 (en) | Method and system for accessing audio/video community virtual rooms | |
JP6734946B2 (ja) | 情報を生成するための方法及び装置 | |
US20170187734A1 (en) | System and method for field extraction of data contained within a log stream | |
US10706032B2 (en) | Unsolicited bulk email detection using URL tree hashes | |
CN109800005A (zh) | 一种客户端热更新方法及装置 | |
CN109376534B (zh) | 用于检测应用的方法和装置 | |
CN112181804A (zh) | 一种参数校验方法、设备以及存储介质 | |
CN110287696A (zh) | 一种反弹shell进程的检测方法、装置和设备 | |
CN110019444B (zh) | 一种操作请求处理方法、装置、设备及*** | |
CN108399046B (zh) | 文件操作请求处理方法和装置 | |
CN108932199B (zh) | 一种基于用户界面分析的自动化污点分析*** | |
CN110888972A (zh) | 一种基于Spark Streaming的敏感内容识别方法及装置 | |
CN109543024A (zh) | 一种文本处理方法及装置 | |
Kitajima et al. | Inferring calling relationship based on external observation for microservice architecture | |
AU2008277487A1 (en) | Telecommunications services apparatus and method | |
CN112052152A (zh) | 一种模拟测试的方法和装置 | |
CN105893462A (zh) | 一种用户网络行为分析方法及装置 | |
US11573808B2 (en) | Methods of providing an integrated interface that includes a virtual mobile device | |
CN105245380B (zh) | 一种消息的传播方式识别方法及装置 | |
CN113468529A (zh) | 一种数据搜索方法和装置 | |
CN107609008A (zh) | 一种基于Apache Sqoop的从关系型数据库到Kafka的数据导入装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |