CN115081440B - 文本中变种词的识别及提取原敏感词的方法、装置及设备 - Google Patents

文本中变种词的识别及提取原敏感词的方法、装置及设备 Download PDF

Info

Publication number
CN115081440B
CN115081440B CN202210860492.6A CN202210860492A CN115081440B CN 115081440 B CN115081440 B CN 115081440B CN 202210860492 A CN202210860492 A CN 202210860492A CN 115081440 B CN115081440 B CN 115081440B
Authority
CN
China
Prior art keywords
words
word
text
variant
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210860492.6A
Other languages
English (en)
Other versions
CN115081440A (zh
Inventor
钟正阳
李一文
李顺
周渝雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xiangsheng Network Information Co ltd
Original Assignee
Hunan Xiangsheng Network Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xiangsheng Network Information Co ltd filed Critical Hunan Xiangsheng Network Information Co ltd
Priority to CN202210860492.6A priority Critical patent/CN115081440B/zh
Publication of CN115081440A publication Critical patent/CN115081440A/zh
Application granted granted Critical
Publication of CN115081440B publication Critical patent/CN115081440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及一种文本中变种词的识别及提取原敏感词的方法、装置及设备。所述方法包括:利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,对分割后的变种词进行正则化表达式处理,得到数组;根据原敏感词位置从数组中进行原敏感词的提取。采用本方法能够提高提取原敏感词的准确率。

Description

文本中变种词的识别及提取原敏感词的方法、装置及设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种文本中变种词的识别及提取原敏感词的方法、装置、计算机设备和存储介质。
背景技术
随着互联网领域技术的发展,出现了视频直播弹幕、社区论坛留言、APP私信,需要对用户评论、私信等文本信息进行检测,一旦发现用户提交违规内容,进行自动审核与实时过滤,保证产品良好用户体验。
然而,目前已知的敏感词检测技术专利中都是基于敏感词库中的原词进行匹配验证,没有将拼音、同音字和复杂的中英混合的输入进行的检测的技术,现在行业中存在的文本敏感词方案都是建立敏感词库,然后对用户输入的文本进行匹配,先验证原词是否出现,然后将敏感词转换成拼音,进行拼音验证。但是现在互联网上不同应用软件的用户已经催生出各种变种词汇,如敏感词是“微信号码”,可能输入的不是“微信号码”或者“唯心浩麻”(同音字),如果用户输入的次为“wei心*****hao马”这一类的变种的词汇,使用传统的识别方案将无法识别和提取,因为出现敏感词是分开或者中文和拼音混合,提取原敏感词的准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高提取原敏感词的准确率的文本中变种词的识别及提取原敏感词的方法、装置、计算机设备和存储介质。
一种文本中变种词的识别及提取原敏感词的方法,所述方法包括:
获取待识别文本;
利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果;验证结果包括待识别文本包含变种词和变种词的长度;
若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;
根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;
对分割后的变种词进行正则化表达式处理,得到数组;
根据原敏感词位置从数组中进行原敏感词的提取。
在其中一个实施例中,根据原敏感词位置从数组中进行原敏感词的提取,包括:
根据原敏感词首次出现在变种词拼音中的位置和中划线的位置确定原敏感词在数组中的位置,利用识别出来的原敏感词的长度将原敏感词从数组中提取出来,得到原敏感词。
在其中一个实施例中,利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果,包括:
利用预先构建的敏感词库对待识别文本进行原词查找匹配,若存在敏感词则匹配成功输出,若匹配失败,对待识别文本进行同音字和变种词验证,得到验证结果。
在其中一个实施例中,对待识别文本进行同音字和变种词验证,得到验证结果,包括:
将待识别文本和敏感词库通过ASCII码转换为拼音进行敏感词匹配,若匹配成功,将每个中文转换成拼音后的待识别文本通过中划线分割进行原敏感词提取;
若匹配失败,将每个中文转换成拼音后的待识别文本进行字符串查找,得到待识别文本中的变种词;变种词表示包含敏感词的中英混合词组。
在其中一个实施例中,将每个中文转换拼音后的待识别文本通过中划线分割进行原敏感词提取,包括:
对中文转换拼音后的待识别文本中出现原敏感词拼音的位置和字数进行计算,根据原敏感词拼音的位置和位置之前的中划线个数判定原敏感词在待识别文本中的位置;
利用原敏感词在待识别文本中的位置和原敏感词的字数进行原敏感词提取。
在其中一个实施例中,若待识别文本中包括特殊符号,则以特殊符号为界,将待识别文本分为第一待识别文本和第二待识别文本分别进行敏感词的识别和原敏感词的提取。
一种文本中变种词的识别及提取原敏感词的装置,所述装置包括:
敏感词验证模块,用于获取待识别文本;利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果;验证结果包括待识别文本包含变种词和变种词的长度;
敏感词遍历和比较模块,用于若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;
原敏感词提取模块,用于根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;对分割后的变种词进行正则化表达式处理,得到数组;根据原敏感词位置从数组中进行原敏感词的提取。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别文本;
利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果;验证结果包括待识别文本包含变种词和变种词的长度;
若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;
根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;
对分割后的变种词进行正则化表达式处理,得到数组;
根据原敏感词位置从数组中进行原敏感词的提取。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别文本;
利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果;验证结果包括待识别文本包含变种词和变种词的长度;
若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;
根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;
对分割后的变种词进行正则化表达式处理,得到数组;
根据原敏感词位置从数组中进行原敏感词的提取。
上述文本中变种词的识别及提取原敏感词的方法、装置、计算机设备和存储介质,本申请首先利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,将包含敏感词的中英文混合变种词识别出来,然后对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;对分割后的变种词进行正则化表达式处理,得到数组;根据原敏感词位置从数组中进行原敏感词的提取,解决了传统方式只能检测敏感词原词和同音字的缺点,可以对于中文和拼音字母混合的敏感词进行匹配,并且还能针对该场景下的匹配提取出待识别文本中的原敏感词。
附图说明
图1为一个实施例中一种文本中变种词的识别及提取原敏感词的方法的流程示意图;
图2为一个实施例中本申请的方案匹配的全流程示意图;
图3为一个实施例中本申请中进行变种词识别和原敏感词提取的示意图;
图4为一个实施例中一种文本中变种词的识别及提取原敏感词的装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本中变种词的识别及提取原敏感词的方法,包括以下步骤:
步骤102,获取待识别文本;利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果;验证结果包括待识别文本包含变种词和变种词的长度。
如图2所示,预先构建的敏感词库中包括所有需要识别出来的敏感词中文,先利用敏感词库对待识别文本进行原词匹配,如果匹配成功则直接将原敏感词输出,如果匹配失败,则验证是否存在同音字中文,将待识别文本和预先构建的敏感词库都通过ASCII码转换为拼音进行匹配,若匹配成功说明待识别文本存在同音字中文,若匹配失败,则进行变种词识别,将待识别文本中的中文、需要匹配的原敏感词和敏感词库全部通过ASCII码转换为拼音,并且每个中文转换拼音不需要分隔符,将转换之后的拼音在敏感词库中进行字符串查找,如果存在说明存在中英混合的变种词汇。
步骤104,若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词。
步骤106,根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;对分割后的变种词进行正则化表达式处理,得到数组;根据原敏感词位置从数组中进行原敏感词的提取。
如图3所示,待识别文本为小心laozidasi你,敏感词为打死你(本申请识别的敏感词为暴力的词,故选取该例子),在进行原词匹配和同音字中文匹配失败,变种词识别成功后,如果像同音字提取原敏感词一样分别对转换后的拼音加分割线,则变种词则会变成xiao-xin-l-a-o-z-i-d-a-s-i-ni,在进行敏感词提取时会失败,本申请通过将将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,来得到原敏感词位置xiao-xin-laozi-da-si-ni,然后通过对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到”小心laozi da si 你“,再进行正则化表达式处理,得到数组[“小”,”心”,”laozi”,”da”,”si”,”ni”],通过原敏感词位置的可以知道敏感词出现的初始位置为16,出现中划线的数量为3,结束的位置为24,位置16到24之间出现了三个中划线,可知原敏感词在数组的4-6的位置,提取得到原敏感词“dasi你”。
上述一种文本中变种词的识别及提取原敏感词的方法中本申请首先利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,将包含敏感词的中英文混合变种词识别出来,然后对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;对分割后的变种词进行正则化表达式处理,得到数组;根据原敏感词位置从数组中进行原敏感词的提取,解决了传统方式只能检测敏感词原词和同音字的缺点,可以对于中文和拼音字母混合的敏感词进行匹配,并且还能针对该场景下的匹配提取出待识别文本中的原敏感词。
在其中一个实施例中,根据原敏感词位置从数组中进行原敏感词的提取,包括:
根据原敏感词首次出现在变种词拼音中的位置和中划线的位置确定原敏感词在数组中的位置,利用识别出来的原敏感词的长度将原敏感词从数组中提取出来,得到原敏感词。
在其中一个实施例中,利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果,包括:
利用预先构建的敏感词库对待识别文本进行原词查找匹配,若存在敏感词则匹配成功输出,若匹配失败,对待识别文本进行同音字和变种词验证,得到验证结果。
在其中一个实施例中,对待识别文本进行同音字和变种词验证,得到验证结果,包括:
将待识别文本和敏感词库通过ASCII码转换为拼音进行敏感词匹配,若匹配成功,将每个中文转换成拼音后的待识别文本通过中划线分割进行原敏感词提取;
若匹配失败,将每个中文转换成拼音后的待识别文本进行字符串查找,得到待识别文本中的变种词;变种词表示包含敏感词的中英混合词组。
在其中一个实施例中,将每个中文转换拼音后的待识别文本通过中划线分割进行原敏感词提取,包括:
对中文转换拼音后的待识别文本中出现原敏感词拼音的位置和字数进行计算,根据原敏感词拼音的位置和位置之前的中划线个数判定原敏感词在待识别文本中的位置;
利用原敏感词在待识别文本中的位置和原敏感词的字数进行原敏感词提取。
在具体实施例中,输入示例:加我卫星吧拼音:jia-wo-wei-xin-ba
原敏感词示例:微信拼音:wei-xin
提取方式:
输入拼音中出现原敏感词拼音的位置为8,并且原敏感词字数为2,位置8之前出现了两个中划线,那么敏感词为输入中的第3-4个中文:微信。
在其中一个实施例中,若待识别文本中包括特殊符号,则以特殊符号为界,将待识别文本分为第一待识别文本和第二待识别文本分别进行敏感词的识别和原敏感词的提取。
在其中一个实施例中,如图3所示,待识别文本为小心laozidasi你,敏感词为打死你,利用本申请进行敏感词识别和原敏感词提取的过程如下所示:
步骤1:验证输入中是否存在敏感词。
步骤1.1:验证是否存在原词;
对用户输入和源敏感词进行字符串查找匹配,如果存在则进行提取步骤2.1,没有则继续步骤1.2;
示例结果:匹配失败。
步骤1.2:验证是否存在同音字中文。
步骤1.2.1:将用户输入的中文和需要匹配的源敏感词全部通过ASCII码转换为拼音,并且每个中文转换拼音后通过中划线(-)分割;
步骤1.2.2:将转换之后的拼音进行字符串查找匹配,如果存在说明存在同音字中文则进行提取步骤2.2,没有则继续步骤1.3;
示例输入拼音:xiao-xin-laozidasi-ni;
示例源敏感词拼音:da-si-ni;
示例结果:匹配失败。
步骤1.3:验证是否存在中英混合的变种词汇。
步骤1.3.1:将用户输入的中文和需要匹配的源敏感词全部通过ASCII码转换为拼音,并且每个中文转换拼音不需要分隔符;
步骤1.3.2:将转换之后的拼音进行字符串查找,如果存在说明存在中英混合的变种词汇则进行提取步骤2.3,没有则说明输入无敏感词,进行返回数据步骤3;
示例输入拼音:xiaoxinlaozidasini;
示例源敏感词拼音:dasini;
示例结果:匹配成功;
步骤2:提取输入中的源敏感词。
步骤2.1:若通过步骤1.1验证则进行该步骤,说明输入中存在敏感词,无需额外提取,敏感词即源敏感词,进行数据处理步骤3;
步骤2.2:若通过步骤1.2验证则进行该步骤,说明输入中存在敏感词同音字,进行数据处理步骤3;
步骤2.3:若通过1.2验证则进行该步骤,说明输入中存在中英混合的变种词汇;
步骤2.3.1:处理用户输入的拼音,将原敏感词拼音每个拼音进行遍历并和用户输入拼音进行字符串比较和处理,将输入中出现的原敏感词拼音通过中划线连接。(因为步骤1.3成功,所以原敏感词的每个拼音一定在输入拼音中存在,并且这一步的作用是因为计算机无法识别连续的字母是否为中文对应的拼音,并且无法知道具体的分割位置,所以需要遍历来进行分割处理)
输入拼音:xiao-xin-laozi-da-si-ni.
步骤2.3.2:处理用户输入中文,将原敏感词拼音每个拼音进行遍历并和用户输入进行字符串比较和处理,将输入中出现的原敏感词拼音左右添加空格分割;
输入中文:小心laozi da si 你。
步骤2.3.3:通过正则表达式处理2.3.2中处理好的输入中文,将中文和连续不断的字母进行分割并转换成数组,以便下面的步骤进行提取
输入中文数组:["小","心","laozi","da","si","你"]。
步骤2.3.4:正式提取敏感词,首先计算原敏感词在输入拼音中出现的位置,示例中首次出现位置为16,首次出现之前出现中划线的次数为3。所以敏感词应该是数组中的第四个位置开始,长度和原敏感词的长度一样都是三个字,所以命中敏感词应该为中文数组中的["da","si","你"],通过数组转换成字符串:dasi你,之后进行数据处理步骤3。
步骤3:数据处理,步骤2已经获取到输入中出现的敏感词、敏感词拼音、原敏感词、原敏感词拼音,技术人员可以根据自行需要进行数据处理。
本申请的方法对比传统方法能够大量减少敏感词库的数量,无需配置各种不同的敏感词及变种敏感词的源敏感,同时该技术最后返回的数据中包含了技术使用者需要使用的敏感词、敏感词拼音、原敏感词、原敏感词拼音等数据,使用者可根据自己需要进行各种处理如过滤、标颜色、替换等。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种文本中变种词的识别及提取原敏感词的装置,包括:敏感词验证模块402、敏感词遍历和比较模块404和原敏感词提取模块406,其中:
敏感词验证模块402,用于获取待识别文本;利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果;验证结果包括待识别文本包含变种词和变种词的长度;
敏感词遍历和比较模块404,用于若待识别文本中包含变种词,对敏感词库和变种词中每个中文转换成拼音后进行遍历和字符串比较,将变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;原敏感词为变种词中包含的敏感词;
原敏感词提取模块406,用于根据敏感词库对变种词进行遍历和字符串比较,将变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;对分割后的变种词进行正则化表达式处理,得到数组;根据原敏感词位置从数组中进行原敏感词的提取。
在其中一个实施例中,原敏感词提取模块406还用于根据原敏感词位置从数组中进行原敏感词的提取,包括:
根据原敏感词首次出现在变种词拼音中的位置和中划线的位置确定原敏感词在数组中的位置,利用识别出来的原敏感词的长度将原敏感词从数组中提取出来,得到原敏感词。
在其中一个实施例中,敏感词验证模块402还用于利用预先构建的敏感词库对待识别文本进行原词查找匹配,根据匹配结果对待识别文本进行同音字和变种词验证,得到验证结果,包括:
利用预先构建的敏感词库对待识别文本进行原词查找匹配,若存在敏感词则匹配成功输出,若匹配失败,对待识别文本进行同音字和变种词验证,得到验证结果。
在其中一个实施例中,敏感词验证模块402还用于对待识别文本进行同音字和变种词验证,得到验证结果,包括:
将待识别文本和敏感词库通过ASCII码转换为拼音进行敏感词匹配,若匹配成功,将每个中文转换成拼音后的待识别文本通过中划线分割进行原敏感词提取;
若匹配失败,将每个中文转换成拼音后的待识别文本进行字符串查找,得到待识别文本中的变种词;变种词表示包含敏感词的中英混合词组。
在其中一个实施例中,敏感词验证模块402还用于将每个中文转换拼音后的待识别文本通过中划线分割进行原敏感词提取,包括:
对中文转换拼音后的待识别文本中出现原敏感词拼音的位置和字数进行计算,根据原敏感词拼音的位置和位置之前的中划线个数判定原敏感词在待识别文本中的位置;
利用原敏感词在待识别文本中的位置和原敏感词的字数进行原敏感词提取。
在其中一个实施例中,若待识别文本中包括特殊符号,则以特殊符号为界,将待识别文本分为第一待识别文本和第二待识别文本分别进行敏感词的识别和原敏感词的提取。
关于一种文本中变种词的识别及提取原敏感词的装置的具体限定可以参见上文中对于一种文本中变种词的识别及提取原敏感词的方法的限定,在此不再赘述。上述一种文本中变种词的识别及提取原敏感词的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本中变种词的识别及提取原敏感词的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种文本中变种词的识别及提取原敏感词的方法,其特征在于,所述方法包括:
获取待识别文本;
利用预先构建的敏感词库对所述待识别文本进行原词查找匹配,根据匹配结果对所述待识别文本进行同音字和变种词验证,得到验证结果;所述验证结果包括所述待识别文本包含变种词和所述变种词的长度;所述变种词表示包含敏感词的中英混合词组;
若所述待识别文本中包含变种词,对所述敏感词库和所述变种词中每个中文转换成拼音后进行遍历和字符串比较,将所述变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;所述原敏感词为变种词中包含的敏感词;
根据所述敏感词库对所述变种词进行遍历和字符串比较,将所述变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;
对所述分割后的变种词进行正则化表达式处理,得到数组;
根据所述原敏感词位置从所述数组中进行原敏感词的提取;
利用预先构建的敏感词库对所述待识别文本进行原词查找匹配,根据匹配结果对所述待识别文本进行同音字和变种词验证,得到验证结果,包括:
利用预先构建的敏感词库对所述待识别文本进行原词查找匹配,若存在敏感词则匹配成功输出,若匹配失败,对所述待识别文本进行同音字和变种词验证,得到验证结果;
对所述待识别文本进行同音字和变种词验证,得到验证结果,包括:
将所述待识别文本和所述敏感词库通过ASCII码转换为拼音进行敏感词匹配,若匹配成功,将每个中文转换成拼音后的待识别文本通过中划线分割进行原敏感词提取;
若匹配失败,将每个中文转换成拼音后的待识别文本进行字符串查找,得到待识别文本中的变种词。
2.根据权利要求1所述的方法,其特征在于,根据所述原敏感词位置从所述数组中进行原敏感词的提取,包括:
根据所述原敏感词首次出现在变种词拼音中的位置和中划线的位置确定所述原敏感词在数组中的位置,利用识别出来的原敏感词的长度将原敏感词从数组中提取出来,得到原敏感词。
3.根据权利要求1所述的方法,其特征在于,将每个中文转换拼音后的待识别文本通过中划线分割进行原敏感词提取,包括:
对中文转换拼音后的待识别文本中出现原敏感词拼音的位置和字数进行计算,根据所述原敏感词拼音的位置和所述位置之前的中划线个数判定所述原敏感词在待识别文本中的位置;
利用所述原敏感词在待识别文本中的位置和原敏感词的字数进行原敏感词提取。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述待识别文本中包括特殊符号,则以特殊符号为界,将所述待识别文本分为第一待识别文本和第二待识别文本分别进行敏感词的识别和原敏感词的提取。
5.一种文本中变种词的识别及提取原敏感词的装置,其特征在于,所述装置包括:
敏感词验证模块,用于获取待识别文本;利用预先构建的敏感词库对所述待识别文本进行原词查找匹配,根据匹配结果对所述待识别文本进行同音字和变种词验证,得到验证结果;所述验证结果包括所述待识别文本包含变种词和所述变种词的长度;所述变种词表示包含敏感词的中英混合词组;
敏感词遍历和比较模块,用于若所述待识别文本中包含变种词,对所述敏感词库和所述变种词中每个中文转换成拼音后进行遍历和字符串比较,将所述变种词中的中文对应的拼音和原敏感词对应的拼音通过中划线连接,得到原敏感词位置;所述原敏感词为变种词中包含的敏感词;
原敏感词提取模块,用于根据所述敏感词库对所述变种词进行遍历和字符串比较,将所述变种词中的原敏感词拼音左右添加空格分割,得到分割后的变种词;对所述分割后的变种词进行正则化表达式处理,得到数组;根据所述原敏感词位置从所述数组中进行原敏感词的提取;
敏感词验证模块还用于利用预先构建的敏感词库对所述待识别文本进行原词查找匹配,根据匹配结果对所述待识别文本进行同音字和变种词验证,得到验证结果,包括:利用预先构建的敏感词库对所述待识别文本进行原词查找匹配,若存在敏感词则匹配成功输出,若匹配失败,对所述待识别文本进行同音字和变种词验证,得到验证结果;对所述待识别文本进行同音字和变种词验证,得到验证结果,包括:将所述待识别文本和所述敏感词库通过ASCII码转换为拼音进行敏感词匹配,若匹配成功,将每个中文转换成拼音后的待识别文本通过中划线分割进行原敏感词提取;若匹配失败,将每个中文转换成拼音后的待识别文本进行字符串查找,得到待识别文本中的变种词。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
CN202210860492.6A 2022-07-22 2022-07-22 文本中变种词的识别及提取原敏感词的方法、装置及设备 Active CN115081440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210860492.6A CN115081440B (zh) 2022-07-22 2022-07-22 文本中变种词的识别及提取原敏感词的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210860492.6A CN115081440B (zh) 2022-07-22 2022-07-22 文本中变种词的识别及提取原敏感词的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115081440A CN115081440A (zh) 2022-09-20
CN115081440B true CN115081440B (zh) 2022-11-01

Family

ID=83243778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210860492.6A Active CN115081440B (zh) 2022-07-22 2022-07-22 文本中变种词的识别及提取原敏感词的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115081440B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116996216B (zh) * 2023-09-25 2023-12-01 湖南马栏山视频先进技术研究院有限公司 一种应用于人工智能内容生成的数据安全处理方法及***
CN117725161A (zh) * 2023-12-21 2024-03-19 伟金投资有限公司 文本中变种词的识别及提取敏感词的方法和***
CN117592473B (zh) * 2024-01-18 2024-04-09 武汉杏仁桉科技有限公司 一种多中文词组的谐音拆分处理方法及装置
CN117892724B (zh) * 2024-03-15 2024-06-04 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047606A (zh) * 2006-03-28 2007-10-03 腾讯科技(深圳)有限公司 一种数据转发的方法
JP2011158947A (ja) * 2010-01-29 2011-08-18 Casio Computer Co Ltd 電子機器及び情報表示プログラム
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN111259151A (zh) * 2020-01-20 2020-06-09 广州多益网络股份有限公司 一种混合文本敏感词变体识别方法和装置
CN112464667A (zh) * 2020-11-18 2021-03-09 北京华彬立成科技有限公司 文本的实体识别方法、装置、电子设备和存储介质
WO2021139268A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN114118065A (zh) * 2021-10-28 2022-03-01 国网江苏省电力有限公司电力科学研究院 一种电力领域中文文本纠错方法、装置、存储介质及计算设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8151200B2 (en) * 2007-11-15 2012-04-03 Target Brands, Inc. Sensitive information handling on a collaboration system
GB2533370A (en) * 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
US10453447B2 (en) * 2017-11-28 2019-10-22 International Business Machines Corporation Filtering data in an audio stream
CN112052364A (zh) * 2020-09-27 2020-12-08 深圳前海微众银行股份有限公司 敏感信息检测方法、装置、设备与计算机可读存储介质
CN113822059A (zh) * 2021-09-18 2021-12-21 北京云上曲率科技有限公司 中文敏感文本识别方法、装置、存储介质及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047606A (zh) * 2006-03-28 2007-10-03 腾讯科技(深圳)有限公司 一种数据转发的方法
JP2011158947A (ja) * 2010-01-29 2011-08-18 Casio Computer Co Ltd 電子機器及び情報表示プログラム
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN111259151A (zh) * 2020-01-20 2020-06-09 广州多益网络股份有限公司 一种混合文本敏感词变体识别方法和装置
WO2021139268A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN112464667A (zh) * 2020-11-18 2021-03-09 北京华彬立成科技有限公司 文本的实体识别方法、装置、电子设备和存储介质
CN114118065A (zh) * 2021-10-28 2022-03-01 国网江苏省电力有限公司电力科学研究院 一种电力领域中文文本纠错方法、装置、存储介质及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向人机交互的语音情感识别与文本敏感词检测;涂晴宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200615;I136-201 *

Also Published As

Publication number Publication date
CN115081440A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115081440B (zh) 文本中变种词的识别及提取原敏感词的方法、装置及设备
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
CN109753653B (zh) 实体名称识别方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
KR20190085098A (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
CN109766072B (zh) 信息校验输入方法、装置、计算机设备和存储介质
CN111352907A (zh) 流水文件解析方法、装置、计算机设备和存储介质
CN111444349B (zh) 信息抽取方法、装置、计算机设备和存储介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN110222168B (zh) 一种数据处理的方法及相关装置
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN111914825B (zh) 文字识别方法、装置及电子设备
CN112287680A (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN110750984A (zh) 命令行字符串处理方法、终端、装置及可读存储介质
CN111178064A (zh) 基于字段分词处理的信息推送方法、装置和计算机设备
CN112307172A (zh) 一种语义解析设备、方法、终端及存储介质
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN113065360B (zh) 词语语义模型的构建方法、装置、计算机设备及存储介质
CN114020907A (zh) 信息抽取方法、装置、存储介质与电子设备
CN114048753A (zh) 词义识别模型训练、词义判断方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant