CN115080810A - 敏感字符串检索方法、装置、电子设备及存储介质 - Google Patents
敏感字符串检索方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115080810A CN115080810A CN202210733006.4A CN202210733006A CN115080810A CN 115080810 A CN115080810 A CN 115080810A CN 202210733006 A CN202210733006 A CN 202210733006A CN 115080810 A CN115080810 A CN 115080810A
- Authority
- CN
- China
- Prior art keywords
- sensitive word
- character string
- sensitive
- target
- retrieved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种敏感字符串检索方法、装置、电子设备及存储介质。该方法首先接收用户针对目标文件的敏感词检索请求,根据敏感词检索请求中携带的原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,再将多个目标待检索敏感词字符串的敏感词信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。本申请根据待检索敏感词字符串和应用场景类型信息中的至少一种,一次性确定多个目标待检索敏感词字符串,再基于目标待检索敏感词字符串,对目标文件的字符串进行敏感词检索,提高了敏感词检索效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种敏感字符串检索方法、装置、电子设备及存储介质。
背景技术
在信息化的时代,防止个人信息泄露是面临的一项重要难题,现阶段防止个人信息泄露主要手段是将个人信息敏感信息进行脱敏处理,但是脱敏处理的前提是需要在大量文件信息中检索出需要脱敏的字符串,传统检索敏感字符串的方式是先选定敏感词,再将敏感词的字符串一个个地与文件信息中的字符串进行比较,确定文件信息中是否有与敏感词相匹配的字符串。这种方式需要耗费大量的时间,检索效率太低。
发明内容
本申请实施例提供一种敏感字符串检索方法、装置、电子设备及存储介质,提高了敏感词检索效率。
第一方面,本申请提供一种敏感字符串检索方法,包括:
接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。
第二方面,本申请提供一种敏感字符串检索装置,包括:
接收模块,用于接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
确定模块,用于根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取模块,用于获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
匹配模块,用于将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。
第三方面,本申请实施例提供了一种电子设备,电子设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述敏感字符串检索方法中的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述敏感字符串检索方法中的步骤。
本申请实施例提供了一种敏感字符串检索方法、装置、电子设备及存储介质,该方法根据敏感词检索请求中携带的原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,再基于目标待检索敏感词字符串,对目标文件的字符串进行敏感词检索,提高了敏感词检索的效率。且本申请将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串,提高了敏感词检索的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的敏感字符串检索***的场景示意图。
图2为本申请实施例提供的敏感字符串检索方法的一种流程示意图。
图3为本申请实施例提供的敏感字符串检索方法的另一种流程示意图。
图4为本申请实施例提供的敏感字符串检索装置的结构示意图。
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种敏感字符串检索方法、装置、电子设备及存储介质。其中,该敏感字符串检索装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备,其中,该终端可以包括平板电脑、笔记本电脑、个人计算(PC,Personal Computer)、微型处理盒子、或者其他设备等。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而非用于描述特定的顺序。
在本申请中业务指标包括但不局限于银行业务中的进件量、发卡量、新户量、年费卡占比、新卡实时首刷率、新户进件量等,具体的业务指标种类根据实际在此不做限定。
请参阅图1,图1为本申请实施例所提供的敏感字符串检索***的场景示意图,图1中包括电子设备10,该方法电子设备10首先接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种,再根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息,再将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。本申请根据待检索敏感词字符串和应用场景类型信息中的至少一种,一次性确定多个目标待检索敏感词字符串,提高了敏感词检索效率。
需要说明的是,图1所示的敏感字符串检索***的场景示意图仅仅是一个示例,本申请实施例描述的电子设备是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***的演变和新业务局景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
请参阅图2,图2为本申请实施例提供的敏感字符串检索方法的一种流程示意图,包括:
步骤201、接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种。
为保证个人信息的安全,维护网络环境,通常在将信息发布出来之前,开发人员或者网络信息维护人员会对将要发布的信息进行敏感词检索,将一些敏感词进行处理后再发布。
本申请中,目标文件是指需要进行敏感词检索的文件。
本申请中,应用场景类型指的是目标文件所应用的应用场景,例如:目标文件是银行业务对应的文件,则应用场景为银行业务;目标文件是网上购物对应的文件,则应用场景为网络购物。
本申请中,原始待检索敏感词为用户在发出敏感词检索请求时输出的词,具体的原始待检索敏感词可以为任意词,在此不做限定,例如:敏感词检索请求中携带的原始待检索敏感词可以为“身份证信息”,也可以为“银行交易信息”
首先,信息维护人员会针对目标文件发出敏感词检索请求,敏感词检索请求可以通过请求界面触发。电子设备接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种。
步骤202、根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串。
当敏感词检索请求只携带原始待检索敏感词字符串时,从数据库搜索与原始待检索敏感词字符串相似的词对应的字符串,例如,检索敏感词可以为“身份证”时,相似的词可以为“证件号码”、“身份证号码”等。
在一种实施例中,根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,包括:将原始待检索敏感词字符串与预设数据库中的字符串进行相似度匹配,将预设数据库中相似度大于相似度阈值的字符串,确定为目标待检索敏感词字符串。
当敏感词检索请求只携带应用场景类型信息时,根据应用场景类型信息,确定多个目标待检索敏感词字符串。可以通过预置的应用场景类型信息与目标待检索敏感词字符串之间的对应表,来确定目标待检索敏感词,也可以通过训练好的匹配模型来自动匹配出目标待检索敏感词字符串。
如表1所示为应用场景类型与目标待检索敏感词对照表,可以从表1中根据应用场景类型信息,确定多个目标待检索敏感词字符串,其中,应用场景类型与目标待检索铭感词的对照表只为说明方便,不应理解为对本方案内容的限定。
表1应用场景类型与目标待检索敏感词对照表
应用场景类型 | 目标待检索敏感词 |
银行业务 | 银行账号、交易金额、交易时间 |
网上购物 | 商品名称、交易金额、交易时间 |
当敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息时,先根据原始待检索敏感词字符串确定与原始待检索敏感词字符串相关联的多个关联敏感词字符串,再从多个关联敏感词字符串从选择满足应用场景类型的字符串作为目标待检索敏感词字符串。
在一种实施例中,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息;根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,包括:根据原始待检索敏感词字符串,确定与原始待检索敏感词字符串相关联的多个关联敏感词字符串;根据应用场景类型信息,从多个关联敏感词字符串中确定多个目标待检索敏感词字符串。
其中,可以通过先计算原始待检索敏感词字符串与预设表格中其他字符串的相似度,跟相似度大于预置的字符串确定为与原始待检索敏感词字符串相关联的多个关联敏感词字符串。也可以通过训练好的关联词匹配模型得到多个关联敏感词字符串。
其中,关联词匹配模型是通过大量的样本数据进行训练得到的,可以将大量原始待检索敏感词字符串作为深度神经网络的训练样本,同时获取标注的多个关联敏感词字符串,将训练样本输入到关联词匹配模型中,得到预测的多个关联敏感词字符串,根据预测多个关联敏感词字符串和标注的多个关联敏感词字符串,采用深度学习方法进行迭代训练,直至关联词匹配模型收敛时,得到训练好的关联词匹配模型。
在一种实施例中,根据原始待检索敏感词字符串,确定与原始待检索敏感词字符串相关联的多个关联敏感词字符串,包括:将原始待检索敏感词字符串输入到训练好的关联词匹配模型中进行匹配,得到多个关联敏感词字符串。
步骤203、获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息。
在本申请中,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息,例如身份证号码的格式信息为“421181************”,长度为18位,姓名的格式信息为“姓+名”,长度小于6位,电话号码的格式信息为“1**********”,长度为11位,其中,敏感词字符串格式信息、敏感词字符串长度信息,在此只是为说明方便,不应理解为对本申请内容的限定。
在实际场景中,可以先确定敏感词字符串格式信息,再基于敏感词字符串格式信息确定敏感词字符串长度信息。例如先确定“姓名”的格式信息为“姓+名”,再确定长度小于6位。
在一种实施例中,获取多个目标待检索敏感词字符串分别对应的敏感词信息,包括:根据多个目标待检索敏感词字符串,确定多个目标待检索敏感词字符串分别对应的敏感词字符串格式信息;根据多个目标待检索敏感词字符串分别对应的敏感词字符串格式信息,确定多个目标待检索敏感词字符串分别对应的敏感词字符串长度信息。
步骤204、将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。
在本申请中,标的敏感字符串是与目标待检索敏感词字符串的格式信息、长度信息相同,或者相近的字符串,即标的敏感字符串包括目标待检索敏感词字符串。
理论上,只需要将目标文件中与目标待检索敏感词字符串相同的字符串,确定为标的敏感字符串,但是实际场景中,由于汉语的复杂多变,不同的词可以表达相同的含义。因此,将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串,其中,相匹配指的是敏感词字符串格式信息、敏感词字符串长度信息与目标文件的字符串信息相同或相似。
由于目标文件一般是由大量的由字符串组成的,需要从大量的字符串中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串,例如:目标待检索敏感词为“交易金额”,若目标文件中有与“交易金额”对应的字符串相同的字符串,则该字符串为标的敏感字符串。
在实际应用中,可以根据敏感词字符串的格式信息从目标文件中确定多个候选敏感字符串,再将满足敏感词字符串长度信息的候选敏感字符串确定为标的敏感字符串。
在一种实施例中,将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串,包括:将多个目标待检索敏感词字符串的敏感词字符串格式分别与目标文件的字符串格式进行匹配,从目标文件的字符串筛选出多个候选敏感字符串;将多个目标待检索敏感词字符串的敏感词字符串长度分别与多个候选敏感字符串长度进行比较,从多个候选敏感字符串确定标的敏感字符串。
由于在汉语中意思相近的词有不同的表达形式,例如:“账号”与“用户名”的表达虽然不同,但是意思相近,因此,目标待检索敏感词字符串的敏感词字符串长度与标的敏感字符串的字符串长度可以不完全相同,只需要长度差值在长度预设阈值之内就可以。
在一种实施例中,将多个目标待检索敏感词字符串的敏感词字符串长度分别与多个候选敏感字符串长度进行比较,从多个候选敏感字符串确定标的敏感字符串,包括:根据多个目标待检索敏感词字符串的敏感词字符串长度分别与多个候选敏感字符串长度,分别确定目标待检索敏感词字符串长度与多个候选敏感字符串长度之差的绝对值;将绝对绝小于预设阈值的候选敏感字符串,确定为标的敏感字符串。
本申请实施例提供了一种敏感字符串检索方法。该方法首先接收用户针对目标文件的敏感词检索请求,根据敏感词检索请求中携带的原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,再获取多个目标待检索敏感词字符串分别对应的敏感词信息,最后,将多个目标待检索敏感词字符串的敏感词信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。本申请根据待检索敏感词字符串和应用场景类型信息中的至少一种,一次性确定多个目标待检索敏感词字符串,再基于目标待检索敏感词字符串,对目标文件的字符串进行敏感词检索,提高了敏感词检索效率。且本申请将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串,提高了敏感词检索的准确率。
请参阅图3,图3为本申请实施例提供的敏感字符串检索方法的另一种流程示意图,敏感字符串检索方法还包括:
步骤205:对目标敏感字符串进行脱敏处理。
为保护个人隐私不被泄露,维护网络环境,可以将目标敏感词字符串进行脱敏处理,脱敏处理的方法包括但不局限于数据替换、掩码屏蔽、随机化、泛化、平均化、偏移取整等。
在上述实施例方法的基础上,本实施例将敏感字符串检索装置的角度进一步进行描述,请参阅图4,图4具体描述了本申请实施例提供的敏感字符串检索装置的结构示意图,包括:
接收模块401,用于接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
确定模块402,用于根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取模块403,用于获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
匹配模块404,用于将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。
相应的,本申请实施例还提供一种电子设备,如图5所示,该电子设备可以包括射频电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、WiFi模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
射频电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器508处理;另外,将涉及上行的数据发送给基站。存储器502可用于存储软件程序以及模块,处理器508通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
电子设备还可包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。音频电路506包括扬声器,扬声器可提供用户与电子设备之间的音频接口。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问,虽然图5示出了WiFi模块507,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器508是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。
电子设备还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理***与处理器508逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器508会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器508来运行存储在存储器502中的应用程序,从而实现以下功能:
接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以实现以下功能:
接收用户针对目标文件的敏感词检索请求,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取多个目标待检索敏感词字符串分别对应的敏感词信息,敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串。
在一种实施例中,敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息;根据原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,包括:
根据原始待检索敏感词字符串,确定与原始待检索敏感词字符串相关联的多个关联敏感词字符串;
根据应用场景类型信息,从多个关联敏感词字符串中确定多个目标待检索敏感词字符串。
在一种实施例中,根据原始待检索敏感词字符串,确定与原始待检索敏感词字符串相关联的多个关联敏感词字符串,包括:
将原始待检索敏感词字符串输入到训练好的关联词匹配模型中进行匹配,得到多个关联敏感词字符串。
在一种实施例中,将多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与目标文件的字符串信息进行匹配,从目标文件的字符串信息中检索出与目标待检索敏感词字符串相匹配的标的敏感字符串,包括:
将多个目标待检索敏感词字符串的敏感词字符串格式分别与目标文件的字符串格式进行匹配,从目标文件的字符串筛选出多个候选敏感字符串;
将多个目标待检索敏感词字符串的敏感词字符串长度分别与多个候选敏感字符串长度进行比较,从多个候选敏感字符串确定标的敏感字符串。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种敏感字符串检索方法中的步骤,因此,可以实现本申请实施例所提供的任一种种敏感字符串检索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种敏感字符串检索方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。
Claims (10)
1.一种敏感字符串检索方法,其特征在于,包括:
接收用户针对目标文件的敏感词检索请求,所述敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
根据所述原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取多个目标待检索敏感词字符串分别对应的敏感词信息,所述敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
将所述多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与所述目标文件的字符串信息进行匹配,从所述目标文件的字符串信息中检索出与所述目标待检索敏感词字符串相匹配的标的敏感字符串。
2.如权利要求1所述的敏感字符串检索方法,其特征在于,所述敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息;所述根据所述原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串,包括:
根据所述原始待检索敏感词字符串,确定与所述原始待检索敏感词字符串相关联的多个关联敏感词字符串;
根据所述应用场景类型信息,从所述多个关联敏感词字符串中确定所述多个目标待检索敏感词字符串。
3.如权利要求2所述的敏感字符串检索方法,其特征在于,所述根据所述原始待检索敏感词字符串,确定与所述原始待检索敏感词字符串相关联的多个关联敏感词字符串,包括:
将所述原始待检索敏感词字符串输入到训练好的关联词匹配模型中进行匹配,得到所述多个关联敏感词字符串。
4.如权利要求1所述的敏感字符串检索方法,其特征在于,所述将所述多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与所述目标文件的字符串信息进行匹配,从所述目标文件的字符串信息中检索出与所述目标待检索敏感词字符串相匹配的标的敏感字符串,包括:
将所述多个目标待检索敏感词字符串的敏感词字符串格式分别与所述目标文件的字符串格式进行匹配,从所述目标文件的字符串筛选出多个候选敏感字符串;
将所述多个目标待检索敏感词字符串的敏感词字符串长度分别与所述多个候选敏感字符串长度进行比较,从所述多个候选敏感字符串确定所述标的敏感字符串。
5.如权利要求4所述的敏感字符串检索方法,其特征在于,所述将所述多个目标待检索敏感词字符串的敏感词字符串长度分别与所述多个候选敏感字符串长度进行比较,从所述多个候选敏感字符串确定所述标的敏感字符串,包括:
根据所述多个目标待检索敏感词字符串的敏感词字符串长度分别与所述多个候选敏感字符串长度,分别确定所述目标待检索敏感词字符串长度与所述多个候选敏感字符串长度之差的绝对值;
将所述绝对绝小于预设阈值的候选敏感字符串,确定为所述标的敏感字符串。
6.如权利要求1所述的敏感字符串检索方法,其特征在于,所述获取多个目标待检索敏感词字符串分别对应的敏感词信息,包括:
根据所述多个目标待检索敏感词字符串,确定所述多个目标待检索敏感词字符串分别对应的敏感词字符串格式信息;
根据所述多个目标待检索敏感词字符串分别对应的敏感词字符串格式信息,确定所述多个目标待检索敏感词字符串分别对应的敏感词字符串长度信息。
7.如权利要求1所述的敏感字符串检索方法,其特征在于,所述将所述多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与所述目标文件的字符串信息进行匹配,从所述目标文件的字符串信息中检索出与所述目标待检索敏感词字符串相匹配的标的敏感字符串之后,还包括:
对所述目标敏感字符串进行脱敏处理。
8.一种敏感字符串检索装置,其特征在于,包括:
接收模块,用于接收用户针对目标文件的敏感词检索请求,所述敏感词检索请求携带原始待检索敏感词字符串和应用场景类型信息中的至少一种;
确定模块,用于根据所述原始待检索敏感词字符串和应用场景类型信息中的至少一种,确定多个目标待检索敏感词字符串;
获取模块,用于获取多个目标待检索敏感词字符串分别对应的敏感词信息,所述敏感词信息包括敏感词字符串格式信息、敏感词字符串长度信息;
匹配模块,用于将所述多个目标待检索敏感词字符串的敏感词字符串格式信息、敏感词字符串长度信息分别与所述目标文件的字符串信息进行匹配,从所述目标文件的字符串信息中检索出与所述目标待检索敏感词字符串相匹配的标的敏感字符串。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的敏感字符串检索方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的敏感字符串检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733006.4A CN115080810A (zh) | 2022-06-27 | 2022-06-27 | 敏感字符串检索方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210733006.4A CN115080810A (zh) | 2022-06-27 | 2022-06-27 | 敏感字符串检索方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115080810A true CN115080810A (zh) | 2022-09-20 |
Family
ID=83255952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210733006.4A Pending CN115080810A (zh) | 2022-06-27 | 2022-06-27 | 敏感字符串检索方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080810A (zh) |
-
2022
- 2022-06-27 CN CN202210733006.4A patent/CN115080810A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878044B2 (en) | System and method for providing content recommendation service | |
CN111061874A (zh) | 敏感信息检测方法和装置 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN109063000A (zh) | 问句推荐方法、客服***以及计算机可读存储介质 | |
CN112801719A (zh) | 用户行为预测方法、用户行为预测装置、存储介质及设备 | |
CN112685578B (zh) | 一种多媒体信息内容提供方法及装置 | |
US20230035366A1 (en) | Image classification model training method and apparatus, computer device, and storage medium | |
CN115688731A (zh) | 银行业务指标生成方法、装置、电子设备及存储介质 | |
CN109947944A (zh) | 短信显示方法、装置以及存储介质 | |
CN111859154B (zh) | 一种应用推荐方法及装置 | |
CN110866114B (zh) | 对象行为的识别方法、装置及终端设备 | |
CN111382365A (zh) | 用于输出信息的方法和装置 | |
CN116362206A (zh) | 文件处理方法、装置、设备及介质 | |
CN116204624A (zh) | 应答方法、装置、电子设备及存储介质 | |
CN115080810A (zh) | 敏感字符串检索方法、装置、电子设备及存储介质 | |
CN114398993A (zh) | 基于标签数据的搜索信息召回方法、***、装置和介质 | |
CN115660001A (zh) | 近场通信卡片确认方法及装置、存储介质和电子设备 | |
CN113780318B (zh) | 用于生成提示信息的方法、装置、服务器和介质 | |
CN115730047A (zh) | 一种智能问答方法、设备、装置及存储介质 | |
CN108537086A (zh) | 信息显示方法、装置、存储介质及移动终端 | |
CN114781368A (zh) | 业务需求安全处理方法及装置 | |
CN113934612A (zh) | 用户画像更新方法、装置、存储介质及电子设备 | |
CN114492306A (zh) | 语料标注方法、装置、电子设备及存储介质 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN115082071A (zh) | 一种异常交易账户的识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |