CN114676231A - 一种目标信息检测方法、设备和介质 - Google Patents

一种目标信息检测方法、设备和介质 Download PDF

Info

Publication number
CN114676231A
CN114676231A CN202011553669.5A CN202011553669A CN114676231A CN 114676231 A CN114676231 A CN 114676231A CN 202011553669 A CN202011553669 A CN 202011553669A CN 114676231 A CN114676231 A CN 114676231A
Authority
CN
China
Prior art keywords
text
target information
verified
information
regular expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011553669.5A
Other languages
English (en)
Inventor
文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202011553669.5A priority Critical patent/CN114676231A/zh
Publication of CN114676231A publication Critical patent/CN114676231A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种目标信息检测方法、装置、设备和介质,利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;当关键词具体为包含了涉及企业相关信息的关键词时,筛选的待校验文本更具有针对性。在得到待校验文本之后,可以依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定检测结果。目标信息正则表达式是将各类关键词所有可能的呈现形式以正则表达式的形式表示,可以更加全面准确的涵盖各种形式的目标信息。通过目标信息正则表达式对待校验文本进行匹配,可以实现对待校验文本中目标信息的精确校验,保证了目标信息检测的准确性。

Description

一种目标信息检测方法、设备和介质
技术领域
本申请涉及安全检测技术领域,特别是涉及一种目标信息检测方法、装置、设备和计算机可读存储介质。
背景技术
在实际应用中,公司员工根据业务需求会将公司的代码文本上传至代码托管平台,上传的代码文本中往往包含了公司感兴趣的信息,比如,公司内部的一些敏感信息,例如数据库连接信息、服务器账号密码等,这些敏感信息的外泄可能给企业带来极大安全隐患,甚至造成难以挽回的损失。因此,公司往往需要对代码托管平台中包含的感兴趣信息进行查找,以确定感兴趣信息的分布情况。
当前有一些识别代码仓库感兴趣信息的检测工具,但这些检测工具只是用一些关键词去查询代码托管平台,并将检测结果直接存储起来。利用关键词对代码文本进行检测,只能得到较为笼统的检测结果,这就会导致检测结果中存在大量误报,检测准确率大打折扣。当然,不仅局限于识别代码仓库中感兴趣信息的场景,对于许多其他场景也存在感兴趣信息检测准确率不足的缺陷。
可见,如何提升感兴趣信息检测的准确性,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种目标信息检测方法、装置、设备和计算机可读存储介质,可以提升感兴趣信息检测的准确性。
为解决上述技术问题,本申请实施例提供一种目标信息检测方法,包括:
利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;所述关键词与所述目标信息相关联;
依据预先设定的目标信息正则表达式对所述待校验文本进行匹配,以确定出检测结果。
可选地,所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配,以确定出检测结果包括:
根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,所述字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
基于所述字符串匹配模型对待校验文本进行匹配,确定所述待校验文本中包括的字符串;
依据有效正则表达式对所述待校验文本进行匹配,以确定出检测结果;其中,所述有效正则表达式为所述待校验文本包括的字符串所对应的目标信息正则表达式。
可选地,在所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配之前还包括:
按照预先设定的过滤信息,对所述待校验文本进行过滤处理,以得到有效文本;
相应的,依据预先设定的目标信息正则表达式对所述待校验文本进行匹配包括:
依据预先设定的目标信息正则表达式对所述有效文本进行匹配。
可选地,在执行所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配的过程中,执行如下步骤:
依据预先设定的目标信息正则表达式对所述待校验文本进行匹配的过程中,若匹配到与目标信息正则表达式相匹配的目标信息时,判断所述目标信息中是否存在取值型信息;
若所述目标信息中存在取值型信息,则判断所述取值型信息在所述待校验文本中是否为直观型信息;
若所述取值型信息在所述待校验文本中不为直观型信息,则过滤掉所述取值型信息。
本申请实施例还提供了一种目标信息检测装置,包括检索单元和匹配单元;
所述检索单元,用于利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;所述关键词与所述目标信息相关联;
所述匹配单元,用于依据预先设定的目标信息正则表达式对所述待校验文本进行匹配,以确定出检测结果。
可选地,所述匹配单元包括建立子单元、字符串确定子单元和结果确定子单元;
所述建立子单元,用于根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,所述字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
所述字符串确定子单元,用于基于所述字符串匹配模型对待校验文本进行匹配,确定所述待校验文本中包括的字符串;
所述结果确定子单元,用于依据有效正则表达式对所述待校验文本进行匹配,以确定出检测结果;其中,所述有效正则表达式为所述待校验文本包括的字符串所对应的目标信息正则表达式。
可选地,还包括过滤单元;
所述过滤单元,用于在所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配之前,按照预先设定的过滤信息,对所述待校验文本进行过滤处理,以得到有效文本;
相应的,所述匹配单元用于依据预先设定的目标信息正则表达式对所述有效文本进行匹配。
可选地,在执行所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配的过程中,包括第一判断单元、第二判断单元和过滤单元;
所述第一判断单元,用于依据预先设定的目标信息正则表达式对所述待校验文本进行匹配的过程中,若匹配到与目标信息正则表达式相匹配的目标信息时,判断所述目标信息中是否存在取值型信息;
所述第二判断单元,用于若所述目标信息中存在取值型信息,则判断所述取值型信息在所述待校验文本中是否为直观型信息;
所述过滤单元,用于若所述取值型信息在所述待校验文本中不为直观型信息,则过滤掉所述取值型信息。
由上述技术方案可以看出,利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;当关键词具体为包含了涉及企业相关信息的关键词时,筛选的待校验文本更具有针对性。在得到待校验文本之后,可以依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定出检测结果。目标信息正则表达式是将各类关键词所有可能的呈现形式以正则表达式的形式表示,可以更加全面准确的涵盖各种形式的目标信息。通过目标信息正则表达式对待校验文本进行匹配,可以实现对待校验文本中目标信息的精确校验,保证了目标信息检测的准确性。
本申请实施例还提供了一种目标信息检测方法,包括:
根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,所述字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
基于所述字符串匹配模型对待校验文本进行匹配,确定所述待校验文本中包括的字符串;
依据有效正则表达式对所述待校验文本进行匹配,确定检测结果;其中,所述有效正则表达式为所述待校验文本包括的字符串所对应的目标信息正则表达式。
可选地,在执行所述依据有效正则表达式对所述待校验文本进行匹配的过程中,执行如下步骤:
依据有效正则表达式对所述待校验文本进行匹配的过程中,若匹配到与有效正则表达式相匹配的目标信息时,判断所述目标信息中是否存在取值型信息;
若所述目标信息中存在取值型信息,则判断所述取值型信息在所述待校验文本中是否为直观型信息;
若所述取值型信息在所述待校验文本中不为直观型信息,则过滤掉所述取值型信息。
可选地,所述检测结果包括:所述待校验文本中包含的各个目标信息;
相应地,在确定出检测结果之后还包括:
按照设定的文本格式,对所述待校验文本中包含的各个目标信息进行封装处理,并展示封装后的目标信息。
可选地,在所述依据有效正则表达式对所述待校验文本进行匹配之前还包括:
按照预先设定的过滤信息,对所述待校验文本进行过滤处理,以得到有效文本;
相应的,所述依据有效正则表达式对所述待校验文本进行匹配包括:
依据有效正则表达式对所述有效文本进行匹配。
本申请实施例还提供了一种目标信息检测装置,包括建立单元、第一匹配单元和第二匹配单元;
所述建立单元,用于根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,所述字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
所述第一匹配单元,用于基于所述字符串匹配模型对待校验文本进行匹配,确定所述待校验文本中包括的字符串;
所述第二匹配单元,用于依据有效正则表达式对所述待校验文本进行匹配,确定检测结果;其中,所述有效正则表达式为所述待校验文本包括的字符串所对应的目标信息正则表达式。
可选地,在执行所述依据有效正则表达式对所述待校验文本进行匹配的过程中,包括第一判断单元、第二判断单元和过滤单元;
所述第一判断单元,用于依据有效正则表达式对所述待校验文本进行匹配的过程中,若匹配到与有效正则表达式相匹配的目标信息时,判断所述目标信息中是否存在取值型信息;
所述第二判断单元,用于若所述目标信息中存在取值型信息,则判断所述取值型信息在所述待校验文本中是否为直观型信息;
所述过滤单元,用于若所述取值型信息在所述待校验文本中不为直观型信息,则过滤掉所述取值型信息。
可选地,所述检测结果包括:所述待校验文本中包含的各个目标信息;
相应地,还包括封装单元;
所述封装单元,用于按照设定的文本格式,对所述待校验文本中包含的各个目标信息进行封装处理,并展示封装后的目标信息。
可选地,还包括过滤单元;
所述过滤单元,用于在所述依据有效正则表达式对所述待校验文本进行匹配之前,按照预先设定的过滤信息,对所述待校验文本进行过滤处理,以得到有效文本;
相应的,所述第二匹配单元用于依据有效正则表达式对所述有效文本进行匹配。
由上述技术方案可以看出,根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,字符串匹配模型关联有各个目标信息正则表达式对应的字符串;基于字符串匹配模型对待校验文本进行匹配,确定待校验文本中包括的字符串。通过构建字符串匹配模型可以实现对待校验文本的模糊匹配。可以将待校验文本包括的字符串所对应的目标信息正则表达式称作有效正则表达式,依据有效正则表达式对待校验文本进行匹配,确定检测结果。与直接将待校验文本与所有目标信息正则表达式进行匹配的方式相比,本申请通过构建字符串匹配模型可以快速的筛选出与待校验文本匹配的有效正则表达式,从而过滤掉无需精确匹配的正则表达式,仅需要将待校验文本与有效正则表达式进行匹配即可,极大的提升了对待校验文本进行匹配的效率。
本申请实施例还提供了一种目标信息检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述目标信息检测方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述目标信息检测方法的步骤。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标信息检测的流程示意图;
图2为本申请实施例提供的一种目标信息检测方法的流程图;
图3为本申请实施例提供的另一种目标信息检测方法的流程图;
图4为本申请实施例提供的一种目标信息检测装置的结构示意图;
图5为本申请实施例提供的另一种目标信息检测装置的结构示意图;
图6为本申请实施例提供的一种目标信息检测设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
目标信息的检测来源可以有很多种,比如,代码托管平台,传统方式中用户可以向代码托管平台上传代码文件,为了实现代码文件中目标信息(比如,敏感信息)的检测,往往采用包含关键词的检测工具对托管平台进行全网目标信息搜索。按照该种方式虽然可以得到大量的目标信息,但是由于检测工具包含的关键词形式单一,根据关键词只能实现笼统的检索,导致检测结果中存在大量的误报,使得目标信息检测的准确性不高。
故此,本申请实施例提供了一种目标信息检测方法、装置、设备和计算机可读存储介质,利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本。为了提升检测结果的准确性,可以对待校验文本进行二次检测,即可以依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定出哪些文本包括目标信息,也可以确定出待校验文本中包含的目标信息有哪些。如图1所示为本申请实施例提供的一种目标信息检测的流程示意图,关键词中包含了大量的各个不同的关键词,利用各个不同的关键词可以实现对多个初始文本的初步筛选。目标信息正则表达式是将各类关键词所有可能的呈现形式以正则表达式的形式表示,通过目标信息正则表达式对待校验文本进行再次校验,可以更加精确的筛选出哪些初始文本包括目标信息,且也可准确地在待校验文本中查找出其所包含的目标信息。
接下来,详细介绍本申请实施例所提供的一种目标信息检测方法。图2为本申请实施例提供的一种目标信息检测方法的流程图,该方法包括:
S201:利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本。
上述关键词的数量应尽可能多,从而防止初步筛选时漏掉某些文本,比如密码关键词可以采用password、pwd以及passwd等。此外,在本申请中,上述关键词可以具体为涉及企业相关信息的关键词,在此情况下,每个关键词包括:企业相关信息和预设的目标信息关键词,比如可以将企业相关信息分别和password、pwd以及passwd进行组合。在本申请实施例中,为了使得目标信息的检测更具针对性,例如可以有针对性对选定的企业进行目标信息的检测,可以将获取的企业相关信息和预设的目标信息关键词库中的目标信息关键词进行组合,得到该步骤S201所述的关键词。
以下以目标信息具体为“涉及企业安全的敏感信息”为例进行举例说明:
敏感词库可以包含通用的多条敏感信息。敏感信息的类型可以有多种,例如,可以包括密码关键词(password、pwd、passwd等),邮箱信息(email、mail等),用于保存账号密码、IP等信息的数据库(pymysql)等。
上述关键词可以包含具有企业代表性的信息,例如企业的域名、企业统一的邮箱后缀、企业的名称等。
在实际应用中,可以用字符串“company.test.com”表示企业相关信息,不同企业的company.test.com的具体形式有所差异。
以敏感词库包括password、email和pymysql://为例,将企业相关信息company.test.com和预设的敏感词库进行组合,得到的步骤S201所采用的关键词可以包括“company.test.com password”、“company.test.com email”、“company.test.compymysql://”。其中,企业相关信息和敏感信息关键词中间可以用空格隔开。
S202:依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定出检测结果。
其中,检测结果可以为待校验本文中包含的各个目标信息;也可以为指示包含目标信息的文本有哪些,本申请并不对检测结果的具体形式进行限定。
在实际应用中,可以将各类目标信息所有可能的呈现形式以正则表达式的形式表示,得到目标信息正则表达式。
以上述提及的密码关键词、邮箱信息和数据库三类目标信息为例,密码关键词对应的数据形式可以包括password、pwd或者passwd三种形式,因此密码关键词对应的正则表达式可以为"password":"(password|pwd|passwd)=.+",该正则表达式中“|”用于表示“或”,“=.+”表示目标信息可以以password=任意字符串、pwd=任意字符串或passwd=任意字符串的任意一种形式呈现。"(password|pwd|passwd)=.+"为密码关键词正则表达式,该正则表达式前面的"password"可以看作该密码关键词正则表达式的索引信息或标识信息或键值。
邮箱信息对应的数据形式可以包括email或者mail两种形式,因此邮箱信息对应的正则表达式可以为"email":"(email|mail)(=|:).+"。式中“(=|:)”表示邮箱信息可以以“email=”或者“email:”的形式呈现。
数据库对应的数据形式可以包括pymysql,此时数据库对应的正则表达式可以为"mysql":"pymysql://.{5,256}@.{5,}",其中,.{5,256}代表存在一字符串,该字符串的长度为5~256,其中,该字符串可以为账号密码,.{5,}代表存在一字符串,该字符串长度至少为5,其中,该字符串可以为域名。
目标信息正则表达式可以更加全面准确的涵盖目标信息的各种具体的表达形式。在本申请实施例中,将待校验文本与预先设定的目标信息正则表达式进行匹配,通过正则表达式的形式进行二次筛选校验,选取出包含目标信息的文本,或者确定出待校验文本中包含的各个目标信息。
在本申请实施例中,在确定出检测结果之后,为了便于后续的查询调用,可以将检测结果保存至数据库。比如,若检测结果为待校验本文中包含的各个目标信息,在确定出待校验文本中包含的目标信息之后,为了便于后续的查询调用,可以将目标信息保存至数据库。
由上述技术方案可以看出,利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;当关键词具体为包含了涉及企业相关信息的关键词时,筛选的待校验文本更具有针对性。在得到待校验文本之后,可以依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定检测结果。目标信息正则表达式是将各类关键词所有可能的呈现形式以正则表达式的形式表示,可以更加全面准确的涵盖各种形式的目标信息。通过目标信息正则表达式对待校验文本进行匹配,可以实现对待校验文本中目标信息的精确校验,保证了目标信息检测的准确性。
在上述步骤S202中,需要进行正则表达式的匹配操作,考虑到实际应用中,正则表达式的匹配比较耗时,为了提升目标信息检测的效率,在本申请实施例中,可以利用字符串匹配算法将待校验文本与预先设定的目标信息正则表达式进行模糊匹配,从而过滤掉无需精确匹配的正则表达式,仅需要将待校验文本与过滤出来的有效正则表达式进行匹配即可,极大的提升了目标信息的检测效率。
具体地,在本申请实施例中,可以根据预先设定的目标信息正则表达式,建立字符串匹配模型,字符串匹配模型关联有各个正则表达式分别对应的字符串,通过该字符串匹配模型查找待校验文本包括的字符串,进而确定出有效正则表达式。在具体实现中,可以依赖于多模匹配算法构建出基于目标信息正则表达式的AC自动机(Aho-Corasickautomation),该基于目标信息正则表达式的AC自动机即为字符串匹配模型,AC自动机是一种多模匹配算法,可以实现对文本中字符串的查找操作,其于1975年诞生于贝尔实验室,具体实现方式为现有技术,本申请此处不予赘述。当然,AC自动机仅仅是多模匹配算法的其中一种,本申请还可以采用其他具体的多模匹配算法来构造上述字符串匹配模型。
字符串匹配模型可以实现对字符串的搜索功能,在本申请实施例中,该字符串匹配模型可以将待校验文本与该字符串匹配模型中的各个字符串进行匹配,得到待校验文本中包括的字符串,进而将包括的该字符串对应的正则表达式确定为与待校验文本匹配的有效正则表达式。与直接将待校验文本与正则表达式进行匹配的方式相比,本申请的方法可以快速的筛选出与待校验文本匹配的有效正则表达式,有效的减少了执行匹配操作的正则表达式的数量。在筛选出有效正则表达式之后,可以依据有效正则表达式对待校验文本进行匹配,以得到检测结果,该检测结果具体可以为待校验文本中包含的目标信息。
通过构建字符串匹配模型可以实现对待校验文本的模糊匹配。依据有效正则表达式对待校验文本进行匹配,以得到待校验文本中包含的目标信息,实现了对待校验文本的精确匹配。使用字符串匹配模型可以帮助过滤掉无需匹配的正则表达式,仅需要对过滤出来的有效正则表达式进行匹配即可,提高了检测效率。
考虑到待校验文本中往往包含有一些无需进行匹配的字符信息,例如HTML标签、以及一些常规用词等。在本申请实施例中,可以在依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定出检测结果之前,按照预先设定的过滤信息,对待校验文本进行过滤处理,以得到有效文本;相应的,依据预先设定的目标信息正则表达式对有效文本进行匹配,以确定出检测结果,比如有效文本中包含的目标信息。
过滤信息中包含有需要过滤掉的字符信息,通过对待校验文本进行过滤处理,可以将一些无需进行匹配的字符信息过滤掉,从而有效减少对有效文本进行匹配的数据量,进一步提升了目标信息检测的处理效率。
在本申请实施例中,上述检测结果可以进行格式化后展示给用户。比如,若上述检测结果为各个目标信息时,考虑到单纯展示目标信息时使用者可能无法直观的了解目标信息所对应的文本信息,因此,在确定出待校验文本中包含的目标信息之后,可以按照设定的文本格式,对待校验文本中包含的目标信息进行封装处理,并展示封装后的目标信息。
文本格式可以包括除目标信息外还需要封装的信息,以及各类信息之间的连接方式和排列顺序。
举例说明,封装的信息还可以包括目标信息所对应的文本标题、文本作者、文本存储地址等。在实际应用中,可以按照目标信息、文本标题、文本作者、文本存储地址的顺序进行封装,各类信息之间可以采用空格符衔接。
通过对目标信息进行封装,可以使得目标信息按照统一的格式展示。并且在对目标信息封装时可以一并封装与目标信息相关联的信息,以便于使用者可以直观的了解目标信息所对应的文本信息。
此外,在进行目标信息检测时,可能会存在取值型信息,有些取值型信息是以数字、字母和/或特殊字符的形式呈现,例如password=123456,在这种情况下,可称之为直观型取值信息;而有些取值型信息也可能是通过待校验文本中定义的函数计算得到的取值型信息,或者函数名定义,又或者变量名定义。因此,在本申请实施例中,对于并非直观从待校验文本中得到的取值型信息,可以不将其归属为待校验文本包含的目标信息,具体直观型取值信息的定义以及检测可以根据应用场景进行确定,本申请只是举例说明。
因此,在本申请实施例中,在进行正则匹配的过程中,可以将判断匹配到的取值型目标信息是否为直观型信息;若不为直观型信息,则说明该目标信息可能并不是想查找的目标信息,此时可以过滤掉该目标信息。
通过对取值型信息的直观性进行检测,可以有效的过滤掉并未在待校验文本中直观呈现的信息,进一步提升了目标信息检测的准确性。
图3为本申请实施例提供的另一种目标信息检测方法的流程图,该方法包括:
S301:根据预先设定的目标信息正则表达式,建立字符串匹配模型。
考虑到实际应用中,正则表达式的匹配比较耗时,为了提升目标信息检测的效率,在本申请实施例中,可以利用字符串匹配算法将待校验文本与预先设定的目标信息正则表达式进行模糊匹配,从而过滤掉无需精确匹配的正则表达式。
其中,字符串匹配模型关联有各个目标信息正则表达式对应的字符串。
在具体实现中,可以依赖于多模匹配算法构建出基于目标信息正则表达式的AC自动机,该基于目标信息正则表达式的AC自动机即为字符串匹配模型,AC自动机是一种多模匹配算法,可以实现对文本中字符串的查找操作,其于1975年诞生于贝尔实验室,具体实现方式为现有技术,本申请此处不予赘述。当然,AC自动机仅仅是多模匹配算法的其中一种,本申请还可以采用其他具体的多模匹配算法来构造上述字符串匹配模型。
比如,若正则表达式为:"password":"(password|pwd|passwd)=.+",则字符串匹配模型关联的字符串可以为:password=、pwd=以及passwd=。此处仅是举例说明,本领域技术人员可以根据其应用场景中的正则表达式,确定字符串匹配模型关联的各个字符串。
S302:基于字符串匹配模型对待校验文本进行匹配,确定待校验文本中包括的字符串。
字符串匹配模型可以实现对字符串的搜索功能,在本申请实施例中,该字符串匹配模型可以将待校验文本与该字符串匹配模型中的各个字符串进行匹配,得到待校验文本中包括的字符串,进而将包括的该字符串对应的正则表达式确定与待校验文本匹配的有效正则表达式。
S303:依据有效正则表达式对待校验文本进行匹配,确定检测结果。
利用有效正则表达式对待校验文本进行匹配时,可以实现对待校验文本的精确匹配。
举例说明,假设目标信息正则表达式一共有50个,在实际应用中,可以采用多模匹配算法,如esmre算法构建基于这50个目标信息正则表达式的字符串匹配模型(比如可以采用esmre算法实现AC自动机),字符串匹配模型可以实现对待校验文本的模糊匹配,从而筛选出与待校验文本匹配的目标信息正则表达式,假设与待校验文本匹配的目标信息正则表达式有10个,此时可以将这10个目标信息正则表达式作为有效正则表达式对待校验文本进行精确匹配。
正则表达式可以实现对目标信息的精确匹配,但是其计算量较大,在本申请实施例中,为了实现待校验文本中目标信息检测的准确性和检测效率的均衡,可以构建字符串匹配模型过滤掉无需匹配的正则表达式,仅需要将待校验文本与过滤出来的有效正则表达式进行匹配即可,提高了检测效率。并且依据有效正则表达式对待校验文本进行匹配,以得到待校验文本中包含的目标信息,实现了对待校验文本的精确匹配。
可选地,在执行依据有效正则表达式对待校验文本进行匹配的过程中,执行如下步骤:
依据有效正则表达式对待校验文本进行匹配的过程中,若匹配到与有效正则表达式相匹配的目标信息时,判断目标信息中是否存在取值型信息;
若目标信息中存在取值型信息,则判断取值型信息在待校验文本中是否为直观型信息;
若取值型信息在待校验文本中不为直观型信息,则过滤掉取值型信息。
可选地,检测结果包括:待校验文本中包含的各个目标信息;
相应地,在确定出检测结果之后还包括:
按照设定的文本格式,对待校验文本中包含的各个目标信息进行封装处理,并展示封装后的目标信息。
可选地,在依据有效正则表达式对待校验文本进行匹配之前还包括:
按照预先设定的过滤信息,对待校验文本进行过滤处理,以得到有效文本;
相应的,依据有效正则表达式对待校验文本进行匹配包括:
依据有效正则表达式对有效文本进行匹配。
图3所对应实施例中特征的说明可以参见图2所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,字符串匹配模型关联有各个目标信息正则表达式对应的字符串;基于字符串匹配模型对待校验文本进行匹配,确定待校验文本中包括的字符串。通过构建字符串匹配模型可以实现对待校验文本的模糊匹配。可以将待校验文本包括的字符串所对应的目标信息正则表达式称作有效正则表达式,依据有效正则表达式对待校验文本进行匹配,确定检测结果。与直接将待校验文本与所有目标信息正则表达式进行匹配的方式相比,本申请通过构建字符串匹配模型可以快速的筛选出与待校验文本匹配的有效正则表达式,从而过滤掉无需精确匹配的正则表达式,仅需要将待校验文本与有效正则表达式进行匹配即可,极大的提升了对待校验文本进行匹配的效率。
图4为本申请实施例提供的一种目标信息检测装置的结构示意图,检索单元41和匹配单元42;
检索单元41,用于利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;关键词与目标信息相关联;
匹配单元42,用于依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定出检测结果。
可选地,匹配单元包括建立子单元、字符串确定子单元和结果确定子单元;
建立子单元,用于根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
字符串确定子单元,用于基于字符串匹配模型对待校验文本进行匹配,确定待校验文本中包括的字符串;
结果确定子单元,用于依据有效正则表达式对待校验文本进行匹配,以确定出检测结果;其中,有效正则表达式为待校验文本包括的字符串所对应的目标信息正则表达式。
可选地,在依据预先设定的目标信息正则表达式对待校验文本进行匹配之前还包括过滤单元;
过滤单元,用于按照预先设定的过滤信息,对待校验文本进行过滤处理,以得到有效文本;
相应的,匹配单元用于依据预先设定的目标信息正则表达式对有效文本进行匹配。
可选地,在执行依据预先设定的目标信息正则表达式对待校验文本进行匹配的过程中,包括第一判断单元、第二判断单元和过滤单元;
第一判断单元,用于依据预先设定的目标信息正则表达式对待校验文本进行匹配的过程中,若匹配到与目标信息正则表达式相匹配的目标信息时,判断目标信息中是否存在取值型信息;
第二判断单元,用于若目标信息中存在取值型信息,则判断取值型信息在待校验文本中是否为直观型信息;
过滤单元,用于若取值型信息在待校验文本中不为直观型信息,则过滤掉取值型信息。
图4所对应实施例中特征的说明可以参见图2所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,检索单元利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;当关键词具体为包含了涉及企业相关信息的关键词时,筛选的待校验文本更具有针对性。在得到待校验文本之后,匹配单元可以依据预先设定的目标信息正则表达式对待校验文本进行匹配,以确定出检测结果。目标信息正则表达式是将各类关键词所有可能的呈现形式以正则表达式的形式表示,可以更加全面准确的涵盖各种形式的目标信息。通过目标信息正则表达式对待校验文本进行匹配,可以实现对待校验文本中目标信息的精确校验,保证了目标信息检测的准确性。
图5为本申请实施例提供的另一种目标信息检测装置的结构示意图,包括建立单元51、第一匹配单元52和第二匹配单元53;
建立单元51,用于根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
第一匹配单元52,用于基于字符串匹配模型对待校验文本进行匹配,确定待校验文本中包括的字符串;
第二匹配单元53,用于依据有效正则表达式对待校验文本进行匹配,确定检测结果;其中,有效正则表达式为待校验文本包括的字符串所对应的目标信息正则表达式。
可选地,在执行依据有效正则表达式对待校验文本进行匹配的过程中,包括第一判断单元、第二判断单元和过滤单元;
第一判断单元,用于依据有效正则表达式对待校验文本进行匹配的过程中,若匹配到与有效正则表达式相匹配的目标信息时,判断目标信息中是否存在取值型信息;
第二判断单元,用于若目标信息中存在取值型信息,则判断取值型信息在待校验文本中是否为直观型信息;
过滤单元,用于若取值型信息在待校验文本中不为直观型信息,则过滤掉取值型信息。
可选地,检测结果包括:待校验文本中包含的各个目标信息;
相应地,还包括封装单元;
封装单元,用于按照设定的文本格式,对待校验文本中包含的各个目标信息进行封装处理,并展示封装后的目标信息。
可选地,还包括过滤单元;
过滤单元,用于在依据有效正则表达式对待校验文本进行匹配之前,按照预先设定的过滤信息,对待校验文本进行过滤处理,以得到有效文本;
相应的,第二匹配单元用于依据有效正则表达式对有效文本进行匹配。
图5所对应实施例中特征的说明可以参见图3所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,建立单元根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,字符串匹配模型关联有各个目标信息正则表达式对应的字符串;第一匹配单元基于字符串匹配模型对待校验文本进行匹配,确定待校验文本中包括的字符串。通过构建字符串匹配模型可以实现对待校验文本的模糊匹配。可以将待校验文本包括的字符串所对应的目标信息正则表达式称作有效正则表达式,第二匹配单元依据有效正则表达式对待校验文本进行匹配,确定检测结果。与直接将待校验文本与所有目标信息正则表达式进行匹配的方式相比,本申请通过构建字符串匹配模型可以快速的筛选出与待校验文本匹配的有效正则表达式,从而过滤掉无需精确匹配的正则表达式,仅需要将待校验文本与有效正则表达式进行匹配即可,极大的提升了对待校验文本进行匹配的效率。
图6为本申请实施例提供的一种目标信息检测设备60的硬件结构示意图,包括:
存储器61,用于存储计算机程序;
处理器62,用于执行计算机程序以实现上述任意实施例所述的目标信息检测方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任意实施例所述的目标信息检测方法的步骤。
以上对本申请实施例所提供的一种目标信息检测方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (10)

1.一种目标信息检测方法,其特征在于,包括:
利用关键词对初始文本进行关键词检索,以得到包含关键词的待校验文本;所述关键词与所述目标信息相关联;
依据预先设定的目标信息正则表达式对所述待校验文本进行匹配,以确定出检测结果。
2.根据权利要求1所述的目标信息检测方法,其特征在于,所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配,以确定出检测结果包括:
根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,所述字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
基于所述字符串匹配模型对待校验文本进行匹配,确定所述待校验文本中包括的字符串;
依据有效正则表达式对所述待校验文本进行匹配,以确定出检测结果;其中,所述有效正则表达式为所述待校验文本包括的字符串所对应的目标信息正则表达式。
3.根据权利要求1所述的目标信息检测方法,其特征在于,在所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配之前还包括:
按照预先设定的过滤信息,对所述待校验文本进行过滤处理,以得到有效文本;
相应的,依据预先设定的目标信息正则表达式对所述待校验文本进行匹配包括:
依据预先设定的目标信息正则表达式对所述有效文本进行匹配。
4.根据权利要求1所述的目标信息检测方法,其特征在于,在执行所述依据预先设定的目标信息正则表达式对所述待校验文本进行匹配的过程中,执行如下步骤:
依据预先设定的目标信息正则表达式对所述待校验文本进行匹配的过程中,若匹配到与目标信息正则表达式相匹配的目标信息时,判断所述目标信息中是否存在取值型信息;
若所述目标信息中存在取值型信息,则判断所述取值型信息在所述待校验文本中是否为直观型信息;
若所述取值型信息在所述待校验文本中不为直观型信息,则过滤掉所述取值型信息。
5.一种目标信息检测方法,其特征在于,包括:
根据预先设定的目标信息正则表达式,建立字符串匹配模型;其中,所述字符串匹配模型关联有各个目标信息正则表达式对应的字符串;
基于所述字符串匹配模型对待校验文本进行匹配,确定所述待校验文本中包括的字符串;
依据有效正则表达式对所述待校验文本进行匹配,确定检测结果;其中,所述有效正则表达式为所述待校验文本包括的字符串所对应的目标信息正则表达式。
6.根据权利要求5所述的目标信息检测方法,其特征在于,在执行所述依据有效正则表达式对所述待校验文本进行匹配的过程中,执行如下步骤:
依据有效正则表达式对所述待校验文本进行匹配的过程中,若匹配到与有效正则表达式相匹配的目标信息时,判断所述目标信息中是否存在取值型信息;
若所述目标信息中存在取值型信息,则判断所述取值型信息在所述待校验文本中是否为直观型信息;
若所述取值型信息在所述待校验文本中不为直观型信息,则过滤掉所述取值型信息。
7.根据权利要求5所述的敏感信息检测方法,其特征在于,所述检测结果包括:所述待校验文本中包含的各个目标信息;
相应地,在确定出检测结果之后还包括:
按照设定的文本格式,对所述待校验文本中包含的各个目标信息进行封装处理,并展示封装后的目标信息。
8.根据权利要求5所述的目标信息检测方法,其特征在于,在所述依据有效正则表达式对所述待校验文本进行匹配之前还包括:
按照预先设定的过滤信息,对所述待校验文本进行过滤处理,以得到有效文本;
相应的,所述依据有效正则表达式对所述待校验文本进行匹配包括:
依据有效正则表达式对所述有效文本进行匹配。
9.一种目标信息检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至8任意一项所述目标信息检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述目标信息检测方法的步骤。
CN202011553669.5A 2020-12-24 2020-12-24 一种目标信息检测方法、设备和介质 Pending CN114676231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011553669.5A CN114676231A (zh) 2020-12-24 2020-12-24 一种目标信息检测方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011553669.5A CN114676231A (zh) 2020-12-24 2020-12-24 一种目标信息检测方法、设备和介质

Publications (1)

Publication Number Publication Date
CN114676231A true CN114676231A (zh) 2022-06-28

Family

ID=82070202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011553669.5A Pending CN114676231A (zh) 2020-12-24 2020-12-24 一种目标信息检测方法、设备和介质

Country Status (1)

Country Link
CN (1) CN114676231A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544213A (zh) * 2022-11-28 2022-12-30 上海朝阳永续信息技术股份有限公司 获取文本中的信息的方法、设备和存储介质
WO2024011933A1 (zh) * 2022-07-11 2024-01-18 华为云计算技术有限公司 一种组合敏感词检测方法、装置及集群

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024011933A1 (zh) * 2022-07-11 2024-01-18 华为云计算技术有限公司 一种组合敏感词检测方法、装置及集群
CN115544213A (zh) * 2022-11-28 2022-12-30 上海朝阳永续信息技术股份有限公司 获取文本中的信息的方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN110489345B (zh) 一种崩溃聚合方法、装置、介质和设备
US20160306876A1 (en) Systems and methods of detecting information via natural language processing
US8359307B2 (en) Method and apparatus for building sales tools by mining data from websites
CN114676231A (zh) 一种目标信息检测方法、设备和介质
CN108073708A (zh) 信息输出方法和装置
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN113139025A (zh) 一种威胁情报的评价方法、装置、设备及存储介质
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN111881183A (zh) 企业名称匹配方法和装置、以及存储介质和电子设备
CN109657462B (zh) 数据检测方法、***、电子设备和存储介质
CN113626558B (zh) 一种基于智能推荐的字段标准化的方法和***
KR101742041B1 (ko) 개인정보를 보호하는 장치, 개인정보를 보호하는 방법 및 개인정보를 보호하는 프로그램을 저장하는 저장매체
CN110232071A (zh) 药品数据的检索方法、装置及存储介质、电子装置
US11625366B1 (en) System, method, and computer program for automatic parser creation
CN113254577A (zh) 敏感文件检测方法、装置、设备及存储介质
JP2013174988A (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN115563288B (zh) 一种文本检测的方法、装置、电子设备及存储介质
CN113191777A (zh) 风险识别方法和装置
CN112698883A (zh) 一种配置数据处理方法、装置、终端和存储介质
JP7282715B2 (ja) 評価装置、評価方法及び評価プログラム
CN118069898B (zh) 一种多日志源的日志泛化方法及装置
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法
CN113810237B (zh) 一种网络设备配置合规性的检查方法
CN113011170B (zh) 合同处理方法、电子设备及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination