CN116611416A - 样本数据的生成、信息检测方法、装置、设备及存储介质 - Google Patents

样本数据的生成、信息检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116611416A
CN116611416A CN202310582856.3A CN202310582856A CN116611416A CN 116611416 A CN116611416 A CN 116611416A CN 202310582856 A CN202310582856 A CN 202310582856A CN 116611416 A CN116611416 A CN 116611416A
Authority
CN
China
Prior art keywords
information
sample
data
target
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310582856.3A
Other languages
English (en)
Inventor
谢文奇
樊昭杉
苏晓东
李鸣雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Volcano Engine Technology Co Ltd
Original Assignee
Beijing Volcano Engine Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Volcano Engine Technology Co Ltd filed Critical Beijing Volcano Engine Technology Co Ltd
Priority to CN202310582856.3A priority Critical patent/CN116611416A/zh
Publication of CN116611416A publication Critical patent/CN116611416A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种样本数据的生成、信息检测方法、装置、计算机设备及存储介质,其中,该方法包括:获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,目标信息类型为预设的具有安全需求的信息类型;对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。

Description

样本数据的生成、信息检测方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种样本数据的生成、信息检测方法、装置、设备及存储介质。
背景技术
随着科技的发展,数据安全已成为当前社会关注的重点,因此如何在大量数据中准确的、高效的检测到具有安全需求的特定数据已成为数据安全领域的重要研究内容。
一般的,可以利用特定数据检测模型实现特定数据检测任务,具体的特定数据检测任务要求对给定的输入数据,识别出输入数据中包含的全部特定信息、检测出特定数据类型、特定数据样本值、特定数据的索引位置等。可见特定数据检测模型的精度尤为重要,而特定数据检测模型的精度与训练使用的样本数据集息息相关。
发明内容
本公开实施例至少提供一种样本数据的生成、信息检测方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种样本数据的生成方法,包括:
获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。
一种可选的实施方式中,所述对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果,包括:
对所述第一参考数据中所述目标信息进行语义分析,生成各种目标信息类型分别对应的第一关键词;
对所述第一参考数据中所述目标信息进行词法结构分析,生成各种目标信息类型分别对应的第一正则表达式;所述第一正则表达式用于表征所述目标信息类型匹配的词法结构;
对所述第一参考数据中的所述目标信息进行语法结构分析,生成与所述第一参考数据的数据类型匹配的信息模板;
基于所述各种目标信息类型分别对应的第一关键词和第一正则表达式,以及与所述第一参考数据的数据类型匹配的信息模板,生成所述目标信息对应的所述分析结果。
一种可选的实施方式中,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息,包括:
针对每种目标信息类型,基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的、满足所述目标信息类型词法结构的多个第一信息样本值;
按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第一关键词和所述第一信息样本值,生成所述目标信息类型下的多个正样本信息。
一种可选的实施方式中,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息,包括:
针对每种目标信息类型,对所述目标信息类型对应的所述第一关键词进行预设操作,生成第二关键词;其中预设操作包括截选操作和/或增加字符操作;
基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值;
按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第二关键词和所述第二信息样本值,生成所述目标信息类型下的多个负样本信息。
一种可选的实施方式中,所述基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值,包括:
基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的第一信息样本值;对所述目标信息类型对应的所述第一信息样本值进行预设操作,生成第二信息样本值;和/或,
基于所述目标信息类型对应的所述第一正则表达式,生成不满足所述目标信息类型词法结构的第二正则表达式;基于所述第二正则表达式,生成所述目标信息类型对应的第二信息样本值。
一种可选的实施方式中,所述第一参考数据还包含易混淆信息,所述易混淆信息为对所述目标信息的检测存在干扰的信息;所述方法还包括:
对所述第一参考数据中所述易混淆信息进行语义分析,生成至少一种目标信息类型对应的第三关键词;
从所述易混淆信息中,确定所述第三关键词对应的第三信息样本值;
基于所述至少一种目标信息类型对应的所述第三关键词和所述第三信息样本值,生成所述目标信息类型下的多个负样本信息。
一种可选的实施方式中,所述第二参考数据为多个,所述基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集,包括:
针对每个所述第二参考数据,基于设置的比例参数、和为所述第二参考数据生成的随机数,确定所述第二参考数据的***方案,所述***方案包括***正样本信息、***负样本信息、和不***样本信息;
在所述第二参考数据的***方案为***目标样本信息的情况下,将所述目标样本信息***至所述第二参考数据内,生成目标样本数据;其中所述目标样本信息为正样本信息和/或负样本信息;在所述目标样本信息包括正样本信息时,所述目标样本数据包括正样本数据;在所述目标样本信息包括负样本信息时,所述目标样本数据包括负样本数据;
确定所述正样本数据的标注信息;所述标注信息包括目标信息类型、信息样本值、信息样本值在所述正样本数据中的起始索引位置、所述信息样本值在所述正样本数据中的内容信息;
基于多个所述负样本数据、和关联有所述标注信息的正样本数据,构成所述样本数据集。
一种可选的实施方式中,所述将所述目标样本信息***至所述第二参考数据内,生成目标样本数据,包括:
确定所述第二参考数据对应的***参数;所述***参数包括:***位置数量、每个***位置对应的样本数量、每个***位置对应的目标信息类型;
从所述第二参考数据中确定与所述***位置数量匹配的***位置;
按照每个所述***位置对应的样本数量、和所述***位置对应的目标信息类型,获取每个所述***位置对应的待***样本信息;
将各个所述***位置分别对应的所述待***样本信息,***至所述第二参考数据中,生成目标样本数据。
第二方面,本公开实施例还提供一种信息检测方法,包括:
利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息,其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是根据第一方面或任一实施方式所述的样本数据的生成方法生成的。
第三方面,本公开实施例还提供一种样本数据的生成装置,包括:
获取模块,用于获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
第一生成模块,用于对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
第二生成模块,用于基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
第三生成模块,用于基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。
第四方面,本公开实施例还提供一种信息检测装置,包括:
检测模块,用于利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
第五生成模块,用于在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息;其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是根据第一方面或任一实施方式所述的样本数据的生成方法生成的。
第五方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面的步骤。
第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤,或执行上述第二方面的步骤。
本公开实施例提供的样本数据的生成方法,通过获取第一参考数据,由于第一参考数据中包含有与目标信息类型匹配的目标信息,该目标信息类型为预设的具有安全需求的信息类型,通过对第一参考数据中目标信息进行分析处理,生成目标信息对应的分析结果,其中分析处理包括语义分析、词法结构分析和语法结构分析,比如分析结果可以指示目标信息所包括语义、词法结构、语法结构等,进而基于目标信息对应的分析结果,生成多个正样本信息和多个负样本信息,使得正样本信息与目标信息的结构匹配,负样本信息与目标信息的结构不匹配;再基于多个正样本信息、多个负样本信息以及第二参考数据,较灵活的生成大量正样本数据和负样本数据,实现了样本数据集的构建。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种样本数据的生成方法的流程图;
图2示出了本公开实施例所提供的样本数据的生成方法中,生成信息样本值的流程图;
图3示出了本公开实施例所提供的一种信息检测方法的流程图;
图4示出了本公开实施例所提供的一种样本数据的生成装置的示意图;
图5示出了本公开实施例所提供的一种信息检测装置的示意图;
图6示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
一般的数据按载体形态可以划分为结构化数据和非结构化数据,结构化数据一般存储在数据库中可以通过元数据的精确定义,较直接的进行具有安全需求的特定数据检测;由于非结构化数据的数据格式多样化,如单纯的依靠关键词等传统规则手段进行特定数据检测时,缺乏上下文语义级分析,导致特定数据检测不准确。因此,可以利用特定数据检测模型实现特定数据检测任务,具体的特定数据检测任务要求对给定的输入数据,识别出输入数据中包含的全部特定信息、检测出特定数据类型、特定数据样本值、特定数据的索引位置等。可见特定数据检测模型的精度尤为重要,而特定数据检测模型的精度与训练使用的样本数据集息息相关。
经研究发现,特定数据检测所使用的样本数据集较难获取,一方面是原始特定数据难以获取。具体的,为了保护信息安全,降低特定数据泄露危险,数据提供方不会提供大量特定数据给第三方进行模型训练,使得第三方可获取的数据样本量不满足需求。另一方面是特定数据标注层面难以量化。由于特定数据的特定性,数据标注工作需要数据项目专员对特定数据进行标注,不能泄露给其他人员进行标注,数据标注效率低,且不同业务场景特定数据的标准存在差异,特定类型繁多,采用人工标注方案时,标注成本较高。因此,如何高效率、低成本的构建得到用于进行特定数据检测模型训练的样本数据集是亟需解决的问题。
基于上述研究,本公开提供了一种样本数据的生成、信息检测方法、装置、计算机设备及存储介质,该样本数据的生成方法获取第一参考数据,由于第一参考数据中包含有与目标信息类型匹配的目标信息,通过对第一参考数据中目标信息进行分析处理,生成目标信息对应的分析结果,其中分析处理包括语义分析、词法结构分析和语法结构分析,比如分析结果可以指示目标信息所包括语义、词法结构、语法结构等,进而基于目标信息对应的分析结果,生成多个正样本信息和多个负样本信息,使得正样本信息与目标信息的结构匹配,负样本信息与目标信息的结构不匹配;再基于多个正样本信息、多个负样本信息以及第二参考数据,较灵活的生成大量正样本数据和负样本数据,实现了样本数据集的构建。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种样本数据的生成方法进行详细介绍,本公开实施例所提供的样本数据的生成方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、计算设备等。在一些可能的实现方式中,该样本数据的生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为终端设备为例对本公开实施例提供的样本数据的生成方法加以说明。
参见图1所示,为本公开实施例提供的样本数据的生成方法的流程图,所述方法包括S101~S104,其中:
S101,获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
S102,对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
S103,基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
S104,基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。
下述对S101-S104进行具体说明。
针对S101:
第一参考数据可以包括目标信息,目标信息为与目标信息类型匹配,目标信息类型为预设的具有安全需求的信息类型,具有安全需求的信息类型可以根据业务需求进行设置,比如可以将特定信息类型确定为具有安全需求的信息类型,例如目标信息类型可以包括姓名信息、电话信息、邮箱信息、住址信息等;还可以包括任职公司信息、性别信息等。
第一参考数据可以为非结构化数据,第一参考数据的数据类型可以包括业务日志、自然文本、埋点数据等。实施时可以获取少量的第一参考数据,针对获取的各个第一参考数据分别进行分析处理,以得到多个正样本信息和负样本信息。
以第一参考数据的数据类型为业务日志为例,比如第一参考数据可以为:“Name:aaaaaaxxxxxx有限公司Addr:bbb街道bbbbb区xxxxxxxx园4号楼Contacts:[Contact({ID:<aaa>Name:王**Mobile:133****8888Email:wang****@aaaaa.com merchant:xx市xx街道IdentityName:超级管理员CreateTime:1111111111npm:[""[email protected]"",""[email protected]""]})]”。其中上述示例中,目标信息可以包括“Name:王**、Mobile:133****8888、Email:wang****@aaaaa.com、merchant:xx市xx街道”。
针对S102及S103:
对第一参考数据中目标信息进行分析处理,生成目标信息的分析结果,分析处理比如可以包括语义分析、词法结构分析和语法结构分析。分析结果可以包括语义分析得到的语义信息、词法结构分析得到的词法结构、语法结构分析得到的语法结果。
具体的,词法结构可以用于描述可独立运用的最小语言单位的字符序列,能够用于指示目标信息类型的样本值的信息结构或者组成形式。语法结构能够用于描述词汇之间的依存关系或者组成模式,能够指示非结构化数据(即第一参考数据)中目标信息的共现模式(即目标信息中关键词与信息样本值之间的共现模式)。语言用于描述一个词汇或者实体的具体含义,由于在特定数据检测任务中,不同的上下文词汇对于识别特定数据实体的贡献度不同,故这里的语义信息可以指示在非结构化数据的上下文中,对于识别特定数据样本实体或者非特定样本实体具有最大贡献度的关键词。
比如对目标信息进行语义分析,生成目标信息包括的第一关键词,再比如对目标信息进行词法结构分析,生成表征目标信息所属目标信息类型的词法结构特征的第一正则表达式,再比如对目标信息进行语义分析,生成信息模板。
一种可选实施方式中,在S102中,所述对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果,具体包括:
S1021,对所述第一参考数据中所述目标信息进行语义分析,生成各种目标信息类型分别对应的第一关键词;
S1022,对所述第一参考数据中所述目标信息进行词法结构分析,生成各种目标信息类型分别对应的第一正则表达式;所述第一正则表达式用于表征所述目标信息类型匹配的词法结构;
S1023,对所述第一参考数据中的所述目标信息进行语法结构分析,生成与所述第一参考数据的存储方式匹配的信息模板;
S1024,基于所述各种目标信息类型分别对应的第一关键词和第一正则表达式,以及与所述第一参考数据的数据类型匹配的信息模板,生成所述目标信息对应的所述分析结果。
在S1021中,对第一参考数据中目标信息进行语义分析,生成各种目标信息类型分别对应的第一关键词。实施时,比如可以提取第一参考数据中各个目标信息所包含的标识性关键词,将该标识性关键词确定为目标信息所属的目标信息类型下的第一关键词。以及还可以根据标识性关键词,确定具有相同含义的近似关键词,将标识性关键词和近似关键词,确定为目标信息所属的目标信息类型下的第一关键词。
比如在目标信息类型为电话类型时,该目标信息类型下的第一关键词可以包括但不限于“电话”、“手机”、“座机”、“mobile”、“phone”、“tel”等。在目标信息类型为邮箱类型时,该目标信息类型下的第一关键词可以包括但不限于“邮箱”、“收件人”、“发件人”、“mail”、“receiver”、“sender”。在目标信息类型为地址类型时,该目标信息类型下的第一关键词可以包括但不限于“地址”、“住址”、“addr”、“location”。在目标信息类型为姓名类型时,该目标信息类型下的第一关键词可以包括但不限于“姓名”、“名字”、“员工”、“name”、“employee”。
在S1022中,对第一参考数据中目标信息进行词法结构分析,生成各种目标信息类型分别对应的第一正则表达式;利用第一正则表达式用于表征目标信息类型匹配的词法结构。其中正则表达式是对字符串操作的一种逻辑公式,使用预先定义的特殊字符及特殊字符的组合,组成“规则字符串”,用于表达字符串的过滤逻辑。比如在目标信息类型为电话类型时,电话类型一般包括十一位字符且以1为第一位字符,因此对电话类型的目标信息进行词法结构分析后,得到电话类型的第一正则表达式可以为“1[3-9]\d{9}”,该第一正则表达式的含义为以1开头、第二位字符为3-9中的任一个数字,第三位字符至第十一位字符为0-9中的任一个数字。
在S1023中,对第一参考数据中的目标信息进行词法结构分析,生成与第一参考数据的数据类型匹配的信息模板。分析目标信息可知目标信息中的关键词和信息样本值之间的共现方式可以为一对一、和一对多两类,一对一结构代表一个关键词对应一个信息样本值,一对多结构代表一个关键词对应多个信息样本值。
在第一参考数据的数据类型为日志文本时,一对一的信息模板可以包括但不限于:"Key":"Value";\"key\":\"value\";key=value;{"key":"key","value":"value"};key是value等。一对多的信息模板可以包括但不限于:"key":["value","value",...];"key":"key","values":["value",...]。
在第一参考数据的数据类型为自然文本时,由于自然文本上往往不包括特殊字符,通常采用短语的格式,故自然文本下的信息模板可以设计为:一对一结构的信息模板包括但不限于:我的key是value;key是value等。一对多结构的信息模板包括但不限于:key包含value1,value2,value3等。
在第一参考数据的数据类型为埋点数据时,由于埋点数据多为采用json格式的字符串进行记录,因此信息模板也会采用json对象,故埋点数据下的信息模板可以设计为:一对一结构的信息模板包括但不限于:{"key":"value"}等。一对多结构的信息模板包括但不限于:{"key":["value1","value2","value3"]}等。
在S1024中,可以将各种目标信息类型分别对应的第一关键词和第一正则表达式,以及与第一参考数据的存储方式匹配的信息模板,构成为目标信息对应的分析结果。即分析结果包含有语义信息、词法结构信息、语法结构信息。
这里通过对目标信息进行分析处理,分析处理包括语义分析、词法结构分析、语法结构分析,得到的分析结果中包括目标信息类型对应的第一关键词、第一正则表达式,以及信息模板,后续根据第一关键词、第一正则表达式和信息模板,可以高效的、便捷的生成大量与目标信息的结构相匹配的正样本信息、与目标信息的结构不匹配的负样本信息,提高样本构建的便捷性。
在得到目标信息对应的分析结果之后,可以根据分析结果,生成大量的正样本信息和负样本信息。比如可以根据分析结果指示的目标信息类型匹配的词法结构,生成与目标信息类型的词法结构匹配的正信息样本值,然后针对任一目标信息类型,随机利用选取该目标信息类型下的关键词和正信息样本值,填充信息模板,生成该目标信息类型下的正样本信息。或者,根据分析结果指示的目标信息类型匹配的词法结构,生成与目标信息类型的词法结构不匹配的负信息样本值,然后针对任一目标信息类型,随机利用选取该目标信息类型下的关键词和负信息样本值,填充信息模板,生成该目标信息类型下的负样本信息。
下述分别对生成正样本信息和生成负样本信息的过程进行具体说明。
一种可选实施方式中,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息,包括:
步骤a1,针对每种目标信息类型,基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的、满足所述目标信息类型词法结构的多个第一信息样本值。
步骤a2,按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第一关键词和所述第一信息样本值,生成所述目标信息类型下的多个正样本信息。
在步骤a1中,可以针对每种目标信息类型,根据该目标信息类型对应的第一正则表达式,生成目标信息类型对应的、满足目标信息类型词法结构的多个第一信息样本值。实施时可以基于第一正则表达式构建对应的状态机,利用状态机实现第一信息样本值的生成,其中状态机由状态、状态之间的转移条件和动作构成。
参见图2所示,状态机包括状态框、转移箭头和转移条件,状态框用圆圈表示状态,包括“开始”、“结束”、和多个状态,其中圆圈内横线上方表示不同状态,横线下方表示该状态执行的动作(该动作不是必须的),转移箭头为用箭头表示状态转移的方向,转移条件在转移箭头上标注的触发条件,图2中的“ε”代表无条件转移。在目标信息类型为电话类型时,第一正则表达式为“1[3-9]\d{9}”,遍历生成的状态机,从开始状态至结束状态,并且在遍历过程中存储每次转移输出的字符,拼接到字符串“s”之后,最后得到满足第一正则表达式的第一信息样本值,即图2中可以生成多个电话类型下的第一信息样本值,由图2可知此时生成的第一信息样本值为“13774578901”。
在步骤a2中,针对每种目标信息类型,可以从该目标信息类型对应的第一关键词中选取第一关键词、以及从该目标信息类型对应的多个第一信息样本值中选取第一信息样本值,利用选取的第一关键词和第一信息样本值填充信息模板,生成该目标信息类型下的正样本信息,进而可以简便的生成各个目标信息类型下的正样本信息。
在生成正样本信息之后,还可以记录该正样本信息sensitive_pos_sample的目标信息类型sensitive_type、信息样本值sensitive_value(即第一信息样本值)、信息样本值在正样本信息中的起始索引位置index_start,比如可以使用四元组唯一标识正样本信息,即四元组pos_sample(sensitive_pos_sample,sensitive_type,sensitive_value,index_start)。
这里通过每种目标信息类型的第一正则表达式,可以生成每种目标信息类型下的多个第一信息样本值,由于第一正则表达式用于表征目标信息类型的信息结构,故生成的第一信息样本值的结构满足目标信息类型要求,再基于目标信息类型对应的第一关键词和第一信息样本值,按照信息模板,生成目标信息类型下的多个正样本信息,提高正样本信息的生成效率。
一种可选实施方式中,所述基于所述目标信息对应的所述分析结果,生成多个负样本信息,包括:
步骤b1,针对每种目标信息类型,对所述目标信息类型对应的所述第一关键词进行预设操作,生成第二关键词;其中预设操作包括截选操作和/或增加字符操作。
步骤b2,基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值。
步骤b3,按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第二关键词和所述第二信息样本值,生成所述目标信息类型下的多个负样本信息。
在步骤b1中,针对每种目标信息类型,对目标信息类型对应的第一关键词进行预设操作,预设操作包括截选操作、增加字符操作,生成第二关键词。比如预设操作包括截选操作时,可以对第一关键词进行截断操作得到子字符串,将得到的子字符串确定为第二关键词,比如若第一关键词为“name”时,截取得到的第二关键词可以为“nam”、“ame”等。或者,也可以对第一关键词进行随机采样得到子序列,将得到的子序列确定为第二关键词,比如若第一关键词为“telephone”时,采样得到的第二关键词可以为“tehone”等。
在预设操作包括增加字符操作时,可以随机拼接不同目标信息类型下的第一关键词,将拼接得到的词作为第二关键词,比如若不同目标信息类型下的第一关键词为“name”和“phone”,则拼接得到“name phone”,将“name phone”确定为第二关键词。或者,也可以在第一关键词前后增加冗余字符,将得到的字符串确定为第二关键词,比如若第一关键词为“name”,则得到的第二关键词可以为“nametele”、“onename”等。
具体实施时,也可以设置不符合目标信息类型下第一关键词的词法结构的正则表达式,通过设置的正则表达式,生成第二关键词。比如,第一关键词为name时,生成的正则表达式可以为“n[b-z]me”,则生成的第二关键词可以为“nbme”、“ndme”等。
在步骤b2中,基于目标信息类型对应的第一正则表达式,生成不满足目标信息类型词法结构的第二信息样本值,比如第一正则表达式指示电话类型的第一信息样本值的长度为11位,则不满足目标信息类型词法结构的第二信息样本值的长度可以为10位、12位等。
一种可选实施方式中,步骤b2中,所述基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值,具体包括:
方式一、基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的第一信息样本值;对所述目标信息类型对应的所述第一信息样本值进行预设操作,生成第二信息样本值。
方式二、基于所述目标信息类型对应的所述第一正则表达式,生成不满足所述目标信息类型词法结构的第二正则表达式;基于所述第二正则表达式,生成所述目标信息类型对应的第二信息样本值。
在方式一中,可以先基于目标信息类型对应的第一正则表达式,生成目标信息类型对应的第一信息样本值;其中第一信息样本值的生成过程可参考前述对步骤a1的描述,这里不在详述。在得到目标信息类型对应的第一信息样本值之后,可以对第一信息样本值进行预设操作,预设操作比如可以包括截选操作、增加字符操作,生成第二信息样本值,其中此处的截选操作和增加字符操作的过程可以参考步骤b1中生成第二关键词的过程。这里根据第一信息样本值,能够较便捷和较高效的得到第二信息样本值。
比如,在电话类型的第一信息样本值为“13355558888”时,对该第一信息样本值进行截选操作,生成第二信息样本值可以包括“133555588”、“1338888”等;或者,对第一信息样本值进行增加字符串操作,生成的第二信息样本值可以包括“1335555888822”、“[email protected]”。
在方式二中,可以基于目标信息类型对应的第一正则表达式,生成不满足目标信息类型词法结构的第二正则表达式;比如在电话类型的第一正则表达式为“1[3-9]\d{9}”时,生成的第二正则表达式可以为“[2-9][2-9]\d{9}”等。再基于第二正则表达式,能够生成目标信息类型对应的、不满足目标信息类型词法结构的第二信息样本值,其中,根据第二正则表达式生成第二信息样本值的过程,可以参考前述步骤a1中基于第一正则表达式生成第一信息样本值的过程,这里不在详述。
这里设置多种方式,可以灵活的生成第二信息样本值,提高第二信息样本值的多样性。
在步骤b3中,在得到每种目标信息类型下的第二关键词和第二信息样本值之后,可以针对每种目标信息类型,将选取的第二关键词和第二信息样本值,填充至信息模板,生成该目标信息类型下的负样本信息。
具体实施时,可以设置多种填充方式,以生成负样本信息,比如填充方式可以包括“第一关键词-第二信息样本值”、“第二关键词-第一信息样本值”、“第二关键词-第二信息样本值”。“第一关键词-第二信息样本值”的填充方式为:获取目标信息类型下的第一关键词、和第二信息样本值,将获取的第一关键词、和第二信息样本值填充至信息模板,生成负样本信息。“第二关键词-第一信息样本值”的填充方式为:获取目标信息类型下的第二关键词、和第一信息样本值,将获取的第二关键词、和第一信息样本值填充至信息模板,生成负样本信息。“第二关键词-第二信息样本值”的填充方式为:获取目标信息类型下的第二关键词、和第二信息样本值,将获取的第二关键词、和第二信息样本值填充至信息模板,生成负样本信息。
比如,模板信息为:"Key":"Value"时,可以将获取的第二关键词替换模板信息中的Key,将获取到的第二信息样本值替换模板信息中的Value,得到负样本信息。
这里,通过确定目标信息类型下的第二关键词和第二信息样本值,基于目标信息类型对应的第二关键词和第二信息样本值,按照信息模板,生成目标信息类型下的多个负样本信息,实现了负样本信息的构建,提高了负样本信息的生成效率,且丰富了负样本信息的多样性。
考虑到在对特定信息进行检测时,可以存在相似信息或干扰信息等,对检测结果造成影响,为了使得特定信息检测模型能够较好的识别到干扰信息,本公开想到可以基于干扰信息构建负样本,以便在训练过程中使得特定信息检测模型能够学习到干扰信息的特征,提高特定信息检测任务的精度。
比如,第一参考数据为:“Name:aaaaaaxxxxxx有限公司Addr:bbb街道bbbbb区xxxxxxxx园4号楼Contacts:[Contact({ID:<aaa>Name:王**Mobile:133****8888Email:wang****@aaaaa.com merchant:xx市xx街道IdentityName:超级管理员CreateTime:1111111111npm:[""[email protected]"",""[email protected]""]})]”。其中上述示例中,目标信息可以包括“Name:王**、Mobile:133****8888、Email:wang****@aaaaa.com、merchant:xx市xx街道”,经研究发现,检测过程中可能会将“超级管理员”误报为姓名类型的特定信息,将npm第三方安装模块[""[email protected]"",""[email protected]""]误报为邮箱信息,故确定第一参考数据中存在易混淆信息,易混淆信息为“IdentityName:超级管理员”、“npm:[""[email protected]"",""[email protected]""]”。
在第一参考数据包含易混淆信息,所述易混淆信息为对所述目标信息的检测存在干扰的信息时,可以基于易混淆信息生成负样本信息。具体实施时,所述方法还包括:
步骤c1,对所述第一参考数据中所述易混淆信息进行语义分析,生成至少一种目标信息类型对应的第三关键词。
步骤c2,从所述易混淆信息中,确定所述第三关键词对应的第三信息样本值。
步骤c3,基于所述至少一种目标信息类型对应的所述第三关键词和所述第三信息样本值,生成所述目标信息类型下的多个负样本信息。
实施时,可以对易混淆信息进行语义分析,生成至少一种目标信息类型的第三关键词,比如上文案例中,生成有姓名类型下的第三关键词“IdentityName”,邮箱类型下的第三关键词“npm”。以及从易混淆信息中,确定第三关键词对应的第三信息样本值,比如第三关键词“IdentityName”的第三信息样本值为“超级管理员”,第三关键词“npm”的第三信息样本值为“"[email protected]"",""[email protected]"”。再可以将“IdentityName”和“超级管理员”填充至信息模板,生成姓名类型下的负样本信息。将“npm”和“"[email protected]"",""[email protected]"”填充至信息模板,生成邮箱类型下的负样本信息。
或者,还可以基于第三关键词的第三信息样本值,构建正则表达式,利用构建的正则表达式生成第三关键词对应的多个第三信息样本值,再基于第三关键词和多个第三信息样本值填充信息目标,生成多个目标信息类型下的负样本信息。
这里通过利用易混淆信息生成的第三关键词和第三信息样本值,构建负样本信息,丰富了负样本信息的内容,以使得后续训练得到的特定信息检测模型能够较好的识别到易混淆信息,提高了特定信息检测任务的检测精度。
针对S104:
这里,可以将负样本信息***至第二参考数据中,生成负样本数据,将正样本信息***至第二参考数据中,生成正样本数据,多个正样本数据和多个负样本数据构成了样本数据集。其中,第二参考数据可以为不包含目标信息类型的数据,即第二参考数据中不包括特定信息。或者,也可以基于正样本数据、负样本数据、以及第一参考数据,构建得到样本数据集。
一种可选实施方式中,所述第二参考数据为多个,所述基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集,具体包括:
步骤d1,针对每个所述第二参考数据,基于设置的比例参数、和为所述第二参考数据生成的随机数,确定所述第二参考数据的***方案,所述***方案包括***正样本信息、***负样本信息、和不***样本信息;
步骤d2,在所述第二参考数据的***方案为***目标样本信息的情况下,将所述目标样本信息***至所述第二参考数据内,生成目标样本数据;其中所述目标样本信息包括正样本信息和/或负样本信息;在所述目标样本信息包括正样本信息时,所述目标样本数据包括正样本数据;在所述目标样本信息包括负样本信息时,所述目标样本数据包括负样本数据;
步骤d3,确定所述正样本数据的标注信息;所述标注信息包括目标信息类型、信息样本值、信息样本值在所述正样本数据中的起始索引位置、所述信息样本值在所述正样本数据中的内容信息;
步骤d4,基于多个所述负样本数据、和关联有所述标注信息的正样本数据,构成所述样本数据集。
在步骤d1中,比例参数可以表征样本数据集中包括的正样本数据、负样本数据和原始数据(即不包括正样本信息和负样本信息的第二参考数据)的比例。比如比例参数可以包括:(proportion-0.6,negative_proportion-0.8),通过按照上述比例参数可以使得样本数据集中正样本数据、负样本数据和原始数据的比例接近0.6:0.2:0.2。
具体实施时,在设置了比例参数之后,针对每个第二参考数据,可以为该第二参考数据生成随机数(随机数为[0-1]之间的数值),根据随机数所处的概率区间确定第二参考数据的***方案。比如若随机数大于等于0、且小于等于proportion,则第二参考数据的***方案为***正样本信息,若随机数大于等于proportion、且小于等于negative_proportion,则第二参考数据的***方案为***负样本信息;若随机数大于negative_proportion、且小于等于1,则第三参考数据的***方案为不***样本信息。实施时,若随机数等于proportion,则***方案可以包括***正样本信息和***负样本信息。
在步骤d2中,若第二参考数据的***方案为不***样本信息,则直接将第二参考数据作为样本数据集中的样本数据。若第二参考数据的***方案为***正样本信息时,则随机获取一个或多个正样本信息,并将获取到的正样本信息***至第二参考数据中,比如可以***至第二参考数据的任意分隔符之后,生成正样本数据。若第二参考数据的***方案为***负样本信息时,则随机获取一个或多个负样本信息,并将获取到的负样本信息***至第二参考数据中,比如可以***至第二参考数据的任意分隔符之后,生成负样本数据。
具体实施时,在步骤d2中,所述将所述目标样本信息***至所述第二参考数据内,生成目标样本数据,可以包括:
步骤d21,确定所述第二参考数据对应的***参数;所述***参数包括:***位置数量、每个***位置对应的样本数量、每个***位置对应的目标信息类型。
步骤d22,从所述第二参考数据中确定与所述***位置数量匹配的***位置。
步骤d23,按照每个所述***位置对应的样本数量、和所述***位置对应的目标信息类型,获取每个所述***位置对应的待***样本信息。
步骤d24,将各个所述***位置分别对应的所述待***样本信息,***至所述第二参考数据中,生成目标样本数据。
在步骤d21中,确定第二参考数据对应的***参数;***参数包括:***位置数量、每个***位置对应的样本数量、每个***位置对应的目标信息类型。比如设置***位置数量对应的数量区间为[1-n1],则可以随机从[1-n1]中选取一个数,作为第二参考数据的***位置数量。在确定了***位置数量之后,可以针对每个***位置,确定该***位置对应的样本数量,***位置对应的样本数量表征在该***位置处***的目标样本信息的数量,比如设置***位置对应的样本数量的数量区域为[1-n2],则可以随机从[1-n2]中选取一个数,作为***位置对应的样本数量。在确定了***位置的样本数量之后,还可以确定每个***位置对应的目标信息类型,比如预设的目标信息类型包括电话类型、邮箱类型、地址类型和姓名类型时,可以随机从预设的目标信息类型中选取一种或多种目标信息类型,作为***位置对应的目标信息类型。其中,n1和n2为正整数,比如n1可以为3,n2可以为4等。
在步骤d22中,比如***位置数量为3个时,可以随机从第二参考数据中确定3个***位置;或者,也可以先确定第二参考数据中各个分隔符的位置,比如分隔符可以包括[";",",","","\n","\t","&"]等;再选取3个分隔符的位置,将3个分隔符之后的位置,确定为第二参考数据的3个***位置。
在步骤d23中,针对每个***位置,按照***位置对应的样本数量、和***位置对应的目标信息类型,获取***位置对应的待***样本信息。比如,若该***位置对应的样本数量为3,目标信息类型为电话类型,则可以从目标信息类型下包括的多个目标样本信息(正样本信息和/或负样本信息)中获取3个样本信息作为待***样本信息。以便在步骤d24中,可以将获取的待***样本信息***至第二参考数据的该***位置处。将各个***位置分别对应的待***信息,分别***至第二参考数据的相应***位置处,得到了目标样本数据。
这里通过设置***参数,基于***参数和确定的***位置,将获取的待***样本信息,***至第二参考数据中,生成目标样本数据,实现了目标样本数据的个性化和多样化,丰富了目标样本数据。
在步骤d3中,由于候选是构建样本数据集,样本数据集中的正样本数据需要进行标注,即确定正样本数据的标注信息,该标注信息包括目标信息类型、信息样本值、信息样本值在正样本数据中的起始索引位置、信息样本值在正样本数据中的内容信息。
实施时可以根据待***样本信息的目标信息类型,确定正样本数据包括的目标信息类型;可以将待***样本信息的信息样本值,确定为正样本数据包括的信息样本值;可以根据待***样本信息的***位置的索引、和待***样本信息中关键词(比如第一关键词或第二关键词)的长度,确定信息样本值在正样本数据中的起始索引位置;可以将待***样本信息包括的关键词和信息样本值,确定为信息样本值在正样本数据中的内容信息;或者也可以设置预设数量,将待***样本信息之前的预设数量个第一字符串、待***样本信息、和待***样本信息之后的预设数量个第二字符串构成的整体字符串,确定为信息样本值在正样本数据中的内容信息。
在步骤d4中,基于多个负样本数据、和关联有标注信息的正样本数据,构成样本数据集。或者,还可以基于多个负样本数据、关联有标注信息的正样本数据、和未***样本信息的第二参考数据,构成样本数据集。
本公开解决了特定数据难以获取问题,即本公开通过利用少量带有特定信息(目标信息)的第一参考数据,通过对第一参考数据中的特定信息的分析处理,并根据分析结果可以构建大量正样本信息和负样本信息,以便后续构建得到大量的正样本数据和负样本数据,缓解了特定数据泄露风险。且本公开通过分析结果构造大量正样本信息和负样本信息以后,将正样本信息、负样本信息***至第二参考数据,由于正样本信息的标注信息已知,故得到的正样本数据的标注信息容易得到,实现了特定数据自动化标注,能够节省人力成本和时间成本,提高标注效率,且标注信息的准确度和完整度较高,缓解了人工标注造成的成本问题、误标漏标问题。
在得到样本数据集之后,可以利用样本数据集对初始的待训练模型进行训练,直至满足训练截止条件为止,比如训练截止条件可以包括训练次数大于次数阈值、模型收敛、模型精度大于预设精度阈值等,生成特定信息检测模型,以便可以将特定信息检测模型部署在目标设备上,实现对任意待检测数据中特定信息的检测。
本公开通过构建正样本信息和负样本信息,实现正样本数据和负样本数据的生成,实现了特定信息检测模型的对比学习方案,增强了样本数据,同时通过正样本数据和负样本数据训练特定信息检测模型,可以拉近正样本之间的距离,同时推开正负样本之间的距离,进而调高了特定信息检测模型的学习能力,减少特定信息检测模型在各类特定数据实体上的误报,提升特定数据实体整体识别精确率。
基于同一发明构思,参见图3所示,本公开实施例中一种信息检测方法,所述方法包括S301-S302,其中:
S301,利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
S302,在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息;其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是前述实施方式中所述的样本数据的生成方法生成的。
实施时,可以获取利用前述实施方式所述的样本数据的生成方法生成的样本数据集,利用该样本数据集对构建的待训练模型进行训练,得到信息检测模型。将信息检测模型部署在目标设备上,比如服务器、移动设备等。利用信息检测模型,对待检测数据包含的信息内容进行检测,得到待检测数据对应的检测结果。若检测结果指示待检测数据包含有属于目标信息类型的目标信息,即待检测数据中包括具有安全需求的信息类型下的信息,该信息不能外泄,故可以生成提示信息,以便对用户进行提示,缓解包括目标信息类型下信息内容的待检测数据的外泄,提高数据安全性。若检测结果指示待检测数据不包含有属于目标信息类型的目标信息,故可以允许待检测数据进行传输,或执行其他操作。
由于上述实施方式构建的样本数据集的效率较高,且样本数据集包括的样本数据较丰富,故通过样本数据集训练得到信息检测模型的效率较高,得到的信息检测模型的性能较好,能够较准确得到待检测数据的检测结果。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与样本数据的生成方法对应的样本数据的生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述样本数据的生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本公开实施例提供的一种样本数据的生成装置的架构示意图,所述装置包括:获取模块401、第一生成模块402、第二生成模块403、第三生成模块404;其中,
获取模块401,用于获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
第一生成模块402,用于对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
第二生成模块403,用于基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
第三生成模块404,用于基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。
一种可能的实施方式中,所述第一生成模块402,在对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果时,用于:
对所述第一参考数据中所述目标信息进行语义分析,生成各种目标信息类型分别对应的第一关键词;
对所述第一参考数据中所述目标信息进行词法结构分析,生成各种目标信息类型分别对应的第一正则表达式;所述第一正则表达式用于表征所述目标信息类型匹配的词法结构;
对所述第一参考数据中的所述目标信息进行语法结构分析,生成与所述第一参考数据的数据类型匹配的信息模板;
基于所述各种目标信息类型分别对应的第一关键词和第一正则表达式,以及与所述第一参考数据的数据类型匹配的信息模板,生成所述目标信息对应的所述分析结果。
一种可选的实施方式中,所述第二生成模块403,在基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息时,用于:
针对每种目标信息类型,基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的、满足所述目标信息类型词法结构的多个第一信息样本值;
按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第一关键词和所述第一信息样本值,生成所述目标信息类型下的多个正样本信息。
一种可选的实施方式中,所述第二生成模块403,在基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息时,用于:
针对每种目标信息类型,对所述目标信息类型对应的所述第一关键词进行预设操作,生成第二关键词;其中预设操作包括截选操作和/或增加字符操作;
基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值;
按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第二关键词和所述第二信息样本值,生成所述目标信息类型下的多个负样本信息。
一种可选的实施方式中,所述第二生成模块403,在基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值时,用于:
基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的第一信息样本值;对所述目标信息类型对应的所述第一信息样本值进行预设操作,生成第二信息样本值;和/或,
基于所述目标信息类型对应的所述第一正则表达式,生成不满足所述目标信息类型词法结构的第二正则表达式;基于所述第二正则表达式,生成所述目标信息类型对应的第二信息样本值。
一种可选的实施方式中,所述第一参考数据还包含易混淆信息,所述易混淆信息为对所述目标信息的检测存在干扰的信息;所述方法还包括第四生成模块405,用于:
对所述第一参考数据中所述易混淆信息进行语义分析,生成至少一种目标信息类型对应的第三关键词;
从所述易混淆信息中,确定所述第三关键词对应的第三信息样本值;
基于所述至少一种目标信息类型对应的所述第三关键词和所述第三信息样本值,生成所述目标信息类型下的多个负样本信息。
一种可选的实施方式中,所述第二参考数据为多个,所述第三生成模块404,在基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集时,用于:
针对每个所述第二参考数据,基于设置的比例参数、和为所述第二参考数据生成的随机数,确定所述第二参考数据的***方案,所述***方案包括***正样本信息、***负样本信息、和不***样本信息;
在所述第二参考数据的***方案为***目标样本信息的情况下,将所述目标样本信息***至所述第二参考数据内,生成目标样本数据;其中所述目标样本信息为正样本信息和/或负样本信息;在所述目标样本信息包括正样本信息时,所述目标样本数据包括正样本数据;在所述目标样本信息包括负样本信息时,所述目标样本数据包括负样本数据;
确定所述正样本数据的标注信息;所述标注信息包括目标信息类型、信息样本值、信息样本值在所述正样本数据中的起始索引位置、所述信息样本值在所述正样本数据中的内容信息;
基于多个所述负样本数据、和关联有所述标注信息的正样本数据,构成所述样本数据集。
一种可选的实施方式中,所述第三生成模块404,在将所述目标样本信息***至所述第二参考数据内,生成目标样本数据时,用于:
确定所述第二参考数据对应的***参数;所述***参数包括:***位置数量、每个***位置对应的样本数量、每个***位置对应的目标信息类型;
从所述第二参考数据中确定与所述***位置数量匹配的***位置;
按照每个所述***位置对应的样本数量、和所述***位置对应的目标信息类型,获取每个所述***位置对应的待***样本信息;
将各个所述***位置分别对应的所述待***样本信息,***至所述第二参考数据中,生成目标样本数据。
参照图5所示,为本公开实施例提供的一种信息检测装置的架构示意图,所述装置包括:检测模块501、第五生成模块502;其中,
检测模块501,用于利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
第五生成模块502,用于在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息;其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是根据权利要求1-8任一所述的样本数据的生成方法生成的。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图6所示,为本公开实施例提供的计算机设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当计算机设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:
获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集;
或者处理器601在执行以下指令:
利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息,其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是前面所述的样本数据的生成方法生成的。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的样本数据的生成方法、信息检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的样本数据的生成方法、信息检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (13)

1.一种样本数据的生成方法,其特征在于,包括:
获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。
2.根据权利要求1所述的生成方法,其特征在于,所述对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果,包括:
对所述第一参考数据中所述目标信息进行语义分析,生成各种目标信息类型分别对应的第一关键词;
对所述第一参考数据中所述目标信息进行词法结构分析,生成各种目标信息类型分别对应的第一正则表达式;所述第一正则表达式用于表征所述目标信息类型匹配的词法结构;
对所述第一参考数据中的所述目标信息进行语法结构分析,生成与所述第一参考数据的数据类型匹配的信息模板;
基于所述各种目标信息类型分别对应的第一关键词和第一正则表达式,以及与所述第一参考数据的数据类型匹配的信息模板,生成所述目标信息对应的所述分析结果。
3.根据权利要求2所述的生成方法,其特征在于,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息,包括:
针对每种目标信息类型,基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的、满足所述目标信息类型词法结构的多个第一信息样本值;
按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第一关键词和所述第一信息样本值,生成所述目标信息类型下的多个正样本信息。
4.根据权利要求2所述的生成方法,其特征在于,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息,包括:
针对每种目标信息类型,对所述目标信息类型对应的所述第一关键词进行预设操作,生成第二关键词;其中预设操作包括截选操作和/或增加字符操作;
基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值;
按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第二关键词和所述第二信息样本值,生成所述目标信息类型下的多个负样本信息。
5.根据权利要求4所述的生成方法,其特征在于,所述基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值,包括:
基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的第一信息样本值;对所述目标信息类型对应的所述第一信息样本值进行预设操作,生成第二信息样本值;和/或,
基于所述目标信息类型对应的所述第一正则表达式,生成不满足所述目标信息类型词法结构的第二正则表达式;基于所述第二正则表达式,生成所述目标信息类型对应的第二信息样本值。
6.根据权利要求1-5任一所述的生成方法,其特征在于,所述第一参考数据还包含易混淆信息,所述易混淆信息为对所述目标信息的检测存在干扰的信息;所述方法还包括:
对所述第一参考数据中所述易混淆信息进行语义分析,生成至少一种目标信息类型对应的第三关键词;
从所述易混淆信息中,确定所述第三关键词对应的第三信息样本值;
基于所述至少一种目标信息类型对应的所述第三关键词和所述第三信息样本值,生成所述目标信息类型下的多个负样本信息。
7.根据权利要求1所述的生成方法,其特征在于,所述第二参考数据为多个,所述基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集,包括:
针对每个所述第二参考数据,基于设置的比例参数、和为所述第二参考数据生成的随机数,确定所述第二参考数据的***方案,所述***方案包括***正样本信息、***负样本信息、和不***样本信息;
在所述第二参考数据的***方案为***目标样本信息的情况下,将所述目标样本信息***至所述第二参考数据内,生成目标样本数据;其中所述目标样本信息为正样本信息和/或负样本信息;在所述目标样本信息包括正样本信息时,所述目标样本数据包括正样本数据;在所述目标样本信息包括负样本信息时,所述目标样本数据包括负样本数据;
确定所述正样本数据的标注信息;所述标注信息包括目标信息类型、信息样本值、信息样本值在所述正样本数据中的起始索引位置、所述信息样本值在所述正样本数据中的内容信息;
基于多个所述负样本数据、和关联有所述标注信息的正样本数据,构成所述样本数据集。
8.根据权利要求7所述的生成方法,其特征在于,所述将所述目标样本信息***至所述第二参考数据内,生成目标样本数据,包括:
确定所述第二参考数据对应的***参数;所述***参数包括:***位置数量、每个***位置对应的样本数量、每个***位置对应的目标信息类型;
从所述第二参考数据中确定与所述***位置数量匹配的***位置;
按照每个所述***位置对应的样本数量、和所述***位置对应的目标信息类型,获取每个所述***位置对应的待***样本信息;
将各个所述***位置分别对应的所述待***样本信息,***至所述第二参考数据中,生成目标样本数据。
9.一种信息检测方法,其特征在于,包括:
利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息;
其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是根据权利要求1-8任一所述的样本数据的生成方法生成的。
10.一种样本数据的生成装置,其特征在于,包括:
获取模块,用于获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;
第一生成模块,用于对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;
第二生成模块,用于基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;
第三生成模块,用于基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。
11.一种信息检测装置,其特征在于,包括:
检测模块,用于利用信息检测模型,对待检测数据包含的信息内容进行检测,得到所述待检测数据对应的检测结果;
第五生成模块,用于在所述检测结果指示所述待检测数据包含有属于目标信息类型的目标信息时,生成提示信息;其中,所述信息检测模型是利用样本数据集训练得到的,所述样本数据集是根据权利要求1-8任一所述的样本数据的生成方法生成的。
12.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一项所述的样本数据的生成方法的步骤,或者执行如权利要求9所述的信息检测方法的步骤。
13.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一项所述的样本数据的生成方法的步骤,或者执行如权利要求9所述的信息检测方法的步骤。
CN202310582856.3A 2023-05-22 2023-05-22 样本数据的生成、信息检测方法、装置、设备及存储介质 Pending CN116611416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310582856.3A CN116611416A (zh) 2023-05-22 2023-05-22 样本数据的生成、信息检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310582856.3A CN116611416A (zh) 2023-05-22 2023-05-22 样本数据的生成、信息检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116611416A true CN116611416A (zh) 2023-08-18

Family

ID=87684923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310582856.3A Pending CN116611416A (zh) 2023-05-22 2023-05-22 样本数据的生成、信息检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116611416A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453964A (zh) * 2023-10-08 2024-01-26 北京融和云链科技有限公司 基于模板的数据结构获取和目标模板生成方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453964A (zh) * 2023-10-08 2024-01-26 北京融和云链科技有限公司 基于模板的数据结构获取和目标模板生成方法及装置
CN117453964B (zh) * 2023-10-08 2024-04-30 北京融和云链科技有限公司 基于模板的数据结构获取和目标模板生成方法及装置

Similar Documents

Publication Publication Date Title
CN109614433B (zh) 业务***间数据血缘的识别方法、装置、设备及存储介质
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN110263538B (zh) 一种基于***行为序列的恶意代码检测方法
CN110275965B (zh) 假新闻检测方法、电子装置及计算机可读存储介质
KR20190060725A (ko) Sql 검토 방법, 장치, 서버 및 저장 매체
CN108256870B (zh) 基于拓扑结构生成描述信息及更新、数据处理方法和装置
CN112511546A (zh) 基于日志分析的漏洞扫描方法、装置、设备和存储介质
US20160088106A1 (en) Method and apparatus of processing a doi (digital object unique identifier) in interaction information
CN112154420A (zh) 自动智能云服务测试工具
CN116611416A (zh) 样本数据的生成、信息检测方法、装置、设备及存储介质
CN111338692A (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN110598109A (zh) 一种信息推荐方法、装置、设备及存储介质
CN111368289A (zh) 一种恶意软件检测方法和装置
CN110598419A (zh) 一种区块链客户端漏洞挖掘方法、装置、设备及存储介质
CN111209266B (zh) 一种基于Redis数据库的审计方法、装置及电子设备
CN116225950A (zh) 一种基于多模态融合的诈骗app的识别方法及***
CN115907400A (zh) 一种工单处理方法及装置
CN113032836B (zh) 数据脱敏方法和装置
CN106796683B (zh) 替选用户联系信息的自动识别和使用
CN113342647A (zh) 一种测试数据的生成方法及装置
CN113742208A (zh) 一种软件检测方法、装置、设备及计算机可读存储介质
CN116629225A (zh) 样本生成、信息检测方法、装置、计算机设备及存储介质
CN117614681B (zh) 智能合约的重入漏洞检测方法、***、设备和存储介质
CN116049823B (zh) 一种内存马检测方法、装置、计算机设备及存储介质
CN118194277B (zh) 基于app使用场景的隐私行为一致性分析方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination