CN116401704A - 敏感数据识别方法、电子设备及存储介质 - Google Patents

敏感数据识别方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116401704A
CN116401704A CN202310344068.0A CN202310344068A CN116401704A CN 116401704 A CN116401704 A CN 116401704A CN 202310344068 A CN202310344068 A CN 202310344068A CN 116401704 A CN116401704 A CN 116401704A
Authority
CN
China
Prior art keywords
data
sensitive data
industry
identified
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310344068.0A
Other languages
English (en)
Inventor
于元河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202310344068.0A priority Critical patent/CN116401704A/zh
Publication of CN116401704A publication Critical patent/CN116401704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种敏感数据识别方法、电子设备及存储介质。在本申请实施例中,既利用行业分类分级模板对待识别数据进行行业专属敏感数据识别,又利用通用识别模型对待识别数据进行通用敏感数据识别,进而实现对待识别数据进行全量敏感数据识别,也即更加全面地识别敏感数据。

Description

敏感数据识别方法、电子设备及存储介质
技术领域
本申请涉及数据安全技术领域,尤其涉及一种敏感数据识别方法、电子设备及存储介质。
背景技术
诸如金融、能源、汽车等各种行业具有敏感数据识别需求,敏感数据主要包括客户资料、技术资料、个人信息等高价值数据,敏感数据的泄露直接影响数据安全性。因此,如何更加全面地识别各个行业的敏感数据成为亟待解决的技术问题。
发明内容
本申请的多个方面提供一种敏感数据识别方法、电子设备及存储介质,用以更加全面地识别敏感数据。
本申请实施例提供一种敏感数据识别方法,包括:获取待识别数据及其所属目标行业的目标行业分类分级模板;利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;以及利用通用识别模型对待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果。
本申请实施例还提供一种敏感数据识别方法,应用于云服务器,该方法包括:响应于终端设备触发的任务创建请求,创建敏感数据识别任务;响应于敏感数据识别任务被触发,基于敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板;利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;利用通用识别模型对待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果;向终端设备返回行业专属敏感数据识别结果和通用敏感数据识别结果。
本申请实施例还提供一种电子设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器耦合至存储器,用于执行计算机程序以用于执行敏感数据识别方法中的步骤。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器能够实现敏感数据识别方法中的步骤。
在本申请实施例中,既利用行业分类分级模板对待识别数据进行行业专属敏感数据识别,又利用通用识别模型对待识别数据进行通用敏感数据识别,进而实现对待识别数据进行全量敏感数据识别,也即更加全面地识别敏感数据。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种敏感数据识别方法的流程图;
图2为本申请实施例提供的一种示例性的行业分级分类模板的示意图;
图3为本申请实施例提供的一种示例性的任务创建界面;
图4为本申请实施例提供的一种示例性的应用场景图;
图5为本申请实施例提供的另一种敏感数据识别方法的流程图;
图6为本申请实施例提供的一种敏感数据识别装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的访问关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。此外,在本申请实施例中,“第一”、“第二”、“第三”、等只是为了区分不同对象的内容而已,并无其它特殊含义。
诸如金融、能源、汽车等各种行业具有敏感数据识别需求,敏感数据主要包括客户资料、技术资料、个人信息等高价值数据,敏感数据的泄露直接影响数据安全性。因此,如何更加全面地识别各个行业的敏感数据成为亟待解决的技术问题。
为此,本申请实施例提供一种敏感数据识别方法、电子设备及存储介质。在本申请实施例中,既利用行业分类分级模板对待识别数据进行行业专属敏感数据识别,又利用通用识别模型对待识别数据进行通用敏感数据识别,进而实现对待识别数据进行全量敏感数据识别,也即更加全面地识别敏感数据。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种敏感数据识别方法的流程图。该方法可由敏感数据识别装置执行,该装置可由软件和/或硬件组成,并一般可以配置在电子设备中。
参见图1,该方法可以包括以下步骤:
101、获取待识别数据及其所属目标行业的目标行业分类分级模板。
102、利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果。
103、利用通用识别模型对待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果。
在本实施例中,待识别数据是指具有敏感数据识别需求的来源于不同行业的数据。待识别数据可以是结构化数据,也可以是非结构化数据,对此不做限制。
在本实施例中,既对待识别数据进行行业专属敏感数据识别,又对待识别数据进行通用敏感数据识别,进而实现对待识别数据进行全量敏感数据识别,也即更加全面地识别敏感数据。
在本实施例中,行业专属敏感数据可以理解为专属于某个行业的敏感数据,也即某个行业独有的敏感数据。例如,某个行业的敏感数据包括护照图片、指纹图片、营业执照图片、支付密码和私钥等。
在本实施例中,通用敏感数据可以理解为具有普适特点的敏感数据,也即适用于各个行业的敏感数据,换而言之,是各个行业共有的敏感数据。通用敏感数据例如包括但不限于:姓名、年纪、家庭地址以及工作单位等等。
在本实施例中,为了进行行业专属敏感数据识别,提供了各个行业对应的行业分类分级模板,行业分类分级模板能够识别行业专属敏感数据,对行业专属敏感数据进行分类和分级。分类是指确定行业专属敏感数据所属的敏感分类。值得注意的是,某个行业的敏感分类有多少类别,可以按需灵活设置。某个行业的敏感分类例如包括但不限于:密钥敏感信息、敏感图片信息、位置敏感信息、企业敏感信息。分级是指确定行业专属敏感数据的风险等级,风险等级越高,对数据安全性的影响越大。例如,风险等级按照从高到低的顺序排序,分别为S1、S2、S3以及S4。
示例性的,为了更好地进行行业专属敏感数据识别,行业分类分级模板包括对应行业关联的至少一个敏感分类、每个敏感分类关联的至少一个数据类型以及每个数据类型关联的专属识别模型,专属识别模型指示数据类型的风险等级和与数据类型关联的至少一个敏感数据识别方式。
实际应用中,可以灵活定义行业的数据类型,某个行业的数据类型例如包括但不限于:支付密码、私钥、护照图片、指纹图片、营业执照图片等等。
参见图2所示的示例性的行业分类分级模板,该行业分类分级模板指示对应行业的敏感分类包括密钥敏感信息、敏感图片信息、位置敏感信息和企业敏感信息。每个敏感分类关联一个或多个数据类型,例如,密钥敏感信息这一敏感分类下的数据类型例如包括但不限于:支付密码和私钥等。敏感图片信息这一敏感分类下的数据类型例如包括但不限于:护照图片、指纹图片和营业执照图片等。每个数据类型关联有用于对该数据类型的敏感数据进行识别的专属识别模型。专属识别模型指示数据类型的风险等级和与数据类型关联的至少一个敏感数据识别方式。以营业执照图片的专属识别模型为例,该专属识别模型的数据类型配置项配置了营业执照图片,数据类型配置项所配置的数据类型也可以视为专属识别模型的模型名称,该模型名称的语义信息可以指示专属识别模型的功能是对所配置的数据类型的敏感数据进行识别。分类分级配置项配置了数据类型属于哪个行业分类分级模板,该数据类型对应的敏感分类和风险等级。
在本实施例中,多个行业分类分级模板可以包括至少一个***级行业分类分级模板和/或至少一个自定义行业分类分级模板。***级行业分类分级模板可以理解为提供敏感数据识别服务的厂商或任意第三方提供的行业分类分级模板。自定义行业分类分级模板可以理解为满足用户自定义需求由用户自定义的行业分类分级模板。进一步可选的,为了提高创建自定义行业分类分级模板的便利性,可以对***级行业分类分级模板进行修改得到自定义行业分类分级模板。作为一种示例,在创建自定义行业分类分级模板时,可以从至少一个***级行业分类分级模板中选择一个***级行业分类分级模板;对选中的***级行业分类分级模板进行更新,得到自定义行业分类分级模板。
实际应用中,在对选中的***级行业分类分级模板进行更新时,可以对选中的***级行业分类分级模板中的敏感分类进行删除、新增和修改,也可以对选中的***级行业分类分级模板中任意敏感分类下的数据类型进行删除、新增和修改。可以理解的是,新增一个敏感分类时,还需新增该敏感分类下的数据类型。新增敏感分类或新增数据类型会涉及到为数据类型关联专属识别模型。关联的专属识别模型可以从已创建的专属识别模型中选择,进一步可选的,为了更好地满足用户自定义需求,还可以支持用户创建一个新的专属识别模型。基于此,若在对选中的***级行业分类分级模板进行更新的过程中涉及创建新增的专属识别模型,显示专属识别模型配置界面;响应于针对专属识别模型配置界面的配置操作,配置新增的专属识别模型。
作为一种示例,参见图2,专属识别模型配置界面至少包括数据类型配置项、分类分级配置项和识别方式配置项;响应于针对专属识别模型配置界面的配置操作,配置新增的专属识别模型的实现方式为:响应于通过数据类型配置项触发的配置操作,配置新增的专属识别模型关联的数据类型;响应于通过分类分级配置项触发的配置操作,配置新增的专属识别模型关联的行业分类分级模板、敏感分类和风险等级;响应于通过识别方式配置项触发的配置操作,配置新增的专属识别模型关联的数据类型的至少一个敏感数据识别方式。
值得注意的是,通过分类分级配置项可以为新增的专属识别模型关联至少一个分类分级信息,每个分类分级信息指示新增的专属识别模型关联的行业分类分级模板、敏感分类和风险等级。
另外,敏感数据识别方式可以按需灵活选择。例如,针对大量数值型和英文字符的敏感信息(如手机号、即时通讯号码和邮箱等)可以基于正则表达式进行识别。若待识别数据与正则表达式匹配成功,则说明待识别数据是敏感数据;若待识别数据与正则表达式匹配失败,则说明待识别数据不是敏感数据。又例如,可以预先收集一些敏感词形成关键词库,基于关键词库进行识别。若待识别数据出现关键词库中的敏感词,则说明待识别数据是敏感数据;若待识别数据未出现关键词库中的敏感词,则说明待识别数据不是敏感数据。又例如,可以基于图像识别技术进行识别。计算待识别图片与预先确定的敏感图片之间的图像相似度,若图像相似度较高,待识别图片是敏感图片。若图像相似度较低,待识别图片不是敏感图片。
进一步可选的,为了提高敏感数据识别结果的丰富度,参见图2,专属识别模型配置界面还包括:数据标签配置项;还可以响应于通过数据标签配置项触发的配置操作,配置新增的专属识别模型识别出的敏感数据所属的数据标签。
值得注意的是,数据标签按需灵活设置。当待识别数据识别为敏感数据,为该待识别数据增加对应的数据标签。数据标签例如为个人敏感数据或个人数据等等。
进一步可选的,为了更好地管理敏感数据识别,参见图2,专属识别模型配置界面还包括:识别范围配置项和/或识别阈值配置项。识别范围配置项用于配置敏感数据识别范围,也即对哪些数据进行敏感数据识别。识别阈值配置项用于配置敏感数据识别率的评估标准。例如,若命中1~10个敏感信息,说明敏感数据识别率的等级为低等级;若命中10~100个敏感信息,说明敏感数据识别率的等级为中等级;若命中100个以上敏感信息,说明敏感数据识别率的等级为高等级。
在本实施例中,为了实现对待识别数据进行行业专属敏感数据识别,需要获取待识别数据所属行业的行业分类分级模板。进一步可选的,为了更好地管理敏感数据识别操作,可以响应于敏感数据识别任务被触发,基于敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板。
具体而言,在创建敏感数据识别任务时,指示了需要对哪些数据进行敏感数据识别,以及这些数据关联的行业分类分级模板。这样,当敏感数据识别任务被触发时,可以及时准确地确定采用哪些行业分类分级模板对哪些数据进行识别。
进一步可选的,为了便于任务管理,可以通过任务创建界面创建敏感数据识别任务。作为一种示例,响应于任务创建请求,显示任务创建界面,任务创建界面至少包括作用域配置项和模板配置项;响应于通过作用域配置项发起的配置操作,配置敏感数据识别任务的作用域;响应于对模板配置项的触发操作,显示多个行业分类分级模板;响应于对多个行业分类分级模板的选择操作,将选中的行业分类分级模板配置为敏感数据识别任务的目标行业分类分级模板,以创建敏感数据识别任务。
实际应用中,任务创建界面除作用域配置项和模板配置项之外,还可以包括更多的配置项,对此不做限制。参见图3,任务创建界面例如包括但不限于:用于配置任务名称的任务名称配置项、用于配置任务启动时间的任务启动时间配置项、用于配置界定敏感数据识别范围的作用域配置项以及用于配置行业分类分级模板的模板配置项等。这样,通过任务创建界面创建的敏感数据识别任务例如包括但不限于:任务名称、任务启动时间、用于界定敏感数据识别范围的作用域和配置的行业分类分级模板等等。
其中,若任务启动时间配置为立即扫描,则在接收到敏感数据识别任务时便触发执行敏感数据识别任务执行。若任务启动时间配置为周期扫描,则在接收到敏感数据识别任务后,周期性地触发执行敏感数据识别任务。
其中,若作用域配置为全局扫描,则对用户全部的数据资产进行敏感数据识别。若作用域配置为指定数据域,则对指定数据域中的数据资产进行敏感数据识别。若作用域配置为指定资产类型,则对指定资产类型的数据资产进行敏感数据识别。其中,数据域可以认为是相同特征的数据资产集合,数据资产的特征例如可以采用服务属性、组织架构、数据特征中一种或多种进行定义。数据资产例如包括但不限于:数据库表、实例数据或者日志数据等等。
基于上述,作为一种可选的实现方式,基于敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板可以包括:根据作用域确定待识别数据,以及从敏感数据识别任务中获取目标行业分类分级模板。
在本实施例中,为了实现对待识别数据进行行业专属敏感数据识别,需要获取待识别数据所属行业的行业分类分级模板。为了便于理解,将待识别数据所属行业称作为目标行业,将目标行业的行业分类分级模板称作为目标行业分类分级模板。在确定待识别数据对应的目标行业分类分级模板后,利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果。
具体而言,目标行业分类分级模板包括目标行业关联的至少一个敏感分类、每个敏感分类关联的至少一个数据类型以及每个数据类型关联的专属识别模型,专属识别模型指示数据类型的风险等级和与数据类型关联的至少一个敏感数据识别方式,则在利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果时,可以确定目标行业分类分级模板中与待识别数据的目标数据类型匹配的目标专属识别模型;利用目标专属识别模型中与目标数据类型关联的至少一个敏感数据识别方式,对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;其中,行业专属敏感数据识别结果包括待识别数据是否为敏感数据,若待识别数据为敏感数据,待识别数据的风险等级为目标数据类型的风险等级,待识别数据对应的敏感分类为目标数据类型对应的敏感分类。
在本实施例中,利用通用识别模型对待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果。通用识别模型例如可以是基于海量训练数据进行训练得到的机器学习模型,但并不限于此。
本申请实施例提供的技术方案,既利用行业分类分级模板对待识别数据进行行业专属敏感数据识别,又利用通用识别模型对待识别数据进行通用敏感数据识别,进而实现对待识别数据进行全量敏感数据识别,也即更加全面地识别敏感数据。
为了便于更好地理解,下面结合图4介绍场景实施例。
在本实施例中,位于云端的数据安全中心***提供敏感数据识别服务,以满足不同行业用户的敏感数据识别需求。参见图4,数据安全中心***可以包括管控服务模块和引擎服务模块。
其中,管控服务模块可以维护和管理行业分类分级模板、敏感数据识别任务、敏感数据识别结果。具体而言,管控服务模块中的模板管理单元提供多个行业分类分级模板。这些行业分类分级模板有数据安全中心***的服务方提供的***级行业分类分级模板,也有用户提供的自定义行业分类分级模板。模板管理单元可以响应用户的针对自定义行业分类分级模板的创建操作,为用户创建自定义行业分类分级模板。管控服务模块中的任务管理单元维护和管理敏感数据识别任务。管控服务模块可以响应用户的任务创建指令,创建敏感数据识别任务。管控服务模块通过接口层接收引擎服务模块返回的敏感数据识别结果,并存储至数据库中。当然,管控服务模块还可以对数据库中的敏感数据识别结果进行统计分析。例如,数据分类分级统计、数据标签统计和数据识别率统计等等。数据分类分级统计例如统计各个敏感分类的敏感数据有多少条或者各个风险等级的敏感数据有多少条。数据标签统计例如统计各个数据标签的敏感数据有多少条。数据识别率统计例如统计有多少数据列、已识别的数据列有多少、敏感数据列有多少等等。数据列是指结构化数据的字段(Field),结构化数据由行和列构成,通常把结构化数据的“列”称为字段,把结构化数据的“行”称为记录(Record)。
参见图4中的①所示,终端设备向数据安全中心***发送任务创建指令,数据安全中心***中任务管理单元响应用户的任务创建指令,创建敏感数据识别任务。参见图4中的②所示,引擎服务模块从任务管理单元拉取敏感数据识别任务,参见图4中的③所示,引擎服务模块进行全量敏感数据识别,也即既利用行业分类分级模板对待识别数据进行行业专属敏感数据识别,又利用通用识别模型对待识别数据进行通用敏感数据识别。参见图4中的④所示,管控服务模块通过接口层接收引擎服务模块输出的敏感数据识别结果,并写入数据库中。管控服务模块还可以对数据库中的敏感数据识别结果进行统计分析,以供用户查询。参见图4中的⑤所示,终端设备向数据安全中心***发送查询指令,管控服务模块查询数据库以获取敏感数据识别结果,并向用户返回。例如,某个数据列的数据识别结果包括:数据列命中的专属识别模型、数据标签、风险等级和敏感分类等等。当然,若用户也可以查询敏感数据识别结果的统计结果,对此不做限制。
图5为本申请实施例提供的另一种敏感数据识别方法的流程图。该方法可由敏感数据识别装置执行,该装置可由软件和/或硬件组成,并一般可以配置在云服务器中。参见图5,该方法可以包括以下步骤:
501、响应于终端设备触发的任务创建请求,创建敏感数据识别任务。
502、响应于敏感数据识别任务被触发,基于敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板。
503、利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果。
504、利用通用识别模型对待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果;
505、向终端设备返回行业专属敏感数据识别结果和通用敏感数据识别结果。
关于该方法实施例中各个步骤的实现方式可参见前述实施例中的相关描述,在此不再赘述。
本实施例提供的技术方案,既利用行业分类分级模板对待识别数据进行行业专属敏感数据识别,又利用通用识别模型对待识别数据进行通用敏感数据识别,进而实现对待识别数据进行全量敏感数据识别,也即更加全面地识别敏感数据。
图6为本申请实施例提供的一种敏感数据识别装置的结构示意图。如图6所示,该装置可以包括:
获取模块61,用于获取待识别数据及其所属目标行业的目标行业分类分级模板;
行业专属识别模块62,用于利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;以及
通用识别模块63,用于利用通用识别模型对待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果。
进一步可选的,目标行业分类分级模板包括目标行业关联的至少一个敏感分类、每个敏感分类关联的至少一个数据类型以及每个数据类型关联的专属识别模型,专属识别模型指示数据类型的风险等级和与数据类型关联的至少一个敏感数据识别方式;
相应地,行业专属识别模块62利用目标行业分类分级模板对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果时,具体用于:确定目标行业分类分级模板中与待识别数据的目标数据类型匹配的目标专属识别模型;利用目标专属识别模型中与目标数据类型关联的至少一个敏感数据识别方式,对待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;其中,行业专属敏感数据识别结果包括待识别数据是否为敏感数据,若待识别数据为敏感数据,待识别数据的风险等级为目标数据类型的风险等级,待识别数据对应的敏感分类为目标数据类型对应的敏感分类。
进一步可选的,获取模块61获取待识别数据及其所属目标行业的目标行业分类分级模板时,具体用于:响应于敏感数据识别任务被触发,基于敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板。
进一步可选的,敏感数据识别任务至少包括用于界定敏感数据识别范围的作用域和目标行业分类分级模板;获取模块61基于敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板时,具体用于:根据作用域确定待识别数据,以及从敏感数据识别任务中获取目标行业分类分级模板。
进一步可选的,上述装置还包括:任务创建模块,用于响应于任务创建请求,显示任务创建界面,任务创建界面至少包括作用域配置项和模板配置项;响应于通过作用域配置项发起的配置操作,配置敏感数据识别任务的作用域;响应于对模板配置项的触发操作,显示多个行业分类分级模板;响应于对多个行业分类分级模板的选择操作,将选中的行业分类分级模板配置为敏感数据识别任务的目标行业分类分级模板,以创建敏感数据识别任务。
进一步可选的,多个行业分类分级模板包括至少一个***级行业分类分级模板和/或至少一个自定义行业分类分级模板。
进一步可选的,上述装置还包括模板创建模块,用于从至少一个***级行业分类分级模板中选择一个***级行业分类分级模板;对选中的***级行业分类分级模板进行更新,得到自定义行业分类分级模板;若在对选中的***级行业分类分级模板进行更新的过程中涉及创建新增的专属识别模型,显示专属识别模型配置界面;响应于针对专属识别模型配置界面的配置操作,配置新增的专属识别模型。
进一步可选的,专属识别模型配置界面至少包括数据类型配置项、分类分级配置项和识别方式配置项;模板创建模块响应于针对专属识别模型配置界面的配置操作,配置新增的专属识别模型时,具体用于:响应于通过数据类型配置项触发的配置操作,配置新增的专属识别模型关联的数据类型;响应于通过分类分级配置项触发的配置操作,配置新增的专属识别模型关联的行业分类分级模板、敏感分类和风险等级;响应于通过识别方式配置项触发的配置操作,配置新增的专属识别模型关联的数据类型的至少一个敏感数据识别方式。
进一步可选的,专属识别模型配置界面还包括:数据标签配置项;模板创建模块还用于:响应于通过数据标签配置项触发的配置操作,配置新增的专属识别模型识别出的敏感数据所属的数据标签。
图6所示的装置可以执行图1所示实施例的方法,其实现原理和技术效果不再赘述。对于上述实施例中的图6装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示,该电子设备包括:存储器71和处理器72;
存储器71,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random-AccessMemory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable read only memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-Only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72,与存储器71耦合,用于执行存储器71中的计算机程序,以用于:执行敏感数据识别方法中的步骤。
进一步,如图7所示,该电子设备还包括:通信组件73、显示器74、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。另外,图7中虚线框内的组件为可选组件,而非必选组件,具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT(物联网,Internet of things)设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图7中虚线框内的组件;若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图7中虚线框内的组件。
关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述,在此不再赘述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi(WirelessFidelity,无线保真)、2G(2Generation,2代)、3G(3Generation,3代)、4G(4Generation,4代)/LTE(long Term Evolution,长期演进)、5G(5Generation,5代)等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(Near FieldCommunication,NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RadioFrequency Identification,RFID)技术,红外数据协会(The Infrared DataAssociation,IrDA)技术,超宽带(Ultra Wide Band,UWB)技术,蓝牙(Bluetooth,BT)技术和其他技术来实现。
上述显示器包括屏幕,其屏幕可以包括液晶显示器(Liquid Crystal Display,LCD)和触摸面板(Touch Panel,TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(microphone,MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(central processingunit,CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变化内存(Phase Change RAM,PRAM)、静态随机存取存储器(Static Random-Access Memory,SRAM)、动态随机存取存储器(DynamicRandom Access Memory,DRAM)、其他类型的随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(Digital versatile disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种敏感数据识别方法,其特征在于,包括:
获取待识别数据及其所属目标行业的目标行业分类分级模板;
利用所述目标行业分类分级模板对所述待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;以及
利用通用识别模型对所述待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果。
2.根据权利要求1所述的方法,其特征在于,所述目标行业分类分级模板包括所述目标行业关联的至少一个敏感分类、每个敏感分类关联的至少一个数据类型以及每个数据类型关联的专属识别模型,所述专属识别模型指示所述数据类型的风险等级和与所述数据类型关联的至少一个敏感数据识别方式;
相应地,利用所述目标行业分类分级模板对所述待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果,包括:
确定所述目标行业分类分级模板中与所述待识别数据的目标数据类型匹配的目标专属识别模型;
利用所述目标专属识别模型中与所述目标数据类型关联的至少一个敏感数据识别方式,对所述待识别数据进行行业专属敏感数据识别,得到所述行业专属敏感数据识别结果;
其中,所述行业专属敏感数据识别结果包括所述待识别数据是否为敏感数据,若所述待识别数据为敏感数据,所述待识别数据的风险等级为所述目标数据类型的风险等级,所述待识别数据对应的敏感分类为所述目标数据类型对应的敏感分类。
3.根据权利要求1所述的方法,其特征在于,获取待识别数据及其所属目标行业的目标行业分类分级模板,包括:
响应于敏感数据识别任务被触发,基于所述敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板。
4.根据权利要求3所述的方法,其特征在于,所述敏感数据识别任务至少包括用于界定敏感数据识别范围的作用域和所述目标行业分类分级模板;
基于所述敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板,包括:
根据所述作用域确定所述待识别数据,以及从所述敏感数据识别任务中获取所述目标行业分类分级模板。
5.根据权利要求3所述的方法,其特征在于,在所述敏感数据识别任务被触发之前,还包括:
响应于任务创建请求,显示任务创建界面,所述任务创建界面至少包括作用域配置项和模板配置项;
响应于通过所述作用域配置项发起的配置操作,配置所述敏感数据识别任务的作用域;
响应于对所述模板配置项的触发操作,显示多个行业分类分级模板;
响应于对所述多个行业分类分级模板的选择操作,将选中的行业分类分级模板配置为所述敏感数据识别任务的所述目标行业分类分级模板,以创建所述敏感数据识别任务。
6.根据权利要求5所述的方法,其特征在于,所述多个行业分类分级模板包括至少一个***级行业分类分级模板和/或至少一个自定义行业分类分级模板。
7.根据权利要求6所述的方法,其特征在于,所述自定义行业分类分级模板的创建方式为:
从所述至少一个***级行业分类分级模板中选择一个***级行业分类分级模板;
对选中的***级行业分类分级模板进行更新,得到所述自定义行业分类分级模板;
若在对选中的***级行业分类分级模板进行更新的过程中涉及创建新增的专属识别模型,显示专属识别模型配置界面;
响应于针对所述专属识别模型配置界面的配置操作,配置所述新增的专属识别模型。
8.根据权利要求7所述的方法,其特征在于,所述专属识别模型配置界面至少包括数据类型配置项、分类分级配置项和识别方式配置项;
响应于针对所述专属识别模型配置界面的配置操作,配置所述新增的专属识别模型,包括:
响应于通过所述数据类型配置项触发的配置操作,配置所述新增的专属识别模型关联的数据类型;
响应于通过所述分类分级配置项触发的配置操作,配置所述新增的专属识别模型关联的行业分类分级模板、敏感分类和风险等级;
响应于通过所述识别方式配置项触发的配置操作,配置所述新增的专属识别模型关联的数据类型的至少一个敏感数据识别方式。
9.根据权利要求8所述的方法,其特征在于,所述专属识别模型配置界面还包括:数据标签配置项;
响应于通过所述数据标签配置项触发的配置操作,配置所述新增的专属识别模型识别出的敏感数据所属的数据标签。
10.一种敏感数据识别方法,其特征在于,应用于云服务器,所述方法包括:
响应于终端设备触发的任务创建请求,创建敏感数据识别任务;
响应于所述敏感数据识别任务被触发,基于所述敏感数据识别任务确定待识别数据及其所属目标行业的目标行业分类分级模板;
利用所述目标行业分类分级模板对所述待识别数据进行行业专属敏感数据识别,得到行业专属敏感数据识别结果;
利用通用识别模型对所述待识别数据进行通用敏感数据识别,得到通用敏感数据识别结果;
向所述终端设备返回所述行业专属敏感数据识别结果和所述通用敏感数据识别结果。
11.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器耦合至所述存储器,用于执行所述计算机程序以用于执行权利要求1-10任一项所述方法中的步骤。
12.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器能够实现权利要求1-10任一项所述方法中的步骤。
CN202310344068.0A 2023-03-28 2023-03-28 敏感数据识别方法、电子设备及存储介质 Pending CN116401704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310344068.0A CN116401704A (zh) 2023-03-28 2023-03-28 敏感数据识别方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310344068.0A CN116401704A (zh) 2023-03-28 2023-03-28 敏感数据识别方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116401704A true CN116401704A (zh) 2023-07-07

Family

ID=87013709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310344068.0A Pending CN116401704A (zh) 2023-03-28 2023-03-28 敏感数据识别方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116401704A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776390A (zh) * 2023-08-15 2023-09-19 上海观安信息技术股份有限公司 一种数据泄漏行为的监测方法、装置、存储介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776390A (zh) * 2023-08-15 2023-09-19 上海观安信息技术股份有限公司 一种数据泄漏行为的监测方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN109154935B (zh) 一种用于分析用于任务完成的捕获的信息的方法、***及可读存储设备
CN110781376A (zh) 信息推荐方法、装置、设备及存储介质
US10936609B2 (en) Presenting user information suggestions
CN106033418B (zh) 语音添加、播放方法及装置、图片分类、检索方法及装置
US20200050906A1 (en) Dynamic contextual data capture
US12032644B2 (en) Systems and methods for displaying contextually relevant links
CN107103011B (zh) 终端数据搜索的实现方法和装置
CN116401704A (zh) 敏感数据识别方法、电子设备及存储介质
KR20210096230A (ko) 데이터 처리 방법 및 장치, 전자 기기 및 저장 매체
US11257029B2 (en) Pickup article cognitive fitment
CN115578063A (zh) 基于知识图谱的审计报告生成方法及相关设备
CN108710682B (zh) 对象推荐方法、装置及设备
CN114385623A (zh) 数据表获取方法、设备、装置、存储介质及程序产品
CN113553521A (zh) 内容查找方法及装置
CN104240107B (zh) 社群数据筛选***及其方法
CN111553749A (zh) 一种活动推送策略配置方法及装置
CN104391844A (zh) 数据管理***和工具
CN110895552A (zh) 一种人员信息获取方法及装置
US20180293299A1 (en) Query processing
EP3163475B1 (en) Electronic device and method of searching data records
CN113220187A (zh) 一种微银行业务交互方法及相关设备
CN114168183A (zh) 前端资源信息处理方法、装置、设备及存储介质
CN113792306A (zh) ***管理方法、装置及电子设备
KR20210089242A (ko) 저장 및 판독 액세스 방법, 장치, 전자 기기 및 저장 매체
Archana Acharya et al. A stitch in time saves nine: a Big Data analytics perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination