CN116401343A

CN116401343A - 一种数据合规分析方法

Info

Publication number: CN116401343A
Application number: CN202211741455.XA
Authority: CN
Inventors: 朱一丁; 刘宁; 刘金飞; 文龙; 朱鹏云
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-31
Filing date: 2022-12-31
Publication date: 2023-07-07

Abstract

本发明公开了一种数据合规分析方法，包括：设置法律知识库、合规问卷库和智能建议库；在所述法律知识库中选择目标法律，自动识别其中与数据合规相关的法律条文并进行标注；在所述合规问卷中选择目标模块，以使得用户得到自定义合规问卷表单并进行选答；在智能建议库中输入案例描述、数据和选答后的合规问卷，分析数据风险并推荐出违规概率最高的若干个法条；对于选答后的合规问卷进行表单真实性验证、违规项风险评级以及各数据维度评分，得到数据合规评分。

Description

一种数据合规分析方法

技术领域

本发明属于数据合规领域，尤其涉及一种数据合规分析方法。

背景技术

随着数据合规法律架构初步健全，国家对数据合规与个人信息保护提出了明确要求。同时，国内外对数据违规处罚力度加大，对数据***愈发严格。因此，人们对于全面了解数据合规法律的需求不断膨胀。

法律素材类型杂乱与法律的专业性困扰着普通民众对法律的学习、理解和使用，难以将法律变成武器保护自身权益。现有资源中，缺乏对数据合规相关法律法条的统一整理、违规要点梳理、违规法条自荐。如果通过人工整理、筛查、评分，如此大量的数据整理需要花费大量的时间与人力，基本无法实现。此外，数据合规性与各维度评估指标缺少一套统一标准，因此需要一种合规量化指标设计方法解决上述困境。

发明内容

为解决现有资源中缺乏数据合规相关法条整理、标注、拆分的问题，本申请实施例的目的是提供一种数据合规分析方法。

根据本申请实施例的第一方面，提供一种数据合规分析方法，包括：

步骤S101：设置法律知识库、合规问卷库和智能建议库；

步骤S102：在所述法律知识库中选择目标法律，自动识别其中与数据合规相关的法律条文并进行标注；

步骤S103：在所述合规问卷中选择目标模块，以使得用户得到自定义合规问卷表单并进行选答；

步骤S104：在智能建议库中输入案例描述、数据和选答后的合规问卷，分析数据风险并推荐出违规概率最高的若干个法条；

步骤S105：对于选答后的合规问卷进行表单真实性验证、违规项风险评级以及各数据维度评分，得到数据合规评分。

进一步地，所述法律知识库包括：

国内法律知识库，所述国内法律知识库包含国内所有数据合规相关的有效文件，并按法律、行政法规、部门规章及规范性文件、国家及行业标准进行分类；

国际法律知识库，所述国际法律知识库包含国际上重要的数据合规相关的法律文件，按国家及地区分类。

进一步地，所述合规问卷库包括：

法规问卷库，所述法规问卷库是针对各部法律，拆分所述法律的各项法条，得到所述法律专属的合规问卷；

数据全流程问卷库，所述数据全流程问卷库包括数据全流程安全评估问卷、数据全流程处理评估问卷，所述数据全流程安全评估问卷分为基础性评估模块与技术能力评估模块，所述数据全流程处理评估问卷按各数据流程分为数据采集、数据传输、数据存储、数据使用、数据披露、数据销毁、委托处理的模块；

其中所述合规问卷库支持自定义问卷，从所述法规问卷库或数据全流程问卷库中选择相应的模块或添加自定义模块，按预设规则选择题目，生成项目特有的问卷表单。

进一步地，所述智能建议库包括：

第一建议库，所述第一建议库是通过收集数据，智能分析所述数据所含风险，并给出违规概率最高的若干个法条；

第二建议库，所述第二建议库是通过搜索违规项，得到所述违规项对应的问题并生成合规问卷，通过用户的选答，罗列出违规概率最高的若干个法条。

进一步地，在所述法律知识库中选择目标法律，自动识别其中与数据合规相关的法律条文并进行标注，包括：

对所述目标法律进行语料预处理、特征提取、分类，以得到所有数据合规相关的法律条文；

通过违规项标注、下位法拆分进行特殊标注，其中所述违规项包括数据安全违规项与数据处理违规项，所述数据安全违规项包括数据分类分级、制度保障、数据识别、接口安全管理、数据防泄漏，所述数据处理违规项主要包括数据采集、数据传输、数据存储、数据使用、数据披露、数据销毁、委托处理，所述下位法拆分是根据现有法条中模糊的部分与其涉及的违规项在下位法中通过自然语言处理与机器学习模型自动查找并提取。

进一步地，所示案例描述通过用户自我描述或第三方描述得到，所述数据包括文本、语音、图像或视频格式的数据。

进一步地，分析数据风险并推荐出违规概率最高的若干个法条，包括：

智能分析所述数据所含风险，所述智能分析是通过自然语言处理来对所述数据进行自然语义要素提取，通过卷积神经网络将所述自然语义要素根据各违规项进行归类，标记所述数据含风险的违规项，标注所述数据对应的自然语言要素与违规项；

将得到的所述自然语义要素与违规项与所述各法律条文对应的法律法规要素相匹配，得到违规概率最高的若干条法律条文。

搜索违规项，得到所述违规项对应的问题并生成合规问卷进行选答，所述合规问卷是通过用户输入的违规项，在问卷库中自动查找所述违规项对应的问卷模版，组合成所述违规项的合规问卷，由用户进行选答，对选答后的合规问卷进行语义要素分析与关键字提取，通过卷积神经网络将所述自然语义要素根据各违规项归类，标记所述问卷选答的自然语义要素与违规项；

进一步地，所述表单真实性验证为对自定义合规问卷表单进行重点不一致问题查找，以检验用户输入错误或潜在欺诈行为；所述违规项风险评级是根据用户自选表单分析含风险的数据违规项，根据用户选答分析各违规项的风险程度，并将所述风险分级；所述各数据维度评分根据特定违规项及数据体量、数据类别计算不规则多边形面积，并得到各数据维度得分，其中所述数据维度包括隐私保护性、数据安全性、流程规范性、数据保密性。

进一步地，对自定义合规问卷表单进行重点不一致问题查找，具体为对于所述表单P中的任意问题r，计算问题r的异常度P_r：

若P_r＞α，则将该问题标记为重点不一致问题，并提醒用户对其进行仔细检查。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请采用了自然语言处理和机器学习技术，克服了用户对其数据可能违规的法条不明晰的问题，进而达到了自动推荐违规法条的技术效果；克服了用户对其数据存在的风险程度不了解的问题，进而达到了数据违规项风险自动评级与数据合规自动评分的技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种数据合规分析方法的流程图。

图2是根据一示例性实施例示出的步骤S103的流程图。

图3是根据一示例性实施例示出的表单真实性验证的流程图。

图4是根据一示例性实施例示出的得到数据合规评分的流程图。

图5是根据一示例性实施例示出的一种数据合规分析装置的框图。

图6是根据一示例性实施例示出的电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种数据合规分析方法的流程图，如图1所示，该方法可以包括以下步骤：

步骤S101：设置法律知识库、合规问卷库和智能建议库；

在步骤S101的具体实施中，设置法律知识库、合规问卷库和智能建议库；

具体地，所述法律知识库中存储有法律条文，包括国内法律知识库和国际法律知识库，所述国内法律知识库包含国内所有数据合规相关的有效文件，并按法律、行政法规、部门规章及规范性文件、国家及行业标准等分类；所述国际法律知识库包含国际上重要的数据合规相关的法律文件，按国家及地区分类。

所述合规问卷库包括法规问卷库和数据全流程问卷库，所述法规问卷库是针对各部法律，拆分所述法律的各项法条，得到所述法律专属的合规问卷；所述数据全流程问卷库包括数据全流程安全评估问卷、数据全流程处理评估问卷，所述数据全流程安全评估问卷分为基础性评估模块与技术能力评估模块，所述数据全流程处理评估问卷按数据流程分为数据采集、数据传输、数据存储、数据使用、数据披露、数据销毁、委托处理等模块。所述合规问卷库支持自定义问卷，从所述数据全流程问卷库中选择相应的模块或添加自定义模块，按预设规则选择题目，生成项目特有的问卷表单。

所述智能建议库包括第一建议库和第二建议库，所述第一建议库是通过收集数据，智能分析所述数据所含风险，并推荐出违规概率最高的若干个法条；所述第二建议库是通过搜索违规项，得到所述违规项对应的问题并生成合规问卷，通过选答，罗列出违规概率最高的若干个法条。

在步骤S102的具体实施中，在所述法律知识库中选择目标法律，自动识别其中与数据合规相关的法律条文并进行标注；

具体地，所述自动识别包括对法律条文进行语料预处理、特征提取、选择分类器，以得到所有数据合规相关的法律条文；所述特殊标注包括：违规项标注、下位法拆分。

在一实施例中将自动识别和标注可视化展示，相关法律条文会被以不同颜色的字体显示，鼠标移至所述数据合规法律条文时，会出现浮框，所述浮框包括法律法规要素、违规项、下位法拆分。

具体的，所述违规项包括数据安全违规项与数据处理违规项，所述数据安全违规项包括数据分类分级、制度保障、数据识别、接口安全管理、数据防泄漏等，所述数据处理违规项主要包括数据采集、数据传输、数据存储、数据使用、数据披露、数据销毁、委托处理等。

具体的，所述下位法拆分是根据现有法条中模糊的部分与其涉及的违规项在下位法中通过自然语言处理与机器学习模型自动查找并提取。

在步骤S103的具体实施中，在所述合规问卷中选择目标模块，以使得用户得到自定义合规问卷表单并进行选答；

具体地，所述法规问卷库包含所有数据合规相关法律的特定问卷，所述问卷是根据各项法条拆分、违规项分析、问题设置得来，其中根据各项法条拆分包括根据长度拆分、根据内容拆分；所述数据全流程问卷库包括数据全流程安全评估问卷、数据全流程处理评估问卷，根据数据各流程分为不同模块。

所述合规问卷库支持添加自定义问卷，用户在所述问卷库中选择特定模块与自定义模块，生成自定义评估问卷。例如，所述用户选择数据全流程问卷库中数据处理环节相关问卷，添加自定义的有关数据处理环节相关问题，组合成自定义评估问卷。

在步骤S104的具体实施中，在智能建议库中输入案例描述、数据和选答后的合规问卷，分析数据风险并推荐出违规概率最高的若干个法条；

具体的，所述第一建议库中会利用分词技术和文本分析技术对所述案例描述与问卷库进行语义分析，将分析结果与各法律条文进行匹配，通过模型训练得到违规概率最高的若干个法条。

图2是本申请中智能问卷库的操作流程，参照图2所示，S201收集数据和S202智能分析所述数据所含风险为搜索方法一，S211搜索违规项和S212得到实施违规项对应的问题并生成合规问卷并进行选答为搜索方法二。

参照图2所示，S201收集数据，所述数据包括案例描述、数据输入、合规问卷选答等数据，所述问卷库支持处理文本、语音、图像、视频等数据格式。S202智能分析所述数据所含风险，所述智能分析是通过自然语言处理来对输入的数据进行自然语义要素提取，通过卷积神经网络将所述自然语义要素根据各违规项进行归类，标记所述数据含风险的违规项，标注所述数据对应的自然语言要素与违规项。

参照图2所示，S211搜索违规项，所述违规项需要在搜索栏的下拉框中选择，所述违规项主要分为数据安全与数据处理两大类；S212得到所述违规项对应的问题并生成合规问卷进行选答，所述合规问卷是通过用户输入的违规项，在问卷库中自动查找所述违规项对应的问卷模版，组合成所述违规项的合规问卷，由用户进行选答。具体的，对所述选答进行语义要素分析与关键字提取，通过卷积神经网络将所述自然语义要素根据各违规项归类，标记所述问卷选答的自然语义要素与违规项。

参照图2所示，S221根据推荐违规概率最高的若干个法条。通过对各项法律条文的语意分析与自然语义要素提取得到所述法律条文对应的法律法规要素，将S202或S212得到所述自然语义要素与违规项与所述各法律条文对应的法律法规要素相匹配，得到违规概率最高的若干条(如在一实施例中为十条)法律条文。

在步骤S105的具体实施中，对于选答后的合规问卷进行表单真实性验证、违规项风险评级以及各数据维度评分，得到数据合规评分。

图3是本申请中表单真实性验证的流程图，参照图3所示，S301：将用户选答结果传至表单真实性验证***，验证***自动判断填写是否有异常。具体步骤如下：

首先，定义任意表单P＝{qⁱ ₁,...ⁱ _r,...ⁱ _n}。其中，qⁱ _r表示第r个问题对应的选项值i；0＜c，c为对应问题的选项个数。

其次，为了平衡不同问题的属性权重，这里采用粗糙集理论中度量信息不确定性和模糊性的补熵，作为衡量分类数据的信息增益或不确定性。其定义如下：

其中，c是问题r的选项个数，r^v是rⁱ的补集，r^v＝U-rⁱ；|ⁱ|/||表示rⁱ的等价类在全域U内的概率；|^v|/||表示在全域U中r^v的补集出现的概率。

具体的，可以将任意一个问题r的异常权重W定义如下：

其中，W(r)代表问题r在异常度量中的加权权重。

对于任意待检验表单p，利用相似性d查找其k邻域数据N_k(p)，即p的k领域数据的集合，满足N_k(p)＝{d)p,X_j)≤dk)p)}；dk(p)表示与p第k近表单的相似度。表单之间的距离相似度公式可表示为：

其中，X_jr为表单X_j的第r个问题的选项值；⊕表示异或；x表示点乘。

进而，计算待检测样本的局部异常程度O(p),其公式可表示为：

若O(p)＞δ，则该表单存在异常，需要进行检查和二次认证，反之则不需要。

S311：若验证过程中出现异常，则对重点不一致问题进行标红提示，并提醒用户对填写内容进行检查。

所述重点不一致问题查找步骤如下：

对于该表单P中的任意问题r，需计算问题r的异常度P_r，可表示为：

S312：校验后，用户再次签名提交表单真实性承诺协议。

所述表单真实性承诺协议包括承诺填写表单时遵循诚信原则，标记为重点检查的内容，用户校验重点检查问题时改动选项的行为记录。

S321：若验证结果未出现异常，则交由评分***进行合规评分。跳转至图4所示的合规评分过程。

所属验证结果未出现异常的情况下，O(p)＜δ，则该表单未存在异常。

参照图4所示，S401：分析用户自选表单所含风险的数据违规项，根据风险程度给违规项分级。

所述用户自选表单为步骤S103中生成的自定义合规问卷表单，此处不做赘述。

所述含风险的数据违规项是根据表单中各问题分析得到。具体的，通过对问卷库中各题目进行提取自然语义要素，所述各题目会对应一个或多个数据违规项。所述各题目会有相应的权重，各题目答案会有对应的分值。

具体的，用户选答结束后，***会根据各问题的权重及答案的分值计算得到各违规项的风险评分。当所述风险评分高于某一分数时，该违规项被标记为含风险违规项，根据基准，将所述含风险违规项分按严重、高、中、低分级。

S402：根据各数据维度所涉及的违规项，通过计算不规则多边形面积，得到各数据维度得分。

所述数据维度包括隐私保护性、数据安全性、流程规范性、数据保密性。

具体的，所述各数据维度涉及不同数据违规项，根据特定违规项及数据体量、数据类别等变量形成雷达图，通过计算雷达图的面积得到某数据维度得分。

S403：根据各数据维度得分，通过计算不规则多边形面积，得到数据合规性分数。

所述数据合规性是通过计算由隐私保护性、数据安全性、流程规范性、数据保密性四个变量组成的雷达图的面积得到，该数据合规性分数是0到100中的某一实数。

最后，一套***的数据合规量化指标可以使用户直观的了解其数据的合规程度。此外，通过整理数据合规相关法律法条、梳理违规项、推荐违规法条，可以帮助用户学习、理解、使用法律，并了解其数据违规概率最高的若干个法条。

与前述的数据合规分析方法的实施例相对应，本申请还提供了数据合规分析装置的实施例。

图2是根据一示例性实施例示出的一种数据合规分析装置框图。参照图2，该装置可以包括：

设置模块21，用于设置法律知识库、合规问卷库和智能建议库；

识别模块22，用于在所述法律知识库中选择目标法律，自动识别其中与数据合规相关的法律条文并进行标注；

选择模块23，用于在所述合规问卷中选择目标模块，以使得用户得到自定义合规问卷表单并进行选答；

分析模块24，用于在智能建议库中输入案例描述、数据和选答后的合规问卷，分析数据风险并推荐出违规概率最高的若干个法条；

评分模块25，用于对于选答后的合规问卷进行表单真实性验证、违规项风险评级以及各数据维度评分，得到数据合规评分。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的数据合规分析方法。如图4所示，为本发明实施例提供的一种数据合规分析***所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的数据合规分析方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种数据合规分析方法，其特征在于，包括：

步骤S101：设置法律知识库、合规问卷库和智能建议库；

2.根据权利要求1所述的方法，其特征在于，所述法律知识库包括：

3.根据权利要求1所述的方法，其特征在于，所述合规问卷库包括：

其中所述合规问卷库支持自定义问卷，从所述数据全流程问卷库中选择相应的模块或添加自定义模块，按预设规则选择题目，生成项目特有的问卷表单。

4.根据权利要求1所述的方法，其特征在于，所述智能建议库包括：

5.根据权利要求1所述的方法，其特征在于，在所述法律知识库中选择目标法律，自动识别其中与数据合规相关的法律条文并进行标注，包括：

6.根据权利要求1所述的方法，其特征在于，所示案例描述通过用户自我描述或第三方描述得到，所述数据包括文本、语音、图像或视频格式的数据。

7.根据权利要求1所述的方法，其特征在于，分析数据风险并推荐出违规概率最高的若干个法条，包括：

8.根据权利要求1所述的方法，其特征在于，分析数据风险并推荐出违规概率最高的若干个法条，包括：

9.根据权利要求1所述的方法，其特征在于，所述表单真实性验证为对自定义合规问卷表单进行重点不一致问题查找，以检验用户输入错误或潜在欺诈行为；所述违规项风险评级是根据用户自选表单分析含风险的数据违规项，根据用户选答分析各违规项的风险程度，并将所述风险分级；所述各数据维度评分根据特定违规项及数据体量、数据类别计算不规则多边形面积，并得到各数据维度得分，其中所述数据维度包括隐私保护性、数据安全性、流程规范性、数据保密性。

10.根据权利要求1所述的方法，其特征在于，对自定义合规问卷表单进行重点不一致问题查找，具体为对于所述表单P中的任意问题r，计算问题r的异常度P_r：